Back home

Các công cụ lập trình AI đang cạnh tranh để tham gia vào quy trình làm việc ở cấp độ máy tính để bàn

Sau khi tác nhân cục bộ tiếp quản quy trình làm việc của giao diện người dùng, quá trình phân biệt sản phẩm bắt đầu chuyển từ tham số mô hình sang kiểm soát liên kết thực thi.

Tuần trước, sau khi thay đổi quy trình hồi quy thang độ xám của một trang trung gian từ “trình duyệt tập trung vào con người” thành “thực thi tác nhân liên tục”, vấn đề đầu tiên bộc lộ không phải là mô hình trả lời sai mà là liên kết thực thi đã bị hỏng ở ranh giới màn hình: trạng thái đăng nhập là trong trình duyệt, lệnh xây dựng nằm trong thiết bị đầu cuối, còn ảnh chụp màn hình và chú thích nằm trong một công cụ khác. Nếu phiên bị nhảy ra khỏi bất kỳ bước nào, bối cảnh sẽ phải được tập hợp lại.

Trước quá trình chuyển đổi này, quy trình dường như rất tự động: sản phẩm CI khởi chạy môi trường xem trước, tập lệnh chạy trường hợp sử dụng đường dẫn chính và sau đó trang ngoại lệ được gửi đến xem xét thủ công. Điều thực sự cản trở hiệu quả là giai đoạn hoàn thiện. Đối với các sự cố như trật vị trí trang, giật kiểu và trạng thái thành phần bất thường, “DOM hiện tại, yêu cầu mạng, lỗi bảng điều khiển và các bước tương tác” phải được đặt trên cùng một dòng thời gian để có thể tập trung khắc phục sự cố. Đường này thường bị cắt khi chuyển đổi giữa nhiều công cụ.

Sau khi thay đổi thành một phiên Tác nhân duy nhất, chuỗi thực thi chia thành ba giai đoạn: đầu tiên, sử dụng các lệnh cục bộ để lấy bản xem trước và dữ liệu mô phỏng, sau đó điều khiển trình duyệt để tái tạo đường dẫn trong cùng một phiên và cuối cùng viết lại trực tiếp bản vá sửa chữa và kích hoạt hồi quy tối thiểu. Bản thân mô hình không đột nhiên trở nên thông minh hơn, nhưng tốc độ xác định vị trí vấn đề đã được cải thiện đáng kể và lý do rất đơn giản: bối cảnh không rời khỏi bề mặt thực thi.

Những lợi ích cụ thể được phản ánh ở ba nơi.

Đầu tiên là tính liên tục của trạng thái. Trước đây, khi tôi tái tạo một lỗi giao diện người dùng, tên tệp ảnh chụp màn hình, nhật ký đầu cuối và khác biệt mã nằm rải rác trong các cửa sổ khác nhau và dấu thời gian phải được căn chỉnh nhiều lần trong quá trình khắc phục sự cố. Bây giờ cuộc trò chuyện tự nhiên mang đầu ra lệnh, thao tác trang và trình tự sửa đổi mã, và sự bất thường đã chuyển từ “vấn đề thu thập thông tin” thành “vấn đề phán đoán”.

Thứ hai là thất bại có thể tái diễn. Điều rắc rối nhất trong tự động hóa truyền thống là “thỉnh thoảng xuất hiện một lần rồi biến mất”. Việc thực thi một phiên duy trì chuỗi hành động hoàn chỉnh và có thể chạy lại cùng một đầu vào cục bộ, giảm thiểu chi phí lặp lại. Đối với các lỗi giao diện người dùng phổ biến như cạnh tranh hoạt ảnh, hiện tượng giật hydrat hóa màn hình đầu tiên và sai lệch thời gian, khả năng này có giá trị hơn điểm chuẩn bổ sung.

Thứ ba là giảm chi phí bảo trì. Trước đây, mỗi khi một công cụ được thêm vào, một lớp mã keo phải được duy trì: xác thực, ánh xạ tham số, định dạng nhật ký và thử lại lỗi. Quá trình thực hiện trong phiên sẽ loại bỏ một số chất keo đó và nhóm chuyển trọng tâm từ “nối dây” trở lại “xác định tiêu chí kiểm tra”. Đây cũng là lý do tại sao gần đây nhiều sản phẩm lập trình AI đang cạnh tranh để giành quyền truy cập vào máy tính để bàn: một khi đã có được quyền truy cập, các khả năng tiếp theo có thể tự nhiên tràn vào chuỗi thực thi.

Con đường này không có nghĩa là nhóm front-end có thể từ bỏ hệ thống kỹ thuật hiện có. Cả hai loại tình huống này vẫn chưa phù hợp để giao hoàn toàn cho Tác nhân. Loại đầu tiên là các trang mà việc đánh giá thương hiệu và thiết kế chủ yếu dựa vào đánh giá thủ công. Việc thực hiện tự động có thể thực hiện sàng lọc trước nhưng không thể thay thế việc xem xét cuối cùng. Loại thứ hai là môi trường doanh nghiệp có ranh giới cấp phép phức tạp. Nếu tác nhân máy tính để bàn không thể có được mô hình ủy quyền tối thiểu, thì hiệu quả đạt được sẽ được bù đắp bằng chi phí kiểm tra bảo mật.

Sự hiểu lầm thực sự đáng cảnh giác là hiểu làn sóng thay đổi này như một phần mở rộng của “cuộc chiến kiểu mẫu”. Khía cạnh cạnh tranh quan trọng hơn trong quy trình làm việc của giao diện người dùng đã trở thành: ai có thể đảm nhận ổn định việc thực thi cục bộ, kiểm soát trình duyệt, bộ nhớ ngữ cảnh và các liên kết phát lại. Khoảng cách tham số sẽ nhanh chóng được thu hẹp và một khi liên kết thực thi được hình thành, chi phí di chuyển sẽ ngày càng cao hơn.

Đây cũng là kết luận được đưa ra từ vòng thực hành này: việc gia nhập ở cấp độ máy tính để bàn không phải là điều tuyệt vời mà nó đang trở thành chiến trường chính của các công cụ lập trình AI. Khi các vấn đề về giao diện người dùng yêu cầu sự hội tụ liên tục giữa các dòng lệnh, trình duyệt và kho mã, ai nắm vững được liên kết này sẽ nắm vững được hiệu quả thực sự.