Back home

Инструменты программирования искусственного интеллекта соперничают за доступ к рабочим процессам на уровне настольных компьютеров

После того, как внешний рабочий процесс берет на себя локальный агент, дифференциация продукта начинает переходить от параметров модели к управлению ссылками на выполнение.

На прошлой неделе, после изменения процесса регрессии в оттенках серого для промежуточной страницы с «браузера, ориентированного на человека» на «непрерывное выполнение агента», первая обнаруженная проблема заключалась не в том, что модель отвечала неправильно, а в том, что ссылка выполнения была разорвана на границе рабочего стола: состояние входа в систему находилось в браузере, команда сборки — в терминале, а снимки экрана и аннотации — в другом инструменте. Если сеанс был прерван на каком-либо этапе, контекст пришлось бы собирать заново.

До этого преобразования процесс казался очень автоматизированным: продукт CI запускал среду предварительного просмотра, сценарий запускал основной вариант использования пути, а затем страница исключения отправлялась на проверку вручную. Что действительно снижает эффективность, так это завершающий этап. Для таких проблем, как смещение страниц, дрожание стилей и ненормальное состояние компонентов, «текущий DOM, сетевые запросы, ошибки консоли и интерактивные шаги» должны быть помещены на одну и ту же временную шкалу, чтобы можно было объединить усилия по устранению неполадок. Эта линия часто обрезается при переключении между несколькими инструментами.

После перехода на один сеанс агента цепочка выполнения разделилась на три этапа: сначала используйте локальные команды для просмотра предварительного просмотра и имитации данных, затем заставьте браузер воспроизвести путь в том же сеансе и, наконец, напрямую запишите исправление восстановления и инициируйте минимальную регрессию. Сама модель не стала вдруг умнее, но скорость обнаружения проблем значительно улучшилась, и причина проста: контекст не уходит с поверхности исполнения.

Конкретные преимущества отражены в трех местах.

Во-первых, это непрерывность государства. Раньше, когда я воспроизводил дефект внешнего интерфейса, имя файла скриншота, журнал терминала и разница кода были разбросаны по разным окнам, и временные метки приходилось неоднократно выравнивать во время устранения неполадок. Теперь разговор естественным образом включает в себя вывод команд, операции со страницами и последовательность модификации кода, а аномалия изменилась с «проблемы сбора информации» на «проблему с суждением».

Во-вторых, неудачу можно повторить. Самое неприятное в традиционной автоматизации — это то, что «иногда появляется один раз, а потом исчезает». При выполнении одного сеанса сохраняется полная последовательность действий, и те же входные данные можно повторно запустить локально, что минимизирует повторные затраты. Для распространенных ошибок внешнего интерфейса, таких как конкуренция анимации, дрожание гидратации на первом экране и несогласованность времени, эта возможность более ценна, чем дополнительная оценка тестов.

В-третьих, снижение затрат на техническое обслуживание. Раньше при каждом добавлении инструмента необходимо было поддерживать уровень связующего кода: аутентификацию, сопоставление параметров, формат журнала и повторные попытки при сбое. Выполнение в ходе сессии частично удаляет этот клей, и команда переключает свое внимание с «подключения проводов» обратно на «определение критериев проверки». Это также причина, по которой в последнее время многие продукты ИИ-программирования конкурируют за доступ к настольным компьютерам: как только вход получен, последующие возможности могут естественным образом переполниться по цепочке выполнения.

Этот путь не означает, что фронтенд-команда может отказаться от существующей инженерной системы. Оба типа сценариев по-прежнему не подходят для того, чтобы полностью оставлять их на усмотрение Агента. Первая категория — это страницы, на которых обзор бренда и дизайна в значительной степени основан на ручном суждении. Автоматическое выполнение может выполнять предварительную проверку, но не может заменить окончательную проверку. Вторая категория — это корпоративная среда со сложными границами разрешений. Если настольный агент не сможет получить минимальную модель авторизации, выигрыш в эффективности будет сведен на нет затратами на аудит безопасности.

Недоразумение, которое действительно заслуживает бдительности, состоит в том, чтобы понимать эту волну перемен как продолжение «модельной войны». Более важным конкурентным аспектом во внешнем рабочем процессе стал: кто сможет стабильно взять на себя локальное выполнение, управление браузером, контекстную память и ссылки воспроизведения. Разрыв в параметрах будет быстро закрыт, и как только будет сформировано звено выполнения, стоимость миграции будет становиться все выше и выше.

Это также вывод, сделанный в ходе этого раунда практики: вход на уровне настольного компьютера — это не вишенка на торте, он становится основным полем битвы инструментов программирования искусственного интеллекта. Когда проблемы внешнего интерфейса требуют постоянной конвергенции командных строк, браузеров и репозиториев кода, тот, кто овладеет этой связью, достигнет реальной эффективности.