Back home

Присоединяйтесь к пробной версии WebMCP Origin

Напишите агенту назначение кнопок и полей ввода. Поддержание такого уровня намерений требует долгосрочных затрат.

После того, как Chrome 149 начнет предоставлять пробную версию источника WebMCP, связь между веб-страницей и прокси-сервером станет более прямой: страница больше не просто размещает DOM и видимую копию, чтобы машина могла угадать, сам элемент управления также может объявлять цель, статус и границы исполняемого файла. Это изменение выглядит как испытание API, но на самом деле оно больше похоже на перенос «намерения интерфейса» с неявной информации на явный протокол.

Ценность чего-то вроде WebMCP заключается не в добавлении уровня терминологии на веб-страницу, а в уменьшении неопределенности, которой агенты боятся больше всего. Является ли кнопка отправкой, переключением, подтверждением или просто открытием всплывающего слоя; является ли поле ввода датой, поисковым запросом или временем встречи, требующим специального формата. Раньше эта информация в основном выводилась из текста, структуры и контекста. Вывод работает, но как только страница становится сложной, агент начинает ошибочно принимать «выглядит» за «есть».

Для людей такое неправильное прочтение обычно является просто ошибкой. Для агентов неправильное прочтение превращается в постоянный путь ошибок. Он будет продолжать выполняться в соответствии с неверным пониманием, пока не встретит проверку, откат или побочные эффекты, которые покажут, что предыдущий шаг сбился с пути. После того, как WebMCP делает этот уровень семантики явным, агенту не нужно угадывать страницу как чисто визуальную карту, и веб-страница также может четко объяснять обязанности ключевых поверхностей взаимодействия.

Этот вопрос больше всего подходит для тех интерфейсов, которые сложно объяснить с помощью чистого HTML-копирайтинга, таких как календари, резервации, приложения для разрешений, панели настроек или группа страниц, которые выглядят как обычные поля ввода, но на самом деле имеют разное бизнес-значение. Полагаясь только на метку и заполнитель, агенту часто приходится обходить страницу и пытаться снова и снова; как только страница сможет объявлять «здесь выбор даты», «здесь действие подтверждения» и «статус здесь может меняться только в этом направлении», стоимость интеграции будет напрямую снижена.

Но испытание происхождения также поднимает еще одну проблему: этот уровень семантики необходимо поддерживать. Структура страницы изменится, текст кнопки изменится, а бизнес-статус изменится. Если уровень намерений, на который действительно опирается агент, не обновляется вместе с компонентами, он вскоре будет дрейфовать. При этом самое опасное состояние не «полностью непригодно для использования», а «еще может работать, но время от времени допускает ошибки, и ошибки естественны».

Таким образом, WebMCP больше похож на контракт с самой веб-страницей, чем на карточку с напоминанием, отправленную агенту. Требуется, чтобы интерфейсная часть записывала границы взаимодействия в реализацию, в тесты и в регрессионные проверки. Пока этот уровень контракта все еще находится на стадии демонстрации, все, что может понять агент, — это случай успеха; когда он попадает на реальную страницу, действительно нужно разобраться с совместимостью версий, путем перехода на более раннюю версию и решением после того, как объявление становится недействительным.

Я предпочитаю рассматривать этот процесс происхождения как сигнал направления. Браузеры начали серьезно задумываться о том, как агенты читают веб-страницы, а это означает, что интерфейс не только форматирует для людей, но и определяет действия для машин. Чем сложнее страница, тем ценнее этот уровень определения; чем чаще страница меняется, тем значительнее затраты на поддержание этого уровня определения. Окончательное наследие таких возможностей, как WebMCP, будет не новым термином, а термином, обозначающим постоянное согласование между интерфейсом и агентом.

FAQ

What to read next

Related

Continue reading

Frontend · 3 tags

В эпоху высокочастотных публикаций фронтенд-доставка требует перепроектирования совместной работы по кэшированию и сжатию.

Поскольку ресурсы становятся все более фрагментированными, а версии становятся все более частыми, зачастую в первую очередь выходит из-под контроля не степень сжатия, а ритм выпуска ключей кэша, версий словаря и затрат на возврат к исходному состоянию.

Frontend · 3 tags

Инструменты программирования искусственного интеллекта соперничают за доступ к рабочим процессам на уровне настольных компьютеров

После того, как внешний рабочий процесс берет на себя локальный агент, дифференциация продукта начинает переходить от параметров модели к управлению ссылками на выполнение.