Back home

Nehmen Sie an der Testversion von WebMCP Origin teil

Schreiben Sie dem Agenten den Zweck der Schaltflächen und Eingabefelder. Die Aufrechterhaltung dieses Absichtsniveaus ist langfristig mit Kosten verbunden.

Nachdem Chrome 149 mit der Bereitstellung einer Testversion des WebMCP-Ursprungs begonnen hat, wird die Beziehung zwischen der Webseite und dem Proxy direkter: Die Seite legt nicht mehr nur das DOM und die sichtbare Kopie dar, die der Computer erraten kann, das Steuerelement selbst kann auch den Zweck, den Status und die ausführbaren Grenzen angeben. Diese Änderung sieht aus wie ein API-Test, tatsächlich handelt es sich jedoch eher um eine Anhebung der „Schnittstellenabsicht“ von impliziten Informationen auf explizite Protokolle.

Der Wert von etwas wie WebMCP besteht nicht darin, der Webseite eine Ebene mit Terminologie hinzuzufügen, sondern darin, die Unsicherheit zu verringern, die Agenten am meisten fürchten. Ob eine Schaltfläche zum Senden, Wechseln, Bestätigen oder einfach nur zum Öffnen einer Popup-Ebene dient; ob es sich bei einem Eingabefeld um ein Datum, einen Suchbegriff oder eine Terminzeit handelt, die ein spezielles Format erfordert. In der Vergangenheit wurden diese Informationen hauptsächlich aus Text, Struktur und Kontext abgeleitet. Der Rückschluss funktioniert, aber sobald die Seite komplex wird, beginnt der Agent, „sieht aus wie“ mit „ist“ zu verwechseln.

Für den Menschen ist diese Fehlinterpretation meist nur ein Fehlklick. Für Agenten werden Fehlinterpretationen zu einer ständigen Fehlerquelle. Die Ausführung erfolgt weiterhin nach dem falschen Verständnis, bis eine Überprüfung, ein Rollback oder Nebenwirkungen auftreten, die offenbaren, dass der vorherige Schritt fehlgeschlagen ist. Nachdem WebMCP diese Semantikebene explizit gemacht hat, muss der Agent die Seite nicht als rein visuelle Karte erraten, und die Webseite kann auch die Verantwortlichkeiten der wichtigsten Interaktionsoberflächen klar erklären.

Dieses Thema eignet sich am besten für Schnittstellen, die mit reinem HTML-Copywriting schwer zu erklären sind, wie z. B. Kalender, Reservierungen, Berechtigungsanträge, Einstellungsfelder oder eine Reihe von Seiten, die wie gewöhnliche Eingabefelder aussehen, aber tatsächlich unterschiedliche geschäftliche Bedeutungen haben. Wenn der Agent sich nur auf Bezeichnungen und Platzhalter verlässt, muss er oft die Seite durchgehen und es immer wieder versuchen; Sobald die Seite „Hier ist die Datumsauswahl“, „Hier ist die Bestätigungsaktion“ und „Der Status hier kann sich nur in diese Richtung ändern“ deklarieren kann, werden die Integrationskosten direkt reduziert.

Aber der Ursprungsversuch wirft auch ein weiteres Problem auf: Diese Ebene der Semantik muss beibehalten werden. Die Seitenstruktur ändert sich, die Schaltflächenkopie ändert sich und der Geschäftsstatus ändert sich. Wenn die Absichtsebene, auf die sich der Agent tatsächlich verlässt, nicht zusammen mit den Komponenten aktualisiert wird, wird sie bald abweichen. Zu diesem Zeitpunkt ist der gefährlichste Zustand nicht „völlig unbrauchbar“, sondern „kann immer noch laufen, macht aber gelegentlich Fehler, und die Fehler sind natürlich.“

Daher ähnelt WebMCP eher einem Vertrag für die Webseite selbst als einer an den Agenten gesendeten Erinnerungskarte. Es erfordert, dass das Frontend Interaktionsgrenzen in die Implementierung, in Tests und in Regressionsprüfungen schreibt. Solange sich diese Vertragsebene noch in der Demonstrationsphase befindet, kann der Agent nur einen Erfolgsfall verstehen; Wenn es auf die reale Seite gelangt, müssen die Versionskompatibilität, der Downgrade-Pfad und die Lösung, nachdem die Deklaration ungültig geworden ist, wirklich behandelt werden.

Ich betrachte diesen Ursprungsversuch lieber als Richtungssignal. Browser begannen ernsthaft darüber nachzudenken, wie Agenten Webseiten lesen, was bedeutet, dass das Frontend nicht nur für Menschen formatiert, sondern auch Aktionen für Maschinen definiert. Je komplexer die Seite, desto wertvoller ist diese Definitionsebene. Je häufiger die Seite geändert wird, desto höher ist der Wartungsaufwand dieser Definitionsebene. Das letzte Erbe von Funktionen wie WebMCP wird kein neuer Begriff sein, sondern ein Begriff für die kontinuierliche Abstimmung zwischen dem Frontend und dem Agenten.

FAQ

What to read next

Related

Continue reading