Rejoignez l'essai d'origine WebMCP
Écrivez le but des boutons et des zones de saisie à l'agent. Maintenir ce niveau d’intention représente le coût à long terme.
Une fois que Chrome 149 aura commencé à fournir un essai d’origine WebMCP, la relation entre la page Web et le proxy deviendra plus directe : la page ne se contente plus de présenter le DOM et la copie visible pour que la machine puisse la deviner, le contrôle lui-même peut également déclarer l’objectif, l’état et les limites de l’exécutable. Ce changement ressemble à un essai d’API, mais en fait, il s’agit plutôt de faire passer « l’intention de l’interface » d’une information implicite à un protocole explicite.
La valeur de quelque chose comme WebMCP n’est pas d’ajouter une couche de terminologie à la page Web, mais de resserrer l’incertitude que les agents craignent le plus. Qu’un bouton soit destiné à soumettre, changer, confirmer ou simplement ouvrir une couche contextuelle ; si une zone de saisie est une date, un terme de recherche ou une heure de rendez-vous qui nécessite un format spécial. Dans le passé, ces informations étaient principalement déduites du texte, de la structure et du contexte. L’inférence fonctionne, mais une fois que la page devient complexe, l’agent commence à confondre « ressemble à » et « est ».
Pour les humains, cette mauvaise lecture n’est généralement qu’un mauvais clic. Pour les agents, les erreurs de lecture se transforment en une succession constante d’erreurs. Il continuera à s’exécuter selon une mauvaise compréhension jusqu’à ce qu’il rencontre une vérification, une restauration ou des effets secondaires, ce qui révèle que l’étape précédente s’est égarée. Une fois que WebMCP a rendu cette couche sémantique explicite, l’agent n’a pas besoin de deviner la page comme une carte purement visuelle, et la page Web peut également expliquer clairement les responsabilités des surfaces d’interaction clés.
Ce sujet convient particulièrement aux interfaces difficiles à expliquer avec une rédaction HTML pure, telles que les calendriers, les réservations, les demandes d’autorisation, les panneaux de paramètres ou un ensemble de pages qui ressemblent à des zones de saisie ordinaires mais ont en réalité des significations commerciales différentes. Lorsqu’il s’appuie uniquement sur l’étiquette et l’espace réservé, l’agent doit souvent parcourir la page et réessayer encore et encore ; une fois que la page pourra déclarer “voici la sélection de la date”, “voici l’action de confirmation” et “le statut ici ne peut changer que dans ce sens”, le coût d’intégration sera directement réduit.
Mais le test d’origine soulève également un autre problème : cette couche sémantique doit être maintenue. La structure de la page changera, la copie des boutons changera et le statut de l’entreprise changera. Si la couche d’intention sur laquelle s’appuie réellement l’agent n’est pas mise à jour avec les composants, elle va bientôt dériver. À cette époque, l’état le plus dangereux n’est pas “complètement inutilisable”, mais “peut toujours fonctionner, mais commet occasionnellement des erreurs, et les erreurs sont naturelles”.
Par conséquent, WebMCP ressemble plus à un contrat avec la page Web elle-même qu’à une carte de rappel envoyée à l’agent. Cela nécessite que le front-end écrive les limites d’interaction dans l’implémentation, dans les tests et dans les contrôles de régression. Tant que ce niveau de contrat est encore au stade de démonstration, tout ce que l’agent peut comprendre, c’est un cas de réussite ; lorsqu’il entre dans la vraie page, ce qui doit vraiment être traité devient la compatibilité des versions, le chemin de rétrogradation et la solution après la déclaration devient invalide.
Je préfère considérer cet essai d’origine comme un signal directionnel. Les navigateurs ont commencé à réfléchir sérieusement à la façon dont les agents lisent les pages Web, ce qui signifie que le front-end ne consiste pas seulement à formater pour les personnes, mais également à définir des actions pour les machines. Plus la page est complexe, plus cette couche de définition est précieuse ; plus la page est changée fréquemment, plus le coût de maintenance de cette couche de définition est important. L’héritage final de fonctionnalités telles que WebMCP ne sera pas un nouveau terme, mais un terme désignant un alignement continu entre le front-end et l’agent.
What to read next
Want more posts about Frontend?
Posts in the same category are usually the best next step for reading more on this topic.
View same categoryWant to keep following #AI?
Tags are useful for related tools, specific problems, and similar troubleshooting notes.
View same tagWant to explore another direction?
If you are not sure what to read next, return to the homepage and start from categories, topics, or latest updates.
Back home