Back home

Partecipa alla prova dell'origine WebMCP

Scrivi all'agente lo scopo dei pulsanti e delle caselle di input. Mantenere questo livello di intenzione è il costo a lungo termine.

Dopo che Chrome 149 inizierà a fornire la prova dell’origine WebMCP, la relazione tra la pagina web e il proxy diventerà più diretta: la pagina non si limita più a disporre solo il DOM e la copia visibile affinché la macchina possa indovinarla, il controllo stesso può anche dichiarare lo scopo, lo stato e i limiti dell’eseguibile. Questo cambiamento sembra una sperimentazione API, ma in realtà è più come trasferire “l’intenzione dell’interfaccia” da informazioni implicite a protocollo esplicito.

Il valore di qualcosa come WebMCP non è quello di aggiungere uno strato di terminologia alla pagina web, ma di rafforzare l’incertezza che gli agenti temono maggiormente. Se un pulsante deve inviare, cambiare, confermare o semplicemente aprire un livello pop-up; se una casella di input è una data, un termine di ricerca o un orario di appuntamento che richiede un formato speciale. In passato, queste informazioni venivano dedotte principalmente dal testo, dalla struttura e dal contesto. L’inferenza funziona, ma una volta che la pagina diventa complessa, l’agente inizia a confondere “sembra” con “è”.

Per gli esseri umani, questa lettura errata di solito è solo un clic errato. Per gli agenti, le interpretazioni errate si trasformano in un percorso costante di errori. Continuerà a funzionare secondo la comprensione sbagliata finché non incontrerà verifiche, rollback o effetti collaterali, che rivelano che il passaggio precedente è andato fuori strada. Dopo che WebMCP ha reso esplicito questo livello di semantica, l’agente non deve immaginare la pagina come una mappa puramente visiva e la pagina web può anche spiegare chiaramente le responsabilità delle principali superfici di interazione.

Questo argomento è particolarmente adatto per quelle interfacce che sono difficili da spiegare con il puro copywriting HTML, come calendari, prenotazioni, applicazioni di autorizzazione, pannelli delle impostazioni o un gruppo di pagine che sembrano normali caselle di input ma in realtà hanno significati aziendali diversi. Quando si affida solo all’etichetta e al segnaposto, l’agente spesso deve girare la pagina e riprovare ancora e ancora; una volta che la pagina può dichiarare “ecco la selezione della data” “ecco l’azione di conferma” e “lo stato qui può cambiare solo in questa direzione”, il costo di integrazione verrà direttamente ridotto.

Ma il processo sull’origine solleva anche un’altra questione: questo livello di semantica deve essere mantenuto. La struttura della pagina cambierà, la copia del pulsante cambierà e lo stato dell’azienda cambierà. Se lo strato di intenti su cui fa realmente affidamento l’agente non viene aggiornato insieme ai componenti, presto andrà alla deriva. In quel momento, lo stato più pericoloso non è “completamente inutilizzabile” ma “può ancora funzionare, ma ogni tanto commette errori, e gli errori sono naturali”.

Pertanto, WebMCP è più simile a un contratto con la pagina Web stessa, piuttosto che a un promemoria inviato all’agente. Richiede al front-end di scrivere i confini dell’interazione nell’implementazione, nei test e nei controlli di regressione. Finché questo livello contrattuale è ancora in fase dimostrativa, tutto ciò che l’agente può capire è un caso di successo; quando si entra nella pagina reale, ciò che veramente deve essere affrontato diventa la compatibilità della versione, il percorso di downgrade e la soluzione dopo che la dichiarazione diventa non valida.

Preferisco considerare questo processo sull’origine come un segnale direzionale. I browser hanno cominciato a considerare seriamente il modo in cui gli agenti leggono le pagine web, il che significa che il front-end non si occupa solo della formattazione per le persone, ma anche della definizione delle azioni per le macchine. Quanto più complessa è la pagina, tanto più prezioso è questo livello di definizione; quanto più frequentemente viene cambiata la pagina, tanto più significativo è il costo di manutenzione di questo livello di definizione. L’eredità finale di funzionalità come WebMCP non sarà un termine nuovo, ma un termine per l’allineamento continuo tra il front-end e l’agente.

FAQ

What to read next

Related

Continue reading