Back home

Participe do teste de origem do WebMCP

Escreva a finalidade dos botões e caixas de entrada para o agente. Manter esse nível de intenção é o custo a longo prazo.

Depois que o Chrome 149 começar a fornecer teste de origem do WebMCP, o relacionamento entre a página da web e o proxy se tornará mais direto: a página não apenas apresenta o DOM e a cópia visível para a máquina adivinhar, o próprio controle também pode declarar a finalidade, o status e os limites executáveis. Essa mudança parece um teste de API, mas na verdade é mais como elevar a “intenção da interface” de informações implícitas para protocolo explícito.

O valor de algo como o WebMCP não é adicionar uma camada de terminologia à página web, mas sim aumentar a incerteza que os agentes mais temem. Se um botão serve para enviar, alternar, confirmar ou apenas abrir uma camada pop-up; se uma caixa de entrada é uma data, um termo de pesquisa ou um horário de compromisso que requer um formato especial. No passado, essas informações eram inferidas principalmente a partir do texto, da estrutura e do contexto. A inferência funciona, mas quando a página se torna complexa, o agente começa a confundir “parece” com “é”.

Para os humanos, essa leitura errada geralmente é apenas um clique errado. Para os agentes, as leituras erradas se transformam em um caminho constante de erros. Ele continuará a ser executado de acordo com o entendimento errado até encontrar verificação, reversão ou efeitos colaterais, o que revela que a etapa anterior se extraviou. Depois que o WebMCP explicita essa camada de semântica, o agente não precisa adivinhar a página como um mapa puramente visual, e a página da web também pode explicar claramente as responsabilidades das principais superfícies de interação.

Este assunto é mais adequado para aquelas interfaces que são difíceis de explicar com copywriting HTML puro, como calendários, reservas, aplicativos de permissão, painéis de configurações ou um monte de páginas que parecem caixas de entrada comuns, mas na verdade têm significados comerciais diferentes. Ao confiar apenas no rótulo e no espaço reservado, o agente muitas vezes precisa percorrer a página e tentar novamente; uma vez que a página possa declarar “aqui está a seleção da data”, “aqui está a ação de confirmação” e “o status aqui só pode mudar nesta direção”, o custo de integração será reduzido diretamente.

Mas o julgamento da origem também levanta outra questão: esta camada de semântica precisa ser mantida. A estrutura da página mudará, a cópia do botão mudará e o status do negócio mudará. Se a camada de intenção da qual o agente realmente depende não for atualizada junto com os componentes, ela logo irá se desviar. Nesse momento, o estado mais perigoso não é “completamente inutilizável”, mas “ainda pode funcionar, mas ocasionalmente comete erros, e os erros são naturais”.

Portanto, o WebMCP é mais como um contrato para a própria página da web, em vez de um cartão de lembrete enviado ao agente. Requer que o front-end escreva limites de interação na implementação, nos testes e nas verificações de regressão. Enquanto essa camada do contrato ainda estiver em fase de demonstração, tudo o que o agente consegue entender é um caso de sucesso; quando entra na página real, o que realmente precisa ser tratado é a compatibilidade de versão, caminho de downgrade e a solução após a declaração torna-se inválida.

Prefiro considerar este teste de origem como um sinal direcional. Os navegadores começaram a considerar seriamente como os agentes leem as páginas da web, o que significa que o front-end não é apenas formatação para pessoas, mas também definição de ações para máquinas. Quanto mais complexa a página, mais valiosa é essa camada de definição; quanto mais frequentemente a página for alterada, mais significativo será o custo de manutenção desta camada de definição. O legado final de capacidades como WebMCP não será um termo novo, mas um termo para alinhamento contínuo entre o front-end e o agente.

FAQ

What to read next

Related

Continue reading