Cadeia de tomada de decisão de alto custo em sistemas de IA

Uncategorized16 de abril de 2026 às 22:304 min read

É fácil economizar dinheiro em raciocínio. Transformar o comportamento online numa cadeia de evidências reproduzível é o verdadeiro controlo de custos.

Topic / Uncategorized

简体中文 العربية English Español Français Bahasa Indonesia Português

Os custos online aumentarão. Em muitos casos, não é apenas o preço unitário do token que é caro, mas também o mesmo tipo de problemas que precisam ser verificados repetidamente. Superficialmente, você pode pensar que está comprando um serviço de inferência, mas, na verdade, está comprando um sistema cujo comportamento pode mudar a qualquer momento. Se algo der errado, você não será capaz de produzir uma cadeia completa de evidências.

É por isso que desconfio cada vez mais do algoritmo “Unidade AI = token”.

Para a mesma chamada, a diferença entre reprodutível e não reproduzível determina o que precisa ser pago na seguinte série de custos de engenharia, custos de revisão e custos de conformidade.

Como as coisas ficaram fora de controle

No início, nossa análise de custos era muito simples e todas as contas podiam ser colocadas em uma linha:

-Preço unitário do token

Número de tokens de entrada e saída
Volume da chamada

Depois de feito o relatório, ele fica muito bonito, com uma curva de redução de custos clara, podendo até dizer ao mundo exterior “quanto caiu o custo unitário”.

O verdadeiro problema ocorreu na segunda semana após o lançamento.

A equipe de atendimento ao cliente começou a relatar: “Às vezes a mesma pergunta pode ser respondida corretamente e às vezes pode ser respondida incorretamente”. O produto perguntava “O modelo está piorando?” Nossa primeira reação foi olhar para a versão do modelo, mas descobrimos que a versão do modelo não foi movida.

Então olhamos para a palavra-chave e ela não se moveu.

Analisando mais detalhadamente o registro, descobri que essa solicitação, na verdade, passou por roteamento multimodelo, atingindo modelos diferentes de fornecedores diferentes, e as chamadas de ferramenta eram inconsistentes. O que é ainda mais terrível é que o log naquele momento registrava apenas a “saída final” e não registrava os motivos da decisão de roteamento naquele momento, nem salvava o instantâneo do contexto.

Portanto, esse tipo de problema se tornará um típico beco sem saída para solução de problemas:

Não pode ser reproduzido
Não pode ser atribuído
Só posso adivinhar

Geralmente há dois resultados de adivinhação, ambos errados:

Atribua o problema ao “modelo de aleatoriedade” e, em seguida, use resfriamento e punição para suprimi-lo.
Atribua o problema a “a palavra do prompt não foi bem escrita” e, em seguida, comece a acumular instruções até que a palavra do prompt se torne outro sistema incontrolável.

Ambas as abordagens tornarão o token mais caro na conta, mas não tornarão o sistema mais controlável.

Esse tipo de custo vai estourar o orçamento

O custo do token é linear: uma chamada que custa 10% mais provavelmente custa 10% mais.

O custo da não reprodutibilidade é exponencial porque ampliará o processo de processamento de cada problema online:

O tempo de solução de problemas aumentou de 30 minutos para 3 horas, pois a mesma solicitação não pode ser reproduzida localmente.
As decisões de reversão são mais lentas porque não se sabe qual modelo de reversão, rota de reversão ou ferramenta de reversão.
A recolha de provas de conformidade torna-se difícil porque é impossível responder “por que esta conclusão foi emitida naquele momento e em que dados se baseou”.
Os custos de retrabalho tornam-se mais elevados, pois o remendo tem que ser feito “adicionando mais guarda-corpo”, mas o próprio guarda-corpo também requer manutenção.

A mais oculta é que muitas vezes são forçados a investir muitos recursos de engenharia na “estabilização do comportamento online” em vez de investir na “melhoria das capacidades”.

Isso também mostra que muitas equipes estão cada vez mais interessadas em manter um sistema de regras complexo. No final, eles não economizam dinheiro nem se tornam mais inteligentes.

Em que posso recalcular as unidades de IA?

Se você contar apenas “unidades de IA” como tokens, muitas vezes otimizará um monte de estratégias muito perigosas:

Para economizar dinheiro, faça roteamento e downgrades mais agressivos.
Para economizar dinheiro, transfira mais lógica para prompts e ferramentas.
Para economizar dinheiro, deixe mais julgamentos para o modelo “decidir automaticamente”.

Estes estão empurrando o sistema na direção da “irreprodutibilidade”.

Prefiro dividir as unidades de IA em duas partes:

Unidade de inferência: token, atraso, taxa de transferência.
Unidade de evidência: Quanto custo de rastreabilidade é necessário para uma decisão.

A unidade de raciocínio resolve “quanto custa para funcionar”.

A unidade de evidências aborda “quanto custa se algo der errado”.

O realmente caro costuma ser o segundo.

Uma cadeia de tomada de decisão reproduzível, pelo menos como deveria ser

Eu considero isso um “livro-razão” e cada solicitação deve ser capaz de agrupar nós-chave.

Pelo menos esses tipos de campos são obrigatórios. Caso falte algum deles, o link será quebrado em algum tipo de acidente:

Decisão de Roteamento: Qual modelo é atingido, por que, quais são os candidatos e se será rebaixado.
Versão do Prompt Word: sistema + desenvolvedor + número da versão do modelo, parâmetros principais.
Instantâneo de contexto: participe do resumo dos resultados da pesquisa gerados, da versão do documento e dos resultados da filtragem de permissão.
Cadeia de chamadas de ferramentas: quais ferramentas são chamadas, quais são os parâmetros de entrada, o que é retornado e quanto tempo leva.
Saída e pós-processamento: saída final, acertos de regras de filtragem, motivos de rejeição (se rejeição).

Deliberadamente, não considero o “contexto do texto completo” um item obrigatório aqui, porque muitos cenários não podem ser salvos ou os riscos de conformidade são muito grandes se forem salvos.

Mas pelo menos garanta que ele possa ser reproduzido no “mesmo caminho de decisão”, se necessário.

Os mal-entendidos mais comuns

Mal-entendido 1: Confiar na temperatura para suprimir a aleatoriedade

A aleatoriedade não é a questão central.

O verdadeiro problema é: não consigo nem explicar de onde veio esse resultado. Baixar a temperatura apenas a torna “mais parecida com uma caixa preta estável”.

Mal-entendido 2: trate o prompt como o centro de configuração

Quando o prompt carrega cada vez mais regras de negócios, não é mais uma palavra de prompt, mas uma “configuração de tempo de execução” sem sistema de tipos, sem testes e sem mecanismo de reversão.

Isso aumentará diretamente a unidade de evidências.

Mal-entendido 3: lembre-se apenas do resultado final, não do caminho intermediário

Apenas lembrar a saída equivale a transformar a solução de problemas em “adivinhação”.

Muitos problemas online são causados por um determinado erro de chamada de ferramenta, um determinado erro de acerto de pesquisa ou um determinado erro de downgrade de rota. Se você não registrar o caminho, sempre poderá inferir a partir do resultado, e a inferência retroativa geralmente não pode ser feita.

Limites aplicáveis

Nem todos os sistemas exigem um livro razão completo para cada solicitação.

Usarei três condições para decidir se devo incluir unidades de evidência:

Este resultado entrará no ciclo fechado do negócio (afetando transações, aprovações, controle de risco e compromissos externos)?
Se este resultado pode ser responsabilizado pelos utilizadores ou por auditorias externas.
Uma vez que esta saída está errada, o custo do reparo é maior que o custo de uma inferência?

Se quaisquer duas das três condições forem satisfeitas, considerarei a “cadeia de decisão reproduzível” como a primeira prioridade do controlo de custos.

Resumo

O token é um custo explícito e a não recorrência é um imposto implícito.

Um sistema de IA verdadeiramente rentável transforma cada comportamento online numa cadeia de evidências rastreável.

O que se salva são aquelas noites do próximo acidente.

FAQ

Continue reading

Uncategorized · 0 tags

Divisão refinada de componentes e questões de propriedade estatal

Depois de dividir um estado em múltiplas verdades locais, a sequência se torna um evento probabilístico

Uncategorized · 0 tags

Otimização de inicialização assíncrona e fenômenos acidentais de inicialização

Geralmente não vale a pena trocar 200 ms de ganho por condições de corrida irrepetíveis e custos de solução de problemas.

Uncategorized · 0 tags

Como usar o Codex e seus limites em projetos reais

Pense nisso como uma parte do pipeline de mudança, não como um autor mais rápido

Back home View same category

Cadeia de tomada de decisão de alto custo em sistemas de IA

Como as coisas ficaram fora de controle

Esse tipo de custo vai estourar o orçamento

Em que posso recalcular as unidades de IA?

Uma cadeia de tomada de decisão reproduzível, pelo menos como deveria ser

Os mal-entendidos mais comuns

Mal-entendido 1: Confiar na temperatura para suprimir a aleatoriedade

Mal-entendido 2: trate o prompt como o centro de configuração

Mal-entendido 3: lembre-se apenas do resultado final, não do caminho intermediário

Limites aplicáveis

Resumo

What to read next

Want more posts about Uncategorized?

Want to explore another direction?

Continue reading