Cadeia de tomada de decisão de alto custo em sistemas de IA
É fácil economizar dinheiro em raciocínio. Transformar o comportamento online numa cadeia de evidências reproduzível é o verdadeiro controlo de custos.
Os custos online aumentarão. Em muitos casos, não é apenas o preço unitário do token que é caro, mas também o mesmo tipo de problemas que precisam ser verificados repetidamente. Superficialmente, você pode pensar que está comprando um serviço de inferência, mas, na verdade, está comprando um sistema cujo comportamento pode mudar a qualquer momento. Se algo der errado, você não será capaz de produzir uma cadeia completa de evidências.
É por isso que desconfio cada vez mais do algoritmo “Unidade AI = token”.
Para a mesma chamada, a diferença entre reprodutível e não reproduzível determina o que precisa ser pago na seguinte série de custos de engenharia, custos de revisão e custos de conformidade.
Como as coisas ficaram fora de controle
No início, nossa análise de custos era muito simples e todas as contas podiam ser colocadas em uma linha:
-Preço unitário do token
- Número de tokens de entrada e saída
- Volume da chamada
Depois de feito o relatório, ele fica muito bonito, com uma curva de redução de custos clara, podendo até dizer ao mundo exterior “quanto caiu o custo unitário”.
O verdadeiro problema ocorreu na segunda semana após o lançamento.
A equipe de atendimento ao cliente começou a relatar: “Às vezes a mesma pergunta pode ser respondida corretamente e às vezes pode ser respondida incorretamente”. O produto perguntava “O modelo está piorando?” Nossa primeira reação foi olhar para a versão do modelo, mas descobrimos que a versão do modelo não foi movida.
Então olhamos para a palavra-chave e ela não se moveu.
Analisando mais detalhadamente o registro, descobri que essa solicitação, na verdade, passou por roteamento multimodelo, atingindo modelos diferentes de fornecedores diferentes, e as chamadas de ferramenta eram inconsistentes. O que é ainda mais terrível é que o log naquele momento registrava apenas a “saída final” e não registrava os motivos da decisão de roteamento naquele momento, nem salvava o instantâneo do contexto.
Portanto, esse tipo de problema se tornará um típico beco sem saída para solução de problemas:
- Não pode ser reproduzido
- Não pode ser atribuído
- Só posso adivinhar
Geralmente há dois resultados de adivinhação, ambos errados:
- Atribua o problema ao “modelo de aleatoriedade” e, em seguida, use resfriamento e punição para suprimi-lo.
- Atribua o problema a “a palavra do prompt não foi bem escrita” e, em seguida, comece a acumular instruções até que a palavra do prompt se torne outro sistema incontrolável.
Ambas as abordagens tornarão o token mais caro na conta, mas não tornarão o sistema mais controlável.
Esse tipo de custo vai estourar o orçamento
O custo do token é linear: uma chamada que custa 10% mais provavelmente custa 10% mais.
O custo da não reprodutibilidade é exponencial porque ampliará o processo de processamento de cada problema online:
- O tempo de solução de problemas aumentou de 30 minutos para 3 horas, pois a mesma solicitação não pode ser reproduzida localmente.
- As decisões de reversão são mais lentas porque não se sabe qual modelo de reversão, rota de reversão ou ferramenta de reversão.
- A recolha de provas de conformidade torna-se difícil porque é impossível responder “por que esta conclusão foi emitida naquele momento e em que dados se baseou”.
- Os custos de retrabalho tornam-se mais elevados, pois o remendo tem que ser feito “adicionando mais guarda-corpo”, mas o próprio guarda-corpo também requer manutenção.
A mais oculta é que muitas vezes são forçados a investir muitos recursos de engenharia na “estabilização do comportamento online” em vez de investir na “melhoria das capacidades”.
Isso também mostra que muitas equipes estão cada vez mais interessadas em manter um sistema de regras complexo. No final, eles não economizam dinheiro nem se tornam mais inteligentes.
Em que posso recalcular as unidades de IA?
Se você contar apenas “unidades de IA” como tokens, muitas vezes otimizará um monte de estratégias muito perigosas:
- Para economizar dinheiro, faça roteamento e downgrades mais agressivos.
- Para economizar dinheiro, transfira mais lógica para prompts e ferramentas.
- Para economizar dinheiro, deixe mais julgamentos para o modelo “decidir automaticamente”.
Estes estão empurrando o sistema na direção da “irreprodutibilidade”.
Prefiro dividir as unidades de IA em duas partes:
- Unidade de inferência: token, atraso, taxa de transferência.
- Unidade de evidência: Quanto custo de rastreabilidade é necessário para uma decisão.
A unidade de raciocínio resolve “quanto custa para funcionar”.
A unidade de evidências aborda “quanto custa se algo der errado”.
O realmente caro costuma ser o segundo.
Uma cadeia de tomada de decisão reproduzível, pelo menos como deveria ser
Eu considero isso um “livro-razão” e cada solicitação deve ser capaz de agrupar nós-chave.
Pelo menos esses tipos de campos são obrigatórios. Caso falte algum deles, o link será quebrado em algum tipo de acidente:
- Decisão de Roteamento: Qual modelo é atingido, por que, quais são os candidatos e se será rebaixado.
- Versão do Prompt Word: sistema + desenvolvedor + número da versão do modelo, parâmetros principais.
- Instantâneo de contexto: participe do resumo dos resultados da pesquisa gerados, da versão do documento e dos resultados da filtragem de permissão.
- Cadeia de chamadas de ferramentas: quais ferramentas são chamadas, quais são os parâmetros de entrada, o que é retornado e quanto tempo leva.
- Saída e pós-processamento: saída final, acertos de regras de filtragem, motivos de rejeição (se rejeição).
Deliberadamente, não considero o “contexto do texto completo” um item obrigatório aqui, porque muitos cenários não podem ser salvos ou os riscos de conformidade são muito grandes se forem salvos.
Mas pelo menos garanta que ele possa ser reproduzido no “mesmo caminho de decisão”, se necessário.
Os mal-entendidos mais comuns
Mal-entendido 1: Confiar na temperatura para suprimir a aleatoriedade
A aleatoriedade não é a questão central.
O verdadeiro problema é: não consigo nem explicar de onde veio esse resultado. Baixar a temperatura apenas a torna “mais parecida com uma caixa preta estável”.
Mal-entendido 2: trate o prompt como o centro de configuração
Quando o prompt carrega cada vez mais regras de negócios, não é mais uma palavra de prompt, mas uma “configuração de tempo de execução” sem sistema de tipos, sem testes e sem mecanismo de reversão.
Isso aumentará diretamente a unidade de evidências.
Mal-entendido 3: lembre-se apenas do resultado final, não do caminho intermediário
Apenas lembrar a saída equivale a transformar a solução de problemas em “adivinhação”.
Muitos problemas online são causados por um determinado erro de chamada de ferramenta, um determinado erro de acerto de pesquisa ou um determinado erro de downgrade de rota. Se você não registrar o caminho, sempre poderá inferir a partir do resultado, e a inferência retroativa geralmente não pode ser feita.
Limites aplicáveis
Nem todos os sistemas exigem um livro razão completo para cada solicitação.
Usarei três condições para decidir se devo incluir unidades de evidência:
- Este resultado entrará no ciclo fechado do negócio (afetando transações, aprovações, controle de risco e compromissos externos)?
- Se este resultado pode ser responsabilizado pelos utilizadores ou por auditorias externas.
- Uma vez que esta saída está errada, o custo do reparo é maior que o custo de uma inferência?
Se quaisquer duas das três condições forem satisfeitas, considerarei a “cadeia de decisão reproduzível” como a primeira prioridade do controlo de custos.
Resumo
O token é um custo explícito e a não recorrência é um imposto implícito.
Um sistema de IA verdadeiramente rentável transforma cada comportamento online numa cadeia de evidências rastreável.
O que se salva são aquelas noites do próximo acidente.
What to read next
Want more posts about Uncategorized?
Posts in the same category are usually the best next step for reading more on this topic.
View same categoryWant to explore another direction?
If you are not sure what to read next, return to the homepage and start from categories, topics, or latest updates.
Back home