Cadena de toma de decisiones de alto coste en sistemas de IA
Es fácil ahorrar dinero razonando. Convertir el comportamiento en línea en una cadena de evidencia reproducible es el verdadero control de costos.
Los costos en línea aumentarán. En muchos casos, no es sólo el precio unitario del token lo que es caro, sino también el mismo tipo de problemas que deben comprobarse repetidamente. Superficialmente, podría pensar que está comprando un servicio de inferencia, pero en realidad está comprando un sistema cuyo comportamiento puede cambiar en cualquier momento. Si algo sale mal, no podrá presentar una cadena completa de pruebas.
Por eso desconfío cada vez más del algoritmo “Unidad AI = token”.
Para la misma llamada, la diferencia entre reproducible y no reproducible determina lo que se debe pagar en la siguiente serie de costos de ingeniería, costos de revisión y costos de cumplimiento.
Cómo las cosas se salieron de control
Al principio, nuestro análisis de costos era muy simple y todas las cuentas se podían ubicar en una sola línea:
-Precio unitario del token
- Número de tokens de entrada y salida.
- Volumen de llamadas
Una vez elaborado el informe, se ve muy hermoso, con una clara curva de reducción de costos e incluso puede decirle al mundo exterior “cuánto ha bajado el costo unitario”.
El verdadero problema ocurrió en la segunda semana después del lanzamiento.
El personal de servicio al cliente comenzó a informar: “A veces la misma pregunta se puede responder correctamente y otras veces se puede responder incorrectamente”. El producto preguntó “¿Está empeorando el modelo?” Nuestra primera reacción fue mirar la versión del modelo, pero resultó que la versión del modelo no se había movido.
Luego miramos la palabra clave y la palabra clave no se movió.
Mirando más abajo en el registro, descubrí que esta solicitud en realidad pasó por un enrutamiento de múltiples modelos, llegando a diferentes modelos de diferentes proveedores, y las llamadas a herramientas eran inconsistentes. Lo que es aún más terrible es que el registro en ese momento solo registró el “resultado final” y no registró los motivos de la decisión de enrutamiento en ese momento, ni guardó la instantánea del contexto.
Por lo tanto, este tipo de problema se convertirá en un callejón sin salida muy típico en la resolución de problemas:
- No se puede reproducir
- No se puede atribuir
- Sólo puedo adivinar
Por lo general, hay dos resultados de adivinanzas, los cuales son incorrectos:
- Atribuya el problema a la “aleatoriedad del modelo” y luego utilice el enfriamiento y el castigo para suprimirlo.
- Atribuya el problema a “la palabra clave no estaba bien escrita” y luego comience a acumular instrucciones hasta que la palabra clave se convierta en otro sistema incontrolable.
Ambos enfoques encarecerán el token de la cuenta, pero no harán que el sistema sea más controlable.
Este tipo de costo afectará el presupuesto
El costo del token es lineal: una llamada que cuesta un 10% más probablemente en realidad cueste un 10% más.
El costo de la no reproducibilidad es exponencial porque amplificará el proceso de procesamiento de cada problema en línea:
- El tiempo de resolución de problemas aumentó de 30 minutos a 3 horas ya que la misma solicitud no se puede reproducir localmente.
- Las decisiones de reversión son más lentas porque no se sabe qué modelo de reversión, ruta de reversión o herramienta de reversión.
- La recopilación de pruebas de cumplimiento se vuelve difícil porque es imposible responder “por qué se llegó a esta conclusión en ese momento y en qué datos se basó”.
- Los costos de retrabajo aumentan ya que el parche debe hacerse “agregando más barandilla”, pero la barandilla en sí también requiere mantenimiento.
El más oculto es que a menudo se ven obligados a invertir muchos recursos de ingeniería para “estabilizar el comportamiento en línea” en lugar de invertir en “mejorar las capacidades”.
Esto también muestra que muchos equipos se parecen cada vez más a mantener un sistema de reglas complejo. Al final, ni ahorran dinero ni se vuelven más inteligentes.
¿En qué recalculo las unidades de IA?
Si solo cuentas las “unidades de IA” como tokens, a menudo optimizarás un montón de estrategias muy peligrosas:
- Para ahorrar dinero, realice enrutamientos y degradaciones más agresivas.
- Para ahorrar dinero, introduzca más lógica en las indicaciones y herramientas.
- Para ahorrar dinero, deje más juicios al modelo para que “decida automáticamente”.
Estos están empujando al sistema hacia la “irreproducibilidad”.
Prefiero dividir las unidades de IA en dos partes:
- Unidad de inferencia: token, retraso, rendimiento.
- Unidad de evidencia: Cuánto costo de trazabilidad se requiere para una decisión.
La unidad de razonamiento resuelve “cuánto cuesta ejecutarlo”.
La unidad de pruebas aborda “cuánto cuesta si algo sale mal”.
El realmente caro suele ser el segundo.
Una cadena de toma de decisiones reproducible, al menos como debería ser
Lo considero un “libro mayor” y cada solicitud debe poder unir nodos clave.
Al menos este tipo de campos son obligatorios. Si falta alguno de ellos, el enlace se romperá por algún tipo de accidente:
- Decisión de enrutamiento: qué modelo se ve afectado, por qué, cuáles son los candidatos y si se debe degradar.
- Versión de palabra rápida: sistema + desarrollador + número de versión de plantilla, parámetros clave.
- Instantánea de contexto: participe en el resumen de resultados de búsqueda generado, la versión del documento y los resultados del filtrado de permisos.
- Cadena de llamadas de herramientas: qué herramientas se llaman, cuáles son los parámetros de entrada, qué se devuelve y cuánto tiempo lleva.
- Salida y posprocesamiento: salida final, aciertos de reglas de filtrado, motivos de rechazo (si se rechaza).
Deliberadamente no considero el “contexto de texto completo” como un elemento obligatorio aquí, porque muchos escenarios no se pueden guardar o los riesgos de cumplimiento son demasiado grandes si se guardan.
Pero al menos asegúrese de que se pueda reproducir en el “mismo camino de decisión” si es necesario.
Los malentendidos más comunes
Malentendido 1: Depender de la temperatura para suprimir la aleatoriedad
La aleatoriedad no es el tema central.
El verdadero problema es: ni siquiera puedo explicar de dónde vino este resultado. Bajar la temperatura sólo lo hace “más parecido a una caja negra estable”.
Malentendido 2: Trate el mensaje como el centro de configuración
Cuando el aviso incluye cada vez más reglas comerciales, ya no es una palabra de aviso, sino una “configuración de tiempo de ejecución” sin un sistema de tipos, sin pruebas ni mecanismo de reversión.
Esto hará subir directamente a la unidad de pruebas.
Malentendido 3: recuerde solo el resultado final, no la ruta intermedia
Simplemente recordar el resultado equivale a convertir la resolución de problemas en “adivinanzas”.
Muchos problemas en línea son causados por un determinado error de llamada de herramienta, un determinado error de búsqueda o un determinado error de degradación de ruta. Si no registra la ruta, siempre podrá inferir a partir del resultado y, por lo general, no se puede realizar una inferencia hacia atrás.
Límites aplicables
No todos los sistemas requieren un libro de contabilidad completo para cada solicitud.
Usaré tres condiciones para decidir si incluir unidades de evidencia:
- ¿Esta salida entrará en el circuito cerrado del negocio (afectando transacciones, aprobaciones, control de riesgos y compromisos externos)?
- Si este resultado puede ser responsabilizado por los usuarios o por auditorías externas.
- Una vez que este resultado es incorrecto, ¿el costo de reparación es mayor que el costo de una inferencia?
Si se cumplen dos de las tres condiciones, consideraré la “cadena de decisiones reproducible” como la primera prioridad del control de costos.
Resumen
El token es un costo explícito y la no recurrencia es un impuesto implícito.
Un sistema de IA verdaderamente rentable convierte cada comportamiento en línea en una cadena de evidencia rastreable.
Lo que se salva son esas noches durante el próximo accidente.
What to read next
Want more posts about Uncategorized?
Posts in the same category are usually the best next step for reading more on this topic.
View same categoryWant to explore another direction?
If you are not sure what to read next, return to the homepage and start from categories, topics, or latest updates.
Back home