Errores de confianza provocados por una alta recuperación de RAG
Lo primero que realmente se sale de control es cuando pruebas contradictorias, documentos caducados y contenido con permisos inconsistentes entran juntos en el contexto. La respuesta comienza a completarse, pero la cadena de evidencia se afloja.
Cuando muchos equipos incorporan RAG al negocio por primera vez, el primer indicador en el que se centran suele ser el volumen de retiradas.
Si 3 golpes no son suficientes, ajústelo a 8 golpes; si 8 visitas aún no son estables, continúe relajando el umbral de similitud de vectores y luego apile BM25, filtrado de etiquetas y expansión de sinónimos. La tasa de aciertos en el panel se ve bien y muchos temas parecen estar “cubiertos”. Pero después de estar en línea por un tiempo, surgió otro tipo de pregunta más difícil: las respuestas comenzaron a sonar cada vez más como la verdad y el tono se volvió cada vez más completo. Sin embargo, una vez que se verificó cuidadosamente la fuente, se mezcló con reglas de versiones antiguas, otros documentos de inquilinos, SOP obsoletos e incluso instrucciones contradictorias.
Mi opinión sobre este tipo de problema es: **La confiabilidad de RAG a menudo se ve afectada por “recordar demasiadas cosas que no deberían aparecer al mismo tiempo”. Una vez que el contexto está lleno de información contradictoria, documentos vencidos y contenido con permisos inconsistentes, el modelo no le dirá honestamente “la evidencia entra en conflicto y la respuesta no puede responderse”. Es más común seguir la inercia del lenguaje y unir estos fragmentos en una respuesta que parece completa, pero en realidad la cadena de evidencia se ha aflojado. **
Este tipo de problema parece un recuerdo insuficiente al principio, pero luego resulta ser una contaminación del contexto.
Esta es la primera vez que dejo claro este juicio. En la superficie, parece que la respuesta del modelo es demasiado corta, pero en realidad se acerca más a eso: es demasiado suave.
El escenario es una sesión interna de preguntas y respuestas sobre conocimientos dentro de una empresa. El usuario hizo una pregunta muy específica en el enlace de aprobación de reembolso: después de que un viaje de negocios al extranjero excede el límite, si debe acudir primero al supervisor directo para su aprobación o al centro de costos para su revisión primero. El sistema a menudo no responde las preguntas al principio y la razón es simple. Los sistemas relacionados se encuentran dispersos en diferentes bases de conocimiento y las búsquedas vectoriales a menudo solo pueden obtener la mitad de ellos.
Entonces el equipo hizo una ronda de mejoras muy típica:
- Se elevó topK de 4 a 10;
- Se agregaron palabras clave para recordar el resultado final;
- Coincidencia relajada de expresiones sinónimas;
- Reúna anuncios históricos, preguntas frecuentes y textos del sistema en el conjunto de candidatos.
Funciona bien a corto plazo. La respuesta ya no es “No se encontró información relevante”, pero ahora puede organizar los pasos completos. El problema comienza aquí: los usuarios informan que la respuesta “parece la respuesta correcta”, pero si realmente la siguen, realizarán el pedido incorrecto.
Más tarde, cuando desarmé una respuesta incorrecta y la miré, aparecieron simultáneamente tres tipos de materiales en el contexto del modelo:
- La cadena de aprobación en el antiguo sistema hace medio año;
- Cláusulas de excepción en el texto del nuevo sistema;
- Descripción de otra entidad regional en las Preguntas Frecuentes.
Cada uno de estos tres materiales no es basura e incluso parece “muy relevante” cuando se ve individualmente. El problema es que no pertenecen al mismo espacio de decisión. Lo que obtiene el modelo es un montón de fragmentos que están relacionados en términos de palabras pero que tienen límites comerciales inconsistentes. Al final, la respuesta que generó fue amasar los tres materiales en un nuevo proceso.
Aquí es donde es más probable que se juzguen mal muchos proyectos RAG: en la superficie, parece que “la recuperación se ha vuelto más fuerte”, pero en esencia, eleva el error de recuperación de “falta de evidencia” a “evidencia sucia entrando en la etapa de generación”.
Después de más retiros del mercado, el modelo no se volverá más cauteloso, solo mejorará en la reparación de costuras.
Una situación común es que, de forma predeterminada, al darle al modelo más información, en el mejor de los casos, simplemente se le permitirá elegir.
Pero la situación real se acerca más a otro mecanismo: cuanto más largo sea el contexto, más fragmentos y más laxa sea la relación semántica, más fácil será para el modelo deletrear “parcialmente razonable” en “verdadero en general”. **
Esto se debe a que la fase de generación se enfrenta a una cadena de texto que ha sido linealizada. Mientras estos textos puedan literalmente tender puentes entre sí, el modelo tenderá naturalmente a cerrar la brecha. Esta tendencia será particularmente fuerte en las siguientes situaciones:
- Los dos documentos tienen conclusiones diferentes, pero comparten muchos términos comerciales;
- Cuando el nuevo sistema derrocó al antiguo, no dijo claramente “las antiguas reglas quedan abolidas”;
- Las preguntas frecuentes resumen el texto en términos coloquiales, pero omiten las condiciones aplicables;
- El contenido de múltiples inquilinos, múltiples regiones y múltiples versiones se recuperan juntos, pero solo se distinguen en los metadatos.
En este momento, el modelo no expondrá directamente “Veo un conflicto”, pero a menudo hará tres cosas:
- Priorizar las frases que mejor formen una narrativa completa;
- Complete automáticamente las conexiones de causa y efecto que no se indican explícitamente en el contexto;
- Trague las condiciones de contorno y reemplácelas con expresiones que se parezcan más a reglas generales.
Al final, lo que el usuario ve es una respuesta fluida, completa y que parece haber sido juzgada de manera integral. El verdadero peligro es que provoque el conflicto.
Los documentos obsoletos no son ruido, diluirán activamente el peso de la nueva evidencia.
Cuando muchos equipos solucionan problemas de respuestas incorrectas de RAG, están acostumbrados a tratar los documentos caducados como una especie de “ruido de baja calidad” y sienten que mientras el número sea pequeño, no es un gran problema.
Pero durante la fase de generación, los documentos vencidos suelen ser pruebas contradictorias que cambian activamente el enfoque de la respuesta.
Un ejemplo más típico que he visto es la base de conocimientos de servicio al cliente. Se ha cambiado una determinada regla de reembolso en la nueva versión de la política, pero es más probable que la versión anterior de las preguntas frecuentes tenga una clasificación más alta en la etapa de recuperación debido a su gran número de visitas y expresiones más coloquiales. El texto de la nueva política está escrito con precisión pero con dureza; Las antiguas preguntas frecuentes están escritas sin problemas y tienen una plantilla retórica completa. Como resultado, cuando el modelo responde, es muy fácil considerar la nueva versión de las reglas como restricciones locales y las antiguas preguntas frecuentes como la narrativa principal.
La respuesta final suele verse así:
通常情况下用户可先申请原路退款,如遇活动商品则需进一步审核。
Lo más poderoso de esta oración es que casi todas las palabras se pueden encontrar en el contexto, pero la oración completa no existe en ninguna fuente. Es posible que la nueva regla real se haya cambiado a “Los productos activos no admiten reembolsos originales”, y el modelo utilizó el “generalmente” en las preguntas frecuentes anteriores como una oración general, suprimiendo directamente la nueva regla y convirtiéndola en una excepción.
Por lo tanto, el problema de los documentos caducados nunca es simplemente que “se ha mezclado información antigua”, sino que la información antigua suele parecerse más al habla humana y es más fácil de utilizar como esqueleto por parte de los modelos**.
Recordar permisos inconsistentes es más problemático que respuestas incorrectas porque creará respuestas “aparentemente bien fundadas” que exceden la autoridad.
Otra cuestión que a menudo se subestima son los límites de los permisos.
Muchos sistemas internos de RAG colocan la verificación de permisos en el nivel de “si el documento se puede abrir”, pensando que mientras el texto original no se muestre al usuario al final, estará bien. El verdadero peligro del sistema generativo es: ** Siempre que el documento restringido entre en contexto, incluso si el texto original no se publica al final, la respuesta en sí puede haber revelado juicios que no deberían conocerse. **
Por ejemplo, cuando el departamento de ventas hace una pregunta sobre la aprobación del contrato, solo hay procedimientos generales en la base de conocimiento público y hay una cláusula de excepción para clientes especiales en la base de conocimiento legal. Si la etapa de recuperación solo “recuerda primero, luego recorta”, entonces el modelo puede haber aprovechado esa regla de excepción en la etapa de borrador y finalmente generar una sugerencia aparentemente neutral:
Estos clientes normalmente requieren una aprobación adicional del jefe regional.
El usuario no puede ver el documento restringido, pero se le ha dado una regla organizativa que no debería haber conocido. Aún más preocupante es que esta frase es difícil de identificar como una filtración en su forma, porque se parece menos a copiar y pegar y más al modelo “lo resumió por sí mismo”.
Por lo tanto, la cuestión de los permisos no solo puede entenderse como control de acceso, sino que debe entenderse como control de fuente de evidencia. Tan pronto como se introducen juntos en el modelo materiales que no pertenecen al mismo rango visible, el sistema ha cruzado una línea. Las posteriores restricciones de desensibilización y de referencia sólo se refieren a la contaminación que ya se ha producido.
Lo que realmente necesita optimizarse es dejar que la evidencia converja primero de acuerdo con el límite de decisión
Muchos sistemas RAG se vuelven cada vez más caóticos con el tiempo. Superficialmente, parece que el modelo es demasiado débil. De hecho, está más cerca de la etapa de recuperación y la dirección de optimización en sí está sesgada.
Lo que es más probable que los equipos hagan es tratar los retiros como problemas del motor de búsqueda:
- Si la correlación no es suficiente, agregue un canal de recuperación;
- Si la cobertura no es suficiente, añadir un poco más de topK;
- El método de consulta del usuario es inestable, por lo que se deben reescribir más consultas.
Estas acciones no son necesariamente incorrectas, pero si faltan restricciones de “límites de decisión”, se enviarán a la etapa de generación más materiales que no deberían aparecer al mismo tiempo.
A lo que le presto más atención más adelante es a otro conjunto de secuencias de convergencia:
1. Primero haga la convergencia de rango y luego ordene por correlación.
Muchas preguntas y respuestas pueden limitar el alcance antes de la recuperación semántica, como por ejemplo:
- entidad organizativa;
- región o país;
- Tiempo efectivo;
- Tipo de documento;
- Campo de permisos de usuario.
Si estas condiciones no se tienen en cuenta primero y la clasificación se basa únicamente en la incorporación de similitud, el resultado definitivamente incluirá cosas que son “similares”. Esto se debe a que el conjunto de candidatos está mal definido.
2. Trate la versión y el tiempo efectivo como ciudadanos de primera clase en lugar de metadatos subsidiarios.
Obviamente, muchas bases de conocimiento tienen los campos updated_at, version y status, pero solo se usan en la capa de presentación y apenas participan en la toma de decisiones al recuperar y explicar el contexto. De esta manera, el documento antiguo y el nuevo se tratan por igual y el modelo no tiene idea de quién debe sobrescribir a quién.
Un enfoque más estable es manejar la relación de cobertura explícitamente:
- Los documentos obsoletos no entran en el contexto de generación de forma predeterminada;
- Cuando las reglas antiguas y nuevas entran en conflicto, se marcan directamente como conflictos y no se permite que el modelo se sintetice libremente;
- Las preguntas frecuentes no pueden cubrir el texto principal del sistema y solo pueden usarse como una capa explicativa para complementarlo.
3. Deje que el conflicto quede expuesto en lugar de dejar que el modelo sea el árbitro en lugar del sistema.
Muchos sistemas por defecto unen múltiples materiales candidatos directamente y los entregan al modelo, con la esperanza de que el modelo los “comprenda completamente” por sí solo. Este paso es precisamente el más peligroso, porque subcontrata el manejo de los conflictos de evidencia a la capa que es mejor para cerrar las brechas.
Si dos documentos de gran peso tienen conclusiones contradictorias, un comportamiento más razonable del sistema suele ser decirle explícitamente al usuario:
- Se encontraron reglas contradictorias;
- ¿Dónde están los puntos de conflicto?
- Qué versión se utiliza actualmente de forma predeterminada o se requiere confirmación manual.
No suena tan sedoso, pero es realmente controlable. Reconocer el conflicto se parece más a un sistema confiable que dar una respuesta completa pero adulterada.
Un caso de falla particularmente común: tratar la reorganización como la solución final
Después de que muchos equipos descubren que “cuantos más retiros hay, más caos hay”, inmediatamente usarán el reranker. Como resultado, la calidad de la clasificación ha mejorado, por lo que consideran que el problema está resuelto.
Pero lo que el reranker puede resolver es principalmente “quién se parece más a la respuesta a la pregunta”; no puede resolver “si estos candidatos pertenecen al mismo espacio de hechos fusionados”.
Si el conjunto de candidatos contiene ambos:
- Reglas de la Región A 2024;
- Normas de la Región B 2025;
- Instrucciones de excepción interna para administradores;
- Preguntas frecuentes para empleados ordinarios;
El reclasificador sólo clasifica dos o tres de los artículos más arriba. Básicamente, no puede decidir para el sistema si estos materiales se pueden alimentar juntos al modelo.
Esto también muestra que muchas reseñas de RAG se ven bien fuera de línea, pero comienzan a desviarse tan pronto como ingresan a escenas complejas en línea. Las preguntas y respuestas de las colecciones fuera de línea suelen ser únicas, estándar y tienen límites claros; La verdadera complejidad de las preguntas en línea es que están relacionadas con versiones, permisos, estructuras organizativas y excepciones. La clasificación solo pone primero los materiales más similares y no administra automáticamente el equipo.
Límite aplicable: no todos los escenarios deberían reducir el monto del retiro
Decir que “demasiadas retiradas del mercado hace que sea fácil cometer errores” no significa que todos los sistemas deban reducir topK en cantidades muy pequeñas.
Si está realizando preguntas y respuestas exploratorias, recopilación de datos y asistencia en investigación, es razonable proporcionar más materiales y los usuarios están dispuestos a aceptar “hay múltiples opiniones aquí”. En este escenario, el objetivo del sistema es ayudar a los usuarios a navegar por el espacio de información.
Lo que realmente necesita controlar estrictamente el límite de recuperación son aquellos escenarios donde la respuesta se ejecutará directamente, como por ejemplo:
- Preguntas y respuestas institucionales;
- Proceso de aprobación;
- Calibre de servicio al cliente;
- Runbook de operación y mantenimiento;
- Apoyo en decisiones médicas, financieras y de cumplimiento.
En estos escenarios, la capacidad más importante del sistema es “no combinar pruebas mutuamente incompatibles en una instrucción ejecutable”. Una vez que el costo de una respuesta incorrecta es mayor que el costo de no poder responder, la estrategia de búsqueda ya no puede girar únicamente en torno a la cobertura.
Resumen
Lo más adictivo de RAG es que siempre puede hacer que los datos del panel se vean mejor a corto plazo “recordando un poco más”.
Pero una vez que se lanza realmente un sistema de conocimiento, lo más difícil de recopilar es si los materiales que entran en el contexto pertenecen al mismo conjunto de límites de hechos, la misma versión semántica y el mismo ámbito de autoridad.
Mientras la cuestión no se resuelva primero, cuanto más recuerde, más se parecerá el modelo a una persona particularmente buena escribiendo resúmenes: puede que no necesariamente diga tonterías deliberadamente, pero reunirá evidencia que no debería combinarse en una respuesta que se parezca mucho a una conclusión.
Por lo tanto, en el siguiente paso de la optimización de RAG, muchas veces no debemos preguntar “cuánto más se puede recuperar”, sino preguntar primero: ** Qué contenido no debería aparecer juntos en el mismo mensaje. **
What to read next
Want more posts about AI?
Posts in the same category are usually the best next step for reading more on this topic.
View same categoryWant to keep following #AI?
Tags are useful for related tools, specific problems, and similar troubleshooting notes.
View same tagWant to explore another direction?
If you are not sure what to read next, return to the homepage and start from categories, topics, or latest updates.
Back home