Back home

الأخطاء الواثقة الناتجة عن استدعاء RAG العالي

ما يخرج عن نطاق السيطرة حقًا أولاً هو عندما تدخل الأدلة المتضاربة والمستندات منتهية الصلاحية والمحتوى ذو الأذونات غير المتسقة في السياق معًا. تبدأ الإجابة بالاكتمال، لكن سلسلة الأدلة تصبح فضفاضة.

عندما تقوم العديد من الفرق بإدخال RAG إلى العمل لأول مرة، فإن المؤشر الأول الذي يركزون عليه عادة هو حجم عمليات الاسترداد.

إذا لم تكن 3 ضربات كافية، قم بتعديلها إلى 8 ضربات؛ إذا كانت 8 نتائج لا تزال غير مستقرة، فاستمر في تخفيف عتبة تشابه المتجهات، ثم قم بتكديس BM25 وتصفية العلامات وتوسيع المرادفات معًا. يبدو معدل النجاح على اللوحة جيدًا، ويبدو أن الكثير من المشكلات قد تم “تغطيتها”. ولكن بعد تشغيل الإنترنت لفترة من الوقت، ظهر نوع آخر من الأسئلة الأكثر صعوبة: بدأت الإجابات تبدو أكثر فأكثر وكأنها الحقيقة، وأصبحت النغمة أكثر اكتمالا. ومع ذلك، بمجرد فحص المصدر بعناية، تم خلطه مع قواعد الإصدار القديم ومستندات المستأجر الأخرى وإجراءات التشغيل القياسية القديمة وحتى التعليمات المتعارضة.

حكمي على هذا النوع من المشاكل هو: ** غالبًا ما تعاني موثوقية RAG من “تذكر الكثير من الأشياء التي لا ينبغي أن تظهر في نفس الوقت.” بمجرد امتلاء السياق بمعلومات متضاربة، ومستندات منتهية الصلاحية، ومحتوى بأذونات غير متسقة، لن يخبرك النموذج بصراحة “الأدلة متعارضة ولا يمكن الإجابة على الإجابة”. من الشائع أكثر اتباع جمود اللغة وخياطة هذه الأجزاء في إجابة تبدو كاملة، ولكن في الواقع تم تخفيف سلسلة الأدلة. **

يبدو هذا النوع من المشاكل في البداية كأنه استدعاء غير كافٍ، ولكن يتبين لاحقًا أنه تلوث للسياق.

هذه هي المرة الأولى التي أوضح فيها هذا الحكم. ظاهريًا، يبدو أن إجابة النموذج قصيرة جدًا، لكنها في الحقيقة أقرب إلى أنها سلسة جدًا.

السيناريو عبارة عن جلسة أسئلة وأجوبة للمعرفة الداخلية داخل المؤسسة. طرح المستخدم سؤالاً محددًا للغاية في رابط الموافقة على السداد: بعد تجاوز رحلة عمل خارجية الحد الأقصى، هل يجب الذهاب إلى المشرف المباشر للموافقة أولاً، أو الذهاب إلى مركز التكلفة للمراجعة أولاً. غالبًا ما يفشل النظام في الإجابة على الأسئلة في البداية، والسبب بسيط. تتناثر الأنظمة ذات الصلة في قواعد معرفية مختلفة، وغالبًا ما لا تحصل عمليات البحث عن المتجهات إلا على نصفها فقط.

لذلك أجرى الفريق جولة نموذجية جدًا من التحسينات:

  • رفع درجة topK من 4 إلى 10؛
  • تمت إضافة كلمات رئيسية لتذكير النتيجة النهائية؛
  • مطابقة التعبيرات المترادفة المريحة؛
  • ضع الإعلانات التاريخية والأسئلة الشائعة ونصوص النظام معًا في مجموعة المرشحين.

أنها تعمل بشكل جيد على المدى القصير. لم يعد الرد هو “لم يتم العثور على معلومات ذات صلة”، ولكن يمكن الآن تنظيم الخطوات الكاملة. تبدأ المشكلة هنا: أبلغ المستخدمون أن الإجابة “تبدو وكأنها الإجابة الصحيحة”، ولكن إذا اتبعوها بالفعل، فسوف يقومون بالترتيب الخاطئ.

لاحقًا، عندما قمت بتفكيك إجابة خاطئة ونظرت إليها، ظهرت ثلاثة أنواع من المواد في وقت واحد في سياق النموذج:

  1. سلسلة الموافقات في النظام القديم قبل نصف عام؛
  2. شروط الاستثناء في نص النظام الجديد.
  3. وصف لكيان إقليمي آخر في الأسئلة الشائعة.

كل واحدة من هذه المواد الثلاث ليست تافهة، بل إنها تبدو “ذات صلة كبيرة” عند عرضها بشكل فردي. المشكلة هي أنهم لا ينتمون إلى نفس مساحة القرار. ما يحصل عليه النموذج هو مجموعة من الأجزاء المترابطة من حيث الكلمات ولكن لها حدود عمل غير متناسقة. وفي النهاية، كانت الإجابة التي تم التوصل إليها هي عجن المواد الثلاث وتحويلها إلى عملية جديدة.

هذا هو المكان الذي من المرجح أن يساء فيه الحكم على العديد من مشاريع RAG: على السطح، يبدو أن “الاستدعاء أصبح أقوى”، ولكن في جوهره، فإنه يرفع خطأ الاسترجاع من “نقص الأدلة” إلى “الأدلة القذرة التي تدخل مرحلة التوليد”.

بعد المزيد من عمليات الاستدعاء، لن يصبح النموذج أكثر حذرًا، بل سيصبح أفضل في إصلاح اللحامات.

الموقف الشائع هو أنه بشكل افتراضي، فإن إعطاء النموذج المزيد من المعلومات سيؤدي، في أحسن الأحوال، إلى السماح له بالاختيار.

لكن الوضع الحقيقي أقرب إلى آلية أخرى: كلما زاد السياق، زادت الأجزاء، وكلما كانت العلاقة الدلالية أكثر مرونة، كان من الأسهل على النموذج تهجئة “معقول جزئيًا” إلى “صحيح بشكل عام”. **

وذلك لأن مرحلة الإنشاء تواجه سلسلة نصية تم تحويلها إلى خطية. وطالما أن هذه النصوص يمكن أن تجسر حرفيًا بعضها البعض، فإن النموذج سيميل بطبيعة الحال إلى سد الفجوة. سيكون هذا الاتجاه قويًا بشكل خاص في المواقف التالية:

  • الوثيقتان لهما استنتاجات مختلفة، لكنهما تشتركان في الكثير من المصطلحات التجارية؛
  • عندما أطاح النظام الجديد بالنظام القديم، لم يقل بوضوح “ألغيت القواعد القديمة”؛
  • الأسئلة الشائعة تلخص النص بعبارات عامية، ولكنها تغفل الشروط المطبقة؛
  • يتم استدعاء المحتوى متعدد المستأجرين، ومتعدد المناطق، ومتعدد الإصدارات معًا، ولكن يتم تمييزه فقط في بيانات التعريف.

في هذا الوقت، لن يعرض النموذج بشكل مباشر عبارة “أرى تعارضًا”، ولكنه غالبًا ما يقوم بثلاثة أشياء:

  1. إعطاء الأولوية للجمل التي تشكل السرد الكامل على أفضل وجه؛
  2. قم بملء اتصالات السبب والنتيجة التي لم يتم ذكرها صراحةً في السياق تلقائيًا؛
  3. ابتلاع الشروط الحدودية واستبدالها بعبارات أشبه بالقواعد العامة.

في النهاية، ما يراه المستخدم هو إجابة سلسة وكاملة ويبدو أنه تم الحكم عليها بشكل شامل. الخطر الحقيقي هو أنه يثير الصراع.

المستندات القديمة ليست ضجيجًا، فهي ستخفف بشكل فعال من وزن الأدلة الجديدة

عندما تقوم العديد من الفرق باستكشاف أخطاء إجابات RAG غير الصحيحة وإصلاحها، فقد اعتادوا على التعامل مع المستندات منتهية الصلاحية كنوع من “الضوضاء منخفضة الجودة” ويشعرون أنه طالما أن العدد صغير، فهذه ليست مشكلة كبيرة.

ولكن خلال مرحلة الإنشاء، غالبًا ما تكون المستندات منتهية الصلاحية بمثابة أدلة متنافسة تعمل على تغيير تركيز الإجابة بشكل فعال.

المثال الأكثر نموذجية الذي رأيته هو قاعدة معارف خدمة العملاء. لقد تم تغيير قاعدة معينة لاسترداد الأموال في الإصدار الجديد من السياسة، ولكن من المرجح أن يحصل الإصدار القديم من الأسئلة الشائعة على تصنيف أعلى في مرحلة الاستدعاء بسبب العدد الكبير من الزيارات والمزيد من التعبيرات العامية. نص السياسة الجديدة مكتوب بدقة ولكن بصعوبة؛ تمت كتابة الأسئلة الشائعة القديمة بسلاسة وتحتوي على قالب بلاغي كامل. ونتيجة لذلك، عندما يجيب النموذج، فمن السهل جدًا اعتبار الإصدار الجديد من القواعد بمثابة قيود محلية والأسئلة الشائعة القديمة باعتبارها السرد الرئيسي.

غالبًا ما تبدو الإجابة النهائية كما يلي:

通常情况下用户可先申请原路退款,如遇活动商品则需进一步审核。

أقوى شيء في هذه الجملة هو أنه يمكن العثور على كل كلمة تقريبًا في السياق، لكن الجملة بأكملها نفسها غير موجودة في أي مصدر واحد. ربما تم تغيير القاعدة الجديدة الحقيقية إلى “المنتجات النشطة لا تدعم المبالغ المستردة الأصلية”، وتم استخدام “عادة” في الأسئلة الشائعة القديمة بواسطة النموذج كجملة عامة، مما يؤدي مباشرة إلى منع القاعدة الجديدة وتحويلها إلى استثناء.

ولذلك، فإن مشكلة المستندات منتهية الصلاحية لا تكمن أبدًا في “خلط المعلومات القديمة”، ولكن هذه المعلومات القديمة غالبًا ما تكون أشبه بالكلام البشري ويسهل استخدامها كهيكل عظمي بواسطة العارضات**.

يعد استدعاء الأذونات غير المتسقة أكثر إزعاجًا من الإجابات الخاطئة لأنه سيؤدي إلى إنشاء إجابات “تبدو قائمة على أساس جيد” تتجاوز السلطة.

هناك مشكلة أخرى غالبًا ما يتم الاستهانة بها وهي حدود الأذونات.

تضع العديد من أنظمة RAG الداخلية التحقق من الأذونات على مستوى “ما إذا كان من الممكن فتح المستند”، معتقدة أنه طالما لم يتم عرض النص الأصلي للمستخدم في النهاية، فسيكون الأمر على ما يرام. الخطر الحقيقي للنظام التوليدي هو: **طالما أن الوثيقة المقيدة تدخل في السياق، حتى لو لم يتم نشر النص الأصلي في النهاية، فإن الإجابة نفسها قد تكون كشفت عن أحكام لا ينبغي معرفتها. **

على سبيل المثال، عندما تطرح المبيعات سؤالاً حول الموافقة على العقد، لا توجد سوى إجراءات عامة في قاعدة المعرفة العامة، ويوجد شرط استثناء للعملاء المميزين في قاعدة المعرفة القانونية. إذا كانت مرحلة الاسترجاع تقوم فقط بـ “الاستدعاء أولاً، ثم الاقتصاص”، فقد يكون النموذج قد استفاد من قاعدة الاستثناء هذه في مرحلة المسودة، وأخرج أخيرًا اقتراحًا محايدًا على ما يبدو:

عادةً ما يحتاج هؤلاء العملاء إلى موافقة إضافية من الرئيس الإقليمي.

لا يمكن للمستخدم رؤية المستند المقيد، ولكن تم إعطاؤه قاعدة تنظيمية لا ينبغي له أن يعرف عنها. والأمر الأكثر إثارة للقلق هو أن هذه الجملة يصعب تحديدها على أنها تسرب في شكلها، لأنها أقل شبهاً بالنسخ واللصق وأكثر أشبه بنموذج “لخصها بنفسها”.

لذلك، لا يمكن فهم مشكلة الإذن على أنها تحكم في الوصول فحسب، بل يجب أن تُفهم على أنها تحكم في مصدر الأدلة. بمجرد إدخال المواد التي لا تنتمي إلى نفس النطاق المرئي إلى النموذج معًا، يكون النظام قد تجاوز الخط. إن القيود اللاحقة لإزالة التحسس والمرجع تتعامل فقط مع التلوث الذي حدث بالفعل.

ما يجب تحسينه حقًا هو السماح للأدلة بالتقارب وفقًا لحدود القرار أولاً

أصبحت العديد من أنظمة RAG أكثر فوضوية في وقت لاحق. ظاهريًا، يبدو أن النموذج ضعيف جدًا. في الواقع، هو أقرب إلى مرحلة الاسترجاع واتجاه التحسين نفسه متحيز.

ما من المرجح أن تنغمس فيه الفرق هو التعامل مع عمليات الاسترجاع باعتبارها مشكلات في محرك البحث:

  • إذا لم يكن الارتباط كافيا، أضف قناة استدعاء؛
  • إذا لم تكن التغطية كافية، أضف المزيد من القليل من topK؛
  • طريقة استعلام المستخدم غير مستقرة، لذا أعد كتابة المزيد من الاستعلام.

هذه الإجراءات ليست بالضرورة خاطئة، ولكن إذا كان هناك نقص في قيود “حدود القرار”، فسيتم إرسال المزيد من المواد التي لا ينبغي أن تظهر في نفس الوقت إلى مرحلة التوليد.

ما سأوليه مزيدًا من الاهتمام لاحقًا هو مجموعة أخرى من تسلسلات التقارب:

1. قم بتقارب النطاق أولاً، ثم قم بفرز الارتباطات.

يمكن للعديد من الأسئلة والأجوبة أن تحد من النطاق قبل الاسترجاع الدلالي، مثل:

  • الكيان التنظيمي؛
  • المنطقة أو البلد؛
  • الوقت الفعال.
  • نوع الوثيقة؛
  • مجال أذونات المستخدم.

إذا لم يتم أخذ هذه الشروط في الاعتبار أولاً، وكان الترتيب يعتمد فقط على تضمين التشابه، فستتضمن النتيجة بالتأكيد أشياء “متشابهة”. وذلك لأن مجموعة المرشحين تم تعريفها بشكل خاطئ.

2. تعامل مع الإصدار والوقت الفعال كمواطنين من الدرجة الأولى بدلاً من البيانات الوصفية الفرعية

من الواضح أن العديد من قواعد المعرفة تحتوي على حقول updated_at وversion وstatus، ولكنها تُستخدم فقط في طبقة العرض التقديمي وبالكاد تشارك في اتخاذ القرار عند استرجاع السياق وتوضيحه. بهذه الطريقة، يتم التعامل مع المستند القديم والمستند الجديد على قدم المساواة، وليس لدى النموذج أي فكرة عن من يجب أن يحل محل من.

النهج الأكثر استقرارًا هو التعامل مع علاقة التغطية بشكل صريح:

  • لا تدخل المستندات المهملة إلى سياق الإنشاء بشكل افتراضي؛
  • عندما تتعارض القواعد القديمة والجديدة، يتم وضع علامة عليها مباشرة على أنها تعارض ولا يُسمح بتوليف النموذج بحرية؛
  • لا يمكن للأسئلة الشائعة أن تغطي النص الرئيسي للنظام ويمكن استخدامها فقط كطبقة شرح لاستكماله.

3. دع الصراع ينكشف بدلاً من أن يكون النموذج هو الحكم بدلاً من النظام.

تقوم العديد من الأنظمة افتراضيًا بربط العديد من المواد المرشحة مباشرةً وتسليمها إلى النموذج، على أمل أن “يفهمها النموذج بشكل شامل” من تلقاء نفسه. هذه الخطوة هي على وجه التحديد الأكثر خطورة، لأنها تستعين بمصادر خارجية للتعامل مع تعارض الأدلة مع الطبقة الأفضل في تصحيح الثغرات.

إذا كان هناك مستندان كبيران يحملان استنتاجات متعارضة، فإن سلوك النظام الأكثر منطقية هو عادةً إخبار المستخدم صراحةً بما يلي:

  • تم العثور على قواعد متضاربة.
  • أين هي نقاط الصراع؟
  • ما هو الإصدار المستخدم حاليًا بشكل افتراضي، أو يلزم التأكيد اليدوي.

لا يبدو الأمر حريريًا، لكن يمكن التحكم فيه حقًا. إن الاعتراف بالصراع يشبه نظامًا موثوقًا به أكثر من تقديم إجابة كاملة ولكن مغشوشة.

حالة فشل شائعة بشكل خاص: التعامل مع إعادة الترتيب كحل نهائي

بعد أن وجدت العديد من الفرق أنه “كلما زاد عدد عمليات الاستدعاء، زادت الفوضى”، فسيستخدمون أداة إعادة الترتيب على الفور. ونتيجة لذلك، تحسنت بالفعل جودة الفرز، لذلك يعتبرون أن المشكلة قد تم حلها.

ولكن ما يمكن أن يحله معيد الترتيب هو بشكل أساسي “من يشبه إجابة السؤال” ؛ لا يمكن أن يحل “ما إذا كان هؤلاء المرشحون ينتمون إلى نفس مساحة الحقائق المدمجة”.

إذا كانت المجموعة المرشحة تحتوي على كليهما:

  • قواعد المنطقة أ 2024؛
  • قواعد المنطقة ب 2025؛
  • تعليمات الاستثناء الداخلي للمسؤولين؛
  • الأسئلة الشائعة للموظفين العاديين؛

يقوم مُعاد الترتيب بتصنيف مقالتين أو ثلاث مقالات فقط أعلى. ولا يمكن أن يقرر بشكل أساسي للنظام ما إذا كان يمكن تغذية هذه المواد إلى النموذج معًا.

يوضح هذا أيضًا أن العديد من مراجعات RAG تبدو جيدة خارج الإنترنت، ولكنها تبدأ في الانحراف بمجرد دخولها إلى مشاهد معقدة عبر الإنترنت. غالبًا ما تكون الأسئلة والأجوبة في المجموعات غير المتصلة بالإنترنت فردية وقياسية ولها حدود واضحة؛ التعقيد الحقيقي للأسئلة عبر الإنترنت هو أنها مرتبطة بالإصدارات والأذونات والهياكل التنظيمية والاستثناءات. يؤدي الفرز إلى وضع المواد الأكثر تشابهًا في المقام الأول فقط، ولا يؤدي إلى إدارة الفريق تلقائيًا.

الحدود المطبقة: لا ينبغي لجميع السيناريوهات أن تقلل من مبلغ الاستدعاء

إن القول بأن “عدد كبير جدًا من عمليات الاستدعاء يجعل من السهل ارتكاب الأخطاء” لا يعني أن جميع الأنظمة يجب أن تقوم بتقليل حجم topK إلى مستويات صغيرة جدًا.

إذا كنت تقوم بإجراء أسئلة وأجوبة استكشافية، وجمع البيانات، والمساعدة البحثية، فمن المعقول تقديم المزيد من المواد، والمستخدمون على استعداد لقبول “هناك آراء متعددة هنا”. في هذا السيناريو، هدف النظام هو مساعدة المستخدمين على التنقل في مساحة المعلومات.

ما يحتاج حقًا إلى التحكم الصارم في حدود الاستدعاء هو تلك السيناريوهات التي سيتم فيها تنفيذ الإجابة مباشرة، مثل:

  • أسئلة وأجوبة مؤسسية؛
  • عملية الموافقة؛
  • عيار خدمة العملاء؛
  • دليل التشغيل والصيانة؛
  • دعم القرار الطبي والمالي ودعم الامتثال.

في هذه السيناريوهات، فإن القدرة الأكثر أهمية للنظام هي “عدم دمج الأدلة غير المتوافقة بشكل متبادل في تعليمات قابلة للتنفيذ.” بمجرد أن تصبح تكلفة الإجابة الخاطئة أعلى من تكلفة عدم القدرة على الإجابة، لم تعد استراتيجية البحث تدور حول التغطية فقط.

ملخص

الشيء الأكثر إدمانًا في RAG هو أنه يمكنه دائمًا جعل بيانات اللوحة تبدو أفضل على المدى القصير من خلال “تذكر المزيد”.

ولكن بعد الإطلاق الفعلي لنظام المعرفة، فإن أصعب شيء في جمعه هو ما إذا كانت المواد التي تدخل السياق تنتمي إلى نفس مجموعة حدود الحقيقة، ونفس دلالات الإصدار، ونفس نطاق السلطة.

وطالما لم تتم تسوية السؤال أولاً، كلما زاد عدد عمليات التذكر، كلما بدا النموذج وكأنه شخص جيد بشكل خاص في كتابة الملخصات: قد لا يقول بالضرورة هراءً عن عمد، ولكنه سيخيط أدلة لا ينبغي تجميعها معًا في إجابة تشبه إلى حد كبير الاستنتاج.

لذلك، في الخطوة التالية من تحسين RAG، لا ينبغي لنا في كثير من الأحيان أن نسأل “ما هو مقدار ما يمكن تذكره”، ولكن نسأل أولاً: **ما المحتوى الذي لا ينبغي أن يظهر معًا في نفس الموجه على الإطلاق. **

FAQ

What to read next

Related

Continue reading