مشكلة موقع الخطأ بعد تخفيض التكلفة في التوجيه متعدد النماذج
ما توفره في خفض التكلفة هو المال مقابل مكالمة واحدة، ولكن ما تدفعه عبر الإنترنت هو تكلفة التكرار، وتكلفة الإسناد، والوقت الذي يستغرقه سوء الحكم على المشكلة من "الجودة" إلى "العشوائية" مرارًا وتكرارًا.
المرة الأولى التي شعرت فيها بوجود خطأ ما عبر الإنترنت كانت شكوى يصعب تفسيرها: لقد طرح نفس المستخدم نفس السؤال ثلاث مرات خلال 5 دقائق. في المرة الأولى استجاب بشكل جيد، وفي المرة الثانية بدأ يتحدث هراء، وفي المرة الثالثة عاد الأمر إلى طبيعته.
لا توجد أي خلل في السجلات، وزمن الاستجابة مستقر، ولم يرتفع استخدام الرمز المميز. التغيير الوحيد الذي يمكن رؤيته هو أننا قمنا للتو بتشغيل “التوجيه متعدد النماذج” واستخدمنا نماذج أرخص لتغطية جزء من حركة المرور.
في ذلك الوقت، كان حدس الفريق متسقًا للغاية: النموذج عبارة عن توزيع احتمالي، والتقلبات طبيعية. علاوة على ذلك، فإن التوجيه عبارة عن طبقة واحدة فقط من البوابة، فما هي المشاكل الكبيرة التي يمكن أن تحدث؟
وفي الأسبوعين التاليين، عانينا من هذه الجملة عدة مرات.
الحكم الأساسي
تتمثل التكلفة الأساسية للتوجيه متعدد النماذج في تغيير سلوك الطلب نفسه من “قابل للتكرار” إلى “التوزيع الاحتمالي”.
في عصر النموذج الواحد، بغض النظر عن مدى صعوبة المشكلة عبر الإنترنت، طالما أنك تحصل على الإدخال والموجه والسياق ورقم الإصدار، فمن المرجح أن تتمكن من إعادة إنتاجها في بيئة معينة، ثم اتبع سلسلة الاتصال لتحديد السبب الجذري.
بمجرد تضمين التوجيه، ستصبح المشكلة:
-ما النموذج والإصدار وما هي مجموعة المعلمات التي استخدمتها هذه المرة؟
- لماذا تم اختيار المسار بهذه الطريقة، وما هي الخصائص التي وصلت إليها العتبة؟
- هل سلكت مسارات مختلفة مرتين في نفس الجلسة؟
- عند حدوث فشل، هل من الممكن إعادة تنفيذ “القرار الذي تم اتخاذه في ذلك الوقت”؟
إذا لم تكن هناك سجلات يمكن تتبعها وآليات التراجع، فستتم ترقية الأخطاء عبر الإنترنت من “نموذج غير دقيق” إلى “سبب جذري غير قابل للتحديد”.
كيف تصبح الأمور أكثر صعوبة خطوة بخطوة
لقد اعتمدنا أبسط إستراتيجية في البداية: استخدم النماذج الصغيرة كلما أمكن ذلك، وقم بالترقية إلى النماذج الكبيرة فقط عندما “تبدو معقدة”.
ما يسمى بـ “المظهر المعقد” هو بعض الميزات الرخيصة: طول الإدخال، وما إذا كان يحتوي على كتل تعليمات برمجية، وما إذا كانت هناك جولات متعددة من الحوار، وثقة مصنف صغير.
كانت الموجة الأولى من المشاكل بعد الاتصال بالإنترنت هي فشل طرق استكشاف الأخطاء وإصلاحها.
لا يمكن لزملاء الاختبار إعادة إنتاج نفس المطالبة في بيئة التدرج الرمادي، ولا يمكن للمطورين إعادة إنتاجها محليًا. في النهاية، يمكن للمستخدمين عبر الإنترنت فقط تشغيله بشكل ثابت.
لقد اشتبهنا ذات مرة في أنه كان خطأً في ربط السياق أو التخزين المؤقت أو بعض المعالجة اللاحقة. ولم نكتشف أنه تم استخدام نموذج صغير عبر الإنترنت هذه المرة إلا بعد أن حصلنا على الإدخال الكامل للطلب، وتم استخدام النموذج الكبير افتراضيًا عندما قمنا بإعادة إنتاجه.
هذا هو “تغيير المسار”.
تؤدي تغييرات المسار إلى تغيير عملية استكشاف الأخطاء وإصلاحها من “الإدخالات المتكررة” إلى “القرارات المتكررة”. لا يمكن إعادة القرارات في ذلك الوقت.
سوء الفهم 1: تعامل مع التوجيه باعتباره تحسينًا خالصًا للتكلفة
ما تراه في جدول التكلفة هو:
- 30% من الحركة تذهب إلى الموديلات الصغيرة
- انخفض متوسط تكلفة المكالمة بنسبة 18%
لكن ما لا يمكنك رؤيته في جدول الأخطاء هو:
- ستستغرق كل مشكلة في الجودة يومًا أو يومين إضافيين لتحديد ما إذا كانت ناجمة عن التوجيه.
- يتطلب النسخ عبر الإنترنت “سياقًا أكثر اكتمالًا لصنع القرار”
- لم يعد التراجع “نموذج التراجع”، بل “إستراتيجية التراجع + عتبة التراجع + منطق استخراج ميزة التراجع”
عندما تتعامل مع التوجيه كتغيير بسيط مثل “تغيير المورد”، سيتعين عليك بالتأكيد دفع الفائدة لاحقًا في استكشاف الأخطاء وإصلاحها.
سوء الفهم 2: تفسير عدم الاستقرار على أنه “LLM عشوائي بطبيعته”
معظم المشاكل الناجمة عن عشوائية النموذج الواحد هي “أخذ عينات من نفس المدخلات عدة مرات بمخرجات مختلفة”.
المشكلة الناجمة عن عشوائية التوجيه هي أن “نفس المدخلات تذهب إلى أنظمة مختلفة.”
كلاهما يبدو وكأنه تقلبات، ولكن يتم تشخيصهما بطرق مختلفة تماما.
غالبًا ما يقوم الأول بضبط درجة الحرارة ومطالبات النظام وإضافة القيود؛ وعلى الأخير أن يجيب أولاً: هل أخطأوا هذه المرة؟
بدون توجيه سجلات القرار، سيقع الفريق في عادة سيئة للغاية: إرجاع جميع الحالات الشاذة إلى “عدم استقرار النموذج”، وبالتالي تصبح الإستراتيجية أكثر عدوانية، وتصبح الجودة أشبه بالنرد أكثر فأكثر.
ثلاثة أنواع من إمكانية التتبع التي يجب إكمالها بالفعل
لجعل التوجيه نظامًا “قابلاً لاستكشاف الأخطاء وإصلاحها”، يجب إكمال ثلاثة أنواع من السجلات على الأقل، ويجب أن تكون قابلة للربط معًا في بُعد طلب واحد.
1) سجل قرار التوجيه (سجل القرار)
لا تسجل فقط “النموذج الذي تم اختياره”، بل سجل أيضًا:
- مجموعة المرشح (ما هي النماذج المتاحة المتوفرة في ذلك الوقت)
- تسجيل النقاط أو الحكم العتبي لكل مرشح
- قيم الميزات المستخدمة (طول الإدخال، العد متعدد الجولات، مخرجات المصنف، وما إلى ذلك)
- رقم إصدار السياسة (حرج للغاية)
بهذه الطريقة فقط يمكننا الإجابة على “لماذا اخترتها هذه المرة؟”
2) طلب لقطة (إعادة تشغيل اللقطة)
ويجب توفر ما يلي على الأقل في حالة الفشل:
- إدخال المستخدم الخام
- تم إرسال المطالبة فعليًا إلى النموذج (بما في ذلك كلمات موجه النظام والسياق المقسم ونتائج الأداة)
- تكوين المفتاح (درجة الحرارة، top_p، max_tokens، التوقف، ومفتاح ما بعد المعالجة الخاص به)
بدون لقطات، التكرارات هي مجرد تخمين.
3) التراجع عن التوجيه (التراجع البدائي)
يجب أن يكون التراجع “تقريبيًا” بدرجة كافية ويمكن تنفيذه بنقرة واحدة:
- إجبار جميع اللاعبين على اتباع نموذج ثابت معين
- أو إصلاح إصدار إستراتيجية معينة
لا تتوقع تغيير العتبة مؤقتًا في حالة وقوع حادث. والمطلوب في الحادث هو اليقين.
حالة الفشل: “عتبة التكيف” التي تبدو ذكية
لقد جربنا لاحقًا أسلوبًا أكثر “ذكاءً”: ضبط الحد ديناميكيًا استنادًا إلى إشارة الجودة للدقائق العشر الماضية للسماح للنموذج الصغير بابتلاع المزيد من حركة المرور.
والنتيجة هي تذبذب ذاتي نموذجي للغاية:
- النماذج الصغيرة تبتلع أكثر وتصبح إشارة الجودة أسوأ
- يتم رفع العتبة، وتبتلع النماذج الكبيرة المزيد، وتصبح إشارة الجودة أفضل.
- يتم خفض العتبة، وتبتلع النماذج الصغيرة المزيد
ظاهريًا، يبدو الأمر وكأنه “أوقات جيدة وأوقات سيئة”، لكن على المستوى الداخلي، تتعثر الإستراتيجية.
إذا لم يكن هناك رقم إصدار السياسة وسجل القرار لهذا النوع من المشاكل، فمن المستحيل شرحها بوضوح، ناهيك عن إصلاحها.
الحدود القابلة للتطبيق
التوجيه متعدد النماذج ليس مستحيلاً، لكنه مناسب أكثر للفرق التي تستوفي المتطلبات الأساسية التالية:
- هل من المقبول دفع تكاليف إضافية للتخزين والامتثال للخصوصية من أجل إمكانية التتبع؟
- احصل على مقاييس وتحذيرات جودة واضحة، بدلاً من الاعتماد على شكاوى المستخدمين
- هل يمكن الحفاظ على الإستراتيجية باعتبارها “نظامًا عبر الإنترنت” مع الإصدارات والتدرجات الرمادية والتراجعات؟
إذا كانت إمكانية الملاحظة الحالية لا تزال مقتصرة على “حجم الطلب، والتأخير، ورمز الخطأ”، فلا تتعجل في القيام بتوجيه معقد حتى الآن. قد يتم فقدان الأموال المحفوظة في وقت استكشاف الأخطاء وإصلاحها.
ملخص
إن أكثر ما يتم الاستهانة به في التوجيه متعدد النماذج هو أنه يغير كائنات استكشاف الأخطاء وإصلاحها.
ما كان يتم إعادة إنتاجه كان عبارة عن مدخلات، ولكن ما يجب إعادة إنتاجه الآن هو اتخاذ القرار. بدون سجلات القرار ولقطات الطلب وبدائل التراجع، ستصبح حالات الفشل عبر الإنترنت “عشوائية” ولا يمكن تفسيرها وإصلاحها.
من السهل حساب حسابات خفض التكلفة، في حين أن الحسابات المتكررة هي الأصعب في الحساب، ولكنها ستظهر بالتأكيد في مراجعة الحادث في النهاية.
What to read next
Want more posts about AI?
Posts in the same category are usually the best next step for reading more on this topic.
View same categoryWant to keep following #AI?
Tags are useful for related tools, specific problems, and similar troubleshooting notes.
View same tagWant to explore another direction?
If you are not sure what to read next, return to the homepage and start from categories, topics, or latest updates.
Back home