كيف تبني منظومة تقييم قبل إطلاق RAG في الإنتاج

تنشر فرقة العمليات القانونية نظام RAG لمراجعة العقود. يعمل النظام بشكل جيد عند الإطلاق. بعد ستة أشهر، يُحدّث الفريق مجموعة الوثائق. يلاحظ محامٍ أول أن النظام يستشهد ببنود لم تعد سارية. لا أحد يعرف متى بدأ الانحدار. منظومة التقييم لم تُبنَ قط. كل تغيير منذ الإطلاق كان تخميناً.

هذا ما يبدو عليه النشر دون تقييمات في الواقع: ليس فشلاً دراماتيكياً عند التسليم، بل انجراف بطيء غير مكتشف يظهر في أسوأ لحظة ممكنة.

منظومة التقييم ليست آخر شيء تبنيه. بل هي ما يجعل كل شيء آخر مستقراً بما يكفي للثقة به.

النشر دون تقييمات ليس أسرع

تتجاهل الفرق منظومات التقييم لأنها تبدو عبئاً إضافياً. كتابة أسئلة الاختبار وانتقاء الإجابات المرجعية وقياس المقاييس قبل أن يكون للنظام مستخدم واحد: جهد مرئي يُصرَف على شيء يبدو افتراضياً حين لا يكون النظام في الإنتاج بعد.

المحاسبة الفعلية مختلفة. نظام RAG دون منظومة تقييم لا توجد لديه طريقة لتحديد ما إذا كان التغيير حسّن الجودة أم أدهورها. كل تعديل على الموجّه قفزة في المجهول. كل تحديث لاستراتيجية التقطيع غير مختبر. كل تحديث لمزود النموذج، وكل إضافة للمجموعة المعرفية، وكل تغيير لمعامل الاسترجاع: كل واحد منها إما تحسين أو تراجع، وبلا منظومة التقييم لا أداة لإخبارك بأيهما.

دون تقييمات، يتراكم نظام في الإنتاج انحدارات غير مكتشفة حتى يفرض فشل مرئي التحقيق. بحلول تلك اللحظة، السبب مدفون تحت أسابيع أو أشهر من التغييرات، كل منها معقول منفرداً، لا أحد منها مُتتبَّع. يكلّف التحقيق أكثر مما كانت ستكلفه المنظومة. يُعطّل العلاج المستخدمين الذين بدأوا في الاعتماد على النظام.

منظومة التقييم ليست مجموعة اختبارات تُكتب بعد استقرار النظام. بل هي الأداة المستخدمة لجعل النظام مستقراً في المقام الأول. بناؤها بعد ذلك يشبه معايرة الميزان بعد وزن كل العينات.

مقاييس RAGAS الأربعة التي تهم

A RAG evaluation dashboard tying faithfulness, answer relevancy, context precision, and context recall to the system layer each metric diagnoses.

RAGAS (تقييم الجيل المعزز بالاسترجاع) إطار تقييم مفتوح المصدر يقيس جودة RAG عبر أربعة أبعاد. كل مقياس يشير إلى طبقة مختلفة من النظام، وهذا ما يجعل الإطار مفيداً للتشخيص لا مجرد التسجيل.

الأمانة تقيس ما إذا كانت الإجابة المولَّدة تحتوي فقط ادعاءات يدعمها السياق المستردّ. الإجابة الأمينة لا تُدخل معلومات لا تحتوي عليها الوثائق المستردّة. الأمانة المنخفضة تعني أن طبقة التوليد تهلوس: تُنتج ادعاءات معقولة الصوت لا أساس لها في الأدلة المستردّة. في تطبيق قانوني أو طبي أو مالي، هذه ليست مشكلة جودة. بل مسؤولية قانونية.

صلة الإجابة تقيس ما إذا كانت الإجابة المولَّدة تعالج فعلاً السؤال المطروح. يمكن لنظام أن يكون أميناً تماماً مع فشله في الإجابة عن السؤال: يلخّص الوثائق المستردّة بدقة دون معالجة ما احتاجه المستخدم. صلة الإجابة المنخفضة تشير إلى عدم توافق بين فهم الاستعلام وإطار التوليد.

دقة السياق تقيس نسبة القطع المستردّة ذات الصلة فعلاً بالإجابة عن السؤال. أنظمة الاسترجاع تجلب كثيراً وثائق مجاورة دلالياً للاستعلام لكنها لا تحتوي الأدلة المطلوبة. هذه القطع غير ذات الصلة تُخفّف السياق وقد تُضلّل طبقة التوليد. دقة السياق المنخفضة تشير إلى ترتيب الاسترجاع: يسترجع النظام ضجيجاً أكثر من اللازم بجانب الإشارة.

استدعاء السياق يقيس ما إذا كان الاسترجاع قد كشف جميع القطع المطلوبة للإجابة الكاملة. يمكن لنظام استرجاع وثائق ذات صلة مع تفويت القطعة الحاسمة من الأدلة. الاستدعاء المنخفض يشير إلى الاستيعاب أو التقطيع: الدليل موجود في المجموعة المعرفية لكنه إما غير مستوعب أو مُجزَّأ بطريقة تجعله غير قابل للاسترجاع للاستعلام المحدد.

القيمة التشخيصية للإطار الرباعي أن كل مقياس يُحمّل مكوّناً مختلفاً. لا تُعالج مشكلة استرجاع بإصلاحات توليد، والعكس صحيح. المقاييس تفصل الإشارة.

بناء مجموعة الأسئلة

تستلزم منظومة التقييم مجموعة اختبار من الأسئلة بإجابات مرجعية. هنا تستثمر معظم الفرق استثماراً ناقصاً، وهنا تقطن معظم القيمة فعلاً.

مجموعة الاختبار ليست عيّنة تمثيلية من الاستعلامات الممكنة. بل هي مجموعة منتقاة من الأسئلة التي تغطي أنماط الفشل التي يجب ألّا يُظهرها النظام. الفئات التي يجب تغطيتها:

الاستدعاء الواقعي: معلومة محددة من وثيقة معروفة. يتحقق الاختبار أن الاسترجاع يجد الوثيقة الصحيحة وأن التوليد يستخلص الحقيقة الصحيحة.

التركيب عبر وثائق متعددة: الإجابة الصحيحة تستلزم دمج معلومات من مصدرين أو أكثر. يختبر هذا ما إذا كان الاسترجاع يكشف مجموعة الأدلة الكاملة وما إذا كان التوليد يتكامل عبر المصادر دون إدخال تناقضات.

الفضاء السلبي: لا يمكن الإجابة عن السؤال من المجموعة المعرفية. الإجابة الصحيحة هي اعتراف صريح بأن المعلومة غير متاحة، لا إجابة مهلوسة تملأ الفجوة بمحتوى معقول الصوت. كثيراً ما يكون هذا أهم اختبار لأنظمة المؤسسات، حيث الإجابة الخاطئة الواثقة أسوأ من إجابة صادقة بـ”لا أملك هذه المعلومة”.

الاستعلامات الخصومية: صياغات قد تُثير الهلوسة. استعلامات تستخدم مصطلحات موجودة في المجموعة المعرفية لكن في سياق مختلف، أو تُدخل مقدمة خاطئة وترى ما إذا كان النظام يصحّحها أم يقبلها.

الحالات الاستثنائية الخاصة بالمجال: الأسئلة التي يُدرك الممارسون المخضرمون أنها الأكثر احتمالاً لفشل النظام. تأتي من مقابلات الخبراء ذاتها المستخدمة لبناء نظام المعرفة.

يجب كتابة مجموعة الأسئلة من قِبل خبراء المجال، لا من قِبل الفريق الذي بنى النظام. الفريق الذي بنى النظام يعرف ما يستطيع النظام الإجابة عنه. الخبراء يعرفون ما سيسأل عنه المستخدمون فعلاً. الفجوة بين المجموعتين هي حيث تعيش أهم حالات الفشل.

الحد الأدنى لمجموعة الاختبار: خمسون سؤالاً عبر فئات الوثائق الرئيسية في المجموعة المعرفية. تُشغَّل على خط أساس مرجعي قبل الإطلاق. مجموعة الاختبار ليست ثابتة: كل استعلام مستخدم ينتج إجابة خاطئة أو ناقصة مرشح للإضافة. تنمو المنظومة مع استخدام النظام، مما يعني التقاط أنماط فشل جديدة حال ظهورها لا فقط تلك المرئية قبل الإطلاق.

القياس قبل الإطلاق

لمنظومة التقييم وضعان تشغيليان: التقييم غير المتصل قبل النشر، والمراقبة المتصلة في الإنتاج.

التقييم غير المتصل يُشغّل مجموعة الاختبار على النظام قبل نشر أي تغيير. الدرجة على كل من مقاييس RAGAS الأربعة تُؤسس خط الأساس. كل تغيير لاحق، من إعادة صياغة الموجّه إلى تحديث المجموعة المعرفية إلى تغيير إصدار النموذج، يجب أن يجتاز اختبار الانحدار قبل النشر.

المراقبة المتصلة تأخذ عيّنات من استعلامات الإنتاج في شبه الوقت الحقيقي وتقيّمها وفق المقاييس ذاتها. معدل العيّنة يعتمد على الحجم والحساسية: أداة داخلية منخفضة الحجم قد تقيّم كل استعلام؛ نظام يواجه العملاء بحجم مرتفع قد يأخذ عيّنة بنسبة خمسة بالمئة ويُبلّغ عن الانحرافات الإحصائية.

للرصد المتصل، تتبع LangSmith كل خطوة من خطوات RAG مسجّلاً القطع المستردّة والإجابة المولَّدة واستخدام الرمز والكمون لكل خطوة. للبيئات التي تستلزم بقاء البيانات محلياً، حيث إرسال استعلامات الإنتاج إلى خدمة رصد سحابية يُشكّل قلقاً تنظيمياً، توفر Langfuse بديلاً ذاتي الاستضافة. الاختيار بينهما قرار حوكمة بيانات، لا قرار قدرة: كلتاهما توفران الرصد المطلوب لطبقة المراقبة.

ما يجب تسجيله كحد أدنى: نص الاستعلام، والقطع المستردّة ببيانات المصدر ومعرّفات الوثائق، والإجابة المولَّدة، وإشارات الثقة حيثما أمكن، وتغذية المستخدم الراجعة حين تلتقطها الواجهة. السجلات هي المادة الخام للمجموعة المعرفية. كلما حدّد مستخدم إجابة على أنها خاطئة، يذهب هذا الاستعلام والإجابة الصحيحة إلى مجموعة الاختبار لدورة التقييم غير المتصل التالية.

يجب تحديد عتبات التنبيه قبل الإطلاق: أي درجة أمانة تُثير مراجعة بشرية للاستعلامات الأخيرة؛ أي انخفاض في استدعاء السياق يُثير تدقيقاً في الاستيعاب؛ أي ارتفاع في زمن الاستجابة يُثير مراجعة البنية التحتية. العتبات قرارات تنظيمية، لا إعدادات افتراضية هندسية. تعكس قابلية تحمّل المخاطر للتطبيق المحدد.

بروتوكول اختبار الانحدار

كل تغيير على نظام RAG مخاطرة انحدار.

تغييرات الموجّه تؤثر على سلوك التوليد بطرق قد تكون غير قابلة للتنبؤ أحياناً. تحديثات استراتيجية التقطيع تُغيّر الأدلة المتاحة للاسترجاع. تغييرات نموذج embedding تُعدّل الفضاء الدلالي المستخدم لترتيب الاسترجاع. تعديلات معامل الاسترجاع تُغيّر حجم وتركيب السياق المستردّ. تحديثات مجموعة الوثائق تُضيف أو تُعدّل أو تستبدل محتوى تعلّمت طبقة التوليد الاعتماد عليه.

كل هذه التغييرات قد تُحسّن النظام على الحالة المحددة التي استدعت التغيير مع إدهوره على حالات لم يُؤخذ بها. دون بروتوكول اختبار انحدار، لا توجد طريقة للكشف عن الانحدار حتى يظهر كشكوى مستخدم أو فشل مرئي.

بروتوكول الانحدار: تطبيق التغيير في بيئة تجريبية، تشغيل مجموعة الاختبار الكاملة، مقارنة درجات RAGAS الأربع بخط الأساس، التحقيق في أي مقياس ينخفض، والنشر فقط حين تكون الجودة الإجمالية مستقرة أو مُحسَّنة. لا يستلزم البروتوكول الكمال في كل اختبار. يستلزم ألّا ينخفض أي مقياس تحت عتبة محددة دون قبول صريح.

بالنسبة لنظام RAG قانوني، انخفاض خمس نقاط في الأمانة بعد تحديث المجموعة المعرفية يعني أن النظام يُنتج مزيداً من الاستشهادات ببنود لم تعد سارية. هذه مخاطرة امتثالية. اختبار الانحدار يكتشفها قبل وصولها إلى المستخدمين الذين يعتمدون على النظام في قرارات فعلية.

التقييمات كقدرة تنظيمية

طوّرت Casetext، شركة الذكاء الاصطناعي القانوني التي استحوذت عليها Thomson Reuters بـ650 مليون دولار [unverified: رقم مستشهد به من التقارير الصحفية العامة؛ التحقق من التقارير الحالية قبل الاستشهاد به]، انضباط التقييم قبل تسويق ميزاتها القائمة على الذكاء الاصطناعي. منظومة التقييم لم تكن أثراً تقنياً. بل كانت الآلية التي بنى من خلالها الفريق الثقة في نظام يحتاج إلى العمل في سياق المسؤولية المهنية.

البُعد التنظيمي للتقييمات هو ما تفوّته معظم النقاشات. الفريق الذي يبني مجموعة الاختبار ويراجع درجات RAGAS ويحقق في كل انحدار يتعلم شيئاً عن مجاله ومستخدميه لا يستطيع أي قدر من رصد السجلات تكراره. يتعلمون أي استعلامات صعبة. يتعلمون أي أنواع الوثائق تُنتج إخفاقات في الاسترجاع. يتعلمون أين تكون طبقة التوليد هشة ولماذا.

نظام RAG مع منظومة تقييم يتحسن بشكل مقصود. الفريق لديه حلقة تغذية راجعة بدقة كافية لتحديد الأسباب واختبار الإصلاحات. نظام RAG بلا منظومة يتحسن عرضاً أو يتراجع بهدوء. يستجيب الفريق للإخفاقات المرئية لكن لا أداة لديه للكشف عن الإخفاقات التي لم تظهر بعد بطريقة يستطيع المستخدمون صياغتها.

نقطة البداية أبسط مما تبدو. لا تنتظر استقرار النظام قبل بناء الخمسين سؤالاً الأولى. ابنها من جلسات الخبراء ذاتها المستخدمة للاكتشاف. شغّلها على النموذج الأولي. الفجوات التي تكشفها المنظومة في مرحلة النموذج الأولي ستُشكّل معمارية النظام قبل وصول أي استعلام إنتاجي. هذا هو الوقت المناسب لاكتشافها.

منظومة التقييم ليست عبئاً. بل هي ما يجعل النظام موثوقاً بما يكفي للاعتماد عليه.

تُصمّم Terraris.ai وتنشر أنظمة RAG في الإنتاج مع منظومات تقييم مُدمجة منذ اليوم الأول. استكشف كيف نتعامل مع تنفيذ RAG للمؤسسات.