بعد ستة أشهر من المشروع، لا يزال الفريق عاجزاً عن تفسير سبب استشهاد النموذج بثقة بسياسة حُدِّثت قبل عامين. نظام الاسترجاع يُرجع وثائق. النموذج يولد استجابات. الهلوسات مستمرة. التشخيص المعتاد: “نحتاج نموذجاً أفضل”. التشخيص الفعلي: طبقة الاسترجاع بُنيت كمحرك بحث، ومحركات البحث ليست أنظمة جمع أدلة.
هذا التمييز ليس لفظياً. يغيّر ما تبنيه.
سوء الفهم في RAG الذي يكلّف ستة أشهر
توليد مُعزَّز بالاسترجاع، RAG، يعني استرجاع وتعزيز وتوليد. تُركّز معظم التطبيقات المؤسسية بشدة على خطوة التوليد (أي نموذج، وأي موجّه) وتتعامل مع الاسترجاع كمشكلة محلولة لأن مكتبات البحث الدلالي موجودة والدروس التعليمية تجعل التقسيم يبدو بسيطاً.
الإخفاق المعماري في خطوة التعزيز. التعزيز ليس تسلسلاً. إنه عملية تجميع نافذة سياق تمنح النموذج الأدلة المحددة التي يحتاجها للإجابة دون فجوات. حين يفشل التعزيز، يملأ النموذج الفجوات بمعرفة التدريب. هذه هي آلية الهلوسة.
النموذج الذهني الذي يُنبئ بالفشل: إذا فكّرت في RAG كـ “بحث دلالي مع طبقة تلخيص فوقه”، ستبني بالضبط ذلك وتتساءل لماذا لا يزال النموذج يخترع أشياء.
النموذج الذهني الذي يُنبئ بالنجاح: RAG نظام جمع أدلة. طبقة الاسترجاع محقق يجب أن يُرجع الوثائق الصحيحة والمقاطع الصحيحة مع البيانات الوصفية الصحيحة. النموذج طبقة استدلال مُطبَّقة على تلك الأدلة. لا يستطيع النموذج الاستدلال بشكل جيد على أدلة سيئة.
أنماط فشل RAG البسيط
أربعة أنماط فشل تُفسّر غالبية مشاكل الهلوسة في عمليات نشر RAG المؤسسية:
التقسيم بحجم ثابت. الافتراضي في معظم الدروس التعليمية: قسّم النص كل 512 رمزاً مع تداخل 50 رمزاً. إجراء موصوف عبر صفحتين يُقسَّم عند حدود القطعة. يتلقى النموذج نصف إجراء ويملأ الباقي من التدريب. الحل: التقسيم الدلالي أو الهرمي الذي يحافظ على بنية الوثيقة.
لا إعادة ترتيب. أعلى K حسب تشابه جيب التمام ليس أعلى K حسب الصلة بالسؤال الفعلي. وثيقة ذات تشابه embedding عالٍ لمصطلحات الاستعلام قد تكون أقل صلة باهتمام المستخدم من وثيقة ذات تشابه أدنى لكنها تغطي الإجراء مباشرة. الحل: إعادة الترتيب بـ cross-encoder كمرحلة ثانية بعد الاسترجاع الأولي.
غياب تصفية البيانات الوصفية. طبقة الاسترجاع تُرجع وثائق من القسم الخاطئ أو اللغة الخاطئة أو الإصدارات المُستبدلة. لا يستطيع النموذج التمييز بين سياسة حالية وأخرى مهجورة دون بيانات وصفية زمنية وتصنيفية صريحة. الحل: كل قطعة تحمل المصدر والتاريخ والمالك والولاية القضائية والتصنيف؛ التصفية تحدث قبل البحث المتجهي، لا بعده.
لا فحص للأمانة (faithfulness). استجابة النموذج لا تُتحقق منها في مقابل السياق الذي أُعطي له. يمكن أن تكون الاستجابة طليقة وواثقة ومتعارضة فعلياً مع الوثائق المسترجعة. الحل: تسجيل درجة الأمانة كبوابة، لا كسجل لاحق.
كل نمط فشل مستقل. إصلاح التقسيم دون إصلاح إعادة الترتيب يُنتج فئة مختلفة من الهلوسة، لا هلوسة صفرية.
مجموعة الاسترجاع المتقدمة التي تعمل فعلاً
تقنيات الاسترجاع أدناه ليست قائمة تدقيق للتطبيق الشامل. كل منها يعالج نمط فشل محدداً. نشرها جميعاً دون نمط فشل مستهدف يُضيّع وقت الهندسة.
البحث الهجين مع دمج RRF. BM25 (مطابقة الكلمات المفتاحية) مدمج مع البحث المتجهي الكثيف، ونتائج مدمجة باستخدام Reciprocal Rank Fusion. يلتقط BM25 المصطلحات المطابقة تماماً، ورموز المعدات والأسماء والأرقام المرجعية التي يتعامل معها البحث المتجهي الكثيف بشكل سيئ. البحث الكثيف يلتقط الاهتمام الدلالي الذي يفوته BM25. الجمع يتفوق على كليهما منفردَين في مجموعات وثائق المؤسسات. هذا الآن هو الخط الأساسي، لا خياراً متقدماً.
HyDE (تضمين وثيقة افتراضية). بدلاً من تضمين سؤال المستخدم والبحث عن وثائق مماثلة، يولّد النموذج إجابة مثالية افتراضية للسؤال، وتُستخدم تلك الإجابة في الاسترجاع. الوثائق المسترجعة بهذه الطريقة تطابق هيكل وتحديد إجابة صحيحة بدلاً من هيكل سؤال. فعّال بشكل خاص لاسترجاع الوثائق التقنية حيث تختلف صياغة السؤال اختلافاً حاداً عن صياغة الإجابة.
RAG-Fusion. توليد صياغات متعددة لمعاد للاستعلام الأصلي، وتشغيل استرجاعات متوازية لكل منها، ودمج النتائج. يُحسّن الاستدعاء للاستعلامات التي صياغة المستخدم فيها ليست أقصر مسار للوثيقة ذات الصلة.
إعادة الترتيب بـ cross-encoder. بعد الاسترجاع الأولي، نموذج cross-encoder يُسجّل كل زوج (استعلام، وثيقة) بشكل مشترك، بدلاً من مقارنة تضمينات مستقلة. أبطأ من البحث المتجهي، يعمل على مجموعة مرشحة صغيرة (20 إلى 50 الأعلى)، ويُحسّن الدقة بشكل كبير. مكتبات مثل FlashRank توفر إعادة ترتيب بـ cross-encoder قابلة للاستضافة الذاتية.
التقسيم الهرمي. تحمل القطع الأم ملخصات الوثائق؛ القطع الابنة تحمل المحتوى التفصيلي. يعمل الاسترجاع على المستوى الأبوي لتحديد الأقسام ذات الصلة، ثم يجلب القطع الابنة للسياق. يحافظ على بنية الوثيقة مع تمكين الاسترجاع التفصيلي. مناسب للوثائق التنظيمية الطويلة والأدلة التقنية ومستودعات العقود.
طبقة الاسترجاع ليست تفصيلاً. إنها القيد الذي يحدد قدر قدرة النموذج التي يمكنك فعلاً استخدامها.
إطار التقييم الذي يمنع الندم على النشر
الفرق بين نشر RAG بدون إطار تقييم وبوجوده هو الفرق بين الآراء والأدلة. تكتشف الآراء غالباً أنها خاطئة، ويكون الاكتشاف مكلفاً.
يوفر إطار RAGAS أربعة مقاييس تقيس جودة RAG معاً دون الحاجة إلى تعليق بشري لكل استجابة:
- الأمانة (Faithfulness): هل الاستجابة مؤسسة في السياق المسترجع، أم تُدخل ادعاءات غير مدعومة بالوثائق؟
- صلة الإجابة (Answer Relevancy): هل تُعالج الاستجابة سؤال المستخدم؟
- دقة السياق (Context Precision): هل القطع المسترجعة ذات صلة بالسؤال؟
- استدعاء السياق (Context Recall): هل استُرجعت جميع القطع ذات الصلة، أم ثمة مواد مفقودة؟
الأمانة المنخفضة مع دقة السياق العالية تعني أن النموذج يتجاهل الأدلة. استدعاء السياق المنخفض يعني أن طبقة الاسترجاع تُفوّت وثائق ذات صلة. كل مقياس يُحدد طبقة مختلفة من النظام للإصلاح.
ابنِ مجموعة التقييم قبل النشر لا بعده: 50 إلى 100 سؤال تمثيلي مع إجابات متوقعة واستشهادات بالمصادر، مأخوذة من المستخدمين الفعليين. كل تغيير في الموجه وترقية للنموذج وتعديل للتقسيم وتغيير لمعلمات إعادة الترتيب يُختبر على هذا الخط الأساسي. هذا اختبار الانحدار مُطبَّقاً على نظام احتمالي.
حلقة التغذية الراجعة للإنتاج توسّع مجموعة التقييم باستمرار: تصحيحات المستخدمين والإجابات المرفوضة والاستعلامات المُصعَّدة تصبح حالات اختبار جديدة. إطار التقييم ليس بوابة لمرة واحدة، بل آلية للحفاظ على الجودة مع تطور النظام.
الأمان والأذونات في RAG المؤسسي
طبقة الاسترجاع ترث أذونات البيانات. المستخدم الذي يستعلم نظام RAG لا يجب أن يسترجع وثائق لا يستطيع الوصول إليها في النظام المصدر. تتخطى معظم عمليات نشر RAG المؤسسية هذا حتى المراجعة الأمنية.
أمان مستوى الصف في قواعد البيانات المتجهية يشترط أن تحمل كل قطعة مجموعة المستخدمين والتصنيف والولاية القضائية كبيانات وصفية، وأن يُطبَّق هذا الشرط في وقت الاسترجاع، لا بعد التصفية. التصفية بعد الاسترجاع تعني أن الوثيقة استُرجعت وتعامل معها النظام، حتى لو لم تُعرض على المستخدم. اعتماداً على الولاية القضائية، هذا مهم.
RAG ذو المحيط الخاص يحتفظ بالبيانات داخل بنية المنظمة التحتية. يعمل استدلال النموذج داخل حدود أو في بيئة سحابة خاصة. لا تغادر أي محتويات وثيقة ولا قطعة ولا embedding المحيط. بالنسبة للقطاعات المنظمة والبيانات الحساسة لـ GDPR، هذا بنية معمارية، لا تفضيل.
متطلب مسار التدقيق يستحق المعالجة الصريحة: للامتثال بقانون الذكاء الاصطناعي الأوروبي وتوافق ISO 42001، يجب أن يتمكن النظام من الإجابة على “أي وثائق أسّست هذه الاستجابة، لأي مستخدم، وفي أي وقت؟” نظام RAG بدون مسار تدقيق غير ممتثل بغض النظر عن دقة استجاباته.
حين لا يكون RAG الجواب
RAG البنية الصحيحة لفئة محددة من مسائل المعرفة المؤسسية: الإجابة على الأسئلة عبر مجموعة وثائق متباينة حيث يمكن تأسيس الإجابة في مقاطع محددة.
ليست البنية الصحيحة لكل مسألة استرجاع معرفة.
إذا كان السؤال يتطلب تركيباً عبر مئات الوثائق في وقت واحد، وتتبع العلاقات بين الكيانات عبر مجموعة، أو ربط المتطلبات التنظيمية عبر ولايات قضائية متعددة، فـ GraphRAG أكثر ملاءمة. الاسترجاع القائم على الرسم البياني يجتاز علاقات الكيانات؛ الاسترجاع المتجهي يجد مقاطع مماثلة. هذان عمليتان مختلفتان.
إذا كان مجال المعرفة عالي التنظيم أو جدولياً أو معاملاتياً، فطبقة الاستعلام الحتمي أكثر موثوقية من الاسترجاع المتجهي. النموذج الذي يولّد SQL ويُنفّذه على قاعدة بيانات منظمة سيتفوق على البحث المتجهي المُطبَّق على وثائق تصف بيانات منظمة.
إذا كانت المعرفة ثابتة ومحدودة النطاق وثابتة، فقد تتفوق طبقة سياق مُجمَّعة أو نموذج مُضبَّط على الاسترجاع. RAG يُضيف كموناً وتعقيداً مقابل فائدة لا تتحقق إلا حين يكون مجال المعرفة كبيراً وديناميكياً ومتبايناً.
الإطار الصحيح: RAG بنية استرجاع أدلة. طابق البنية مع الهيكل المعرفي للمسألة. ابدأ بهذا السؤال، لا بالإطار الأسهل نشراً.
خط أنابيب الاستيعاب هو حيث تُنشأ معظم مشاكل جودة RAG قبل أن يرى النموذج أي استعلام. تلك البنية مُغطاة هنا.
إذا كان فريقك يُقيّم أي بنية استرجاع تلائم حالة استخدامك المحددة، فـ رحلة فرصة AI هي كيف نبدأ.