نشر نيكولو بوشي منشورًا في أبريل 2026 يجادل فيه بأن [10 ملايين رمز هو معيار الذاكرة الوحيد المهم](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). حجته محددة. عندما تصل نوافذ السياق إلى مليون رمز مميز، تجاوز حشو السياق بالقوة الغاشمة معايير الذاكرة الحالية دون أي مسار استرجاع. كل ما عليك فعله هو تفريغ كل شيء في نافذة السياق. كانت المعايير تختبر حجم نافذة السياق، وليس بنية الذاكرة.

يعمل [معيار BEAM](https://arxiv.org/abs/2504.01076) على إصلاح ذلك. يتم اختباره من 500 ألف إلى 10 ملايين رمز. في 10M، لا يوجد نموذج إنتاج يحتوي على نافذة السياق هذه. حشو السياق لا يمكن أن يعمل. مطلوب بنية الذاكرة الحقيقية.

سجل نظام Boschi، [Hindsight](https://vectorize.io)، 64.1% في فئة 10M. المركز الثاني (هونشو) بنسبة 40.6%. يبلغ خط الأساس RAG القياسي 24.9%. تأتي هذه الفجوة من الاسترجاع متعدد الاستراتيجيات: البحث الدلالي، ومطابقة الكلمات الرئيسية، واجتياز الرسم البياني، والتصفية الزمنية، ودمجها من خلال دمج الرتب المتبادل. أضف الملاحظات المحسوبة مسبقًا ودقة الكيان عبر ملايين الرموز المميزة وسيكون التأثير المركب كبيرًا.

نتائج الاسترجاع حقيقية. عند استخدام 10 مليون رمز، تحتاج إلى بنية، وليس إلى نافذة سياق أكبر. BEAM يثبت ذلك.

لقد كتبت مؤخرًا عن [لماذا لا يختبر معيار ذاكرة الذكاء الاصطناعي ما يكسر فعليًا](/posts/no-ai-memory-benchmark-tests-what-actually-breaks): استرجاع معايير الصناعة ولكن ليس تكامل الكتابة. BEAM هو أفضل معيار استرجاع رأيته. لا يزال يختبر فقط أحد وضعي الفشل. يسألك عما إذا كان بإمكانك العثور على الحقيقة الصحيحة. ولا يسأل ما إذا كانت الحقيقة التي وجدتها لا تزال صحيحة.

تتناول هذه المشاركة وقت تنشيط كل وضع فشل، وسبب أهمية الإجابة بالنسبة لما تقوم ببنائه أولاً.

## سؤال العتبة

يسأل BEAM: على أي مقياس رمزي تكون بنية الذاكرة مهمة للاسترجاع؟

الجواب: 10 مليون قطعة.

هناك سؤال ثانٍ لا تطرحه BEAM: على أي نطاق تعتبر نزاهة الدولة مهمة بالنسبة للثقة؟

هذه الإجابة مختلفة. تتدهور سلامة الحالة عند 500 ألف إلى 2 مليون رمز مميز. ما يقرب من خمس إلى عُشر المقياس الذي تصبح فيه هندسة الاسترجاع أمرًا بالغ الأهمية.

##أربعة مستويات

عند استخدام 100 ألف إلى 500 ألف رمز (بضعة أيام من الاستخدام المكثف للوكيل)، يكون الاسترجاع أمرًا جيدًا. تغطيها نافذة سياق 1M. لا حاجة لهندسة الاسترجاع. لكن سلامة الدولة مهينة بالفعل. تتراكم "Acme Corp" و"ACME CORP" و"Acme Corporation" ككيانات منفصلة. تتم الكتابة فوق التصحيحات بصمت. يعوض المستخدمون يدويًا. مزعج ولكن يمكن التحكم فيه.

عند الحصول على 500 ألف إلى 2 مليون رمز (أسابيع قليلة من استخدام وكيل الأدوات المتعددة)، يتم الوصول إلى جدار سلامة الدولة. تنتج متغيرات تحليل الكيان ارتباكًا حقيقيًا عبر مئات المراجع. إن انحراف الحالة عبر الجلسات يعني أن التصحيحات من الأسبوع الماضي قد تستمر أو لا تستمر. التجزئة عبر الأدوات تعني أن الكيان نفسه لديه تمثيلات مختلفة في Claude وCursor وChatGPT. لقد عادت ذاكرة النظام الأساسي بصمت أو تمت الكتابة فوق الحالة عدة مرات دون أي مسار للتدقيق. هذا هو المكان الذي يبدأ فيه المستخدمون في إنشاء الحلول البديلة: ملفات SOUL.md، وملفات JSON heartbeat، وعلامات تخفيض السعر CRM. تكلفة التعويض تتجاوز التسامح.

عند استخدام 2 مليون إلى 10 ملايين رمز (أشهر من استخدام الوكيل)، تتفاقم كلتا المشكلتين. تقوم RAG القياسية بإرجاع قطع حول ثلاثة "Alice" مختلفة. حتى عندما يجد الاسترجاع الكيان الصحيح، لا يمكنك التأكد من أنه الإصدار الأحدث. هل تم تطبيق التصحيح من 15 مارس؟ ما هي سلسلة المصدر؟ يعالج BEAM هذا المستوى للاسترجاع. لا أحد يقيسها من حيث سلامة الدولة.

عند استخدام 10 ملايين من الرموز المميزة وما بعدها، يكون حشو السياق أمرًا مستحيلًا. فقط بنية الذاكرة الحقيقية هي التي تبقى على قيد الحياة. هذا هو المكان الذي تظهر فيه نسبة 64.1% من Hindsight مقابل 24.9% من RAG. ولكن بدون حالة منظمة، فإن الاسترجاع يحتوي على 10 مليون رمز من الضوضاء للبحث من خلالها.

## فجوة الحجم

ليس لسلامة الدولة عتبة آمنة لا يمكن أن توجد تحتها. الملاحظة المتضاربة الأولى هي مشكلة النزاهة الأولى. أول عملية استبدال للكتابة الأخيرة هي أول تصحيح مفقود. هذه المركبات غير خطية. بحلول الوقت الذي يصل فيه المستخدمون إلى 500 ألف إلى 2 مليون رمز مميز للحالة المتراكمة، تتجاوز تكلفة الحل البديل التسامح.

الأشخاص الذين أتحدث إليهم مع الوكلاء لا يملكون 10 ملايين رمز. هم في 500K إلى 2M. إنهم يديرون 25 حلقة مستقلة مع نظام إدارة علاقات العملاء (CRM) لـ 112 شخصًا. إنهم يديرون خطوط أنابيب نبضات القلب لتطوير الأعمال. يعاني عملاؤهم من فقدان ذاكرة الجلسة بين عمليات التشغيل المجدولة. إن ألم سلامة الدولة شديد بالفعل. لم يتم تفعيل سؤال الاسترجاع بعد.

## العمارة المتقاربة

تتقارب قدرات Hindsight الأربع الفائزة بـ 10 ملايين رمز مميز على نفس البدائيات الهيكلية التي أقوم ببنائها في [Neotoma](https://neotoma.io)، من الاتجاه المعاكس.

تعمل الملاحظات المحسوبة مسبقًا في Hindsight على دمج الأنماط عبر الحقائق قبل وقت الاستعلام. تقوم مخفضات نيوتوما الحتمية بحساب اللقطات الأساسية من سجل المراقبة قبل وقت الاستعلام. كلاهما يقوم بالحساب المسبق بدلاً من إعادة الاشتقاق في وقت الاستعلام. يضيف Neotoma ضمان الحتمية: نفس الملاحظات في نفس اللقطة.

تحليل الكيان في خرائط Hindsight "Alice" و"Alice Chen" و"Alice C." إلى الكيانات الأساسية ذات حواف الرسم البياني المكتوبة. تعمل دقة الكيان المستندة إلى التجزئة في Neotoma على التطبيع والتجزئة إلى المعرفات الأساسية ذات حواف العلاقة المكتوبة. كلا حل المتغيرات. قرار نيوتوما حتمي: نفس الاسم ينتج دائمًا نفس المعرف.

يتبع اجتياز الرسم البياني في Hindsight روابط الكيانات للعثور على الحقائق ذات الصلة السببية التي تتضمن أخطاء البحث. يجتاز الرسم البياني لذاكرة نيوتوما الكيانات والملاحظات والأحداث ذات الحواف المكتوبة. كلاهما يستخدم بنية الرسم البياني للاسترجاع الذي لا يستطيع البحث عن التشابه القيام به.

تؤدي التصفية الزمنية في نطاقات Hindsight إلى النافذة الزمنية الصحيحة قبل الترتيب الدلالي. تقوم الجداول الزمنية لأحداث Neotoma باستخراج حقول التاريخ إلى أحداث مكتوبة للترتيب الزمني والتصفية.

هذه التشابهات ليست من قبيل الصدفة. على نطاق واسع، يصل كلا النظامين إلى نفس الأوليات: الكيانات، والعلاقات، والترتيب الزمني، والملخصات المحسوبة مسبقًا. إنهم يختلفون في ما يقومون بتحسينه. تعمل ميزة Hindsight على تحسين عملية الاسترجاع عبر 10 ملايين من الرموز المميزة للتاريخ. يضمن نيوتوما أن تكون الحقائق حتمية ومُصاغة وقابلة للتدقيق عند العثور عليها.

## مكمل وليس منافس

يعد وضع أنظمة الذاكرة التي تركز على الاسترجاع والذاكرة التي تركز على الحالة مقابل بعضها البعض بمثابة خطأ في الفئة. وهي تتناول أوضاع الفشل التي يتم تنشيطها على مستويات مختلفة وتتراكم بشكل مستقل.

لا يؤدي الاسترداد الأفضل عند 10 ملايين رمز إلى إصلاح التصحيح الذي تمت الكتابة فوقه بصمت عند 500 ألف. لا يساعدك تحسين تكامل الحالة عند 500 ألف في العثور على الكيان المناسب عبر 10 ملايين رمز مميز من سجل المحادثات.

يحتاج الوكلاء على مستوى الإنتاج إلى كليهما: القدرة على العثور على السياق ذي الصلة، والثقة في صحة السياق. أثبت BEAM المشكلة الأولى. والثاني هو المكان الذي أقوم بالبناء فيه.