Nicolò Boschi نے اپریل 2026 میں ایک پوسٹ شائع کی جس میں بحث کی گئی کہ [10 ملین ٹوکنز ہی میموری کا واحد معیار ہے جو اہمیت رکھتا ہے](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7535)۔ اس کی دلیل مخصوص ہے۔ جب سیاق و سباق کی ونڈوز نے 1 ملین ٹوکنز کو نشانہ بنایا، تو بروٹ فورس سیاق و سباق کی بھرائی نے موجودہ میموری بینچ مارک کو بغیر کسی بازیافت پائپ لائن کے پاس کیا۔ آپ صرف سیاق و سباق کی کھڑکی میں سب کچھ پھینک دیتے ہیں۔ بینچ مارکس سیاق و سباق کی کھڑکی کے سائز کی جانچ کر رہے تھے، میموری فن تعمیر کی نہیں۔

[BEAM بینچ مارک](https://arxiv.org/abs/2504.01076) اسے ٹھیک کرتا ہے۔ یہ 500K سے 10M ٹوکنز پر ٹیسٹ کرتا ہے۔ 10M پر، کسی پروڈکشن ماڈل میں وہ سیاق و سباق کی ونڈو نہیں ہے۔ سیاق و سباق کی بھرائی کام نہیں کر سکتی۔ اصلی میموری فن تعمیر کی ضرورت ہے۔

Boschi کا نظام، [Hindsight](https://vectorize.io)، 10M درجے پر 64.1% اسکور کرتا ہے۔ دوسری پوزیشن (ہونچو) نے 40.6% اسکور کیا۔ معیاری RAG بیس لائن اسکور 24.9% ہے۔ یہ فرق کثیر حکمت عملی کی بازیافت سے آتا ہے: سیمنٹک سرچ، کلیدی الفاظ کی مماثلت، گراف ٹراورسل، اور وقتی فلٹرنگ، باہمی رینک فیوژن کے ذریعے ضم کی گئی ہے۔ لاکھوں ٹوکنز میں پہلے سے شمار شدہ مشاہدات اور ہستی ریزولوشن شامل کریں اور کمپاؤنڈ اثر نمایاں ہے۔

بازیافت کے نتائج حقیقی ہیں۔ 10M ٹوکنز پر، آپ کو فن تعمیر کی ضرورت ہے، ایک بڑی سیاق و سباق کی ونڈو کی نہیں۔ BEAM اسے ثابت کرتا ہے۔

میں نے حال ہی میں اس بارے میں لکھا [کیوں کوئی AI میموری بینچ مارک ٹیسٹ نہیں کرتا کہ اصل میں کیا ٹوٹتا ہے] BEAM بازیافت کا بہترین معیار ہے جو میں نے دیکھا ہے۔ یہ اب بھی صرف دو ناکامی طریقوں میں سے ایک کی جانچ کرتا ہے۔ یہ پوچھتا ہے کہ کیا آپ کو صحیح حقیقت مل سکتی ہے۔ یہ نہیں پوچھتا کہ آپ کو جو حقیقت ملی وہ اب بھی درست ہے یا نہیں۔

یہ پوسٹ اس بارے میں ہے کہ ہر ناکامی کا موڈ کب فعال ہوتا ہے، اور آپ جو کچھ پہلے بناتے ہیں اس کے لیے جواب کیوں اہمیت رکھتا ہے۔

## دہلیز کا سوال

بیم پوچھتا ہے: بازیافت کے لیے میموری فن تعمیر کس ٹوکن پیمانے پر اہمیت رکھتا ہے؟

جواب: 10 ملین ٹوکن۔

ایک دوسرا سوال ہے جو BEAM نہیں پوچھتا: اعتماد کے لیے ریاست کی سالمیت کس پیمانے پر اہمیت رکھتی ہے؟

اس کا جواب مختلف ہے۔ ریاستی سالمیت 500K سے 2M ٹوکنز پر گرتی ہے۔ تقریباً ایک پانچویں سے دسویں پیمانے پر جہاں بازیافت فن تعمیر اہم ہو جاتا ہے۔

## چار درجے

100K سے 500K ٹوکنز (کچھ دن بھاری ایجنٹ کے استعمال) پر، بازیافت ٹھیک ہے۔ ایک 1M سیاق و سباق کی ونڈو اس کا احاطہ کرتی ہے۔ بازیافت فن تعمیر کی ضرورت نہیں ہے۔ لیکن ریاستی سالمیت پہلے ہی تنزلی کا شکار ہے۔ "Acme Corp" اور "ACME CORP" اور "Acme Corporation" الگ الگ اداروں کے طور پر جمع ہوتے ہیں۔ تصحیحیں خاموشی سے اوور رائٹ ہوجاتی ہیں۔ صارفین دستی طور پر معاوضہ دیتے ہیں۔ پریشان کن لیکن قابل انتظام۔

500K سے 2M ٹوکنز (کچھ ہفتوں کے ملٹی ٹول ایجنٹ کے استعمال) پر، ریاست کی سالمیت دیوار سے ٹکرا جاتی ہے۔ ہستی کے حل کی مختلف حالتیں سینکڑوں حوالوں میں حقیقی الجھن پیدا کرتی ہیں۔ کراس سیشن سٹیٹ ڈرفٹ کا مطلب ہے کہ پچھلے ہفتے کی اصلاحات برقرار رہ سکتی ہیں یا نہیں۔ کراس ٹول فریگمنٹیشن کا مطلب ہے کہ ایک ہی ہستی کی کلاڈ، کرسر، اور ChatGPT میں مختلف نمائندگی ہوتی ہے۔ پلیٹ فارم میموری نے آڈٹ ٹریل کے بغیر متعدد بار خاموشی سے حالت کو تبدیل یا اوور رائٹ کیا ہے۔ یہ وہ جگہ ہے جہاں سے صارفین کام کی تیاری شروع کرتے ہیں: SOUL.md فائلیں، JSON ہارٹ بیٹ فائلز، مارک ڈاؤن CRMs۔ معاوضہ کی قیمت برداشت سے زیادہ ہے۔

2M سے 10M ٹوکنز (ایجنٹ کے استعمال کے مہینوں) پر، دونوں مسائل مل جاتے ہیں۔ معیاری RAG تقریباً تین مختلف "ایلیسز" کو واپس کرتا ہے۔ یہاں تک کہ جب بازیافت کو صحیح ہستی مل جاتی ہے، آپ تصدیق نہیں کر سکتے کہ یہ تازہ ترین ورژن ہے۔ کیا 15 مارچ سے اصلاح کا اطلاق ہوا؟ اصل سلسلہ کیا ہے؟ BEAM بازیافت کے لیے اس درجے کو ایڈریس کرتا ہے۔ کوئی بھی اسے ریاستی سالمیت کے لیے بینچ مارک نہیں کرتا۔

10M ٹوکنز اور اس سے آگے، سیاق و سباق کو بھرنا ناممکن ہے۔ صرف اصلی میموری فن تعمیر زندہ رہتا ہے۔ یہ وہ جگہ ہے جہاں Hindsight کا 64.1% بمقابلہ RAG کا 24.9% ظاہر ہوتا ہے۔ لیکن ساختی حالت کے بغیر، بازیافت میں تلاش کرنے کے لیے شور کے 10M ٹوکن ہوتے ہیں۔

## پیمانے کا فرق

ریاستی سالمیت کی کوئی ایسی محفوظ حد نہیں ہے جس سے نیچے اس کا وجود نہ ہو۔ پہلا متضاد مشاہدہ پہلا سالمیت کا مسئلہ ہے۔ پہلی آخری-لکھنے کی جیت اوور رائٹ پہلی کھوئی ہوئی تصحیح ہے۔ یہ مرکب غیر خطی طور پر۔ جب تک صارفین جمع شدہ حالت کے 500K سے 2M ٹوکن تک پہنچ جاتے ہیں، حل کی لاگت برداشت سے بڑھ جاتی ہے۔

جن لوگوں سے میں ایجنٹوں کے ساتھ بات کرتا ہوں وہ 10M ٹوکن پر نہیں ہیں۔ وہ 500K سے 2M پر ہیں۔ وہ 112 افراد کے مارک ڈاؤن CRM کے ساتھ 25 خود مختار لوپس کا انتظام کر رہے ہیں۔ وہ کاروباری ترقی کے لیے دل کی دھڑکنوں کی پائپ لائنیں چلا رہے ہیں۔ ان کے ایجنٹوں کو شیڈول رنز کے درمیان سیشن بھولنے کی بیماری ہوتی ہے۔ ریاست کی سالمیت کا درد پہلے ہی شدید ہے۔ بازیافت کا سوال ابھی تک فعال نہیں ہوا ہے۔

## کنورجنٹ فن تعمیر

10M ٹوکنز پر Hindsight کی چار جیتنے والی صلاحیتیں مخالف سمت سے [Neotoma](https://neotoma.io) میں اسی ساختی پرائمیٹوز پر اکٹھی ہوتی ہیں۔

Hindsight میں پہلے سے گنتی شدہ مشاہدات استفسار کے وقت سے پہلے حقائق کے نمونوں کو مضبوط کرتے ہیں۔ نیوٹوما کے تعیناتی کم کرنے والے استفسار کے وقت سے پہلے مشاہدے کی تاریخ سے کینونیکل سنیپ شاٹس کی گنتی کرتے ہیں۔ دونوں استفسار کے وقت دوبارہ حاصل کرنے کے بجائے پہلے سے گنتی کرتے ہیں۔ Neotoma ایک عزم کی ضمانت کا اضافہ کرتا ہے: وہی مشاہدات اندر، وہی سنیپ شاٹ آؤٹ۔

Hindsight نقشوں میں ہستی کی قرارداد "ایلس،" "ایلس چن،" اور "ایلس سی۔" ٹائپ شدہ گراف کناروں کے ساتھ کیننیکل اداروں تک۔ Neotoma کی ہیش پر مبنی entity ریزولوشن کو معمول بناتا ہے اور ٹائپ کردہ رشتہ کناروں کے ساتھ کینونیکل IDs کو ہیش کرتا ہے۔ دونوں مختلف حالتوں کو حل کرتے ہیں۔ نیوٹوما کی ریزولیوشن فیصلہ کن ہے: ایک ہی نام ہمیشہ ایک ہی ID تیار کرتا ہے۔

Hindsight میں گراف ٹراورسل ہستی کے لنکس کی پیروی کرتا ہے تاکہ اس سے متعلقہ حقائق کو تلاش کیا جا سکے جو سرایت کرنے سے تلاش چھوٹ جاتی ہے۔ نیوٹوما کا میموری گراف ہستیوں، مشاہدات اور واقعات کو ٹائپ شدہ کناروں کے ساتھ عبور کرتا ہے۔ دونوں بازیافت کے لیے گراف ڈھانچہ استعمال کرتے ہیں جو مماثلت کی تلاش نہیں کر سکتی۔

Hindsight scopes میں عارضی فلٹرنگ کا نتیجہ سیمنٹک رینکنگ سے پہلے صحیح ٹائم ونڈو پر آتا ہے۔ نیوٹوما کی ایونٹ کی ٹائم لائنز وقتی ترتیب اور فلٹرنگ کے لیے ٹائپ کردہ ایونٹس میں تاریخ کے شعبوں کو نکالتی ہیں۔

یہ متوازی اتفاقی نہیں ہیں۔ پیمانے پر، دونوں نظام ایک ہی پرائمٹیوز پر پہنچتے ہیں: ہستی، رشتے، وقتی ترتیب، پہلے سے شمار شدہ خلاصے۔ وہ اس میں مختلف ہیں جو وہ بہتر بناتے ہیں۔ Hindsight تاریخ کے 10M ٹوکنز میں بازیافت کو بہتر بناتا ہے۔ Neotoma اس بات کو یقینی بناتا ہے کہ جب حقائق پائے جائیں تو وہ تعییناتی، ورژن شدہ، اور قابل سماعت ہیں۔

## تکمیلی، مقابلہ نہیں۔

بازیافت پر مرکوز اور ریاستی توجہ مرکوز میموری سسٹمز کو ایک دوسرے کے خلاف پوزیشن دینا ایک زمرہ کی خرابی ہے۔ وہ ناکامی کے طریقوں کو ایڈریس کرتے ہیں جو مختلف پیمانے پر متحرک ہوتے ہیں اور آزادانہ طور پر کمپاؤنڈ کرتے ہیں۔

10M ٹوکنز پر بہتر بازیافت ایک ایسی تصحیح کو ٹھیک نہیں کرتی ہے جسے خاموشی سے 500K پر اوور رائٹ کیا گیا تھا۔ 500K پر بہتر ریاستی سالمیت آپ کو بات چیت کی تاریخ کے 10M ٹوکنز میں صحیح ہستی تلاش کرنے میں مدد نہیں کرتی ہے۔

پیداواری پیمانے پر ایجنٹوں کو دونوں کی ضرورت ہوتی ہے: متعلقہ سیاق و سباق تلاش کرنے کی صلاحیت، اور یہ اعتماد کہ سیاق و سباق درست ہے۔ بیم نے پہلا مسئلہ ثابت کیا۔ دوسرا وہ جگہ ہے جہاں میں تعمیر کر رہا ہوں۔