निकोलो बोस्ची ने अप्रैल 2026 में एक पोस्ट प्रकाशित की जिसमें तर्क दिया गया कि [10 मिलियन टोकन एकमात्र मेमोरी बेंचमार्क है जो मायने रखता है](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4)। उनका तर्क विशिष्ट है. जब संदर्भ विंडो 1 मिलियन टोकन तक पहुंच गई, तो ब्रूट-फोर्स संदर्भ-स्टफिंग ने बिना किसी पुनर्प्राप्ति पाइपलाइन के मौजूदा मेमोरी बेंचमार्क पारित कर दिया। आप बस सब कुछ संदर्भ विंडो में डंप कर दें। बेंचमार्क संदर्भ विंडो आकार का परीक्षण कर रहे थे, मेमोरी आर्किटेक्चर का नहीं।

[BEAM बेंचमार्क](https://arxiv.org/abs/2504.01076) इसे ठीक करता है। यह 500K से 10M टोकन पर परीक्षण करता है। 10M पर, किसी भी उत्पादन मॉडल में वह संदर्भ विंडो नहीं है। प्रसंग-भराई से काम नहीं चल सकता. वास्तविक मेमोरी आर्किटेक्चर की आवश्यकता है.

बोस्ची का सिस्टम, [हिंडसाइट](https://vectorize.io), 10एम स्तर पर 64.1% स्कोर करता है। दूसरे स्थान (होन्चो) का स्कोर 40.6% है। मानक RAG बेसलाइन स्कोर 24.9% है। अंतर बहु-रणनीति पुनर्प्राप्ति से आता है: सिमेंटिक खोज, कीवर्ड मिलान, ग्राफ़ ट्रैवर्सल और टेम्पोरल फ़िल्टरिंग, पारस्परिक रैंक फ़्यूज़न के माध्यम से विलय। लाखों टोकन में पूर्व-गणना किए गए अवलोकन और इकाई रिज़ॉल्यूशन जोड़ें और यौगिक प्रभाव महत्वपूर्ण है।

पुनर्प्राप्ति परिणाम वास्तविक हैं. 10M टोकन पर, आपको आर्किटेक्चर की आवश्यकता है, बड़ी संदर्भ विंडो की नहीं। BEAM इसे साबित करता है।

मैंने हाल ही में इसके बारे में लिखा था [क्यों कोई एआई मेमोरी बेंचमार्क परीक्षण नहीं करता कि वास्तव में क्या टूटता है](/पोस्ट/नो-एआई-मेमोरी-बेंचमार्क-टेस्ट-व्हाट-एक्चुअली-ब्रेक): उद्योग बेंचमार्क पुनर्प्राप्ति करता है लेकिन अखंडता नहीं लिखता है। BEAM मेरे द्वारा देखा गया सबसे अच्छा पुनर्प्राप्ति बेंचमार्क है। यह अभी भी दो विफलता मोड में से केवल एक का परीक्षण करता है। यह पूछता है कि क्या आप सही तथ्य पा सकते हैं। यह यह नहीं पूछता कि आपने जो तथ्य पाया वह अभी भी सही है या नहीं।

यह पोस्ट इस बारे में है कि प्रत्येक विफलता मोड कब सक्रिय होता है, और आप जो पहले बनाते हैं उसके लिए उत्तर क्यों मायने रखता है।

## दहलीज प्रश्न

BEAM पूछता है: पुनर्प्राप्ति के लिए मेमोरी आर्किटेक्चर किस टोकन पैमाने पर मायने रखता है?

उत्तर: 10 मिलियन टोकन।

एक दूसरा प्रश्न है जो BEAM नहीं पूछता: विश्वास के लिए राज्य की अखंडता किस पैमाने पर मायने रखती है?

वह उत्तर अलग है. राज्य की अखंडता 500K से 2M टोकन तक कम हो जाती है। मोटे तौर पर एक-पांचवें से दसवें पैमाने पर जहां पुनर्प्राप्ति वास्तुकला महत्वपूर्ण हो जाती है।

## चार स्तर

100K से 500K टोकन (कुछ दिनों के भारी एजेंट उपयोग) पर पुनर्प्राप्ति ठीक है। एक 1M संदर्भ विंडो इसे कवर करती है। किसी पुनर्प्राप्ति वास्तुकला की आवश्यकता नहीं है. लेकिन राज्य की अखंडता पहले से ही ख़राब हो रही है। "एक्मे कॉर्प" और "एसीएमई कॉर्प" और "एक्मे कॉर्पोरेशन" अलग-अलग संस्थाओं के रूप में जमा होते हैं। सुधार चुपचाप अधिलेखित हो जाते हैं। उपयोगकर्ता मैन्युअल रूप से क्षतिपूर्ति करते हैं. कष्टप्रद लेकिन प्रबंधनीय.

500K से 2M टोकन (मल्टी-टूल एजेंट उपयोग के कुछ सप्ताह) पर, राज्य अखंडता दीवार हिट हो जाती है। इकाई रिज़ॉल्यूशन वेरिएंट सैकड़ों संदर्भों में वास्तविक भ्रम पैदा करते हैं। क्रॉस-सत्र स्थिति बहाव का मतलब है कि पिछले सप्ताह से सुधार जारी रह भी सकता है और नहीं भी। क्रॉस-टूल विखंडन का मतलब है कि एक ही इकाई का क्लाउड, कर्सर और चैटजीपीटी में अलग-अलग प्रतिनिधित्व है। प्लेटफ़ॉर्म मेमोरी बिना किसी ऑडिट ट्रेल के चुपचाप कई बार स्थिति को उलट या अधिलेखित कर चुकी है। यहीं पर उपयोगकर्ता वर्कअराउंड बनाना शुरू करते हैं: SOUL.md फ़ाइलें, JSON हार्टबीट फ़ाइलें, मार्कडाउन CRM। मुआवज़ा देने की लागत सहनशीलता से अधिक है।

2एम से 10एम टोकन (एजेंट के उपयोग के महीने) पर, दोनों समस्याएं बढ़ जाती हैं। मानक RAG तीन अलग-अलग "ऐलिस" के टुकड़े लौटाता है। यहां तक ​​कि जब पुनर्प्राप्ति को सही इकाई मिल जाती है, तब भी आप इसकी पुष्टि नहीं कर सकते कि यह नवीनतम संस्करण है। क्या 15 मार्च से सुधार लागू किया गया था? उद्गम श्रृंखला क्या है? BEAM पुनर्प्राप्ति के लिए इस स्तर को संबोधित करता है। कोई भी इसे राज्य की अखंडता के लिए बेंचमार्क नहीं करता है।

10M टोकन और उससे अधिक पर, संदर्भ-भराई असंभव है। केवल वास्तविक स्मृति वास्तुकला ही जीवित रहती है। यहीं पर हिंडसाइट का 64.1% बनाम आरएजी का 24.9% प्रकट होता है। लेकिन संरचित स्थिति के बिना, पुनर्प्राप्ति में खोज करने के लिए शोर के 10M टोकन होते हैं।

## पैमाने का अंतर

राज्य की अखंडता की कोई सुरक्षित सीमा नहीं है जिसके नीचे इसका अस्तित्व नहीं है। पहला विरोधाभासी अवलोकन पहली अखंडता समस्या है। पहला अंतिम-लेखन-जीत अधिलेखन पहला हारा हुआ सुधार है। ये अरैखिक रूप से मिश्रित होते हैं। जब तक उपयोगकर्ता संचित स्थिति के 500K से 2M टोकन तक पहुंचते हैं, तब तक समाधान लागत सहनशीलता से अधिक हो जाती है।

मैं बिल्डिंग एजेंटों से जिन लोगों से बात करता हूं वे 10M टोकन पर नहीं हैं। वे 500K से 2M तक हैं। वे 112-व्यक्ति मार्कडाउन सीआरएम के साथ 25 स्वायत्त लूप का प्रबंधन कर रहे हैं। वे व्यवसाय विकास के लिए हार्टबीट पाइपलाइन चला रहे हैं। उनके एजेंटों को निर्धारित रनों के बीच सत्र भूलने की बीमारी होती है। राज्य की अखंडता का दर्द पहले से ही गंभीर है। पुनर्प्राप्ति प्रश्न अभी तक सक्रिय नहीं हुआ है.

## अभिसरण वास्तुकला

10M टोकन पर हिंडसाइट की चार जीतने की क्षमताएं उसी संरचनात्मक आदिम पर केंद्रित होती हैं, जिसे मैं विपरीत दिशा से [नियोटोमा](https://neotoma.io) में बना रहा हूं।

हिंडसाइट में पूर्व-गणना की गई टिप्पणियाँ क्वेरी समय से पहले तथ्यों के पैटर्न को समेकित करती हैं। नियोटोमा के नियतात्मक रिड्यूसर क्वेरी समय से पहले अवलोकन इतिहास से कैनोनिकल स्नैपशॉट की गणना करते हैं। दोनों क्वेरी समय पर पुनः प्राप्त करने के बजाय पूर्व-गणना करते हैं। नियोटोमा एक नियतिवाद गारंटी जोड़ता है: समान अवलोकन, वही स्नैपशॉट बाहर।

हिंडसाइट मानचित्रों में इकाई संकल्प "ऐलिस," "ऐलिस चेन," और "ऐलिस सी।" टाइप किए गए ग्राफ़ किनारों के साथ विहित संस्थाओं के लिए। नियोटोमा का हैश-आधारित इकाई रिज़ॉल्यूशन टाइप किए गए संबंध किनारों के साथ कैनोनिकल आईडी को सामान्य और हैश करता है। दोनों भिन्न प्रकार का समाधान करते हैं। नियोटोमा का रिज़ॉल्यूशन नियतात्मक है: एक ही नाम हमेशा एक ही आईडी उत्पन्न करता है।

हिंडसाइट में ग्राफ़ ट्रैवर्सल कारणात्मक रूप से संबंधित तथ्यों को खोजने के लिए इकाई लिंक का अनुसरण करता है जो एम्बेडिंग खोज से चूक जाते हैं। नियोटोमा का मेमोरी ग्राफ टाइप किए गए किनारों के साथ संस्थाओं, अवलोकनों और घटनाओं का पता लगाता है। दोनों पुनर्प्राप्ति के लिए ग्राफ़ संरचना का उपयोग करते हैं जो समानता खोज नहीं कर सकती।

हिंडसाइट स्कोप में टेम्पोरल फ़िल्टरिंग से सिमेंटिक रैंकिंग से पहले सही समय विंडो मिलती है। नियोटोमा की ईवेंट टाइमलाइन अस्थायी क्रम और फ़िल्टरिंग के लिए टाइप किए गए ईवेंट में दिनांक फ़ील्ड निकालती है।

ये समानताएं संयोग नहीं हैं. पैमाने पर, दोनों प्रणालियाँ एक ही आदिम पर पहुँचती हैं: इकाइयाँ, रिश्ते, अस्थायी क्रम, पूर्व-गणना सारांश। वे जो अनुकूलित करते हैं उसमें भिन्नता होती है। हिंडसाइट इतिहास के 10M टोकन में पुनर्प्राप्ति को अनुकूलित करता है। नियोटोमा यह सुनिश्चित करता है कि तथ्य पाए जाने पर नियतात्मक, संस्करणबद्ध और श्रवण योग्य हों।

## पूरक, प्रतिस्पर्धा नहीं

पुनर्प्राप्ति-केंद्रित और राज्य-केंद्रित मेमोरी सिस्टम को एक-दूसरे के विरुद्ध स्थापित करना एक श्रेणी त्रुटि है। वे विफलता मोड को संबोधित करते हैं जो विभिन्न पैमानों पर सक्रिय होते हैं और स्वतंत्र रूप से मिश्रित होते हैं।

10M टोकन पर बेहतर पुनर्प्राप्ति उस सुधार को ठीक नहीं करती है जिसे 500K पर चुपचाप अधिलेखित कर दिया गया था। 500K पर बेहतर राज्य अखंडता आपको वार्तालाप इतिहास के 10M टोकन में सही इकाई ढूंढने में मदद नहीं करती है।

उत्पादन पैमाने पर एजेंटों को दोनों की आवश्यकता होती है: प्रासंगिक संदर्भ खोजने की क्षमता, और यह विश्वास कि संदर्भ सही है। BEAM पहली समस्या साबित हुई। दूसरा वह स्थान है जहां मैं निर्माण कर रहा हूं।