Nicolò Boschi এপ্রিল 2026-এ একটি পোস্ট প্রকাশ করেছিলেন যে যুক্তি দিয়ে যে [10 মিলিয়ন টোকেনই একমাত্র মেমরি বেঞ্চমার্ক যা গুরুত্বপূর্ণ](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fdb7435)। তার যুক্তি সুনির্দিষ্ট। কনটেক্সট উইন্ডোজ যখন 1 মিলিয়ন টোকেন হিট করে, তখন ব্রুট-ফোর্স কনটেক্সট-স্টাফিং কোনো পুনরুদ্ধার পাইপলাইন ছাড়াই বিদ্যমান মেমরি বেঞ্চমার্ক পাস করে। আপনি শুধু প্রসঙ্গ উইন্ডোতে সবকিছু ডাম্প করেন। বেঞ্চমার্কগুলি প্রসঙ্গ উইন্ডোর আকার পরীক্ষা করছিল, মেমরি আর্কিটেকচার নয়।

[BEAM বেঞ্চমার্ক](https://arxiv.org/abs/2504.01076) এটি ঠিক করে। এটি 500K থেকে 10M টোকেনে পরীক্ষা করে। 10M এ, কোনো উৎপাদন মডেলের সেই প্রসঙ্গ উইন্ডো নেই। কনটেক্সট-স্টাফিং কাজ করতে পারে না। বাস্তব মেমরি আর্কিটেকচার প্রয়োজন.

Boschi এর সিস্টেম, [Hindsight](https://vectorize.io), 10M স্তরে 64.1% স্কোর করে। দ্বিতীয় স্থান (Honcho) স্কোর 40.6%। স্ট্যান্ডার্ড RAG বেসলাইন স্কোর 24.9%। ব্যবধানটি মাল্টি-স্ট্র্যাটেজি পুনরুদ্ধার থেকে আসে: শব্দার্থিক অনুসন্ধান, কীওয়ার্ড ম্যাচিং, গ্রাফ ট্রাভার্সাল এবং টেম্পোরাল ফিল্টারিং, পারস্পরিক র‌্যাঙ্ক ফিউশনের মাধ্যমে একত্রিত করা হয়েছে। লক্ষ লক্ষ টোকেন জুড়ে প্রাক-গণনা করা পর্যবেক্ষণ এবং সত্তা রেজোলিউশন যোগ করুন এবং যৌগিক প্রভাব উল্লেখযোগ্য।

পুনরুদ্ধার ফলাফল বাস্তব. 10M টোকেনে, আপনার আর্কিটেকচার দরকার, একটি বড় প্রসঙ্গ উইন্ডো নয়। BEAM এটা প্রমাণ করে।

আমি সম্প্রতি লিখেছি [কেন কোন AI মেমরি বেঞ্চমার্ক পরীক্ষা করে না আসলে কী ব্রেক করে](/posts/no-ai-memory-benchmark-tests-what-actually-breaks): শিল্প বেঞ্চমার্ক পুনরুদ্ধার করে কিন্তু সততা লিখতে পারে না। BEAM আমার দেখা সেরা পুনরুদ্ধার মানদণ্ড। এটি এখনও শুধুমাত্র দুটি ব্যর্থতার মোডের একটি পরীক্ষা করে। এটি জিজ্ঞাসা করে যে আপনি সঠিক সত্যটি খুঁজে পেতে পারেন কিনা। আপনি যে সত্যটি পেয়েছেন তা এখনও সঠিক কিনা তা জিজ্ঞাসা করে না।

এই পোস্টটি প্রতিটি ব্যর্থতার মোড কখন সক্রিয় হয় এবং আপনি প্রথমে যা তৈরি করেন তার জন্য কেন উত্তর গুরুত্বপূর্ণ।

## প্রান্তিক প্রশ্ন

BEAM জিজ্ঞাসা করে: কোন টোকেন স্কেলে মেমরি আর্কিটেকচার পুনরুদ্ধারের জন্য গুরুত্বপূর্ণ?

উত্তরঃ 10 মিলিয়ন টোকেন।

একটি দ্বিতীয় প্রশ্ন আছে BEAM জিজ্ঞাসা করে না: রাষ্ট্রের অখণ্ডতা বিশ্বাসের জন্য কোন স্কেলে গুরুত্বপূর্ণ?

সেই উত্তর ভিন্ন। রাষ্ট্রীয় অখণ্ডতা 500K থেকে 2M টোকেনে হ্রাস পায়। মোটামুটি এক-পঞ্চমাংশ থেকে এক-দশমাংশ স্কেল যেখানে পুনরুদ্ধার স্থাপত্য সমালোচনামূলক হয়ে ওঠে।

## চার স্তর

100K থেকে 500K টোকেনগুলিতে (কয়েক দিন ভারী এজেন্ট ব্যবহার), পুনরুদ্ধার করা ভাল। একটি 1M প্রসঙ্গ উইন্ডো এটি কভার করে৷ কোন পুনরুদ্ধার আর্কিটেকচার প্রয়োজন. কিন্তু রাষ্ট্রীয় অখণ্ডতা ইতিমধ্যেই ক্ষুণ্ন হচ্ছে। "Acme Corp" এবং "ACME CORP" এবং "Acme কর্পোরেশন" পৃথক সত্তা হিসাবে জমা হয়। সংশোধনগুলি নিঃশব্দে ওভাররাইট করা হয়। ব্যবহারকারীরা ম্যানুয়ালি ক্ষতিপূরণ দেয়। বিরক্তিকর কিন্তু পরিচালনাযোগ্য।

500K থেকে 2M টোকেনগুলিতে (মাল্টি-টুল এজেন্ট ব্যবহারের কয়েক সপ্তাহ), রাষ্ট্রীয় অখণ্ডতা প্রাচীর আঘাত করে। সত্তার রেজোলিউশনের রূপগুলি শত শত রেফারেন্স জুড়ে প্রকৃত বিভ্রান্তি তৈরি করে। ক্রস-সেশন স্টেট ড্রিফ্ট মানে গত সপ্তাহের সংশোধনগুলি অব্যাহত থাকতে পারে বা নাও থাকতে পারে। ক্রস-টুল ফ্র্যাগমেন্টেশন মানে একই সত্তার Claude, Cursor, এবং ChatGPT-এ ভিন্ন ভিন্ন উপস্থাপনা রয়েছে। প্ল্যাটফর্ম মেমরি কোনো অডিট ট্রেইল ছাড়াই নীরবে প্রত্যাবর্তন বা ওভাররাইট করা হয়েছে। এখানেই ব্যবহারকারীরা কাজ শুরু করে: SOUL.md ফাইল, JSON হার্টবিট ফাইল, মার্কডাউন CRM। ক্ষতিপূরণের খরচ সহনশীলতা ছাড়িয়ে গেছে।

2M থেকে 10M টোকেনে (এজেন্ট ব্যবহারের মাস), উভয় সমস্যাই জটিল। স্ট্যান্ডার্ড RAG প্রায় তিনটি ভিন্ন "এলিস" অংশ প্রদান করে। এমনকি যখন পুনরুদ্ধার সঠিক সত্তা খুঁজে পায়, আপনি নিশ্চিত করতে পারবেন না যে এটি সর্বশেষ সংস্করণ। 15 মার্চ থেকে সংশোধন প্রয়োগ করা হয়েছিল? মূল চেইন কি? BEAM পুনরুদ্ধারের জন্য এই স্তরটিকে সম্বোধন করে। রাষ্ট্রীয় অখণ্ডতার জন্য কেউ এটিকে মানদণ্ড দেয় না।

10M টোকেন এবং তার পরেও, প্রসঙ্গ-স্টাফিং অসম্ভব। শুধুমাত্র বাস্তব স্মৃতি স্থাপত্য বেঁচে থাকে। এখানেই Hindsight এর 64.1% বনাম RAG এর 24.9% প্রকাশ পায়। কিন্তু কাঠামোগত অবস্থা ছাড়া, পুনরুদ্ধারের মাধ্যমে অনুসন্ধান করার জন্য 10M টোকেন অফ নয়েজ রয়েছে।

## স্কেলের ব্যবধান

রাষ্ট্রীয় অখণ্ডতার কোনো নিরাপদ সীমারেখা নেই যার নিচে এর অস্তিত্ব নেই। প্রথম বিরোধপূর্ণ পর্যবেক্ষণ প্রথম অখণ্ডতা সমস্যা. প্রথম লাস্ট-রাইট-জয় ওভাররাইট হল প্রথম হারানো সংশোধন। এই যৌগ অরৈখিকভাবে. যখন ব্যবহারকারীরা 500K থেকে 2M টোকেন জমা অবস্থায় পৌঁছায়, তখন সমাধানের খরচ সহনশীলতা ছাড়িয়ে যায়।

আমি যাদের এজেন্টদের সাথে বিল্ডিং এর সাথে কথা বলি তারা 10M টোকেনে নেই। তারা 500K থেকে 2M পর্যন্ত। তারা 112-ব্যক্তি মার্কডাউন CRM সহ 25টি স্বায়ত্তশাসিত লুপ পরিচালনা করছে। তারা ব্যবসার উন্নয়নের জন্য হার্টবিট পাইপলাইন চালাচ্ছে। তাদের এজেন্টদের নির্ধারিত রানের মধ্যে সেশন অ্যামনেসিয়া আছে। রাষ্ট্রীয় অখণ্ডতার যন্ত্রণা এমনিতেই তীব্র। পুনরুদ্ধার প্রশ্ন এখনও সক্রিয় করা হয়নি.

## অভিসারী স্থাপত্য

10M টোকেনগুলিতে Hindsight-এর চারটি বিজয়ী ক্ষমতা বিপরীত দিক থেকে আমি [Neotoma](https://neotoma.io) তৈরি করছি সেই একই স্ট্রাকচারাল প্রাইমিটিভের উপর একত্রিত হয়।

হিন্ডসাইট-এ প্রাক-গণনা করা পর্যবেক্ষণগুলি ক্যোয়ারী সময়ের আগে তথ্য জুড়ে প্যাটার্ন একত্রিত করে। নিওটোমার ডিটারমিনিস্টিক রিডুসাররা ক্যোয়ারী সময়ের আগে পর্যবেক্ষণের ইতিহাস থেকে ক্যানোনিকাল স্ন্যাপশট গণনা করে। উভয়ই ক্যোয়ারী সময়ে পুনরায় প্রাপ্ত করার পরিবর্তে প্রাক-গণনা করে। নিওটোমা একটি নির্ধারক গ্যারান্টি যোগ করে: একই পর্যবেক্ষণ, একই স্ন্যাপশট আউট।

হিন্ডসাইট ম্যাপে এন্টিটি রেজোলিউশন "এলিস," "এলিস চেন," এবং "এলিস সি।" টাইপ করা গ্রাফ প্রান্ত সহ ক্যানোনিকাল সত্ত্বাতে। নিওটোমার হ্যাশ-ভিত্তিক সত্তা রেজোলিউশন স্বাভাবিক করে এবং টাইপ করা সম্পর্ক প্রান্তের সাথে ক্যানোনিকাল আইডিতে হ্যাশ করে। উভয় সমাধান বৈকল্পিক. নিওটোমার রেজোলিউশন নির্ধারক: একই নাম সবসময় একই আইডি তৈরি করে।

হিন্ডসাইট-এ গ্রাফ ট্রাভার্সাল এম্বেডিং অনুসন্ধান মিস করে এমন কার্যকারণ সম্পর্কিত তথ্যগুলি খুঁজে পেতে সত্তা লিঙ্কগুলি অনুসরণ করে। নিওটোমার মেমরি গ্রাফ টাইপ করা প্রান্ত দিয়ে সত্তা, পর্যবেক্ষণ এবং ঘটনাগুলিকে অতিক্রম করে। উভয়ই পুনরুদ্ধারের জন্য গ্রাফ কাঠামো ব্যবহার করে যা মিল অনুসন্ধান করতে পারে না।

হিন্ডসাইট স্কোপে টেম্পোরাল ফিল্টারিং শব্দার্থিক র‌্যাঙ্কিংয়ের আগে সঠিক সময় উইন্ডোতে ফলাফল দেয়। নিওটোমার ইভেন্ট টাইমলাইনগুলি অস্থায়ী ক্রম এবং ফিল্টারিংয়ের জন্য টাইপ করা ইভেন্টগুলিতে তারিখ ক্ষেত্রগুলি বের করে।

এই সমান্তরালগুলি কাকতালীয় নয়। স্কেলে, উভয় সিস্টেমই একই আদিমতে পৌঁছায়: সত্তা, সম্পর্ক, অস্থায়ী ক্রম, প্রাক-গণনা করা সারাংশ। তারা কি অপ্টিমাইজ করে তা ভিন্ন। হিন্ডসাইট ইতিহাসের 10M টোকেন জুড়ে পুনরুদ্ধারকে অপ্টিমাইজ করে। নিওটোমা নিশ্চিত করে যে তথ্যগুলি নির্ধারক, সংস্করণ এবং পাওয়া গেলে নিরীক্ষাযোগ্য।

## পরিপূরক, প্রতিযোগিতামূলক নয়

একে অপরের বিরুদ্ধে পুনরুদ্ধার-কেন্দ্রিক এবং রাষ্ট্র-কেন্দ্রিক মেমরি সিস্টেমের অবস্থান নির্ধারণ করা একটি বিভাগ ত্রুটি। তারা ব্যর্থতার মোডগুলিকে সম্বোধন করে যা বিভিন্ন স্কেলে সক্রিয় হয় এবং স্বাধীনভাবে যৌগিক হয়।

10M টোকেনগুলিতে আরও ভাল পুনরুদ্ধার একটি সংশোধন ঠিক করে না যা 500K এ নীরবে ওভাররাইট করা হয়েছিল৷ 500K এ উন্নত রাষ্ট্রীয় অখণ্ডতা আপনাকে কথোপকথনের ইতিহাসের 10M টোকেন জুড়ে সঠিক সত্তা খুঁজে পেতে সাহায্য করে না।

প্রোডাকশন স্কেল এজেন্টদের উভয়েরই প্রয়োজন: প্রাসঙ্গিক প্রসঙ্গ খুঁজে পাওয়ার ক্ষমতা এবং প্রসঙ্গটি সঠিক বলে আত্মবিশ্বাস। BEAM প্রথম সমস্যা প্রমাণ করেছে। দ্বিতীয়টি যেখানে আমি নির্মাণ করছি।