আমি ChatGPT-এ আমার ওয়ার্কআউট ট্র্যাক করা শুরু করেছি। প্রতিনিধি, ওজন, সেশনটি কেমন লাগলো। কয়েক সপ্তাহ পর আমি এটাকে আগের সেশনের সাথে আজকের পারফরম্যান্সের তুলনা করতে বললাম। এটি আমাকে একটি আত্মবিশ্বাসী, বিস্তারিত তুলনা দিয়েছে। সংখ্যা ভুল ছিল.

সামান্য বন্ধ না. ভুল. এটি সেশনগুলি উদ্ধৃত করেছে যা আমি আসলে লগ ইন করেছি তার সাথে মেলে না। আমি আমার কথোপকথনের ইতিহাস দিয়ে ফিরে গিয়েছিলাম। এটি যে ডেটার সাথে "তুলনা" করছিল সেটি দাবি করা ফর্মে বিদ্যমান ছিল না। এটার কিছু একটা ক্ষতিকর সারাংশের মত লাগছিল যা আমি কয়েক সপ্তাহ আগে বলেছিলাম। এটি কিছু উদ্ভাবিত লাগছিল.

প্রাকৃতিক নির্ণয় হল হ্যালুসিনেশন। মডেল জিনিস তৈরি. আমি সেটা নিশ্চিত করতে পারিনি। চ্যাটজিপিটি কি কখনই আসল ডেটা সংরক্ষণ করেনি? এটা কিছু সঞ্চয় এবং তারপর এটি দূরে সংক্ষিপ্ত ছিল? মেমরি সেশন মধ্যে প্রবাহিত ছিল? আমি সেই সেশনগুলি লগ করার তারিখে সিস্টেমটি কী বিশ্বাস করেছিল তা দেখার উপায় ছিল না, বা এটি কখনও প্রকৃত সংখ্যাগুলি ধরেছিল কিনা। আমি হ্যালুসিনেশন উড়িয়ে দিতে পারিনি। দুর্নীতিকেও উড়িয়ে দিতে পারিনি।

পার্থক্য করতে না পারাটাই আসল সমস্যা। বেশিরভাগ AI মেমরি সিস্টেমের সাথে আপনি কোন ব্যর্থতা মোডটি দেখছেন তা বলতে পারবেন না। ডায়াগনস্টিক টুলিং বিদ্যমান নেই। প্রায় কেউই এটি নির্মাণ করছে না।

## দুটি ব্যর্থতার মোড, একটি নয়

শিল্পে "মডেল কিছু ভুল বলেছে" এর জন্য একটি শব্দ আছে: হ্যালুসিনেশন। এটি প্রতিটি ভুল আউটপুটের জন্য ক্যাচ-অল। যখন এজেন্ট ক্রমাগত মেমরি ব্যবহার করে, তখন দুটি স্বতন্ত্র ব্যর্থতার মোড থাকে। তাদের বিভিন্ন সংশোধন প্রয়োজন।

**হ্যালুসিনেশন** একটি মডেল-স্তরের ব্যর্থতা। LLM এর ইনপুটের কোন ভিত্তি ছাড়াই বিষয়বস্তু তৈরি করে। পুনরুদ্ধার জরিমানা ছিল. প্রজন্ম ভুল হয়ে গেছে। সংশোধনগুলি হল মডেল-স্তরের: আরও ভাল গ্রাউন্ডিং, পুনরুদ্ধার-বর্ধিত প্রজন্ম, সীমাবদ্ধ ডিকোডিং, যাচাইকরণ চেইন।

**মেমরি দুর্নীতি** একটি অবকাঠামো-স্তরের ব্যর্থতা। সংরক্ষিত তথ্য ভুল. মডেল বিশ্বস্তভাবে এটি পুনরুদ্ধার করে. উত্তরটি সঠিক বলে মনে হচ্ছে কারণ পুনরুদ্ধার সঠিক ছিল। যা উদ্ধার করা হয়েছে তা পরিবর্তিত হয়েছে।

স্মৃতিভ্রষ্টতা হ্যালুসিনেশনের জন্য ডিজাইন করা প্রতিটি চেক পাস করে। উত্তরণটি প্রশ্নের সাথে মেলে। মডেল তার উৎস উদ্ধৃত. আউটপুট সঞ্চিত ডেটাতে ভিত্তি করে। প্রতিটি রেললাইন বলে যে উত্তরটি আসল তথ্যের উপর ভিত্তি করে। তথ্যটি ভুল।

## দুর্নীতি কেন ডিফল্ট

এজেন্ট মেমরির প্রতিটি প্রধান বিভাগ ডিফল্টরূপে পরিবর্তনযোগ্য অবস্থা সঞ্চয় করে।

প্ল্যাটফর্ম মেমরি (ChatGPT, Claude, Gemini, Copilot) আপডেটে এন্ট্রি ওভাররাইট করে। কোন সংস্করণ লেজ আছে. পুনরুদ্ধার সিস্টেম (Mem0, Zep, LangChain মেমরি) স্মৃতিগুলিকে একত্রিত করার সময় একত্রিত বা প্রতিস্থাপন করে।

ফাইল-ভিত্তিক সিস্টেম (মার্কডাউন, JSON) পরিবর্তনশীল থাকে যদি না আপনি গিট যোগ করেন। গিট আপনাকে বাস্তব ইতিহাস এবং ছোট রেপোর জন্য পার্থক্য দেয়। এটি [গিগাবাইট স্কেলে খারাপভাবে স্কেল করে](https://x.com/garrytan/status/2040797478434549792) এজেন্ট-লিখিত ডেটার জন্য, এবং কিছু দল এটিকে মেমরির জন্য লেখা-আগামী লগ হিসাবে বিবেচনা করে।

স্ট্যান্ডার্ড ডাটাবেস (SQLite, Postgres) ইভেন্ট সোর্সিং, টেম্পোরাল টেবিল এবং অডিট ট্রিগার বাস্তবায়ন করতে পারে। তাদের ডিফল্ট পথ এখনও ওভাররাইট করা হয়েছে: `আপডেট` সারি প্রতিস্থাপন করে এবং পুরানো মান চলে গেছে।

এগুলোর কোনোটিই বাক্সের বাইরে [সংস্করণ করা ইতিহাস বা নীরব মিউটেশন প্রতিরোধ করে না](/মেমরি-গ্যারান্টি)। তাদের যে কেউ * পারে*। প্রায় কেউই *করেন না*।

এমনকি চিন্তাশীল নতুন ডিজাইনও একই ফাঁদে পড়তে পারে। গ্যারি ট্যানের [GBrain spec](https://gist.github.com/garrytan/49c88e83cf8d7ae95e087426368809cb) অনেকটাই সঠিক: SQLite, FTS5, ভেক্টর সার্চ, প্রথম দিন থেকে MCP। স্পেকটি এখনও সংযোজন করার পরিবর্তে সংকলিত সত্যকে পুনর্লিখন করে। আপনার এজেন্ট একটি খারাপ মার্জ সহ 7,471 পৃষ্ঠা পুনর্লিখন করে। ভুল সংস্করণ ক্যানোনিকাল হয়ে যায়। কোন অডিট ট্রেইল. ক্লিন আর্কিটেকচার, একই মিউটেশন মডেল।

এটি একটি খারাপ লঞ্চ নয়। এটি সমগ্র বিভাগের জন্য বেঞ্চমার্ক সংস্কৃতি। গ্রহণ, তারা, এবং তহবিল ট্র্যাক পুনরুদ্ধার মেট্রিক্স: কে এ রিকল (প্রায়শই R@k লেখা হয়), নির্ভুলতা, লেটেন্সি, কম্প্রেশন অনুপাত। এই মেট্রিক্স গুরুত্বপূর্ণ. ভাল পুনরুদ্ধার প্রয়োজন. এজেন্টরা যখন তাদের নিজস্ব স্মৃতিতে লেখে তখন এটি যথেষ্ট নয়। কোন বহুল ব্যবহৃত বেঞ্চমার্ক পরীক্ষা করা হয় না যে সংরক্ষিত ডেটা লেখার পরে কি হবে।

[MemPalace](https://github.com/milla-jovovich/mempalace) একটি সাম্প্রতিক উদাহরণ। প্রকল্পটি "নিখুঁত বেঞ্চমার্ক স্কোর"-এ দুই দিনে 19,000 GitHub তারকাকে আঘাত করেছে। [স্বাধীন বিশ্লেষণ](https://penfieldlabs.substack.com/p/milla-jovovich-just-released-an-ai) শিরোনাম নম্বরগুলি দেখেছে [পুনরুদ্ধার রিকল মেট্রিক্স, এন্ড-টু-এন্ড অ্যাকুরেসি নয়](https://github.com/milla-jovovich/mempalace/2/2/is)। বিভ্রান্তিকর লঞ্চ কপি একটি MemPalace সমস্যা. প্রণোদনা কাঠামো হল বিভাগের সমস্যা: পুনরুদ্ধার স্কোরের জন্য 19,000 স্টার, লেখার অখণ্ডতা সম্পর্কে শূন্য প্রশ্ন। Supermemory, Mem0, এবং অন্তত এক ডজন অন্যান্য যাদের আমি ট্র্যাক করি একই অক্ষে প্রতিদ্বন্দ্বিতা করি। এজেন্টের লেখা অপরিবর্তিত লেখার এক সপ্তাহ সঞ্চিত তথ্য টিকে আছে কিনা তা নিয়ে কেউ মেট্রিক্স প্রকাশ করে না।

ঐতিহ্যগত অ্যাপের জন্য, পরিবর্তনযোগ্য অবস্থা ঠিক আছে। এজেন্ট মেমরির জন্য এটি একটি সমস্যা। এজেন্ট প্রায়ই লেখেন, সেশন জুড়ে, কখনও কখনও দ্বন্দ্ব সহ। দুটি সেশন একই ক্ষেত্রের জন্য বিভিন্ন মান লেখে। শেষ লেখা জয়। প্রথম মান অদৃশ্য হয়ে যায়। কাউকে জানানো হয় না। এটি কখনও ভিন্ন ছিল কোন রেকর্ড নেই.

এলএলএম-চালিত সারাংশ এটিকে আরও খারাপ করে তোলে। সিস্টেমগুলি পুরানো রেকর্ডগুলিকে নতুন সারাংশে একত্রিত করে। সারাংশ মূল প্রতিস্থাপন. যদি একত্রীকরণটি ভুল হয় (দুই জন একত্রিত হয়েছে, একটি বিশদ ড্রপ হয়েছে, একটি অস্পষ্টতা খারাপভাবে সমাধান হয়েছে), আসলগুলি চলে গেছে। আপনি সংক্ষিপ্তসারের সাথে তুলনা করতে পারবেন না যা এটি প্রতিস্থাপন করেছে। এটি যা প্রতিস্থাপন করেছে তা আর বিদ্যমান নেই।

এটি তাত্ত্বিক নয়। যখন আমি [আমার প্রোডাকশন ডাটাবেস পুনরুদ্ধার করি](/posts/how-i-lost-and-recovered-6000-memories) এটি মুছে ফেলার পরে, আমার কাছে বিভিন্ন তারিখ থেকে ব্যাকআপ ছিল। আমি সময় জুড়ে সত্তা রাষ্ট্র তুলনা করতে পারে. কিছু সত্তা 3 মার্চ এবং 9 মার্চ ব্যাকআপগুলির মধ্যে পার্থক্য করেছে৷ একটি শুধুমাত্র-সংযোজিত সিস্টেমে, উভয় মানই টাইমস্ট্যাম্পড পর্যবেক্ষণ হিসাবে টিকে থাকে। একটি পরিবর্তনযোগ্য সিস্টেমে, শুধুমাত্র সর্বশেষ বেঁচে থাকে। আপনি কখনই জানতে পারবেন না যে আগের মানটি বিদ্যমান ছিল।

## অডিট কেউ চালায় না

বেশিরভাগ দল হ্যালুসিনেশন পরীক্ষা করে। তারা যাচাই করে যে মডেলের আউটপুট পুনরুদ্ধার করা প্রসঙ্গে ভিত্তি করে। তারা পরীক্ষা করে যে মডেলটি তথ্য আবিষ্কার করে কিনা।

সঞ্চিত তথ্য পরিবর্তিত হয়েছে কিনা তা প্রায় কেউই পরীক্ষা করে না। জিজ্ঞাসা করুন:

**আপনি কি দেখতে পাচ্ছেন কি পরিবর্তন হয়েছে?** যদি একটি মান গত সপ্তাহের থেকে আলাদা হয়, আপনি উভয় মান দেখতে পারেন? কখন এটি পরিবর্তিত হয়েছিল এবং কী এটি ট্রিগার করেছিল?

**আপনি কি অতীতের অবস্থা পুনরায় চালাতে পারেন?** শুধু আজকের স্ন্যাপশট নয়, একটি নির্দিষ্ট তারিখে এজেন্ট যা বিশ্বাস করেছিল তা কি আপনি পুনর্গঠন করতে পারেন?

**আপনি কি সোর্সটি ট্রেস করতে পারবেন?** কোনো সঞ্চিত তথ্যের জন্য, আপনি কি এজেন্ট, সেশন এবং ইনপুটটির নাম দিতে পারেন যা এটি তৈরি বা পরিবর্তন করেছে?

যদি কোন উত্তর না হয়, দুর্নীতি সনাক্ত করা যায় না। অসম্ভব নয়। সনাক্ত করা যায় না। এটা এখন ঘটতে পারে. স্রোতধারায় কিছু ভেঙ্গে না যাওয়া পর্যন্ত আপনি জানতে পারবেন না এবং কেউ জিজ্ঞাসা করবে যে এই নম্বরটি কোথা থেকে এসেছে।

## কি বাধা দেয়

মেমরি দুর্নীতি কাঠামোগত, একটি মডেল সমস্যা নয়। আরও ভাল প্রম্পট এবং স্মার্ট পুনরুদ্ধার এটি ঠিক করে না। ফিক্স স্থাপত্য.

**অপরিবর্তনশীলতা।** লেখার পর পর্যবেক্ষণ পরিবর্তন হয় না। নতুন তথ্য একটি নতুন পর্যবেক্ষণ. পুরনোরা থাকে। সত্তা রাষ্ট্র সম্পূর্ণ ইতিহাস থেকে উদ্ভূত, একটি একক পরিবর্তনযোগ্য সারি নয়।

**প্রোভেনেন্স।** প্রতিটি ফ্যাক্ট মেটাডেটা বহন করে: কোন এজেন্ট এটা লিখেছে, কখন, কোন ইনপুট থেকে, কোন সেশনে। যখন একটি মান ভুল দেখায়, আপনি হেফাজত ট্রেস. যখন দুটি এজেন্ট বিরোধিতা করে, আপনি উভয়কে দেখেন এবং বেছে নেন।

**টেম্পোরাল রিপ্লে।** স্টেট একটি পর্যবেক্ষণ লগ থেকে আসে, একটি বর্তমান সারি নয়। আপনি অতীতের যেকোনো সময়ে বিশ্বাস পুনর্গঠন করতে পারেন। দুর্নীতি দৃশ্যমান হয়ে ওঠে যখন বর্তমান ও অতীতের অবস্থা ভিন্ন হয়ে যায়।

এই বৈশিষ্ট্য কিছু খরচ. শুধুমাত্র যোগ লগ বৃদ্ধি. ইতিহাস থেকে পুনরায় গণনা করার জন্য একটি সারি পড়ার চেয়ে বেশি খরচ হয়। যে সিস্টেমগুলি একত্রিত হয় তা হল ট্রেডিং স্টোরেজ এবং লেটেন্সি সম্পূর্ণ ইতিহাসের বিপরীতে। অপরিবর্তনীয়তা নিরীক্ষাযোগ্যতার জন্য সহজ লেখা এবং আঁটসাঁট স্টোরেজ ট্রেড করে। যখন এজেন্টরা মেমরি লেখে যা বাস্তব ফলাফলকে প্রভাবিত করে তখন সেই বাণিজ্যটি মূল্যবান। অনেক উত্পাদন ক্ষেত্রে, এটি ইতিমধ্যেই আছে।

আমি এই বৈশিষ্ট্যগুলি [নিওটোমা](https://neotoma.io) এ তৈরি করেছি। আমি প্রতিটি দুর্নীতির দৃশ্যের ভবিষ্যদ্বাণী করিনি। আমি পরিবর্তনশীল অবস্থাকে আঘাত করতে থাকি যা তাদের নির্ণয়ের কোন উপায় ছাড়াই ভুল উত্তর তৈরি করে। নিওটোমা ইনস্টল করার সময় প্রয়োজন। এটি শূন্য-সেটআপ নয়। আপনি একটি প্লেইন ফাইল হিসাবে মেমরি সম্পাদনা করবেন না. এগুলো আসল খরচ। বাজি হল যে সংস্করণের ইতিহাস, উত্স, এবং রিপ্লে ব্যাপারটি সুবিধার চেয়ে বেশি যখন এজেন্টরা এমন রাজ্য লিখে যা সিদ্ধান্ত নেয়।

## যৌগিক ঝুঁকি

দুর্নীতি একটি উপায়ে যৌগিক হ্যালুসিনেশন সাধারণত হয় না. একটি হ্যালুসিনেড উত্তর প্রায়ই মারা যায় যখন কেউ এটি পড়ে এবং বলে "এটি ভুল।" একটি কথোপকথন, একটি ত্রুটি.

একটি দূষিত মেমরি এন্ট্রি অব্যাহত থাকে। এটা আবার পুনরুদ্ধার করা হয়. এটি পরবর্তী সিদ্ধান্তগুলিকে আকার দেয়। আমার ওয়ার্কআউট তুলনা একবার ব্যর্থ হয়নি। প্রতিটি পরবর্তী তুলনা একই প্রবাহিত বা অনুপস্থিত ডেটার উপর বসে। প্রতিটি উত্তর একা সুন্দর লাগছিল. ত্রুটিটি অদৃশ্য ছিল যদি না আমি আমার নিজের রেকর্ড ক্রস-চেক করি, যা একটি এজেন্ট ট্র্যাকারের বিন্দুকে পরাজিত করে।

যে স্কেল বাস্তব বাজি. মেমরিতে ভুল ইমেল মানে প্রতিটি প্রেরণ ভুল ব্যক্তির কাছে যায় যতক্ষণ না কেউ লক্ষ্য করে। ভুল ডলারের পরিমাণ মানে একাধিক খারাপ চালান।

দুর্নীতি স্মৃতির স্তরে বাস করে, মডেল নয়। সাধারণ ডিবাগিং এটি মিস করে। মডেল কাজ করে. পুনরুদ্ধার কাজ করে. সংরক্ষিত তথ্য ভুল, বা সঠিকভাবে সংরক্ষণ করা হয়নি. আপনি অতীতের পরিকাঠামোকে প্রম্পট-ইঞ্জিনিয়ার করতে পারবেন না যা তার নিজস্ব ইতিহাসকে বাদ দেয়।

## কি চেক করবেন

আপনি যদি এজেন্ট মেমরি ব্যবহার করেন তবে এটি চেষ্টা করুন। আপনার এজেন্ট দুই সপ্তাহেরও বেশি আগে সংরক্ষিত পাঁচটি সত্তা বেছে নিন। তাদের উদ্ধার করুন. বর্তমান মানগুলির সাথে তুলনা করুন যা আপনি বিশ্বাস করেন যে আপনি মূলত সংরক্ষণ করেছেন।

আপনি যদি সেই তুলনা করতে না পারেন, আপনার সিস্টেম ইতিহাস সংরক্ষণ করে না। আপনি দুর্নীতি-অন্ধ। তার মানে এই নয় যে দুর্নীতি হয়েছে। এর মানে আপনি জানবেন না যদি এটি ছিল। যখন এজেন্টরা অর্থ ব্যয় করে, ক্লায়েন্টদের স্পর্শ করে বা বাস্তব-বিশ্বের ক্রিয়াকলাপ ট্রিগার করে তখন "আমরা জানতাম না" যথেষ্ট নয়।

একটি গুরুতর লিখন-সততা বেঞ্চমার্ক এই মত চালানো হবে. পরিচিত মান সহ বীজ N সত্তা। এম এজেন্ট সেশন চালান যা একই সত্তা পড়তে এবং লিখতে পারে। এক সপ্তাহ অপেক্ষা করুন। মূলের সাথে সঞ্চিত মান তুলনা করুন।

দুটি স্কোর গুরুত্বপূর্ণ। **ড্রিফ্ট রেট:** ব্যবহারকারীর সুস্পষ্ট সংশোধন ছাড়াই মানগুলির কোন ভাগ পরিবর্তন হয়েছে? **শনাক্তযোগ্যতা:** প্রতিটি পরিবর্তনের জন্য, সিস্টেমটি কি দেখাতে পারে কখন এটি ঘটেছিল, কী কারণে হয়েছিল এবং পূর্ববর্তী মান? আজও বহুল ব্যবহৃত AI মেমরি বেঞ্চমার্ক রিপোর্ট নেই।

শিল্প হ্যালুসিনেশন লড়াই করার জন্য সঠিক। কঠিন সমস্যাটি ইতিমধ্যেই এমন সিস্টেমের মধ্যে রয়েছে যা স্বাস্থ্যকর দেখায়, কারণ প্রায় কেউই যাচাই করে না যে সংরক্ষিত তথ্যগুলি এখনও সংরক্ষিত ছিল কিনা।

## ইন্ডাস্ট্রি কবে নাগাদ শুরু করবে

লিখুন অখণ্ডতা ঐচ্ছিক হওয়া বন্ধ করে যখন এজেন্ট ত্রুটির মূল্য ট্যাগ থাকে। আজ অনেক ভুল একটি পুনর্জন্ম বা একটি প্রম্পট খামচি পেতে. এজেন্টরা ক্রমবর্ধমানভাবে [অর্থ প্রদান, ইমেল করা, কোড কার্যকর করা এবং বাস্তব জগতে কাজ করা](/posts/six-agentic-trends-betting-on)। যখন একটি ব্যয়বহুল ব্যর্থতা মডেলের বিভ্রান্তির পরিবর্তে ড্রিফটেড মেমরিতে ট্রেস করে, পোস্টমর্টেম "মডেলটি কি হ্যালুসিনেশন করেছিল?" এর পরে একটি দ্বিতীয় প্রশ্ন যোগ করে। সংরক্ষিত তথ্য কি পরিবর্তন হয়েছে?

সেই চাপ কমপ্লায়েন্স টিমের সাথে এন্টারপ্রাইজের ভিতরে থাকবে না। [অডিট চাপ নিচের বাজারে চলে যায়](/posts/six-agentic-trends-betting-on) যেখানেই ত্রুটির জন্য অর্থ ব্যয় হয়। পরামর্শদাতা, একক নির্মাতা এবং ছোট দলগুলির একই উত্তর প্রয়োজন: সিস্টেমটি যখন সেই আউটপুটটি তৈরি করেছিল তখন কী বিশ্বাস করেছিল? আপনার মেমরি লেয়ার বলতে না পারলে, মেমরি লেয়ারটাই দায়।

ট্রিগার অর্থনৈতিক, দার্শনিক নয়। প্রথম পাবলিক পোস্টমর্টেম যা নিঃশব্দে দূষিত স্মৃতিকে দোষারোপ করে, হ্যালুসিনেশন নয়, শিল্প কীভাবে নির্ভরযোগ্যতার কথা বলে তা পরিবর্তন করবে। সেই পোস্টমর্টেম হল কখন, যদি না হয়।