میں نے ChatGPT میں اپنے ورزش کا سراغ لگانا شروع کیا۔ نمائندے، وزن، سیشن کیسا لگا۔ چند ہفتوں کے بعد میں نے اسے پچھلے سیشنوں سے آج کی کارکردگی کا موازنہ کرنے کو کہا۔ اس نے مجھے ایک پر اعتماد، تفصیلی موازنہ دیا۔ نمبر غلط تھے۔

تھوڑا سا دور نہیں۔ غلط۔ اس نے ان سیشنز کا حوالہ دیا جو اس سے میل نہیں کھاتے جو میں نے اصل میں لاگ کیا تھا۔ میں اپنی گفتگو کی تاریخ کے ذریعے واپس چلا گیا۔ جس ڈیٹا کا وہ "موازنہ" کر رہا تھا وہ اس شکل میں موجود نہیں تھا جس کا اس نے دعویٰ کیا تھا۔ اس میں سے کچھ ایک نقصان دہ خلاصہ کی طرح لگ رہا تھا جو میں نے اسے ہفتوں پہلے بتایا تھا۔ اس میں سے کچھ ایجاد نظر آئے۔

فطری تشخیص ہیلوسینیشن ہے۔ ماڈل نے چیزیں بنائی۔ میں اس کی تصدیق نہیں کر سکا۔ کیا ChatGPT نے کبھی بھی اصل ڈیٹا محفوظ نہیں کیا تھا؟ کیا اس نے کچھ ذخیرہ کیا تھا اور پھر اس کا خلاصہ کیا تھا؟ کیا یادداشت سیشنوں کے درمیان چلی گئی تھی؟ میرے پاس یہ دیکھنے کا کوئی طریقہ نہیں تھا کہ جس تاریخ میں میں نے ان سیشنز کو لاگ ان کیا تھا اس پر سسٹم نے کیا یقین کیا تھا، یا اس نے کبھی حقیقی نمبر رکھے تھے۔ میں ہیلوسینیشن کو مسترد نہیں کر سکتا تھا۔ میں کرپشن کو بھی مسترد نہیں کر سکتا۔

تمیز کرنے میں ناکامی ہی اصل مسئلہ ہے۔ زیادہ تر AI میموری سسٹم کے ساتھ آپ یہ نہیں بتا سکتے کہ آپ کون سا فیل موڈ دیکھ رہے ہیں۔ تشخیصی ٹولنگ موجود نہیں ہے۔ تقریباً کوئی بھی اس کی تعمیر نہیں کر رہا ہے۔

## ناکامی کے دو طریقے، ایک نہیں۔

انڈسٹری کے پاس "ماڈل نے کچھ غلط کہا" کے لیے ایک لفظ ہے: ہیلوسینیشن۔ یہ ہر غلط آؤٹ پٹ کے لیے کیچ آل ہے۔ جب ایجنٹ مستقل میموری استعمال کرتے ہیں، تو ناکامی کے دو الگ طریقے ہوتے ہیں۔ انہیں مختلف اصلاحات کی ضرورت ہے۔

**Hallucination** ماڈل کی سطح کی ناکامی ہے۔ LLM مواد تیار کرتا ہے جس کی ان پٹ میں کوئی بنیاد نہیں ہے۔ بازیافت ٹھیک تھی۔ نسل غلط ہو گئی۔ اصلاحات ماڈل کی سطح پر ہیں: بہتر گراؤنڈنگ، بازیافت-بڑھا ہوا جنریشن، محدود ڈی کوڈنگ، تصدیقی سلسلہ۔

**میموری کرپشن** بنیادی ڈھانچے کی سطح کی ناکامی ہے۔ ذخیرہ شدہ ڈیٹا غلط ہے۔ ماڈل اسے وفاداری سے بازیافت کرتا ہے۔ جواب درست لگتا ہے کیونکہ بازیافت درست تھی۔ جو بازیافت کیا گیا تھا وہ بدل گیا تھا۔

یادداشت کی بدعنوانی فریب کے لئے ڈیزائن کردہ ہر چیک کو پاس کرتی ہے۔ حوالہ استفسار سے میل کھاتا ہے۔ ماڈل اپنے ماخذ کا حوالہ دیتا ہے۔ آؤٹ پٹ ذخیرہ شدہ ڈیٹا میں گراؤنڈ ہے۔ ہر گارڈریل کا کہنا ہے کہ جواب حقیقی معلومات پر مبنی ہے۔ معلومات غلط ہیں۔

## کرپشن ڈیفالٹ کیوں ہے؟

ایجنٹ میموری کا ہر بڑا زمرہ ڈیفالٹ کے لحاظ سے تغیر پذیر حالت کو اسٹور کرتا ہے۔

پلیٹ فارم میموری (ChatGPT، Claude، Gemini، Copilot) اپ ڈیٹ پر اندراجات کو اوور رائٹ کر دیتی ہے۔ کوئی ورژن ٹریل نہیں ہے۔ بازیافت کے نظام (Mem0, Zep, LangChain Memory) یادوں کو ضم یا تبدیل کرتے ہیں جب وہ مضبوط ہوجاتے ہیں۔

فائل پر مبنی نظام (مارک ڈاؤن، JSON) اس وقت تک متغیر رہتے ہیں جب تک کہ آپ گٹ شامل نہ کریں۔ گٹ آپ کو حقیقی تاریخ اور چھوٹے ریپوز کے لیے فرق فراہم کرتا ہے۔ یہ ایجنٹ کے لکھے ہوئے ڈیٹا کے لیے [گیگا بائٹ پیمانے پر خراب ہے](https://x.com/garrytan/status/2040797478434549792)، اور کچھ ٹیمیں اسے میموری کے لیے لکھے جانے والے لاگ کے طور پر پیش کرتی ہیں۔

معیاری ڈیٹا بیس (SQLite، Postgres) ایونٹ سورسنگ، عارضی میزیں، اور آڈٹ ٹرگرز کو نافذ کر سکتے ہیں۔ ان کا طے شدہ راستہ اب بھی اوور رائٹ ہے: `UPDATE` قطار کی جگہ لے لیتا ہے اور پرانی قدر ختم ہو جاتی ہے۔

ان میں سے کوئی بھی باکس سے باہر [ورژن شدہ تاریخ یا خاموش تغیرات](/میموری کی گارنٹی) کو محفوظ نہیں کرتا ہے۔ ان میں سے کوئی بھی *سکتا ہے*۔ تقریباً کوئی بھی نہیں *کرتا ہے۔

یہاں تک کہ سوچے سمجھے نئے ڈیزائن بھی اسی جال میں پڑ سکتے ہیں۔ گیری ٹین کی [GBrain spec](https://gist.github.com/garrytan/49c88e83cf8d7ae95e087426368809cb) بہت درست ہے: SQLite, FTS5, vector search, MCP پہلے دن سے۔ قیاس اب بھی مرتب شدہ سچائی کو اس میں شامل کرنے کے بجائے دوبارہ لکھتا ہے۔ آپ کا ایجنٹ غلط انضمام کے ساتھ 7,471 صفحات کو دوبارہ لکھتا ہے۔ غلط ورژن کیننیکل ہو جاتا ہے۔ کوئی آڈٹ ٹریل نہیں۔ صاف فن تعمیر، ایک ہی اتپریورتن ماڈل.

یہ ایک برا لانچ نہیں ہے۔ یہ پورے زمرے کے لیے بینچ مارک کلچر ہے۔ اپنانے، ستارے، اور فنڈنگ ​​ٹریک بازیافت میٹرکس: k پر یاد کریں (اکثر R@k لکھا جاتا ہے)، درستگی، تاخیر، کمپریشن تناسب۔ وہ میٹرکس اہم ہیں۔ اچھی بازیافت ضروری ہے۔ جب ایجنٹ اپنی یادداشت پر لکھتے ہیں تو یہ کافی نہیں ہوتا ہے۔ کوئی وسیع پیمانے پر استعمال شدہ بینچ مارک ٹیسٹ نہیں کرتا کہ ذخیرہ شدہ ڈیٹا کے لکھے جانے کے بعد اس کا کیا ہوتا ہے۔

[MemPalace](https://github.com/milla-jovovich/mempalace) ایک حالیہ مثال ہے۔ "کامل بینچ مارک اسکورز" پر پروجیکٹ نے دو دنوں میں 19,000 GitHub ستاروں کو نشانہ بنایا۔ [آزاد تجزیہ](https://penfieldlabs.substack.com/p/milla-jovovich-just-released-an-ai) نے پتہ چلا کہ ہیڈ لائن نمبرز تھے [ریٹریول ریکال میٹرکس، نہ کہ آخر سے آخر تک درستگی](https://github.com/milla-jovovich/mempalace/2/7)۔ گمراہ کن لانچ کاپی ایک MemPalace مسئلہ ہے۔ ترغیب کا ڈھانچہ زمرہ کا مسئلہ ہے: بازیافت کے اسکور کے لیے 19,000 ستارے، لکھنے کی سالمیت کے بارے میں صفر سوالات۔ Supermemory، Mem0، اور کم از کم ایک درجن دیگر جن کو میں ٹریک کرتا ہوں ایک ہی محور پر مقابلہ کرتا ہوں۔ کوئی بھی اس بارے میں میٹرکس شائع نہیں کرتا ہے کہ آیا ایجنٹ کے لکھے ہوئے ایک ہفتہ تک ذخیرہ شدہ حقائق زندہ رہتے ہیں یا نہیں۔

روایتی ایپس کے لیے، تغیر پذیر حالت ٹھیک ہے۔ ایجنٹ میموری کے لیے یہ ایک مسئلہ ہے۔ ایجنٹ اکثر، سیشنوں میں، بعض اوقات تنازعات کے ساتھ لکھتے ہیں۔ دو سیشن ایک ہی فیلڈ کے لیے مختلف اقدار لکھتے ہیں۔ آخری تحریر جیت جاتی ہے۔ پہلی قدر ختم ہو جاتی ہے۔ کسی کو اطلاع نہیں دی جاتی۔ کوئی ریکارڈ نہیں ہے کہ یہ کبھی مختلف تھا۔

LLM پر مبنی خلاصہ اس کو مزید خراب کرتا ہے۔ سسٹمز پرانے ریکارڈ کو نئے خلاصوں میں ضم کر دیتے ہیں۔ خلاصہ اصل کی جگہ لے لیتا ہے۔ اگر انضمام غلط تھا (دو افراد ایک میں ضم ہو گئے، ایک تفصیل گر گئی، ایک ابہام بری طرح حل ہو گیا)، اصل ختم ہو گئے ہیں۔ آپ خلاصہ کا موازنہ اس سے نہیں کر سکتے کہ اس نے کیا بدلا۔ اس کی جگہ اب موجود نہیں ہے۔

یہ نظریاتی نہیں ہے۔ جب میں نے اسے صاف کرنے کے بعد [اپنا پروڈکشن ڈیٹا بیس](/posts/how-i-lost-and-recovered-6000-memories) کو بازیافت کیا تو میرے پاس مختلف تاریخوں سے بیک اپ تھے۔ میں وقت کے ساتھ ہستی کی حالت کا موازنہ کر سکتا ہوں۔ کچھ اداروں میں 3 مارچ اور 9 مارچ کے بیک اپ کے درمیان فرق تھا۔ صرف ضمیمہ کے نظام میں، دونوں قدریں ٹائم اسٹیمپڈ مشاہدات کے طور پر زندہ رہتی ہیں۔ ایک تغیر پذیر نظام میں، صرف تازہ ترین زندہ رہتا ہے۔ آپ کو کبھی معلوم نہیں ہوگا کہ پہلے کی قدر موجود تھی۔

## آڈٹ کوئی نہیں چلتا

زیادہ تر ٹیمیں فریب کی جانچ کرتی ہیں۔ وہ تصدیق کرتے ہیں کہ ماڈل کی آؤٹ پٹ بازیافت شدہ سیاق و سباق میں بنیاد ہے۔ وہ جانچتے ہیں کہ آیا ماڈل حقائق کو ایجاد کرتا ہے۔

تقریباً کوئی نہیں دیکھتا کہ آیا ذخیرہ شدہ حقائق بدل گئے ہیں۔ پوچھیں:

**کیا آپ دیکھ سکتے ہیں کہ کیا بدلا ہے؟** اگر کوئی قدر گزشتہ ہفتے سے مختلف ہے، تو کیا آپ دونوں قدریں دیکھ سکتے ہیں؟ یہ کب تبدیل ہوا، اور اسے کس چیز نے متحرک کیا؟

**کیا آپ ماضی کی حالت کو دوبارہ چلا سکتے ہیں؟** کیا آپ اس بات کو دوبارہ تشکیل دے سکتے ہیں جس پر ایجنٹ نے یقین کیا تھا، نہ صرف آج کے اسنیپ شاٹ کو؟

**کیا آپ ماخذ کا پتہ لگا سکتے ہیں؟** کسی بھی ذخیرہ شدہ حقیقت کے لیے، کیا آپ اس ایجنٹ، سیشن اور ان پٹ کا نام دے سکتے ہیں جس نے اسے بنایا یا تبدیل کیا؟

اگر کوئی جواب نفی میں ہے تو بدعنوانی ناقابل شناخت ہوسکتی ہے۔ ناممکن نہیں۔ ناقابل شناخت۔ یہ اب ہو سکتا ہے. آپ کو اس وقت تک معلوم نہیں ہوگا جب تک کہ نیچے کی طرف کوئی چیز ٹوٹ نہ جائے اور کوئی پوچھے کہ یہ نمبر کہاں سے آیا ہے۔

## اس سے کیا روکتا ہے۔

میموری کی بدعنوانی ساختی ہے، ماڈل کا مسئلہ نہیں۔ بہتر اشارے اور ہوشیار بازیافت اسے ٹھیک نہیں کرتے ہیں۔ فکس آرکیٹیکچرل ہے۔

**غیر متغیر۔** مشاہدات لکھنے کے بعد تبدیل نہیں ہوتے ہیں۔ نئی معلومات ایک نیا مشاہدہ ہے۔ بوڑھے رہتے ہیں۔ ہستی کی حالت پوری تاریخ سے اخذ کی گئی ہے، ایک بھی متغیر قطار نہیں۔

** ثبوت۔** ہر حقیقت میں میٹا ڈیٹا ہوتا ہے: اسے کس ایجنٹ نے لکھا، کب، کس ان پٹ سے، کس سیشن میں۔ جب کوئی قدر غلط نظر آتی ہے، تو آپ تحویل کا سراغ لگاتے ہیں۔ جب دو ایجنٹ آپس میں متصادم ہوتے ہیں، تو آپ دونوں کو دیکھتے ہیں اور انتخاب کرتے ہیں۔

**وقتی ری پلے۔ ** حالت مشاہدے کے لاگ سے آتی ہے، ایک موجودہ قطار سے نہیں۔ آپ کسی بھی پچھلے وقت میں عقیدے کی تعمیر نو کر سکتے ہیں۔ بدعنوانی اس وقت نظر آتی ہے جب موجودہ اور ماضی کی حالتیں مختلف ہوتی ہیں۔

ان خصوصیات کی قیمت کچھ ہے۔ صرف منسلک لاگز بڑھتے ہیں۔ تاریخ سے ریاست کی دوبارہ گنتی کی لاگت ایک قطار کو پڑھنے سے زیادہ ہے۔ سسٹمز جو مضبوط ہوتے ہیں وہ مکمل تاریخ کے خلاف اسٹوریج اور لیٹنسی ٹریڈنگ کر رہے ہیں۔ ناقابل تبدیلی آڈٹ ایبلٹی کے لیے سادہ تحریروں اور سخت اسٹوریج کی تجارت کرتا ہے۔ یہ تجارت اس وقت قابل قدر ہے جب ایجنٹ میموری لکھتے ہیں جو حقیقی نتائج کو متاثر کرتی ہے۔ بہت سے پیداوار کے معاملات کے لئے، یہ پہلے سے ہی ہے.

میں نے ان خصوصیات کو [Neotoma](https://neotoma.io) میں بنایا۔ میں نے کرپشن کے ہر منظر نامے کی پیش گوئی نہیں کی۔ میں متغیر حالت کو مارتا رہا جس نے غلط جوابات پیدا کیے جن کی تشخیص کا کوئی طریقہ نہیں تھا۔ نیوٹوما کو انسٹال کرنے کا وقت درکار ہے۔ یہ صفر سیٹ اپ نہیں ہے۔ آپ میموری کو سادہ فائل کے طور پر ایڈٹ نہیں کرتے ہیں۔ یہ حقیقی اخراجات ہیں۔ شرط یہ ہے کہ ورژن کی تاریخ، اصلیت، اور ری پلے معاملہ سہولت سے کہیں زیادہ ایک بار جب ایجنٹوں کی طرف سے ایسی حالت لکھ دی جائے جو فیصلے کرتی ہے۔

## مرکب خطرہ

بدعنوانی کے مرکبات ایک طرح سے فریب نظر نہیں آتے۔ ایک فریب والا جواب اکثر اس وقت مر جاتا ہے جب کوئی اسے پڑھتا ہے اور کہتا ہے کہ "یہ غلط ہے۔" ایک گفتگو، ایک غلطی۔

ایک خراب میموری کا اندراج برقرار رہتا ہے۔ یہ دوبارہ حاصل کیا جاتا ہے. یہ بعد کے فیصلوں کی تشکیل کرتا ہے۔ میری ورزش کا موازنہ ایک بار ناکام نہیں ہوا۔ ہر بعد کا موازنہ اسی بڑھے ہوئے یا گمشدہ ڈیٹا پر بیٹھتا ہے۔ ہر جواب اکیلے ٹھیک لگ رہا تھا. غلطی پوشیدہ تھی جب تک کہ میں نے اپنے ریکارڈ کو کراس چیک نہیں کیا، جو ایجنٹ ٹریکر کے نقطہ نظر کو شکست دیتا ہے۔

اس کو حقیقی داؤ پر لگائیں۔ میموری میں غلط ای میل کا مطلب ہے کہ جب تک کوئی نوٹس نہ لے تب تک ہر بھیجنا غلط شخص کو جاتا ہے۔ غلط ڈالر کی رقم کا مطلب ہے ایک سے زیادہ خراب رسید۔

کرپشن ماڈل میں نہیں میموری کی تہہ میں رہتی ہے۔ عام ڈیبگنگ اس سے محروم ہے۔ ماڈل کام کرتا ہے۔ بازیافت کا کام کرتا ہے۔ ذخیرہ شدہ ڈیٹا غلط ہے، یا کبھی بھی صحیح طریقے سے ذخیرہ نہیں کیا گیا تھا۔ آپ ماضی کے بنیادی ڈھانچے کو فوری طور پر انجینئر نہیں کر سکتے جو اس کی اپنی تاریخ کو گرا دیتا ہے۔

## کیا چیک کرنا ہے۔

اگر آپ ایجنٹ میموری استعمال کرتے ہیں تو اسے آزمائیں۔ آپ کے ایجنٹ نے دو ہفتے سے زیادہ پہلے اسٹور کیے ہوئے پانچ اداروں کو منتخب کریں۔ انہیں بازیافت کریں۔ موجودہ اقدار کا اس سے موازنہ کریں جو آپ کو یقین ہے کہ آپ نے اصل میں ذخیرہ کیا ہے۔

اگر آپ یہ موازنہ نہیں کر سکتے تو آپ کا سسٹم تاریخ کو محفوظ نہیں رکھتا۔ آپ کرپشن کے اندھے ہیں۔ اس کا مطلب یہ نہیں کہ کرپشن ہوئی۔ اس کا مطلب ہے کہ آپ کو معلوم نہیں ہوگا کہ اگر یہ ہوتا۔ ایک بار جب ایجنٹ پیسہ خرچ کرتے ہیں، کلائنٹس کو چھوتے ہیں، یا حقیقی دنیا کے اعمال کو متحرک کرتے ہیں تو "ہمیں معلوم نہیں ہوگا" کافی نہیں ہے۔

ایک سنجیدہ تحریری سالمیت کا بینچ مارک اس طرح چلے گا۔ معلوم اقدار کے ساتھ بیج N ہستی۔ ایم ایجنٹ سیشنز چلائیں جو ایک جیسے اداروں کو پڑھتے اور لکھتے ہیں۔ ایک ہفتہ انتظار کریں۔ ذخیرہ شدہ اقدار کا اصل سے موازنہ کریں۔

دو اسکور اہم ہیں۔ **ڈرفٹ ریٹ:** کسی واضح صارف کی اصلاح کے بغیر اقدار کا کون سا حصہ تبدیل ہوا؟ **Detectability:** ہر تبدیلی کے لیے، کیا سسٹم دکھا سکتا ہے کہ یہ کب ہوا، اس کی وجہ کیا ہے، اور پچھلی قدر؟ آج بھی وسیع پیمانے پر استعمال شدہ AI میموری بینچ مارک کی رپورٹ نہیں ہے۔

صنعت ہیلوسینیشن سے لڑنے کے لئے صحیح ہے۔ سب سے مشکل مسئلہ پہلے سے ہی ان سسٹمز کے اندر ہے جو صحت مند نظر آتے ہیں، کیونکہ تقریباً کوئی بھی اس بات کی جانچ نہیں کرتا کہ آیا ذخیرہ شدہ حقائق اب بھی وہی حقائق ہیں جو محفوظ کیے گئے تھے۔

## انڈسٹری کب پوچھنے لگے گی۔

جب ایجنٹ کی غلطیوں میں قیمت کا ٹیگ ہوتا ہے تو لکھنے کی سالمیت اختیاری ہونے سے رک جاتی ہے۔ آج بہت سی غلطیوں کو دوبارہ تخلیق یا فوری موافقت ملتی ہے۔ ایجنٹ تیزی سے [ادائیگی، ای میل، کوڈ پر عمل درآمد، اور حقیقی دنیا میں کام کر رہے ہیں](/posts/six-agentic-trends-betting-on)۔ جب ایک مہنگی ناکامی ماڈل کی گٹھ جوڑ کے بجائے بہتی ہوئی یادداشت کا سراغ لگاتی ہے، تو پوسٹ مارٹم میں "کیا ماڈل نے گمراہ کیا؟" کے بعد دوسرا سوال جوڑتا ہے۔ کیا ذخیرہ شدہ ڈیٹا تبدیل ہوا؟

یہ دباؤ تعمیل ٹیموں کے ساتھ کاروباری اداروں کے اندر نہیں رہے گا۔ [آڈٹ کا دباؤ نیچے کی مارکیٹ میں منتقل ہوتا ہے](/posts/six-agentic-trends-betting-on) جہاں کہیں بھی غلطیوں پر پیسہ خرچ ہوتا ہے۔ کنسلٹنٹس، سولو بلڈرز، اور چھوٹی ٹیموں کو ایک ہی جواب کی ضرورت ہوگی: جب اس نے یہ آؤٹ پٹ تیار کیا تو سسٹم نے کیا یقین کیا؟ اگر آپ کی میموری کی تہہ نہیں کہہ سکتی تو، میموری کی تہہ ذمہ داری ہے۔

محرک معاشی ہے، فلسفیانہ نہیں۔ پہلا عوامی پوسٹ مارٹم جو خاموشی سے خراب یادداشت کو مورد الزام ٹھہراتا ہے، نہ کہ فریب کاری، اس بات کو بدل دے گا کہ صنعت کس طرح وشوسنییتا کے بارے میں بات کرتی ہے۔ وہ پوسٹ مارٹم کب ہے، اگر نہیں۔