मैंने चैटजीपीटी में अपने वर्कआउट को ट्रैक करना शुरू कर दिया। प्रतिनिधि, वज़न, सत्र कैसा लगा। कुछ हफ़्तों के बाद मैंने उससे आज के प्रदर्शन की तुलना पिछले सत्रों से करने को कहा। इसने मुझे एक आश्वस्त, विस्तृत तुलना दी। नंबर ग़लत थे.

थोड़ा भी हटकर नहीं. गलत। इसमें उन सत्रों का हवाला दिया गया जो मेरे द्वारा वास्तव में लॉग किए गए से मेल नहीं खाते थे। मैं अपने वार्तालाप इतिहास पर वापस गया। वह जिस डेटा से "तुलना" कर रहा था वह उस रूप में मौजूद नहीं था जिस रूप में उसने दावा किया था। इसमें से कुछ उस बात का हानिपूर्ण सारांश जैसा लग रहा था जो मैंने इसे कुछ सप्ताह पहले बताया था। इसमें से कुछ अविष्कृत लग रहे थे।

प्राकृतिक निदान मतिभ्रम है. मॉडल ने बातें बनाईं. मैं इसकी पुष्टि नहीं कर सका. क्या चैटजीपीटी ने कभी भी मूल डेटा संग्रहीत नहीं किया था? क्या इसने कुछ संग्रहित किया था और फिर उसे संक्षेप में प्रस्तुत किया था? क्या सत्रों के बीच स्मृति भटक गई थी? मेरे पास यह देखने का कोई तरीका नहीं था कि जिस तारीख को मैंने उन सत्रों को लॉग किया था उस पर सिस्टम ने क्या विश्वास किया था, या क्या उसने कभी वास्तविक संख्याएँ रखी थीं। मैं मतिभ्रम से इंकार नहीं कर सका। मैं भ्रष्टाचार से भी इंकार नहीं कर सकता।

भेद करने में असमर्थता ही वास्तविक समस्या है। अधिकांश AI मेमोरी सिस्टम के साथ आप यह नहीं बता सकते कि आप कौन सा विफलता मोड देख रहे हैं। डायग्नोस्टिक टूलींग मौजूद नहीं है. लगभग कोई भी इसका निर्माण नहीं कर रहा है।

## विफलता के दो तरीके, एक नहीं

"मॉडल ने कुछ गलत कहा" के लिए उद्योग के पास एक शब्द है: मतिभ्रम। यह हर गलत आउटपुट के लिए सबसे बड़ी समस्या है। जब एजेंट लगातार मेमोरी का उपयोग करते हैं, तो दो अलग-अलग विफलता मोड होते हैं। उन्हें अलग-अलग सुधारों की आवश्यकता है।

**मतिभ्रम** एक मॉडल-स्तर की विफलता है। एलएलएम अपने इनपुट में बिना किसी आधार के सामग्री उत्पन्न करता है। पुनर्प्राप्ति ठीक थी. पीढ़ी गलत हो गई. सुधार मॉडल-स्तर पर हैं: बेहतर ग्राउंडिंग, पुनर्प्राप्ति-संवर्धित पीढ़ी, बाधित डिकोडिंग, सत्यापन श्रृंखला।

**मेमोरी भ्रष्टाचार** एक बुनियादी ढांचे-स्तर की विफलता है। संग्रहीत डेटा ग़लत है. मॉडल इसे ईमानदारी से पुनः प्राप्त करता है। उत्तर सही लगता है क्योंकि पुनर्प्राप्ति सही थी। जो पुनर्प्राप्त किया गया था वह बदल गया था।

स्मृति भ्रष्टाचार मतिभ्रम के लिए डिज़ाइन की गई हर जांच को पार कर जाता है। अनुच्छेद क्वेरी से मेल खाता है. मॉडल इसके स्रोत का हवाला देता है. आउटपुट को संग्रहीत डेटा में ग्राउंड किया जाता है। प्रत्येक रेलिंग कहती है कि उत्तर वास्तविक जानकारी पर आधारित है। जानकारी ग़लत है.

## भ्रष्टाचार डिफ़ॉल्ट क्यों है?

एजेंट मेमोरी की प्रत्येक प्रमुख श्रेणी डिफ़ॉल्ट रूप से परिवर्तनीय स्थिति को संग्रहीत करती है।

प्लेटफ़ॉर्म मेमोरी (चैटजीपीटी, क्लाउड, जेमिनी, कोपायलट) अद्यतन पर प्रविष्टियों को अधिलेखित कर देती है। कोई संस्करण ट्रेल नहीं है. पुनर्प्राप्ति प्रणालियाँ (Mem0, Zep, LangChain Memory) स्मृतियों के समेकित होने पर उनका विलय कर देती हैं या उन्हें बदल देती हैं।

फ़ाइल-आधारित सिस्टम (मार्कडाउन, JSON) तब तक परिवर्तनशील बने रहते हैं जब तक आप git नहीं जोड़ते। Git आपको वास्तविक इतिहास देता है और छोटे रेपो के लिए अंतर देता है। एजेंट-लिखित डेटा के लिए यह [गीगाबाइट पैमाने पर खराब पैमाने पर](https://x.com/garrytan/status/2040797478434549792) है, और कुछ टीमें इसे मेमोरी के लिए राइट-फ़ॉरवर्ड लॉग के रूप में मानती हैं।

मानक डेटाबेस (SQLite, Postgres) इवेंट सोर्सिंग, टेम्पोरल टेबल और ऑडिट ट्रिगर लागू कर सकते हैं। उनका डिफ़ॉल्ट पथ अभी भी अधिलेखित है: `अद्यतन` पंक्ति को प्रतिस्थापित करता है और पुराना मान चला जाता है।

इनमें से कोई भी बॉक्स से बाहर [संस्करणित इतिहास या मूक उत्परिवर्तन को रोकता है](/मेमोरी-गारंटी) को संरक्षित नहीं करता है। उनमें से कोई भी *कर सकता* है। लगभग कोई भी *नहीं* करता।

यहां तक ​​कि सोचे हुए नए डिज़ाइन भी उसी जाल में फंस सकते हैं। गैरी टैन का [GBrain spec](https://gist.github.com/garrytan/49c88e83cf8d7ae95e087426368809cb) बहुत कुछ सही हो जाता है: पहले दिन से SQLite, FTS5, वेक्टर सर्च, MCP। युक्ति अभी भी संकलित सत्य को जोड़ने के बजाय उसे फिर से लिखती है। आपका एजेंट खराब मर्ज के साथ 7,471 पेज दोबारा लिखता है। ग़लत संस्करण विहित हो जाता है. कोई ऑडिट ट्रेल नहीं. स्वच्छ वास्तुकला, समान उत्परिवर्तन मॉडल।

यह कोई ख़राब लॉन्च नहीं है. यह संपूर्ण श्रेणी के लिए बेंचमार्क संस्कृति है। दत्तक ग्रहण, सितारे और फंडिंग ट्रैक पुनर्प्राप्ति मेट्रिक्स: k पर याद करें (अक्सर R@k लिखा जाता है), परिशुद्धता, विलंबता, संपीड़न अनुपात। वे मेट्रिक्स मायने रखते हैं। अच्छी पुनर्प्राप्ति आवश्यक है. जब एजेंट अपनी स्मृति में लिखते हैं तो यह पर्याप्त नहीं है। कोई भी व्यापक रूप से उपयोग किया जाने वाला बेंचमार्क परीक्षण नहीं करता है कि लिखे जाने के बाद संग्रहीत डेटा का क्या होता है।

[मेमपैलेस](https://github.com/milla-jovovich/mempalace) इसका एक ताज़ा उदाहरण है। प्रोजेक्ट ने "परफेक्ट बेंचमार्क स्कोर" पर दो दिनों में 19,000 GitHub स्टार्स को हिट किया। [स्वतंत्र विश्लेषण](https://penfieldlabs.substack.com/p/milla-jovovich-just-released-an-ai) ने पाया कि हेडलाइन नंबर थे [पुनर्प्राप्ति रिकॉल मेट्रिक्स, एंड-टू-एंड सटीकता नहीं](https://github.com/milla-jovovich/mempalace/issues/27)। भ्रामक लॉन्च कॉपी एक मेमपैलेस समस्या है। प्रोत्साहन संरचना श्रेणी की समस्या है: पुनर्प्राप्ति स्कोर के लिए 19,000 सितारे, लेखन अखंडता के बारे में शून्य प्रश्न। सुपरमेमोरी, मेम0, और कम से कम एक दर्जन अन्य जिन्हें मैं ट्रैक करता हूं, एक ही धुरी पर प्रतिस्पर्धा करते हैं। कोई भी इस बात पर मेट्रिक्स प्रकाशित नहीं करता है कि एजेंट द्वारा लिखे गए एक सप्ताह तक संग्रहीत तथ्य अपरिवर्तित रहते हैं या नहीं।

पारंपरिक ऐप्स के लिए, परिवर्तनीय स्थिति ठीक है। एजेंट मेमोरी के लिए यह एक समस्या है. एजेंट अक्सर, सत्रों में, कभी-कभी संघर्षों के साथ लिखते हैं। दो सत्र एक ही फ़ील्ड के लिए अलग-अलग मान लिखते हैं। अंतिम लेखन जीतता है. पहला मान गायब हो जाता है. किसी को सूचित नहीं किया गया. ऐसा कोई रिकॉर्ड नहीं है कि यह कभी अलग था।

एलएलएम-संचालित सारांशीकरण इसे और बदतर बना देता है। सिस्टम पुराने रिकॉर्ड को नए सारांश में मिला देता है। सारांश मूल का स्थान ले लेता है। यदि विलय गलत था (दो लोग एक में विलीन हो गए, एक विवरण हटा दिया गया, एक अस्पष्टता बुरी तरह से हल हो गई), तो मूल गायब हो गए। आप सारांश की तुलना उसके द्वारा प्रतिस्थापित किए गए से नहीं कर सकते। इसे प्रतिस्थापित करने वाली चीज़ अब मौजूद नहीं है।

यह सैद्धांतिक नहीं है. जब मैंने इसे पोंछने के बाद [अपना प्रोडक्शन डेटाबेस पुनर्प्राप्त किया](/पोस्ट/कैसे-आई-लॉस्ट-एंड-रिकवर-6000-मेमोरीज़), तो मेरे पास अलग-अलग तारीखों के बैकअप थे। मैं समय-समय पर इकाई स्थिति की तुलना कर सकता हूं। कुछ इकाइयाँ 3 मार्च और 9 मार्च के बैकअप के बीच भिन्न थीं। केवल परिशिष्ट प्रणाली में, दोनों मान टाइमस्टैम्प्ड अवलोकन के रूप में जीवित रहते हैं। परिवर्तनशील व्यवस्था में केवल नवीनतम ही जीवित रहता है। आपको कभी पता नहीं चलेगा कि पहले का मूल्य अस्तित्व में था।

## ऑडिट कोई नहीं चलाता

अधिकांश टीमें मतिभ्रम की जांच करती हैं। वे सत्यापित करते हैं कि मॉडल का आउटपुट पुनर्प्राप्त संदर्भ में आधारित है। वे परीक्षण करते हैं कि क्या मॉडल तथ्यों का आविष्कार करता है।

लगभग कोई भी यह जांच नहीं करता कि संग्रहीत तथ्य बदल गए हैं या नहीं। पूछो:

**क्या आप देख सकते हैं कि क्या परिवर्तन हुआ?** यदि कोई मान पिछले सप्ताह से भिन्न है, तो क्या आप दोनों मान देख सकते हैं? यह कब बदला और इसका कारण क्या था?

**क्या आप पिछली स्थिति को फिर से चला सकते हैं?** क्या आप केवल आज के स्नैपशॉट को ही नहीं, बल्कि किसी विशिष्ट तिथि पर एजेंट के विश्वास को फिर से बना सकते हैं?

**क्या आप स्रोत का पता लगा सकते हैं?** किसी संग्रहीत तथ्य के लिए, क्या आप उस एजेंट, सत्र और इनपुट का नाम बता सकते हैं जिसने इसे बनाया या बदला?

यदि कोई उत्तर नहीं है, तो भ्रष्टाचार का पता नहीं लगाया जा सकता है। असंभव नहीं. पता न चलने योग्य। यह अब हो सकता है. आपको तब तक पता नहीं चलेगा जब तक कोई डाउनस्ट्रीम टूट न जाए और कोई न पूछे कि वह नंबर कहां से आया।

## इसे क्या रोकता है

मेमोरी भ्रष्टाचार संरचनात्मक है, कोई मॉडल समस्या नहीं। बेहतर संकेत और बेहतर पुनर्प्राप्ति इसे ठीक नहीं करती है। फिक्स वास्तुशिल्प है.

**अपरिवर्तनीयता।** लिखने के बाद अवलोकन नहीं बदलते। नई जानकारी एक नया अवलोकन है. पुराने वाले रहते हैं. इकाई स्थिति संपूर्ण इतिहास से ली गई है, एक भी परिवर्तनशील पंक्ति से नहीं।

**प्रगति।** प्रत्येक तथ्य में मेटाडेटा होता है: किस एजेंट ने इसे लिखा, कब, किस इनपुट से, किस सत्र में। जब कोई मान गलत दिखता है, तो आप हिरासत का पता लगाते हैं। जब दो एजेंट संघर्ष करते हैं, तो आप दोनों को देखते हैं और चुनते हैं।

**अस्थायी पुनरावृत्ति।** स्थिति एक अवलोकन लॉग से आती है, एक वर्तमान पंक्ति से नहीं। आप किसी भी पिछले समय में विश्वास का पुनर्निर्माण कर सकते हैं। जब वर्तमान और अतीत की स्थिति अलग हो जाती है तो भ्रष्टाचार दिखाई देने लगता है।

इन संपत्तियों की कीमत कुछ होती है। केवल-संलग्न लॉग बढ़ते हैं। इतिहास से स्थिति की पुनः गणना करने में एक पंक्ति को पढ़ने से अधिक लागत आती है। सिस्टम जो समेकित होते हैं वे पूर्ण इतिहास के विरुद्ध भंडारण और विलंबता का व्यापार कर रहे हैं। अपरिवर्तनीयता ऑडिटेबिलिटी के लिए सरल लेखन और तंग भंडारण का व्यापार करती है। वह व्यापार तब सार्थक होता है जब एजेंट ऐसी स्मृति लिखते हैं जो वास्तविक परिणामों को प्रभावित करती है। कई उत्पादन मामलों के लिए, यह पहले से ही है।

मैंने इन संपत्तियों को [नियोटोमा](https://neotoma.io) में बनाया। मैंने हर भ्रष्टाचार परिदृश्य की भविष्यवाणी नहीं की थी। मैं ऐसी परिवर्तनशील स्थिति का सामना करता रहा जिससे गलत उत्तर मिलते रहे और उनका निदान करने का कोई तरीका नहीं था। नियोटोमा को इंस्टाल करने के लिए समय चाहिए। यह शून्य-सेटअप नहीं है. आप मेमोरी को एक सादे फ़ाइल के रूप में संपादित नहीं करते हैं. वे वास्तविक लागतें हैं। शर्त यह है कि जब एजेंट निर्णय लेने वाली स्थिति लिखते हैं तो संस्करणबद्ध इतिहास, उत्पत्ति और पुनरावृत्ति सुविधा से अधिक मायने रखती है।

## यौगिक जोखिम

भ्रष्टाचार एक तरह से मतिभ्रम को जोड़ता है जो आमतौर पर नहीं होता है। मतिभ्रम वाला उत्तर अक्सर तब ख़त्म हो जाता है जब कोई उसे पढ़ता है और कहता है, "यह ग़लत है।" एक बातचीत, एक त्रुटि.

दूषित स्मृति प्रविष्टि बनी रहती है. यह पुनः प्राप्त हो जाता है। यह बाद के निर्णयों को आकार देता है। मेरी कसरत तुलनाएँ एक बार भी विफल नहीं हुईं। प्रत्येक बाद की तुलना उसी भटके हुए या गायब डेटा पर आधारित थी। प्रत्येक उत्तर अकेले ही ठीक लग रहा था। त्रुटि तब तक अदृश्य थी जब तक कि मैंने अपने स्वयं के रिकॉर्ड को क्रॉस-चेक नहीं किया, जो एक एजेंट ट्रैकर के बिंदु को विफल कर देता है।

इसे वास्तविक दांव तक बढ़ाएं। मेमोरी में गलत ईमेल का मतलब है कि हर संदेश गलत व्यक्ति के पास चला जाता है जब तक कि कोई नोटिस न कर ले। गलत डॉलर राशि का मतलब एक से अधिक ख़राब चालान है।

भ्रष्टाचार स्मृति परत में रहता है, मॉडल में नहीं। सामान्य डिबगिंग से यह छूट जाता है। मॉडल काम करता है. पुनर्प्राप्ति कार्य करती है. संग्रहीत डेटा गलत है, या कभी भी सही ढंग से संग्रहीत नहीं किया गया था। आप उस बुनियादी ढांचे को तैयार नहीं कर सकते जो अपना ही इतिहास खो देता है।

##क्या जांचना है

यदि आप एजेंट मेमोरी का उपयोग करते हैं, तो इसे आज़माएँ। ऐसी पाँच इकाइयाँ चुनें जिन्हें आपके एजेंट ने दो सप्ताह से अधिक समय पहले संग्रहित किया था। उन्हें पुनः प्राप्त करें. वर्तमान मूल्यों की तुलना उन मूल्यों से करें जिन्हें आप मानते हैं कि आपने मूल रूप से संग्रहीत किया है।

यदि आप वह तुलना नहीं कर सकते, तो आपका सिस्टम इतिहास को संरक्षित नहीं करता है। आप भ्रष्टाचार के अंधे हैं. इसका मतलब यह नहीं कि भ्रष्टाचार हुआ. इसका मतलब है कि अगर ऐसा होता तो आपको पता नहीं चलता। एक बार जब एजेंट पैसा खर्च कर देते हैं, ग्राहकों को छू लेते हैं, या वास्तविक दुनिया की कार्रवाइयां शुरू कर देते हैं, तो "हमें पता नहीं चलेगा" पर्याप्त नहीं है।

एक गंभीर लेखन-अखंडता बेंचमार्क इस तरह चलेगा। ज्ञात मूल्यों के साथ बीज एन इकाइयाँ। एम एजेंट सत्र चलाएँ जो समान संस्थाओं को पढ़ते और लिखते हैं। एक सप्ताह प्रतीक्षा करें. संग्रहित मानों की तुलना मूल मानों से करें।

दो अंक मायने रखते हैं. **बहाव दर:** स्पष्ट उपयोगकर्ता सुधार के बिना मूल्यों का कितना हिस्सा बदल गया? **पता लगाने की योग्यता:** प्रत्येक परिवर्तन के लिए, क्या सिस्टम यह दिखा सकता है कि यह कब हुआ, इसका कारण क्या था और पिछला मान क्या था? आज भी कोई व्यापक रूप से उपयोग की जाने वाली AI मेमोरी बेंचमार्क रिपोर्ट नहीं है।

मतिभ्रम से लड़ने के लिए उद्योग सही है। सबसे कठिन समस्या पहले से ही उन प्रणालियों के अंदर है जो स्वस्थ दिखती हैं, क्योंकि लगभग कोई भी यह जांच नहीं करता है कि संग्रहीत तथ्य अभी भी संग्रहीत तथ्य हैं या नहीं।

## जब इंडस्ट्री पूछना शुरू करेगी

जब एजेंट की त्रुटियों का मूल्य टैग होता है तो लेखन अखंडता वैकल्पिक होना बंद हो जाती है। आज कई गलतियों को पुनर्जीवित किया जाता है या तुरंत सुधार किया जाता है। एजेंट तेजी से [भुगतान करना, ईमेल करना, कोड निष्पादित करना और वास्तविक दुनिया में अभिनय करना](/पोस्ट/छह-एजेंट-ट्रेंड-सट्टेबाजी-ऑन) कर रहे हैं। जब एक महँगी विफलता मॉडल कन्फैब्यूलेशन के बजाय बहती स्मृति का पता लगाती है, तो पोस्टमॉर्टम "क्या मॉडल मतिभ्रम करता है?" के बाद एक दूसरा प्रश्न जोड़ता है। क्या संग्रहीत डेटा बदल गया?

अनुपालन टीमों वाले उद्यमों के अंदर वह दबाव नहीं रहेगा। [ऑडिट का दबाव बाजार में गिरावट की ओर जाता है](/पोस्ट/छह-एजेंट-ट्रेंड-सट्टेबाजी-ऑन) जहां भी त्रुटियों की कीमत होती है। सलाहकारों, एकल बिल्डरों और छोटी टीमों को एक ही उत्तर की आवश्यकता होगी: सिस्टम ने उस आउटपुट का उत्पादन करते समय क्या विश्वास किया था? यदि आपकी स्मृति परत नहीं कह सकती, तो स्मृति परत दायित्व है।

इसका कारण आर्थिक है, दार्शनिक नहीं। पहला सार्वजनिक पोस्टमॉर्टम जो मतिभ्रम को नहीं, बल्कि चुपचाप भ्रष्ट स्मृति को दोषी ठहराता है, यह बदल देगा कि उद्योग विश्वसनीयता के बारे में कैसे बात करता है। वह पोस्टमॉर्टम कब का है, अगर का नहीं।