[बोरिस चेर्नी (एंथ्रोपिक में क्लाउड कोड के निर्माता) ने ट्वीट किया](https://x.com/bcherny/status/2017824286489383315) कि क्लाउड कोड आरएजी प्लस स्थानीय वेक्टर डीबी से एजेंटिक खोज में स्थानांतरित हो गया है। उन्होंने कहा, यह बेहतर काम करता है और सरल है, सुरक्षा और गोपनीयता से संबंधित कम समस्याएं हैं। अन्य उपकरण अलग रास्ता अपनाते हैं। उदाहरण के लिए, कर्सर कोडबेस को अनुक्रमित करने और सिमेंटिक समानता द्वारा खोज करने के लिए क्लाउड-आधारित एम्बेडिंग का उपयोग करता है।

इसलिए हमारे पास कम से कम दो पुनर्प्राप्ति प्रतिमान हैं: एम्बेडिंग-आधारित खोज (पूर्व-अनुक्रमित, वेक्टर समानता) और एजेंटिक खोज (ऑन-डिमांड टूल का उपयोग)। वे एक जैसे नहीं हैं। प्रत्येक का अलग-अलग ट्रेडऑफ़ है। दोनों पुनर्प्राप्ति रणनीतियाँ हैं। एक सत्य परत कुछ और है. यह विहित संस्थाओं को कायम रखता है, उद्गम को बनाए रखता है, और नियतात्मक प्रश्नों का समर्थन करता है। यह स्थिति के बारे में है, पुनर्प्राप्ति के बारे में नहीं। यह पोस्ट सत्य परत की तुलना दोनों पुनर्प्राप्ति मॉडल से करती है। यह उन सीमाओं से भी जुड़ा है जिनका मैंने अकेले पुनर्प्राप्ति पर भरोसा करते समय सामना किया है।

## जहां मैंने सीमाएं लांघी हैं

मैं केवल कोडिंग ही नहीं, बल्कि अपने सभी डिजिटल वर्कफ़्लो के लिए कर्सर को अपने केंद्रीय इंटरफ़ेस के रूप में उपयोग करता हूं। ईमेल ट्राइएज, कार्य प्रबंधन, वित्त प्रश्न, सामग्री योजना, लेनदेन, संपर्क। वे सभी एक ही एजेंट के माध्यम से एक ही रेपो तक पहुंच के साथ चलते हैं। फ़ाइलों में एजेंटिक खोज अक्सर अच्छी तरह से काम करती है। एजेंट संदर्भ ढूंढता है, कनेक्शन का अनुमान लगाता है और काम पूरा करता है।

लेकिन मैंने सीमा लांघ दी है। एजेंट अनुमान लगाता है; यह गारंटी नहीं देता. यह ऐसा दिखता है:

- **बड़े डेटासेट, अधूरा रिकॉल।** ऑन-डिमांड खोज से चीजें छूट जाती हैं या हजारों लेनदेन या सैकड़ों संपर्कों में काट-छांट हो जाती है। पुनर्प्राप्ति हर बार पुनः प्राप्त होती है. संपूर्ण परिणामों के लिए पूछताछ करने के लिए कोई संरचित स्टोर नहीं है।
- **अपरिवर्तनीय ओवरराइट।** एक एजेंट किसी संपर्क या कार्य को ओवरराइट करता है और पिछली स्थिति समाप्त हो जाती है। कोई रोलबैक नहीं. लेख यथास्थान हैं. ट्रेस करने और वापस रोल करने के लिए कोई वर्जनिंग या एपेंड-ओनली ट्रेल नहीं है।
- **कोई क्रॉस-टूल एक्सेस नहीं।** मैं Claude.ai या ChatGPT से समान रिकॉर्ड का उपयोग नहीं कर सकता। पुनर्प्राप्ति प्रदाता-बाध्य है।
- **गैर-पुनरुत्पादित उत्तर।** वही प्रश्न, अलग उत्तर। मैं सत्यापन या डिबगिंग के लिए परिणाम पुन: प्रस्तुत नहीं कर सकता। पुनर्प्राप्ति गैर-नियतात्मक है.
- **कोई पता लगाने की क्षमता नहीं।** जब एजेंट कोई गलत नंबर या दावा देता है, तो मैं उसे स्रोत फ़ाइलों या रिकॉर्ड में वापस नहीं ढूंढ सकता। पुनर्प्राप्ति का कोई उद्गम नहीं है.
- **अस्थिर विहित पहचान।** एजेंट "एक्मे कॉर्प" और "एसीएमई कॉर्प" को एक सत्र में समान और अगले में अलग मान सकता है। पुनर्प्राप्ति हर बार पुन: अनुमान लगाती है। कोई स्थायी विहित आईडी या मर्ज नियम नहीं हैं।

## दो पुनर्प्राप्ति प्रतिमान, एक अवस्था प्रतिमान

एंबेडिंग-आधारित खोज और एजेंटिक खोज दोनों ही एक एजेंट को जानकारी प्रदान करते हैं। वे एक जैसे नहीं हैं। एंबेडिंग-आधारित खोज (जैसे कर्सर) एक कॉर्पस को पूर्व-अनुक्रमित करती है और वेक्टर समानता के माध्यम से उत्तर देती है। इंडेक्स को क्लाउड-होस्ट और अपडेट किया जा सकता है। एजेंटिक खोज (उदाहरण के लिए क्लाउड कोड) एक सतत सूचकांक को छोड़ देता है और मांग पर खोजने और पढ़ने के लिए टूल का उपयोग करता है। अलग-अलग कार्यान्वयन, अलग-अलग ट्रेडऑफ़: गोपनीयता, बासीपन, सरलता।

वे जो साझा करते हैं वह पुनर्प्राप्ति है। एजेंट को क्वेरी के समय चीजें मिल जाती हैं। एक सत्य परत पुनर्प्राप्ति नहीं है. यह सतत, संरचित अवस्था है: विहित संस्थाएँ, उत्पत्ति, नियतात्मक प्रश्न।

हम एक राज्य प्रतिमान (सत्य परत) की तुलना दो पुनर्प्राप्ति प्रतिमानों (एम्बेडिंग-आधारित और एजेंटिक) से कर रहे हैं। नीचे दी गई तालिका तीनों को दर्शाती है। जहां दोनों पुनर्प्राप्ति कॉलम एक सीमा साझा करते हैं (उदाहरण के लिए कोई उद्गम नहीं), यह सत्य परत के सापेक्ष उनके बीच एक समानता है। यह दोनों का समीकरण नहीं है.

| डोमेन | एंबेडिंग-आधारित खोज | एजेंट खोज | सत्य परत |
|--------|--------------------------------|----------------|----------------|
| दस्तावेज़ पुनर्प्राप्ति | पूर्व-अनुक्रमित समानता, शब्दार्थ मिलान | ऑन-डिमांड खोज, अनुमान | इकाई संकल्प, डिडुप, उद्गम |
| बहु-स्रोत एकत्रीकरण | सूचकांक का दायरा और ताजगी निर्माण पर निर्भर करती है | सभी स्रोतों पर लाइव खोज | एकीकृत ग्राफ़, नियतात्मक विलय |
| इकाई लुकअप | एम्बेडिंग पर समानता; कोई विहित आईडी नहीं | प्रति सत्र अनुमान | कैनोनिकल आईडी, नियम-आधारित मर्ज |
| समयरेखा प्रश्न | केवल यदि अनुक्रमित किया गया हो; कोई मूल समय मॉडल नहीं | ऑन-डिमांड असेंबली | पूर्व-गणना, स्कीमा-संचालित |
| उत्पत्ति और लेखापरीक्षा | कोई नहीं | कोई नहीं | अपरिवर्तनीय ऑडिट ट्रेल |
| क्रॉस-प्लेटफ़ॉर्म | प्रदाता/सूचकांक से बंधा हुआ | प्रदाता-विशिष्ट उपकरण | सभी टूल में समान डेटा |

दोनों पुनर्प्राप्ति दृष्टिकोण सुविधा और लचीलेपन के लिए अनुकूलित हैं। एक सत्य परत स्थिरता और सत्यापनीयता के लिए अनुकूलन करती है।

## एक सत्य परत क्या प्रदान करती है

एक संरचित मेमोरी परत विभिन्न आदिमों के आसपास बनाई गई है:

1. **निरंतर विहित पहचान।** सत्रों और उपकरणों में स्थिर इकाई आईडी।
2. **नियतात्मक विलय तर्क।** टिप्पणियों का नियम-आधारित संयोजन, प्रति-सत्र एलएलएम अनुमान नहीं।
3. **उत्पत्ति और लेखापरीक्षा।** स्रोत से उत्तर तक पता लगाने योग्य वंशावली।
4. **निष्क्रियता।** समान इनपुट से समान आउटपुट मिलते हैं।
5. **क्रॉस-प्लेटफ़ॉर्म सत्य।** चैटजीपीटी, क्लाउड, कर्सर पर समान मेमोरी।
6. **स्पष्ट गोपनीयता मॉडल।** उपयोगकर्ता नियंत्रण, कोई प्रदाता प्रशिक्षण उपयोग नहीं, स्पष्ट डेटा सीमाएँ।

ये एजेंटिक खोज की तुलना में वृद्धिशील सुधार नहीं हैं। वे एक अलग डिज़ाइन हैं. सर्वोत्तम प्रयास पुनर्प्राप्ति और ऑर्केस्ट्रेशन बनाम सत्यापन योग्य, पुन: चलाने योग्य स्थिति। चुनाव इस बात पर निर्भर करता है कि आपको क्या चाहिए।

## किस पुनर्प्राप्ति का अनुमान लगाया जा सकता है (एजेंट या एम्बेडिंग-आधारित)

तीन उदाहरण उपरोक्त क्षमताओं का अनुमान लगाते हुए पुनर्प्राप्ति (एजेंट या एम्बेडिंग-आधारित) दिखाते हैं। प्रत्येक उदाहरण में, एजेंट को कुछ ऐसा मिलता है जो फिलहाल सही लगता है। प्रत्येक में, समान सीमाएँ दिखाई देती हैं: कोई निरंतर विहित पहचान नहीं, कोई उद्गम नहीं, कोई गारंटी नहीं कि "समान क्वेरी" सत्रों या सूचकांक पुनर्निर्माणों में "समान परिणाम" उत्पन्न करती है। नीचे दिए गए उदाहरण एजेंटिक शब्दों (टूल्स, ऑन-डिमांड सर्च) का उपयोग करते हैं। एंबेडिंग-आधारित पुनर्प्राप्ति एक सूचकांक पर सिमेंटिक खोज के माध्यम से समान व्यवहार का अनुमान लगा सकती है और समान सीमा तक पहुंच सकती है।

**उदाहरण 1: सत्र-स्कोप इकाई समाधान।** एजेंट के पास फ़ाइलें, ईमेल और क्लाउड खोजने के लिए उपकरण हैं। इसमें एक ही इकाई के उल्लेखों को एक जैसा मानने के निर्देश हैं। आप पूछते हैं: "एक्मे कॉर्प के साथ मेरा कुल खर्च कितना है?" एजेंट बैंक निर्यात, रसीदें, चालान खोजता है। यह "एक्मे कॉर्प", "एसीएमई कॉर्प", "एक्मे कॉर्पोरेशन" पाता है, एक ही इकाई का अनुमान लगाता है, रकम जोड़ता है। यह इस क्वेरी और सत्र के लिए इकाई समाधान जैसा दिखता है। क्या गलत होता है: कल फिर से पूछें और संख्या भिन्न हो सकती है। एजेंट से कोई फ़ाइल छूट सकती है (छूटी हुई खोज, ग़लत पथ) और गिनती कम हो सकती है। या फिर यह "एक्मे कॉर्प" और "एक्मे इंडस्ट्रीज" को एक ही मान सकता है और उनकी संख्या बढ़ा सकता है। सत्यापित करने का कोई तरीका नहीं. कोई ऑडिट ट्रेल नहीं, कोई स्थिर आईडी नहीं। विभिन्न सत्र असहमत हो सकते हैं।

**उदाहरण 2: ऑन-डिमांड टाइमलाइन असेंबली।** एजेंट के पास व्यापक फ़ाइल और दिनांक पहुंच है। आप पूछते हैं: "2024 की तीसरी तिमाही में मेरे प्रमुख खर्च क्या थे?" एजेंट खोज करता है, तारीखें पार्स करता है, एक कालानुक्रमिक सूची इकट्ठा करता है, "प्रमुख" द्वारा फ़िल्टर करता है। बिना किसी समर्पित टाइमलाइन प्रणाली के आपको टाइमलाइन जैसा उत्तर मिलता है। क्या गलत होता है: हर बार "प्रमुख" का अनुमान लगाया जाता है। एक सत्र में €500 का आइटम शामिल नहीं है। अगले में यह शामिल है. गैर-मानक दिनांक प्रारूप वाले दस्तावेज़ हटा दिए जाते हैं या गलत क्रम में रख दिए जाते हैं। जब 15 थे तो एजेंट काट सकता है ("यहां शीर्ष 10 हैं")। हर बार एक ही क्वेरी, अलग-अलग परिणाम।

**उदाहरण 3: हाइब्रिड मेमोरी परत।** एक प्रदाता एजेंटिक सर्च और हल्की मेमोरी भेजता है। एजेंट संरचित स्निपेट निकालता है, उन्हें संग्रहीत करता है, और बाद में उन्हें पुनः प्राप्त करता है। यह एक रसीद संसाधित करता है, ''विक्रेता: "एक्मे कॉर्प", राशि: 150, दिनांक: "2024-07-15"}` संग्रहीत करता है। बाद का सत्र इसे पुनः प्राप्त करता है और लाइव खोज परिणामों के साथ विलय कर देता है। यह संरचित मेमोरी जैसा दिखता है। क्या गलत होता है: बाद का निष्कर्षण स्निपेट को अधिलेखित कर देता है। कोई संस्करणीकरण नहीं, कोई रोलबैक नहीं। वही विक्रेता संग्रहीत मेमोरी में "एसीएमई कॉर्प" और ताजा खोज में "एसीएमई कॉर्प" के रूप में दिखाई देता है। डुप्लिकेट जमा हो जाते हैं. प्रदाता सुविधा या स्कीमा बदल देता है और आपके संग्रहीत स्निपेट गायब हो जाते हैं। किसी गलत नंबर का उसके स्रोत तक वापस पता लगाने का कोई तरीका नहीं है।

प्रत्येक उदाहरण में, व्यवहार लगभग वही होता है जो सत्य परत प्रदान करती है। पुनर्प्राप्ति में सीमाएँ अंतर्निहित हैं। चाहे एजेंट एम्बेडिंग खोज या एजेंटिक खोज का उपयोग करता हो, आपको अभी भी सत्र दायरा और अनुमान-आधारित मर्ज मिलता है। आपको अभी भी कोई उद्गम और कोई क्रॉस-प्लेटफ़ॉर्म गारंटी नहीं मिलती है। एक सत्य परत उसे पुनः प्राप्त करने के बजाय स्थिति को कायम रखकर संबोधित करती है।

## जब पुनर्प्राप्ति उत्कृष्ट हो (एजेंट या एम्बेडिंग-आधारित)

**खोजपूर्ण खोज।** "बार्सिलोना अपार्टमेंट के बारे में मेरे डाउनलोड या नोट्स में कुछ भी ढूंढें।" आप नहीं जानते कि यह कहाँ रहता है या इसे क्या कहा जाता है। फ़ाइलों, फ़ोल्डरों और प्रारूपों में एजेंटिक खोज से प्रासंगिक स्निपेट सामने आते हैं। किसी स्कीमा की आवश्यकता नहीं है. एजेंट अनुमान लगाता है और संयोजन करता है।

**तेजी से क्रॉस-सोर्स सारांश।** "हमने ठेकेदार के साथ पिछले तीन ईमेल में क्या निर्णय लिया?" इनबॉक्स खोजें, थ्रेड निकालें, सारांशित करें। एक सत्र, एक उत्तर. आपको अगली बार उस सारांश को बनाए रखने या उससे बिल्कुल मेल खाने की आवश्यकता नहीं है।

**तदर्थ कोड और डॉक्स ट्रैवर्सल।** "हम स्ट्राइप वेबहुक को कहां संभालते हैं?" कोडबेस, रीडमी, आंतरिक दस्तावेज़ खोजें। लेआउट रेपो के अनुसार भिन्न होता है। एजेंट खोज अनुकूलन. किसी एकीकृत ग्राफ़ की आवश्यकता नहीं है.

**एकल-दस्तावेज़ या एकल-थ्रेड ट्राइएज।** "इस पीडीएफ को सारांशित करें" या "इस ईमेल में क्या पूछा गया है?" प्रसंग परिबद्ध है। अनुमान ही पर्याप्त है. कोई इकाई समाधान या क्रॉस-सत्र स्थिति नहीं।

## जब एक सत्य परत उत्कृष्ट होती है

**बड़े डेटासेट पर पूर्ण रिकॉल।** "पिछले दो वर्षों में विक्रेता एक्स के साथ प्रत्येक लेनदेन की सूची बनाएं।" हज़ारों पंक्तियों के साथ, एजेंटिक खोज से रिकॉर्ड छूट सकते हैं, संक्षिप्तीकरण हो सकता है, या समुच्चय मतिभ्रम हो सकता है। एक सत्य परत एक संरचित स्टोर पर सवाल उठाती है। आपको सभी मिलान रिकॉर्ड या सटीक गिनती मिलती है।

**क्रॉस-सत्र स्थिरता।** एजेंट सत्र एक में एक अनुवर्ती कार्य बनाता है। आप कल एक नया सत्र खोलें। कार्य वहां होना चाहिए, सही संपर्क और ईमेल से जुड़ा होना चाहिए। एजेंट खोज का कोई स्थायी ग्राफ़ नहीं है. एक सत्य परत करती है.

**ऑडिट और उद्गम।** "यह संख्या कहां से आई?" इसे स्रोत रिकॉर्ड, आयात दिनांक और व्युत्पत्ति नियमों से ट्रेस करें। एजेंट खोज अनुमानित उत्तर लौटाती है। एक सत्य परत वंशावली के साथ उत्तर लौटाती है।

**बड़े पैमाने पर इकाई समाधान।** सैकड़ों संपर्क, कुछ डुप्लिकेट (नाम भिन्नताएं, मर्ज की गई कंपनियां)। विभिन्न वर्तनी के तहत एक ही विक्रेता को संदर्भित करने वाले हजारों लेनदेन। एक सत्य परत विहित आईडी और मर्ज नियमों को बनाए रखती है। एजेंट खोज प्रत्येक सत्र का पुनः अनुमान लगाती है और असहमत हो सकती है।

**नियतात्मक पुनरावृत्ति।** हर बार एक ही प्रश्न, एक ही परिणाम। रिपोर्टिंग, अनुपालन या डिबगिंग के लिए महत्वपूर्ण। एजेंटिक खोज गैर-नियतात्मक है. एक सत्य परत निष्क्रिय है.

**खराब लेखन से पुनर्प्राप्ति।** एक एजेंट किसी संपर्क को अधिलेखित कर देता है, दो कार्यों को एक में मिला देता है, या गलत अनुमान के आधार पर लेनदेन को "सही" करता है। एजेंटिक खोज और प्रत्यक्ष फ़ाइल लेखन के साथ, पिछली स्थिति समाप्त हो गई है। कोई पूर्ववत नहीं. सत्य परत केवल परिशिष्ट या संस्करणयुक्त लेखन का उपयोग करती है। आप पता लगा सकते हैं कि क्या परिवर्तन हुआ और वापस रोल कर सकते हैं। उत्परिवर्तन स्पष्ट संचालन हैं, मूक ओवरराइट नहीं।

## भेद क्यों मायने रखता है

पुनर्प्राप्ति (एम्बेडिंग-आधारित या एजेंटिक) सत्र-बद्ध है। यह अपने आप में आपको लगातार पहचान, उत्पत्ति, या क्रॉस-सेशन स्थिरता नहीं देता है। इसका मूल्य लचीला, ऑन-डिमांड एक्सेस है। एक सत्य परत का मूल्य सतत, क्रॉस-सेशन सत्य है। नियतात्मक, श्रव्य इकाई समाधान कठिन है। न तो एम्बेडिंग समानता और न ही तदर्थ एजेंटिक खोज समकक्ष है। प्रदाता द्वारा होस्ट किए गए एजेंटों को ऐसे प्रोत्साहनों का सामना करना पड़ता है जो उपयोगकर्ता-नियंत्रित, गोपनीयता-प्रथम मेमोरी के साथ टकराव करते हैं। उनकी स्मृति और उपकरण उत्पाद-विशिष्ट होते हैं।

चेर्नी का ट्वीट एक वास्तविक बदलाव को दर्शाता है। आरएजी प्लस वेक्टर डीबी जटिल था और इसमें गोपनीयता संबंधी निहितार्थ थे। एजेंट खोज ने क्लाउड कोड के लिए पुनर्प्राप्ति को सरल बनाया। कर्सर और अन्य एक अलग पुनर्प्राप्ति पथ (क्लाउड एम्बेडिंग) अपनाते हैं। दोनों पुनर्प्राप्ति प्रतिमान यह हल करते हैं कि "एजेंट चीज़ों को कैसे ढूंढता है?" न ही यह हल करता है कि "हम स्थिर पहचान, उद्गम और सत्यापन कैसे प्राप्त करें?" एक सत्य परत उत्तरार्द्ध को लक्षित करती है। पुनर्प्राप्ति और स्थिति परतें सह-अस्तित्व में रहेंगी। वे विभिन्न समस्याओं का समाधान करते हैं.

## मैं क्या निर्माण कर रहा हूं

मैं [नियोटोमा](https://github.com/markmhendrickson/neotoma) का निर्माण कर रहा हूं, जो एक संरचित मेमोरी परत है जो सत्य परत दृष्टिकोण लेती है: इकाई संकल्प, समयरेखा, उद्गम, नियतिवाद, एमसीपी के माध्यम से क्रॉस-प्लेटफॉर्म। मैं इसे अपने स्वयं के एजेंटिक स्टैक में डॉगफूड कर रहा हूं यह देखने के लिए कि व्यवहार में ये आदिम कहां मायने रखते हैं। एम्बेडिंग-आधारित खोज और एजेंटिक खोज दो पुनर्प्राप्ति रणनीतियाँ हैं। न तो आपको लगातार पहचान या सत्यापन योग्य स्थिति देता है। एक सत्य परत करती है. मैं बाद वाला निर्माण कर रहा हूं।