[Boris Cherny (Anthropic میں Claude Code کے تخلیق کار) نے ٹویٹ کیا](https://x.com/bcherny/status/2017824286489383315) کہ کلاڈ کوڈ RAG کے علاوہ مقامی ویکٹر DB سے ایجنٹی تلاش میں چلا گیا ہے۔ یہ بہتر کام کرتا ہے، انہوں نے کہا، اور آسان ہے، سیکیورٹی اور رازداری کے بارے میں کم مسائل کے ساتھ۔ دوسرے ٹولز ایک مختلف راستہ اختیار کرتے ہیں۔ کرسر، مثال کے طور پر، کوڈ بیس کو انڈیکس کرنے اور معنوی مماثلت سے تلاش کرنے کے لیے کلاؤڈ بیسڈ ایمبیڈنگز کا استعمال کرتا ہے۔

لہذا ہمارے پاس کم از کم دو بازیافت کے نمونے ہیں: سرایت پر مبنی تلاش (پری انڈیکسڈ، ویکٹر کی مماثلت) اور ایجنٹی تلاش (آن ڈیمانڈ ٹول استعمال)۔ وہ ایک جیسے نہیں ہیں۔ ہر ایک کی مختلف تجارت ہوتی ہے۔ دونوں بازیافت کی حکمت عملی ہیں۔ سچائی کی تہہ کچھ اور ہے۔ یہ کیننیکل اداروں کو برقرار رکھتا ہے، اصل کو برقرار رکھتا ہے، اور تعییناتی سوالات کی حمایت کرتا ہے۔ یہ ریاست کے بارے میں ہے، بازیافت نہیں۔ یہ پوسٹ ایک سچائی پرت کا موازنہ دونوں بازیافت ماڈلز سے کرتی ہے۔ یہ ان حدود سے بھی منسلک ہے جو میں نے صرف بازیافت پر انحصار کرتے ہوئے مارا ہے۔

## جہاں میں حد سے گزر چکا ہوں۔

میں اپنے تمام ڈیجیٹل ورک فلو کے لیے کرسر کو اپنے مرکزی انٹرفیس کے طور پر استعمال کرتا ہوں، نہ کہ صرف کوڈنگ۔ ای میل ٹرائیج، ٹاسک مینجمنٹ، فنانس کے سوالات، مواد کی منصوبہ بندی، لین دین، رابطے۔ وہ سب ایک ہی ایجنٹ کے ذریعے ایک ہی ریپو تک رسائی کے ساتھ چلتے ہیں۔ فائلوں میں ایجنٹ کی تلاش اکثر اچھی طرح سے کام کرتی ہے۔ ایجنٹ سیاق و سباق تلاش کرتا ہے، کنکشن کا اندازہ لگاتا ہے، اور کام کرواتا ہے۔

لیکن میں نے حد کر دی ہے۔ ایجنٹ اندازہ لگاتا ہے؛ یہ ضمانت نہیں دیتا. یہاں یہ ہے کہ ایسا کیا لگتا ہے:

- **بڑے ڈیٹا سیٹس، نامکمل یاد۔** آن ڈیمانڈ تلاش سے چیزیں چھوٹ جاتی ہیں یا ہزاروں ٹرانزیکشنز یا سیکڑوں رابطوں میں کٹ جاتی ہیں۔ بازیافت ہر بار دوبارہ حاصل کرتی ہے۔ مکمل نتائج کے لیے استفسار کرنے کے لیے کوئی منظم اسٹور نہیں ہے۔
- **ناقابل بازیافت اوور رائٹ۔** ایک ایجنٹ کسی رابطے یا کام کو اوور رائٹ کرتا ہے اور پچھلی حالت ختم ہوجاتی ہے۔ کوئی رول بیک نہیں۔ تحریریں جگہ جگہ موجود ہیں۔ ٹریس اور رول بیک کرنے کے لیے کوئی ورژننگ یا صرف شامل کرنے والا راستہ نہیں ہے۔
- **کوئی کراس ٹول رسائی نہیں ہے۔** میں Claude.ai یا ChatGPT سے وہی ریکارڈ استعمال نہیں کرسکتا۔ بازیافت فراہم کنندہ کے پابند ہے۔
- **غیر تولیدی جوابات۔** ایک ہی سوال، مختلف جواب۔ میں تصدیق یا ڈیبگنگ کے لیے کوئی نتیجہ دوبارہ پیش نہیں کر سکتا۔ بازیافت غیر مقررہ ہے۔
- **کوئی ٹریس ایبلٹی نہیں۔** جب ایجنٹ غلط نمبر یا دعویٰ دیتا ہے، تو میں اسے سورس فائلوں یا ریکارڈز میں واپس نہیں ٹریس کر سکتا ہوں۔ بازیافت کا کوئی جواز نہیں ہے۔
- **غیر مستحکم کینونیکل شناخت۔** ایجنٹ "Acme Corp" اور "ACME CORP" کو ایک سیشن میں ایک جیسا اور دوسرے سیشن میں مختلف سمجھ سکتا ہے۔ بازیافت ہر بار دوبارہ اندازہ لگاتی ہے۔ کوئی مستقل کینونیکل IDs یا انضمام کے اصول نہیں ہیں۔

## بازیافت کے دو نمونے، ایک ریاستی نمونہ

ایمبیڈنگ پر مبنی تلاش اور ایجنٹ کی تلاش دونوں ہی ایجنٹ کو معلومات حاصل کرتے ہیں۔ وہ ایک جیسے نہیں ہیں۔ ایمبیڈنگ پر مبنی تلاش (جیسے کرسر) ایک کارپس کو پہلے سے اشاریہ دیتا ہے اور ویکٹر کی مماثلت کے ذریعے جواب دیتا ہے۔ انڈیکس کو کلاؤڈ ہوسٹڈ اور اپ ڈیٹ کیا جا سکتا ہے۔ ایجنٹ کی تلاش (مثلاً کلاڈ کوڈ) ایک مستقل انڈیکس کو چھوڑتا ہے اور طلب پر تلاش اور پڑھنے کے لیے ٹولز کا استعمال کرتا ہے۔ مختلف نفاذ، مختلف تجارت: رازداری، تعطل، سادگی۔

وہ جو اشتراک کرتے ہیں وہ بازیافت ہے۔ ایجنٹ کو استفسار کے وقت چیزیں مل جاتی ہیں۔ سچائی کی پرت بازیافت نہیں ہے۔ یہ مستقل، تشکیل شدہ حالت ہے: کینونیکل ہستی، اصل، تعییناتی سوالات۔

ہم ایک ریاستی تمثیل (سچائی کی تہہ) کا موازنہ دو بازیافت کے نمونوں (ایمبیڈنگ پر مبنی اور ایجنٹی) سے کر رہے ہیں۔ نیچے دی گئی جدول تینوں لائنوں کے اوپر ہے۔ جہاں دونوں بازیافت کالم ایک حد کا اشتراک کرتے ہیں (مثال کے طور پر کوئی پرویننس نہیں)، یہ ان کے درمیان سچائی پرت کی نسبت ایک مماثلت ہے۔ یہ دونوں کی مساوات نہیں ہے۔

| ڈومین | ایمبیڈنگ پر مبنی تلاش | ایجنٹ کی تلاش | سچائی کی تہہ |
|---------|----------------------------|---------------|
| دستاویز کی بازیافت | پری انڈیکسڈ مماثلت، سیمنٹک میچ | آن ڈیمانڈ تلاش، تخمینہ | ہستی کی قرارداد، ڈیڈ اپ، پرووینس |
| کثیر ماخذ جمع | انڈیکس کی گنجائش اور تازگی تعمیر پر منحصر ہے | تمام ذرائع میں لائیو تلاش | یونیفائیڈ گراف، ڈیٹرمنسٹک انضمام |
| ہستی تلاش | سرایت پر مماثلت؛ کوئی کیننیکل ID نہیں | فی سیشن تخمینہ | کینونیکل IDs، اصول پر مبنی انضمام |
| ٹائم لائن کے سوالات | صرف اس صورت میں جب انڈیکس ہو؛ مقامی وقت کا کوئی ماڈل نہیں | آن ڈیمانڈ اسمبلی | پہلے سے شمار شدہ، اسکیما سے چلنے والا |
| ثبوت اور آڈٹ | کوئی نہیں | کوئی نہیں | ناقابل تغیر آڈٹ ٹریل |
| کراس پلیٹ فارم | فراہم کنندہ/انڈیکس سے منسلک | فراہم کنندہ کے لیے مخصوص ٹولز | ٹولز میں ایک ہی ڈیٹا |

بازیافت کے دونوں طریقے سہولت اور لچک کے لیے بہتر بناتے ہیں۔ ایک سچائی پرت مستقل مزاجی اور تصدیق کے لیے بہتر بناتی ہے۔

## کیا سچائی کی تہہ فراہم کرتی ہے۔

ایک ساختی میموری پرت مختلف قدیموں کے ارد گرد بنائی گئی ہے:

1. **مستقل کینونیکل شناخت۔** تمام سیشنز اور ٹولز میں مستحکم ہستی IDs۔
2. **ڈیٹرمنسٹک انضمام منطق۔** مشاہدات کا اصول پر مبنی مجموعہ، نہ کہ فی سیشن LLM تخمینہ۔
3. **ثبوت اور آڈٹ۔** ماخذ سے جواب تک پتہ لگانے کے قابل نسب۔
4. **آدمی پن۔** ایک جیسے ان پٹ سے وہی نتائج برآمد ہوتے ہیں۔
5. **کراس پلیٹ فارم کی سچائی۔** چیٹ جی پی ٹی، کلاڈ، کرسر پر ایک جیسی میموری۔
6. **پرائیویسی ماڈل کو صاف کریں۔** صارف کا کنٹرول، فراہم کنندہ کی تربیت کا استعمال نہیں، ڈیٹا کی حدود صاف کریں۔

یہ ایجنٹی تلاش کے مقابلے میں اضافہ نہیں ہیں۔ وہ ایک مختلف ڈیزائن ہیں۔ بہترین کوشش کی بازیافت اور آرکیسٹریشن بمقابلہ قابل تصدیق، دوبارہ چلانے کے قابل حالت۔ انتخاب آپ کی ضرورت پر منحصر ہے۔

## کیا بازیافت کا تخمینہ لگایا جاسکتا ہے (ایجنٹک یا ایمبیڈنگ پر مبنی)

تین مثالیں مندرجہ بالا صلاحیتوں کا اندازہ لگاتے ہوئے بازیافت (ایجنٹک یا ایمبیڈنگ پر مبنی) کو ظاہر کرتی ہیں۔ ہر مثال میں، ایجنٹ کو کچھ ملتا ہے جو اس لمحے کے لیے صحیح لگتا ہے۔ ہر ایک میں، ایک جیسی حدود ظاہر ہوتی ہیں: کوئی مستقل کینونیکل شناخت، کوئی پرویننس، کوئی گارنٹی نہیں کہ "ایک ہی سوال" سیشنز یا انڈیکس کی دوبارہ تعمیر میں "ایک ہی نتیجہ" دیتا ہے۔ ذیل کی مثالیں ایجنٹی اصطلاحات (ٹولز، آن ڈیمانڈ سرچ) استعمال کرتی ہیں۔ ایمبیڈنگ پر مبنی بازیافت ایک انڈیکس پر سیمنٹک تلاش کے ذریعے ایک ہی طرز عمل کا تخمینہ لگا سکتی ہے اور اسی حد تک پہنچ جاتی ہے۔

**مثال 1: سیشن کے دائرہ کار والے ادارے کی قرارداد۔** ایجنٹ کے پاس فائلز، ای میل اور کلاؤڈ کو تلاش کرنے کے ٹولز ہیں۔ اس میں ایک ہی ہستی کے تذکروں کو ایک جیسا سمجھنے کی ہدایات ہیں۔ آپ پوچھتے ہیں: "Acme Corp کے ساتھ میرا کل خرچ کیا ہے؟" ایجنٹ بینک کی برآمدات، رسیدیں، رسیدیں تلاش کرتا ہے۔ یہ "Acme Corp"، "ACME CORP"، "Acme Corporation" تلاش کرتا ہے، ایک ہی ہستی کا اندازہ لگاتا ہے، رقم کی رقم۔ یہ اس استفسار اور سیشن کے لیے ہستی کے حل کی طرح لگتا ہے۔ کیا غلط ہوا: کل دوبارہ پوچھیں اور نمبر مختلف ہو سکتا ہے۔ ایجنٹ کو فائل (چھوٹی ہوئی تلاش، غلط راستہ) اور کم گنتی چھوٹ سکتی ہے۔ یا یہ "Acme Corp" اور "Acme Industries" کو ایک جیسا اور overcount سمجھ سکتا ہے۔ تصدیق کرنے کا کوئی طریقہ نہیں ہے۔ کوئی آڈٹ ٹریل نہیں، کوئی مستحکم IDs نہیں۔ مختلف سیشنز اختلاف کر سکتے ہیں۔

**مثال 2: آن ڈیمانڈ ٹائم لائن اسمبلی۔** ایجنٹ کے پاس فائل اور تاریخ تک وسیع رسائی ہے۔ آپ پوچھتے ہیں: "Q3 2024 میں میرے بڑے اخراجات کیا تھے؟" ایجنٹ تلاش کرتا ہے، تاریخوں کو پارس کرتا ہے، ایک تاریخی فہرست کو جمع کرتا ہے، "میجر" کے ذریعے فلٹر کرتا ہے۔ آپ کو بغیر کسی وقف شدہ ٹائم لائن سسٹم کے ٹائم لائن جیسا جواب ملتا ہے۔ کیا غلط ہوتا ہے: ہر بار "میجر" کا اندازہ لگایا جاتا ہے۔ ایک سیشن میں €500 آئٹم شامل نہیں ہے۔ اگلا اس میں شامل ہے۔ تاریخ کے غیر معیاری فارمیٹس والی دستاویزات کو چھوڑ دیا جاتا ہے یا غلط ترتیب دیا جاتا ہے۔ جب 15 تھے تو ایجنٹ تراش سکتا ہے ("یہاں سرفہرست 10 ہیں")۔ ایک ہی سوال، مختلف نتائج، ہر بار۔

**مثال 3: ہائبرڈ میموری لیئر۔** ایک فراہم کنندہ ایجنٹ تلاش کے علاوہ ہلکی وزنی میموری بھیجتا ہے۔ ایجنٹ ساختی ٹکڑوں کو نکالتا ہے، انہیں اسٹور کرتا ہے، اور بعد میں بازیافت کرتا ہے۔ یہ ایک رسید پر کارروائی کرتا ہے، `{وینڈر: "Acme Corp"، رقم: 150، تاریخ: "2024-07-15"}` اسٹور کرتا ہے۔ بعد کا سیشن اسے بازیافت کرتا ہے اور لائیو تلاش کے نتائج کے ساتھ ضم ہوجاتا ہے۔ یہ ساختی میموری کی طرح لگتا ہے۔ کیا غلط ہوتا ہے: بعد میں نکالنے سے ٹکڑا اوور رائٹ ہوجاتا ہے۔ کوئی ورژن نہیں، کوئی رول بیک نہیں۔ وہی وینڈر ذخیرہ شدہ میموری میں "Acme Corp" اور ایک تازہ تلاش میں "ACME CORP" کے طور پر ظاہر ہوتا ہے۔ نقلیں جمع ہوتی ہیں۔ فراہم کنندہ خصوصیت یا اسکیما کو تبدیل کرتا ہے اور آپ کے ذخیرہ شدہ ٹکڑے غائب ہو جاتے ہیں۔ غلط نمبر کو اس کے ماخذ پر واپس ٹریس کرنے کا کوئی طریقہ نہیں ہے۔

ہر مثال میں، طرز عمل اس بات کا اندازہ لگاتا ہے کہ سچائی کی پرت کیا فراہم کرتی ہے۔ حدود بازیافت کے لئے موروثی ہیں۔ چاہے ایجنٹ سرایت کرنے والی تلاش کا استعمال کرے یا ایجنٹ کی تلاش کا، آپ کو پھر بھی سیشن کا دائرہ اور تخمینہ پر مبنی انضمام ملتا ہے۔ آپ کو اب بھی کوئی پرویننس اور کراس پلیٹ فارم کی کوئی گارنٹی نہیں ملتی ہے۔ ایک سچائی پرت اسے دوبارہ حاصل کرنے کے بجائے مستقل حالت کے ذریعہ ان سے خطاب کرتی ہے۔

## جب بازیافت بہترین ہوتی ہے (ایجنٹک یا ایمبیڈنگ پر مبنی)

**تحقیقاتی دریافت۔** "بارسلونا اپارٹمنٹ کے بارے میں میرے ڈاؤن لوڈز یا نوٹ میں کچھ بھی تلاش کریں۔" آپ نہیں جانتے کہ یہ کہاں رہتی ہے یا اسے کیا کہتے ہیں۔ فائلوں، فولڈرز، اور فارمیٹس میں ایجنٹ کی تلاش متعلقہ ٹکڑوں کو ظاہر کرتی ہے۔ اسکیما کی ضرورت نہیں ہے۔ ایجنٹ اندازہ لگاتا ہے اور جمع کرتا ہے۔

**تیزی سے کراس سورس کا خلاصہ۔** "ہم نے ٹھیکیدار کے ساتھ پچھلی تین ای میلز میں کیا فیصلہ کیا؟" ان باکس میں تلاش کریں، تھریڈ نکالیں، خلاصہ کریں۔ ایک سیشن، ایک جواب۔ آپ کو اس خلاصے کو برقرار رکھنے یا اگلی بار بالکل مماثل ہونے کی ضرورت نہیں ہے۔

**ایڈہاک کوڈ اور ڈاکس ٹراورسل۔** "ہم اسٹرائپ ویب ہکس کو کہاں سنبھالتے ہیں؟" تلاش کوڈ بیس، README، اندرونی دستاویزات۔ لے آؤٹ ریپو کے لحاظ سے مختلف ہوتا ہے۔ ایجنٹ کی تلاش موافقت کرتی ہے۔ کسی متحد گراف کی ضرورت نہیں ہے۔

**سنگل دستاویز یا سنگل تھریڈ ٹرائیج۔** "اس پی ڈی ایف کا خلاصہ کریں" یا "اس ای میل میں کیا پوچھنا ہے؟" سیاق و سباق کا پابند ہے۔ اندازہ کافی ہے۔ کوئی ادارہ قرارداد یا کراس سیشن حالت نہیں ہے۔

## جب سچائی کی تہہ بڑھ جاتی ہے۔

**بڑے ڈیٹا سیٹس پر مکمل یاد کرنا۔** "پچھلے دو سالوں میں وینڈر X کے ساتھ ہر لین دین کی فہرست بنائیں۔" ہزاروں قطاروں کے ساتھ، ایجنٹ کی تلاش سے ریکارڈز چھوٹ سکتے ہیں، تراش سکتے ہیں، یا مجموعی طور پر فریب نظر آ سکتے ہیں۔ سچائی کی پرت ایک منظم اسٹور سے سوال کرتی ہے۔ آپ کو تمام مماثل ریکارڈز یا قطعی گنتی ملتی ہے۔

**کراس سیشن مستقل مزاجی۔** ایجنٹ سیشن ون میں فالو اپ ٹاسک بناتا ہے۔ آپ کل ایک نیا سیشن کھولیں گے۔ کام وہاں ہونا چاہیے، صحیح رابطہ اور ای میل سے منسلک ہونا چاہیے۔ ایجنٹ کی تلاش کا کوئی مستقل گراف نہیں ہے۔ ایک سچائی پرت کرتا ہے۔

**آڈٹ اور ثبوت۔** "یہ نمبر کہاں سے آیا؟" اسے ماخذ کے ریکارڈز، درآمدی تاریخوں، اور اخذ کرنے کے قواعد تک ٹریس کریں۔ ایجنٹ کی تلاش تخمینہ شدہ جوابات واپس کرتی ہے۔ سچائی کی تہہ نسب کے ساتھ جوابات دیتی ہے۔

**اینٹی ریزولوشن پیمانے پر۔** سینکڑوں رابطے، کچھ ڈپلیکیٹس (نام کی مختلف حالتیں، ضم شدہ کمپنیاں)۔ مختلف ہجے کے تحت ایک ہی وینڈر کا حوالہ دینے والے ہزاروں لین دین۔ سچائی کی پرت کیننیکل IDs اور انضمام کے قواعد کو برقرار رکھتی ہے۔ ایجنٹ کی تلاش ہر سیشن کا دوبارہ اندازہ لگاتی ہے اور اس سے اختلاف کر سکتا ہے۔

**ڈیٹرمنسٹک ری پلے۔** ایک ہی سوال، وہی نتیجہ، ہر بار۔ رپورٹنگ، تعمیل، یا ڈیبگنگ کے لیے اہم۔ ایجنٹ کی تلاش غیر متعین ہے۔ ایک سچائی پرت بے ضمیر ہے۔

**خراب تحریروں سے بازیافت۔** ایک ایجنٹ کسی رابطے کو اوور رائٹ کرتا ہے، دو کاموں کو ایک میں ضم کرتا ہے، یا غلط تخمینہ کی بنیاد پر ایک لین دین کو "درست" کرتا ہے۔ ایجنٹ کی تلاش اور براہ راست فائل لکھنے کے ساتھ، پچھلی حالت ختم ہو گئی ہے۔ کالعدم نہیں۔ ایک سچائی پرت صرف ضمیمہ یا ورژن والی تحریروں کا استعمال کرتی ہے۔ آپ ٹریس کر سکتے ہیں کہ کیا بدلا ہے اور واپس چل سکتے ہیں۔ میوٹیشنز واضح آپریشنز ہیں، خاموش اوور رائٹ نہیں۔

## فرق کیوں اہمیت رکھتا ہے۔

بازیافت (ایمبیڈنگ پر مبنی یا ایجنٹ) سیشن کے پابند ہے۔ یہ بذات خود آپ کو مستقل شناخت، اصلیت، یا کراس سیشن مستقل مزاجی نہیں دیتا ہے۔ اس کی قیمت لچکدار، آن ڈیمانڈ رسائی ہے۔ سچائی کی تہہ کی قدر مستقل، کراس سیشن سچائی ہے۔ تعییناتی، قابل سماعت ہستی کا حل مشکل ہے۔ نہ ہی سرایت کرنے والی مماثلت اور نہ ہی ایڈہاک ایجنٹ کی تلاش مساوی ہے۔ فراہم کنندہ کے میزبان ایجنٹوں کو ایسی ترغیبات کا سامنا کرنا پڑتا ہے جو صارف کے زیر کنٹرول، پرائیویسی فرسٹ میموری سے متصادم ہیں۔ ان کی یادداشت اور اوزار مصنوعات کے لیے مخصوص ہوتے ہیں۔

چرنی کی ٹویٹ ایک حقیقی تبدیلی کی عکاسی کرتی ہے۔ RAG پلس ویکٹر DB پیچیدہ تھا اور اس کے رازداری کے مضمرات تھے۔ ایجنٹ کی تلاش نے کلاڈ کوڈ کی بازیافت کو آسان بنایا۔ کرسر اور دیگر ایک مختلف بازیافت کا راستہ اختیار کرتے ہیں (کلاؤڈ ایمبیڈنگ)۔ بازیافت کے دونوں نمونے حل کرتے ہیں "ایجنٹ چیزوں کو کیسے تلاش کرتا ہے؟" نہ ہی حل کرتا ہے کہ "ہم مستحکم شناخت، اصلیت، اور تصدیق کیسے حاصل کریں؟" ایک سچائی پرت مؤخر الذکر کو نشانہ بناتی ہے۔ بازیافت اور ریاستی پرتیں ایک ساتھ رہیں گی۔ وہ مختلف مسائل حل کرتے ہیں۔

## جو میں بنا رہا ہوں۔

میں [Neotoma](https://github.com/markmhendrickson/neotoma) بنا رہا ہوں، ایک سٹرکچرڈ میموری لیئر جو سچائی پرت کا نقطہ نظر اختیار کرتی ہے: entity ریزولوشن، ٹائم لائنز، پرووینس، ڈیٹرمنزم، MCP کے ذریعے کراس پلیٹ فارم۔ میں اسے اپنے ایجنٹ کے اسٹیک میں dogfooding کر رہا ہوں تاکہ یہ معلوم ہو سکے کہ یہ قدیم چیزیں عملی طور پر کہاں اہمیت رکھتی ہیں۔ ایمبیڈنگ پر مبنی تلاش اور ایجنٹ کی تلاش دو بازیافت کی حکمت عملی ہیں۔ نہ ہی آپ کو مستقل شناخت دیتا ہے اور نہ ہی قابل تصدیق حالت۔ ایک سچائی پرت کرتا ہے۔ میں مؤخر الذکر بنا رہا ہوں۔