[RAG (retrieval-augmented generation)](https://en.wikipedia.org/wiki/Retrieval-augmented_generation) augmenta un LLM recuperant passatges rellevants d'un corpus extern, sovint mitjançant incrustacions i cerca de similitud, després alimentant-los com a context perquè el model pugui respondre a partir de dades actualitzades o específiques del domini.

Funciona bé per a la cerca de documents. Per a la memòria de l'agent, es desfà.

Un nou article, "Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation" (Hu et al., febrer de 2026; [vegeu el document](https://arxiv.org/abs/2602.02007)), del King's College London i l'Institut Alan Turing, explica per què i apunta a un millor enfocament.

## Per què RAG es queda curt per a la memòria de l'agent

RAG estàndard assumeix un corpus gran i mixt: incrustar text, recuperar [top-k](https://en.wikipedia.org/wiki/Nearest_neighbor_search) per similitud, concatenar com a context.

La memòria de l'agent és el contrari: un corrent acotat i coherent on el mateix fet apareix en moltes frases. Aplicar RAG aquí crea tres problemes:

1. **Top-k redundant.** Et preguntes "Quan vaig veure per última vegada al dentista?" En un corpus de documents, top-k pot retornar uns quants paràgrafs rellevants de diferents fonts. A la memòria de l'agent, molts fragments diuen gairebé el mateix ("Dentista programat el 15 de març", "Cita amb el dentista el 15 de març", "Dentista reservat per al 15 de març"). Top-k s'omple de repetició. El document anomena això "col·lapse en una sola regió densa". La semblança no aconsegueix separar el que es *necessari* del que és simplement *similar*.
2. **La poda trenca les cadenes de proves**. Pregunteu "Hem resolt la disputa de la factura?" La resposta depèn d'una cadena: "La factura núm. 123 es va disputar", després "Vam acordar un reemborsament parcial" i després "Va pagar l'import acordat". La poda post-hoc pot mantenir la "Factura pagada núm. 123" i deixar anar els torns anteriors. Aleshores, el model respon "Sí, resolt" sense saber que hi ha hagut una disputa. La poda fragmenta les proves vinculades temporalment i produeix respostes incorrectes.
3. **La similitud ignora l'estructura.** Et preguntes "Quin és l'estat del viatge a Barcelona?" Necessites el projecte, la tasca (per exemple, reservar vols) i el resultat. La similitud retorna trossos que mencionen "Barcelona" o "viatge": potser una menció aleatòria, un viatge passat, una tasca d'un projecte diferent. Necessites un camí estructural (aquest projecte, aquestes tasques, aquests resultats). La semblança no codifica això. L'estructura sí.

## Estructura sobre semblança

Un millor enfocament és utilitzar l'estructura per impulsar el que es carrega, no la similitud. Escriviu entitats (tasques, contactes, transaccions, esdeveniments) i recupereu-les per esquema, identificadors d'entitats, relacions i cronologies. Mantenir les observacions i els resultats derivats com a unitats senceres; no podeu dins dels blocs d'evidència. La mateixa entrada i el mateix esquema donen la mateixa sortida. Sense LLM en el camí crític.

## El que mostra el document

El sistema del document (xMemory) construeix una jerarquia de quatre nivells (missatges a episodis i semàntica a temes) amb incrustacions i resums de LLM. Supera altres cinc sistemes (Naive RAG[^1], A-Mem[^2], MemoryOS[^3], LightMem[^4], Nemori[^5]) a LoCoMo i PerLTQA, els conjunts de dades de referència per a la memòria de converses llargues i la resposta a preguntes personals a llarg termini. El paper no requereix incrustacions ni LLM; requereix estructura. Podeu arribar-hi amb una jerarquia apresa (xMemory) o amb un disseny determinista i d'esquema primer. El document també documenta la fragilitat de l'estructura generada per LLM (A-Mem, MemoryOS): desviacions de format, actualitzacions fallides. L'estructura determinista de primer esquema és una base més fiable.

## xMemory vs Neotoma

Neotoma és la [capa de memòria estructurada](/posts/truth-layer-agent-memory) que estic construint: primer esquema, determinista, creat per a la procedència i la reproducció. Tots dos sistemes van més enllà del RAG; es diferencien en com construeixen l'estructura.

**xMemory** crea una jerarquia de quatre nivells (missatges a episodis a semàntica a temes) amb incrustacions i resums de LLM. Els episodis són blocs contigus; la semàntica són fets reutilitzables; semàntica de grups de temes per a un accés d'alt nivell. Un objectiu d'escàs-semàntica equilibra la mida del tema. Massa gran provoca una recuperació redundant; evidència de fragments massa petits. La recuperació és de dalt a baix: seleccioneu un conjunt compacte de temes i semàntica i, a continuació, expandiu-lo a episodis intactes (i, opcionalment, missatges) només quan això redueixi la incertesa del model lector. Sense poda dins de les unitats. En aquests punts de referència, supera les cinc línies de base en qualitat i ús de testimonis. El document assenyala que l'estructura generada per LLM (per exemple, a A-Mem, MemoryOS) és fràgil: desviacions de format, actualitzacions fallides. Com que xMemory construeix la seva jerarquia amb resums de LLM, adopta la mateixa fragilitat.

**Neotoma** crea una estructura sense LLM en el camí crític. Les entitats s'escriuen; les relacions i els terminis són explícits; La recuperació utilitza esquema, identificadors d'entitats, relacions i intervals de temps. La mateixa entrada i esquema donen la mateixa sortida. Els esquemes encara evolucionen. Camps desconeguts aterren en una capa de preservació. Un pipeline determinista pot promoure camps d'alta confiança a l'esquema. Un LLM pot suggerir nous camps o tipus com a recomanacions pendents, aplicades només mitjançant eines o aprovació humana. La inferència es manté assessora: els canvis d'esquema passen per eines o aprovació humana; l'extracció i la reducció es mantenen deterministes; l'esquema continua sent font de veritat. La crítica del document s'aplica quan el model *impulsa* l'estructura, no quan suggereix i s'apliquen els humans o les eines. La ingesta per recuperar es manté determinista.

### Comparació

| | xMemòria | Neotoma |
|--|--------|--------|
| Font de l'estructura | Incrustacions + resums LLM (episodis, semàntica, temes) | Esquema primer, extracció determinista i reductors |
| Jerarquia | Quatre nivells (missatges, episodis, semàntica, temes), guiats per l'objectiu de l'escàs-semàntica | Entitats escrites, relacions, línies de temps (sense "nivells") fixos |
| Recuperació | De dalt a baix: selecció representativa al gràfic, després expansió limitada per la incertesa a episodis/missatges intactes | Per esquema, identificadors d'entitat, relacions, línies de temps |
| Control de redundància | Selecció representativa + ampliar només quan la incertesa baixa | Les consultes estructurals retornen el que demaneu; cap semblança col·lapse |
| Unitats intactes | Sí (sense poda dins dels episodis/missatges) | Sí (observacions i entitats conservades senceres) |
| Determinisme | No (l'estructura generada per LLM varia) | Sí (mateixa entrada, mateix esquema, mateixa sortida) |
| fragilitat | El paper cita desviacions de format de LLM, actualitzacions fallides en sistemes similars | L'esquema i el codi són explícits; no LLM en el camí crític |

### Avantatges relatius

**xMemory** sobresurt quan l'entrada és un flux de conversa i voleu una estructura sense definir esquemes. Exemple: xat de llarga durada amb un assistent on et preguntes "què hem decidit del viatge?" o "quan vaig esmentar per última vegada el pressupost?" xMemory crea episodis, semàntica i temes; la recuperació és eficient en termes de testimonis. També s'adapta a prototips ràpids (tiquets de suport, notes de reunió) on encara no voleu crear esquemes. Accepteu la deriva de la jerarquia i no necessiteu auditabilitat ni consulta de primera classe per entitat.

**Neotoma** sobresurt quan necessiteu traçabilitat o les vostres dades ja estan estructurades. Exemple: decisions auditables (pagaments, acords, resultats de tasques) on les mateixes entrades i esquema han de produir la mateixa instantània. Els canvis d'esquema són versionats i aplicats de manera determinista; cap LLM al camí. També és l'adequat per a entitats escrites (tasques, contactes, transaccions, esdeveniments) amb relacions i terminis. Consulta per tipus d'entitat, identificador, relació o interval de temps. Neotoma els tracta com a nadius; xMemory requeriria la serialització a text i perd l'accés de primera classe.

## Estructuració iterativa de la conversa

Sovint emergeix l'estructura en el diàleg: "afegir una tasca per això", "enregistrar que vam acordar pagar 500" i l'agent actua. Els dos sistemes ho gestionen de manera diferent.

**xMemory:** La conversa és l'objecte principal. El que fa l'agent (p. ex., "He creat una tasca per al dentista") es manté al flux de missatges i flueix en episodis, semàntica i temes. Obteniu una jerarquia millor apresa, però cap gràfic d'entitats consultable separat. L'estructura viu dins de la jerarquia.

**Neotoma:** La conversa és una font d'observacions. Quan l'agent crea o actualitza una tasca, contacte o transacció, aquestes operacions produeixen observacions i instantànies d'entitat. Els nous camps del diàleg poden aterrar en una capa de preservació i ascendir a l'esquema quan la confiança és alta. El diàleg i el gràfic estructurat es mantenen sincronitzats perquè tots dos escriuen a la mateixa botiga.

**Recuperació diferent.** xMemory admet la recuperació semàntica a través de la jerarquia. Les preguntes en llenguatge natural ("què vam decidir sobre el dentista?") tornen temes, semàntica o episodis intactes. No admet la recuperació estructural (no hi ha tipus d'entitat amb identificadors i relacions). Això condueix a fallades esperades en tres tipus de casos:

- **Evidència repartida per torns.** "Hem resolt la disputa de la factura?" La disputa, la negociació i el pagament poden viure en diferents episodis o temes; la recuperació pot aflorar una o dues i perdre la resta, de manera que el model respon incorrectament o de manera incompleta.
- **Estableix consultes.** "Quines tasques s'han de fer abans de divendres?" o "Mostra tots els pagaments per contactar amb X". No hi ha entitats de tasques o transaccions per filtrar; obteniu coincidències semàntiques (missatges que mencionen "tasca" i "divendres" o "contacte X"), no una llista definitiva, de manera que els resultats són parcials o sorollosos.
- **Travessament de relacions.** "Quines tasques del projecte Y encara estan pendents?" Sense un gràfic projecte-tasques, la recuperació retorna fragments de conversa que poden ometre algunes tasques o projectes; no podeu enumerar de manera fiable per relació.

Neotoma admet tots dos. Podeu fer preguntes d'estil semàntic quan les dades es troben a la botiga. També obteniu la recuperació estructural per tipus d'entitat, identificador, relació i finestra de temps, de manera que establiu consultes i el recorregut de relacions retorna resultats complets i de primera classe. La compensació és que necessiteu esquemes i una botiga que accepti aquestes observacions.

## L'estructura sobre la semblança, primer l'esquema sobre la fragilitat

Per a la memòria de l'agent, la similitud amb el text en brut falla. La recuperació s'ha de guiar per l'estructura: com descomposeu i organitzeu el flux, no quants fragments coincideixen amb una consulta. El document mostra que una jerarquia apresa (xMemory) supera el RAG ingenu i que l'estructura generada per LLM és fràgil.

No obstant això, un camí determinista i de primer esquema us ofereix el mateix avantatge estructural sense aquesta fragilitat. Estic construint [Neotoma](https://github.com/markmhendrickson/neotoma) sobre aquest últim, de manera que la ingesta i la recuperació es mantenen reproduïbles i l'esquema es manté com a font de veritat.

[^1]: **Naive RAG:** incrustar memòries, recuperar top-k fixat per similitud, sense jerarquia. Cap projecte a part; base definida al [document](https://arxiv.org/abs/2602.02007).
[^2]: **A-Mem:** memòria agentica per a agents LLM; Enllaços a l'estil Zettelkasten i actualitzacions impulsades per agents a una xarxa de memòria. [Projecte](https://github.com/agiresearch/A-mem).
[^3]: **MemoryOS:** emmagatzematge jeràrquic a curt/mig/llarg termini amb mòduls d'actualització, recuperació i generació per a agents personalitzats. [Projecte](https://github.com/BAI-LAB/MemoryOS).
[^4]: **LightMem:** memòria lleugera inspirada en les etapes d'Atkinson-Shiffrin; consolidació del tema i actualitzacions fora de línia a llarg termini. [Projecte](https://github.com/zjunlp/LightMem).
[^5]: **Nemori:** memòria episòdica autoorganitzada amb segmentació d'esdeveniments i predicció-calibració per al coneixement adaptatiu. [Projecte](https://github.com/nemori-ai/nemori).