Nicolò Boschi va publicar una publicació l'abril de 2026 argumentant que [10 milions de fitxes són l'únic punt de referència de memòria que importa](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). El seu argument és concret. Quan les finestres de context arribaven a 1 milió de fitxes, el farcit de context de força bruta va superar els punts de referència de memòria existents sense cap canal de recuperació. Només heu d'abocar-ho tot a la finestra de context. Els punts de referència estaven provant la mida de la finestra de context, no l'arquitectura de memòria.

El [punt de referència BEAM](https://arxiv.org/abs/2504.01076) ho soluciona. Es prova de 500K a 10M de fitxes. A 10 M, cap model de producció té aquesta finestra de context. El farcit de context no pot funcionar. Es requereix una arquitectura de memòria real.

El sistema de Boschi, [Hindsight](https://vectorize.io), aconsegueix un 64,1% al nivell 10M. El segon classificat (Honcho) obté un 40,6%. La línia de base estàndard del RAG obté un 24,9%. El buit prové de la recuperació de diverses estratègies: cerca semàntica, concordança de paraules clau, recorregut de gràfics i filtratge temporal, fusionats mitjançant la fusió de rangs recíprocs. Afegiu observacions precalculades i resolució d'entitats a través de milions de fitxes i l'efecte compost és significatiu.

Els resultats de la recuperació són reals. Amb 10 milions de fitxes, necessiteu arquitectura, no una finestra de context més gran. BEAM ho demostra.

Recentment vaig escriure sobre [per què cap punt de referència de memòria d'IA prova el que realment es trenca](/posts/no-ai-memory-benchmark-tests-what-actually-breaks): la indústria fa referència a la recuperació, però no la integritat de l'escriptura. BEAM és el millor punt de referència de recuperació que he vist. Encara només prova un dels dos modes de fallada. Et pregunta si pots trobar el fet correcte. No pregunta si el fet que has trobat encara és correcte.

Aquesta publicació tracta sobre quan s'activa cada mode d'error i per què la resposta és important per al que creeu primer.

## La pregunta del llindar

BEAM pregunta: a quina escala de testimoni importa l'arquitectura de memòria per a la recuperació?

Resposta: 10 milions de fitxes.

Hi ha una segona pregunta que BEAM no fa: a quina escala importa la integritat de l'estat per a la confiança?

Aquesta resposta és diferent. La integritat de l'estat es degrada de 500K a 2M de fitxes. Aproximadament d'una cinquena a una desena part de l'escala on l'arquitectura de recuperació esdevé crítica.

## Quatre nivells

Amb fitxes de 100K a 500K (uns quants dies d'ús intensiu d'agents), la recuperació està bé. Una finestra de context d'1M el cobreix. No es necessita arquitectura de recuperació. Però la integritat de l'estat ja s'està degradant. "Acme Corp" i "ACME CORP" i "Acme Corporation" s'acumulen com a entitats separades. Les correccions es sobreescriuen en silenci. Els usuaris compensen manualment. Molest però manejable.

De 500K a 2M de fitxes (poques setmanes d'ús d'agents d'eines múltiples), el mur d'integritat de l'estat arriba. Les variants de resolució d'entitats produeixen una confusió genuïna entre centenars de referències. La deriva de l'estat entre sessions significa que les correccions de la setmana passada poden persistir o no. La fragmentació entre eines significa que la mateixa entitat té diferents representacions a Claude, Cursor i ChatGPT. La memòria de la plataforma ha revertit o sobreescrit l'estat en silenci diverses vegades sense cap rastre d'auditoria. Aquí és on els usuaris comencen a crear solucions alternatives: fitxers SOUL.md, fitxers JSON heartbeat, CRM de reducció. El cost de la compensació supera la tolerància.

Entre 2 i 10 milions de fitxes (mesos d'ús de l'agent), tots dos problemes es compensen. El RAG estàndard retorna trossos sobre tres "Alices" diferents. Fins i tot quan la recuperació trobi l'entitat adequada, no podeu confirmar que sigui l'última versió. Es va aplicar la correcció del 15 de març? Quina és la cadena de procedència? BEAM aborda aquest nivell per a la seva recuperació. Ningú ho compara amb la integritat de l'estat.

Amb 10 milions de fitxes i més enllà, el farcit de context és impossible. Només sobreviu l'arquitectura de memòria real. Aquí és on es manifesta el 64,1% de Hindsight enfront del 24,9% de RAG. Però sense un estat estructurat, la recuperació té 10 milions de fitxes de soroll per cercar.

## La bretxa d'escala

La integritat de l'estat no té un llindar segur per sota del qual no existeix. La primera observació contradictòria és el primer problema d'integritat. La primera sobreescritura de l'última escriptura-win és la primera correcció perduda. Aquests es combinen de manera no lineal. Quan els usuaris arriben als 500K a 2M de fitxes d'estat acumulat, el cost de la solució supera la tolerància.

Les persones amb qui parlo construint amb agents no tenen 10 milions de fitxes. Estan entre 500K i 2M. Estan gestionant 25 bucles autònoms amb un CRM de reducció de 112 persones. Estan executant pipelines de batecs del cor per al desenvolupament empresarial. Els seus agents tenen amnèsia de sessió entre execucions programades. El dolor de la integritat de l'estat ja és greu. La pregunta de recuperació encara no s'ha activat.

## Arquitectura convergent

Les quatre capacitats guanyadores de Hindsight amb 10 milions de fitxes convergeixen en les mateixes primitives estructurals que estic construint a [Neotoma](https://neotoma.io), des de la direcció oposada.

Les observacions precalculades a Hindsight consoliden els patrons entre fets abans del moment de la consulta. Els reductors deterministes de Neotoma calculen instantànies canòniques de l'historial d'observació abans del temps de la consulta. Tots dos es calculen prèviament en lloc de tornar a derivar en el moment de la consulta. Neotoma afegeix una garantia de determinisme: mateixes observacions entrant, mateixa instantània fora.

Resolució d'entitats als mapes de retrospectiva "Alice", "Alice Chen" i "Alice C". a entitats canòniques amb arestes de gràfics escrites. La resolució d'entitats basada en hash de Neotoma es normalitza i fa hash a identificadors canònics amb vores de relació escrites. Tots dos resolen variants. La resolució de Neotoma és determinista: el mateix nom sempre produeix el mateix ID.

El recorregut de gràfics a Hindsight segueix els enllaços d'entitats per trobar fets relacionats causalment que la cerca incrustada es perd. El gràfic de memòria de Neotoma travessa entitats, observacions i esdeveniments amb vores escrites. Tots dos utilitzen una estructura gràfica per a la recuperació que la cerca de similitud no pot fer.

El filtratge temporal en els àmbits de retrospectiva dóna lloc a la finestra de temps adequada abans de la classificació semàntica. Les cronologies d'esdeveniments de Neotoma extreuen camps de data en esdeveniments escrits per ordenar i filtrar temporalment.

Aquests paral·lelismes no són casuals. A escala, tots dos sistemes arriben a les mateixes primitives: entitats, relacions, ordre temporal, resums precalculats. Es diferencien en allò que optimitzen. La retrospectiva optimitza la recuperació de 10 milions de testimonis de la història. Neotoma assegura que els fets són deterministes, versionats i auditables quan es troben.

## Complementari, no competitiu

Posicionar sistemes de memòria centrats en la recuperació i centrats en l'estat els uns contra els altres és un error de categoria. Aborden els modes de fallada que s'activen a diferents escales i es composen de manera independent.

Una millor recuperació a 10 milions de fitxes no soluciona una correcció que es va sobreescriure en silenci a 500K. Una millor integritat de l'estat a 500 000 no us ajuda a trobar l'entitat adequada en 10 milions de testimonis d'historial de converses.

A escala de producció, els agents necessiten tots dos: la capacitat de trobar el context rellevant i la confiança que el context és correcte. BEAM va demostrar el primer problema. El segon és on estic construint.