Nicolò Boschi publicó una publicación en abril de 2026 argumentando que [10 millones de tokens es el único punto de referencia de memoria que importa](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). Su argumento es específico. Cuando las ventanas de contexto alcanzaron 1 millón de tokens, el relleno de contexto de fuerza bruta superó los puntos de referencia de memoria existentes sin ningún proceso de recuperación. Simplemente volcas todo en la ventana contextual. Los puntos de referencia probaban el tamaño de la ventana de contexto, no la arquitectura de la memoria.

El [punto de referencia BEAM](https://arxiv.org/abs/2504.01076) soluciona eso. Se prueba entre 500.000 y 10 millones de tokens. A los 10M, ningún modelo de producción tiene esa ventana de contexto. El relleno de contexto no puede funcionar. Se requiere una arquitectura de memoria real.

El sistema de Boschi, [en retrospectiva](https://vectorize.io), obtiene una puntuación del 64,1% en el nivel 10M. El segundo lugar (Honcho) obtiene un 40,6%. La línea de base estándar RAG obtiene una puntuación del 24,9%. La brecha proviene de la recuperación de múltiples estrategias: búsqueda semántica, concordancia de palabras clave, recorrido de gráficos y filtrado temporal, fusionados mediante fusión de rangos recíprocos. Agregue observaciones precalculadas y resolución de entidades en millones de tokens y el efecto compuesto es significativo.

Los resultados de la recuperación son reales. Con 10 millones de tokens, necesitas arquitectura, no una ventana de contexto más grande. BEAM lo demuestra.

Escribí recientemente sobre [por qué ningún punto de referencia de memoria de IA prueba lo que realmente se rompe](/posts/no-ai-memory-benchmark-tests-what-actually-breaks): los puntos de referencia de la industria son la recuperación, pero no la integridad de la escritura. BEAM es el mejor punto de referencia de recuperación que he visto. Todavía sólo prueba uno de los dos modos de falla. Le pregunta si puede encontrar el hecho correcto. No pregunta si el hecho que encontró sigue siendo correcto.

Esta publicación trata sobre cuándo se activa cada modo de falla y por qué la respuesta es importante para lo que construyes primero.

## La pregunta del umbral

BEAM pregunta: ¿a qué escala simbólica es importante la arquitectura de la memoria para la recuperación?

Respuesta: 10 millones de tokens.

Hay una segunda pregunta que BEAM no plantea: ¿a qué escala la integridad del Estado es importante para la confianza?

Esa respuesta es diferente. La integridad del estado se degrada entre 500.000 y 2 millones de tokens. Aproximadamente entre una quinta y una décima parte de la escala en la que la arquitectura de recuperación se vuelve crítica.

## Cuatro niveles

Con entre 100.000 y 500.000 tokens (unos pocos días de uso intensivo del agente), la recuperación está bien. Una ventana de contexto de 1M lo cubre. No se necesita arquitectura de recuperación. Pero la integridad del Estado ya es degradante. "Acme Corp", "ACME CORP" y "Acme Corporation" se acumulan como entidades separadas. Las correcciones se sobrescriben silenciosamente. Los usuarios compensan manualmente. Molesto pero manejable.

Entre 500.000 y 2 millones de tokens (unas pocas semanas de uso de agentes multiherramienta), el muro de integridad del estado se derrumba. Las variantes de resolución de entidades producen una auténtica confusión en cientos de referencias. La deriva del estado entre sesiones significa que las correcciones de la semana pasada pueden persistir o no. La fragmentación entre herramientas significa que la misma entidad tiene diferentes representaciones en Claude, Cursor y ChatGPT. La memoria de la plataforma ha revertido o sobrescrito silenciosamente su estado varias veces sin ningún seguimiento de auditoría. Aquí es donde los usuarios comienzan a crear soluciones alternativas: archivos SOUL.md, archivos JSON heartbeat, CRM de rebajas. El costo de compensar excede la tolerancia.

Con entre 2 y 10 millones de tokens (meses de uso del agente), ambos problemas se agravan. Standard RAG devuelve fragmentos sobre tres "Alicias" diferentes. Incluso cuando la recuperación encuentra la entidad correcta, no puede confirmar que sea la última versión. ¿Se aplicó la corrección del 15 de marzo? ¿Cuál es la cadena de procedencia? BEAM aborda este nivel para su recuperación. Nadie lo compara con la integridad del Estado.

Con 10 millones de tokens y más, el relleno de contexto es imposible. Sólo sobrevive la arquitectura de memoria real. Aquí es donde se manifiesta el 64,1% de Hindsight frente al 24,9% de RAG. Pero sin un estado estructurado, la recuperación tiene 10 millones de tokens de ruido para buscar.

## La brecha de escala

La integridad del Estado no tiene un umbral seguro por debajo del cual no exista. La primera observación contradictoria es el primer problema de integridad. La primera sobrescritura ganadora de la última escritura es la primera corrección perdida. Estos se componen de forma no lineal. Cuando los usuarios alcanzan entre 500.000 y 2 millones de tokens de estado acumulado, el costo de la solución excede la tolerancia.

Las personas con las que hablo con agentes no tienen 10 millones de tokens. Están entre 500K y 2M. Gestionan 25 bucles autónomos con un CRM de rebajas de 112 personas. Están ejecutando canales de latidos para el desarrollo empresarial. Sus agentes tienen amnesia de sesión entre ejecuciones programadas. El dolor por la integridad del Estado ya es severo. La pregunta de recuperación aún no se ha activado.

## Arquitectura convergente

Las cuatro capacidades ganadoras de Hindsight con 10 millones de tokens convergen en las mismas primitivas estructurales que estoy construyendo en [Neotoma](https://neotoma.io), desde la dirección opuesta.

Las observaciones precalculadas en retrospectiva consolidan patrones entre hechos antes del momento de la consulta. Los reductores deterministas de Neotoma calculan instantáneas canónicas del historial de observación antes del momento de la consulta. Ambos calculan previamente en lugar de volver a derivar en el momento de la consulta. Neotoma añade una garantía de determinismo: las mismas observaciones entran, la misma instantánea sale.

Resolución de entidades en los mapas retrospectivos "Alice", "Alice Chen" y "Alice C." a entidades canónicas con bordes de gráfico escritos. La resolución de entidades basada en hash de Neotoma se normaliza y aplica hash a ID canónicas con límites de relación escritos. Ambos resuelven variantes. La resolución del neotoma es determinista: el mismo nombre siempre produce la misma identificación.

El recorrido de gráficos en retrospectiva sigue enlaces de entidades para encontrar hechos causalmente relacionados que la búsqueda incrustada omite. El gráfico de memoria de Neotoma atraviesa entidades, observaciones y eventos con bordes escritos. Ambos utilizan una estructura gráfica para la recuperación que la búsqueda de similitudes no puede realizar.

El filtrado temporal en retrospectiva da como resultado la ventana de tiempo correcta antes de la clasificación semántica. Las líneas de tiempo de eventos de Neotoma extraen campos de fecha en eventos escritos para ordenar y filtrar temporalmente.

Estos paralelos no son casuales. A escala, ambos sistemas llegan a los mismos primitivos: entidades, relaciones, ordenamiento temporal, resúmenes precalculados. Se diferencian en lo que optimizan. Hindsight optimiza la recuperación en 10 millones de tokens del historial. Neotoma garantiza que los hechos sean deterministas, versionados y auditables cuando se encuentren.

## Complementario, no competitivo

Colocar los sistemas de memoria centrados en la recuperación y los sistemas de memoria centrados en el estado uno frente al otro es un error de categoría. Abordan modos de falla que se activan a diferentes escalas y se agravan de forma independiente.

Una mejor recuperación en 10 millones de tokens no soluciona una corrección que se sobrescribió silenciosamente en 500K. Una mejor integridad del estado en 500K no le ayuda a encontrar la entidad correcta en 10 millones de tokens de historial de conversaciones.

A escala de producción, los agentes necesitan ambas cosas: la capacidad de encontrar un contexto relevante y la confianza de que el contexto es correcto. BEAM resultó ser el primer problema. El segundo es donde estoy construyendo.