Nicolò Boschi publicou um post em abril de 2026 argumentando que [10 milhões de tokens é o único benchmark de memória que importa](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). Seu argumento é específico. Quando as janelas de contexto atingiram 1 milhão de tokens, o preenchimento de contexto de força bruta passou nos benchmarks de memória existentes sem qualquer pipeline de recuperação. Você acabou de despejar tudo na janela de contexto. Os benchmarks testaram o tamanho da janela de contexto, não a arquitetura da memória.

O [benchmark BEAM](https://arxiv.org/abs/2504.01076) corrige isso. Ele testa de 500 mil a 10 milhões de tokens. No 10M, nenhum modelo de produção possui essa janela de contexto. O preenchimento de contexto não pode funcionar. É necessária uma arquitetura de memória real.

O sistema da Boschi, [Hindsight](https://vectorize.io), pontua 64,1% no nível 10M. O segundo lugar (Honcho) pontua 40,6%. A linha de base padrão do RAG pontua 24,9%. A lacuna vem da recuperação multiestratégia: pesquisa semântica, correspondência de palavras-chave, travessia de gráfico e filtragem temporal, mescladas por meio de fusão recíproca de classificações. Adicione observações pré-computadas e resolução de entidades em milhões de tokens e o efeito composto será significativo.

Os resultados da recuperação são reais. Com 10 milhões de tokens, você precisa de arquitetura, não de uma janela de contexto maior. BEAM prova isso.

Escrevi recentemente sobre [por que nenhum benchmark de memória de IA testa o que realmente quebra](/posts/no-ai-memory-benchmark-tests-what-actually-breaks): o setor compara a recuperação, mas não a integridade de gravação. BEAM é o melhor benchmark de recuperação que já vi. Ele ainda testa apenas um dos dois modos de falha. Ele pergunta se você pode encontrar o fato correto. Não pergunta se o fato que você encontrou ainda está correto.

Esta postagem é sobre quando cada modo de falha é ativado e por que a resposta é importante para o que você constrói primeiro.

## A questão do limite

BEAM pergunta: em que escala de token a arquitetura de memória é importante para recuperação?

Resposta: 10 milhões de tokens.

Há uma segunda questão que o BEAM não faz: em que escala a integridade do Estado é importante para a confiança?

Essa resposta é diferente. A integridade do estado é degradada em 500 mil a 2 milhões de tokens. Aproximadamente um quinto a um décimo da escala em que a arquitetura de recuperação se torna crítica.

## Quatro níveis

Com 100 mil a 500 mil tokens (alguns dias de uso intenso do agente), a recuperação é adequada. Uma janela de contexto de 1M cobre isso. Nenhuma arquitetura de recuperação necessária. Mas a integridade do Estado já é degradante. "Acme Corp" e "ACME CORP" e "Acme Corporation" acumulam-se como entidades separadas. As correções são substituídas silenciosamente. Os usuários compensam manualmente. Irritante, mas administrável.

Com 500 mil a 2 milhões de tokens (algumas semanas de uso de agentes multiferramentas), o muro de integridade do estado atinge. Variantes de resolução de entidades produzem confusão genuína em centenas de referências. O desvio do estado entre sessões significa que as correções da semana passada podem ou não persistir. A fragmentação entre ferramentas significa que a mesma entidade tem representações diferentes em Claude, Cursor e ChatGPT. A memória da plataforma reverteu ou sobrescreveu silenciosamente o estado diversas vezes, sem trilha de auditoria. É aqui que os usuários começam a criar soluções alternativas: arquivos SOUL.md, arquivos JSON de pulsação, CRMs de redução. O custo da compensação excede a tolerância.

Com 2 milhões a 10 milhões de tokens (meses de uso do agente), ambos os problemas se agravam. O RAG padrão retorna pedaços de três "Alices" diferentes. Mesmo quando a recuperação encontra a entidade correta, você não pode confirmar se é a versão mais recente. A correção de 15 de março foi aplicada? Qual é a cadeia de proveniência? O BEAM aborda esta camada para recuperação. Ninguém compara isso com a integridade do Estado.

Com 10 milhões de tokens e além, o preenchimento de contexto é impossível. Somente a arquitetura de memória real sobrevive. É aqui que se manifestam os 64,1% da Hindsight contra os 24,9% da RAG. Mas sem o estado estruturado, a recuperação tem 10 milhões de tokens de ruído para pesquisar.

## A lacuna de escala

A integridade do Estado não tem um limite seguro abaixo do qual não exista. A primeira observação conflitante é o primeiro problema de integridade. A primeira substituição da última gravação ganha é a primeira correção perdida. Estes se compõem de forma não linear. Quando os usuários atingem de 500 mil a 2 milhões de tokens de estado acumulado, o custo da solução alternativa excede a tolerância.

As pessoas com quem converso construindo com agentes não têm 10 milhões de tokens. Eles estão em 500K a 2M. Eles estão gerenciando 25 loops autônomos com um CRM de redução de custos para 112 pessoas. Eles estão executando pipelines pulsantes para o desenvolvimento de negócios. Seus agentes têm amnésia de sessão entre as execuções programadas. A dor da integridade do Estado já é grave. A questão de recuperação ainda não foi ativada.

## Arquitetura convergente

As quatro capacidades vencedoras da Hindsight em tokens de 10 milhões convergem nas mesmas primitivas estruturais que estou construindo no [Neotoma](https://neotoma.io), na direção oposta.

As observações pré-computadas no Hindsight consolidam os padrões dos fatos antes do momento da consulta. Os redutores determinísticos do Neotoma calculam instantâneos canônicos do histórico de observações antes do tempo de consulta. Ambos pré-calculam em vez de derivar novamente no momento da consulta. Neotoma adiciona uma garantia de determinismo: mesmas observações entrando, mesmo instantâneo saindo.

Resolução de entidade em mapas retrospectivos "Alice", "Alice Chen" e "Alice C." para entidades canônicas com bordas de gráfico digitadas. A resolução de entidade baseada em hash do Neotoma normaliza e faz hash para IDs canônicos com bordas de relacionamento digitadas. Ambos resolvem variantes. A resolução do Neotoma é determinística: o mesmo nome sempre produz o mesmo ID.

A travessia do gráfico em Hindsight segue links de entidades para encontrar fatos causalmente relacionados que a pesquisa incorporada falha. O gráfico de memória do Neotoma percorre entidades, observações e eventos com arestas digitadas. Ambos usam estrutura gráfica para recuperação que a pesquisa por similaridade não pode fazer.

A filtragem temporal no escopo do Hindsight resulta na janela de tempo certa antes da classificação semântica. Os cronogramas de eventos do Neotoma extraem campos de data em eventos digitados para ordenação e filtragem temporal.

Esses paralelos não são coincidência. Em escala, ambos os sistemas chegam aos mesmos primitivos: entidades, relacionamentos, ordenação temporal, resumos pré-computados. Eles diferem naquilo que otimizam. A retrospectiva otimiza a recuperação de 10 milhões de tokens do histórico. A Neotoma garante que os fatos sejam determinísticos, versionados e auditáveis ​​quando encontrados.

## Complementar, não concorrente

Posicionar sistemas de memória focados na recuperação e focados no estado uns contra os outros é um erro de categoria. Eles abordam modos de falha que são ativados em diferentes escalas e compostos de forma independente.

Uma melhor recuperação em 10 milhões de tokens não corrige uma correção que foi substituída silenciosamente em 500 mil. Uma melhor integridade de estado em 500 mil não ajuda a encontrar a entidade certa em 10 milhões de tokens de histórico de conversas.

Na escala de produção, os agentes precisam de ambos: a capacidade de encontrar contexto relevante e a confiança de que o contexto está correto. BEAM provou ser o primeiro problema. A segunda é onde estou construindo.