Nicolò Boschi a publié un article en avril 2026 affirmant que [10 millions de jetons sont la seule référence en matière de mémoire qui compte](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). Son argument est précis. Lorsque les fenêtres contextuelles atteignaient 1 million de jetons, le bourrage de contexte par force brute dépassait les tests de mémoire existants sans aucun pipeline de récupération. Vous videz simplement tout dans la fenêtre contextuelle. Les tests testaient la taille de la fenêtre contextuelle, et non l'architecture de la mémoire.

Le [benchmark BEAM](https://arxiv.org/abs/2504.01076) corrige ce problème. Il teste entre 500 000 et 10 millions de jetons. À 10 M, aucun modèle de production ne dispose de cette fenêtre contextuelle. Le bourrage de contexte ne peut pas fonctionner. Une véritable architecture de mémoire est requise.

Le système de Boschi, [Hindsight](https://vectorize.io), obtient un score de 64,1 % au niveau 10 M. La deuxième place (Honcho) obtient 40,6 %. La ligne de base standard du RAG obtient un score de 24,9 %. L'écart vient de la récupération multi-stratégies : recherche sémantique, correspondance de mots clés, parcours de graphiques et filtrage temporel, fusionnés via une fusion de rangs réciproques. Ajoutez des observations précalculées et une résolution d'entité sur des millions de jetons et l'effet composé est significatif.

Les résultats de la récupération sont réels. À 10 millions de jetons, vous avez besoin d'une architecture, pas d'une plus grande fenêtre contextuelle. BEAM le prouve.

J'ai récemment écrit sur [pourquoi aucun test de référence de mémoire IA ne teste ce qui casse réellement](/posts/no-ai-memory-benchmark-tests-what-actually-breaks) : l'industrie évalue la récupération mais pas l'intégrité d'écriture. BEAM est le meilleur benchmark de récupération que j'ai vu. Il ne teste toujours qu’un des deux modes de défaillance. Il vous demande si vous pouvez trouver le bon fait. Il ne vous demande pas si le fait que vous avez trouvé est toujours correct.

Cet article explique quand chaque mode de défaillance s'active et pourquoi la réponse est importante pour ce que vous construisez en premier.

## La question du seuil

BEAM demande : à quelle échelle de jetons l’architecture de la mémoire est-elle importante pour la récupération ?

Réponse : 10 millions de jetons.

Il y a une deuxième question que BEAM ne pose pas : à quelle échelle l’intégrité de l’État est-elle importante pour la confiance ?

Cette réponse est différente. L'intégrité de l'état se dégrade entre 500 000 et 2 millions de jetons. Environ un cinquième à un dixième de l’échelle à laquelle l’architecture de récupération devient critique.

## Quatre niveaux

Entre 100 000 et 500 000 jetons (quelques jours d’utilisation intensive d’agents), la récupération est correcte. Une fenêtre contextuelle de 1 M le recouvre. Aucune architecture de récupération n’est nécessaire. Mais l’intégrité de l’État se dégrade déjà. « Acme Corp » et « ACME CORP » et « Acme Corporation » constituent des entités distinctes. Les corrections sont écrasées silencieusement. Les utilisateurs compensent manuellement. Ennuyeux mais gérable.

Entre 500 000 et 2 millions de jetons (quelques semaines d’utilisation d’un agent multi-outils), le mur de l’intégrité de l’État est atteint. Les variantes de résolution d'entité produisent une véritable confusion entre des centaines de références. La dérive d'état entre les sessions signifie que les corrections de la semaine dernière peuvent persister ou non. La fragmentation entre outils signifie que la même entité a des représentations différentes dans Claude, Cursor et ChatGPT. La mémoire de la plate-forme a inversé ou écrasé son état silencieusement à plusieurs reprises, sans piste d'audit. C'est ici que les utilisateurs commencent à créer des solutions de contournement : fichiers SOUL.md, fichiers de battement de cœur JSON, CRM de démarque. Le coût de l’indemnisation dépasse la tolérance.

Entre 2 et 10 millions de jetons (mois d’utilisation de l’agent), les deux problèmes s’aggravent. Le RAG standard renvoie des morceaux sur trois "Alices" différentes. Même lorsque la récupération trouve la bonne entité, vous ne pouvez pas confirmer qu'il s'agit de la dernière version. La correction du 15 mars a-t-elle été appliquée ? Qu'est-ce que la chaîne de provenance ? BEAM aborde ce niveau pour la récupération. Personne ne le compare à l’intégrité de l’État.

À 10 millions de jetons et au-delà, le bourrage de contexte est impossible. Seule la véritable architecture de mémoire survit. C’est là que se manifestent les 64,1 % de Hindsight contre les 24,9 % de RAG. Mais sans état structuré, la récupération nécessite 10 millions de jetons de bruit à parcourir.

## L'écart d'échelle

L’intégrité de l’État n’a pas de seuil de sécurité en dessous duquel elle n’existe pas. La première observation contradictoire est le premier problème d’intégrité. Le premier écrasement gagnant par la dernière écriture est la première correction perdue. Ceux-ci se composent de manière non linéaire. Au moment où les utilisateurs atteignent 500 000 à 2 millions de jetons d’état accumulé, le coût de la solution de contournement dépasse la tolérance.

Les personnes à qui je parle en construisant avec des agents ne disposent pas de 10 millions de jetons. Ils sont entre 500K et 2M. Ils gèrent 25 boucles autonomes avec un CRM de démarque de 112 personnes. Ils gèrent des pipelines de battement de cœur pour le développement commercial. Leurs agents souffrent d'amnésie de session entre les exécutions planifiées. La souffrance en matière d’intégrité de l’État est déjà grave. La question de récupération n'est pas encore activée.

## Architecture convergente

Les quatre capacités gagnantes de Hindsight à 10 millions de jetons convergent vers les mêmes primitives structurelles que je construis dans [Neotoma](https://neotoma.io), dans la direction opposée.

Les observations précalculées dans Hindsight consolident les modèles entre les faits avant le moment de la requête. Les réducteurs déterministes de Neotoma calculent des instantanés canoniques à partir de l'historique des observations avant le moment de la requête. Les deux pré-calculent plutôt que de recalculer au moment de la requête. Neotoma ajoute une garantie de déterminisme : mêmes observations en entrée, même instantané en sortie.

Résolution d'entité dans les cartes Hindsight « Alice », « Alice Chen » et « Alice C ». aux entités canoniques avec des arêtes de graphe typées. La résolution d'entité basée sur le hachage de Neotoma normalise et hache en identifiants canoniques avec des bords de relation typés. Les deux résolvent des variantes. La résolution de Neotoma est déterministe : le même nom produit toujours le même identifiant.

Le parcours graphique dans Hindsight suit les liens d’entité pour trouver des faits causalement liés qui manquent à la recherche intégrée. Le graphe de mémoire de Neotoma traverse les entités, les observations et les événements avec des arêtes typées. Les deux utilisent une structure graphique pour une récupération que la recherche de similarité ne peut pas faire.

Le filtrage temporel dans les portées Hindsight aboutit à la bonne fenêtre temporelle avant le classement sémantique. Les chronologies d'événements de Neotoma extraient les champs de date dans des événements typés pour l'ordre et le filtrage temporels.

Ces parallèles ne sont pas une coïncidence. À grande échelle, les deux systèmes arrivent aux mêmes primitives : entités, relations, ordre temporel, résumés précalculés. Ils diffèrent par ce qu’ils optimisent. Hindsight optimise la récupération de 10 millions de jetons d'historique. Neotoma garantit que les faits sont déterministes, versionnés et vérifiables une fois trouvés.

## Complémentaire, pas concurrent

Le positionnement des systèmes de mémoire axés sur la récupération et sur l'état les uns par rapport aux autres est une erreur de catégorie. Ils abordent les modes de défaillance qui s’activent à différentes échelles et s’aggravent indépendamment.

Une meilleure récupération à 10 millions de jetons ne corrige pas une correction qui a été silencieusement écrasée à 500 Ko. Une meilleure intégrité de l'état à 500 000 ne vous aide pas à trouver la bonne entité sur 10 millions de jetons d'historique de conversation.

À l’échelle de la production, les agents ont besoin des deux : la capacité à trouver un contexte pertinent et la certitude que le contexte est correct. BEAM a prouvé le premier problème. La seconde est l'endroit où je construis.