Nicolò Boschi veröffentlichte im April 2026 einen Beitrag, in dem er argumentierte, dass „10 Millionen Token der einzige Speicher-Benchmark sind, der zählt“ (https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). Sein Argument ist konkret. Als die Kontextfenster 1 Million Token erreichten, übertraf das Brute-Force-Context-Stuffing die bestehenden Speicher-Benchmarks ohne Abrufpipeline. Sie werfen einfach alles in das Kontextfenster. Bei den Benchmarks wurde die Größe des Kontextfensters getestet, nicht die Speicherarchitektur.

Der [BEAM-Benchmark](https://arxiv.org/abs/2504.01076) behebt das. Es werden 500.000 bis 10 Millionen Token getestet. Bei 10M verfügt kein Produktionsmodell über dieses Kontextfenster. Kontextfüllung kann nicht funktionieren. Es ist eine echte Speicherarchitektur erforderlich.

Das System von Boschi, [Hindsight](https://vectorize.io), erreicht 64,1 % auf der 10-M-Stufe. Der Zweitplatzierte (Honcho) erreicht 40,6 %. Der Standard-RAG-Basiswert liegt bei 24,9 %. Die Lücke ergibt sich aus dem Multi-Strategie-Retrieval: semantische Suche, Keyword-Matching, Graph-Traversal und zeitliche Filterung, zusammengeführt durch reziproke Rangfusion. Fügen Sie vorberechnete Beobachtungen und Entitätsauflösungen über Millionen von Tokens hinzu, und der Gesamteffekt ist erheblich.

Die Abrufergebnisse sind real. Bei 10 Millionen Token benötigen Sie eine Architektur, kein größeres Kontextfenster. BEAM beweist es.

Ich habe kürzlich darüber geschrieben, [warum kein AI-Speicher-Benchmark testet, was tatsächlich kaputt geht](/posts/no-ai-memory-benchmark-tests-what-actually-breaks): Die Branche misst den Abruf, nicht aber die Schreibintegrität. BEAM ist der beste Retrieval-Benchmark, den ich je gesehen habe. Es testet immer noch nur einen der beiden Fehlermodi. Es wird gefragt, ob Sie den richtigen Fakt finden können. Es wird nicht gefragt, ob die von Ihnen gefundene Tatsache noch korrekt ist.

In diesem Beitrag geht es darum, wann jeder Fehlermodus aktiviert wird und warum die Antwort für das, was Sie zuerst erstellen, wichtig ist.

## Die Schwellenfrage

BEAM fragt: Ab welcher Token-Skala ist die Speicherarchitektur für den Abruf wichtig?

Antwort: 10 Millionen Token.

Es gibt eine zweite Frage, die BEAM nicht stellt: In welchem ​​Ausmaß ist die Integrität des Staates für das Vertrauen von Bedeutung?

Diese Antwort ist anders. Die Integrität des Staates verschlechtert sich bei 500.000 bis 2 Millionen Token. Ungefähr ein Fünftel bis ein Zehntel des Ausmaßes, in dem die Abrufarchitektur entscheidend wird.

## Vier Ebenen

Bei 100.000 bis 500.000 Token (ein paar Tage starker Agentennutzung) ist der Abruf in Ordnung. Ein 1M-Kontextfenster deckt es ab. Keine Abrufarchitektur erforderlich. Aber die Integrität des Staates nimmt bereits ab. „Acme Corp“ und „ACME CORP“ ​​und „Acme Corporation“ werden als separate Einheiten zusammengefasst. Korrekturen werden stillschweigend überschrieben. Benutzer kompensieren manuell. Ärgerlich, aber beherrschbar.

Bei 500.000 bis 2 Millionen Token (ein paar Wochen Multi-Tool-Agent-Nutzung) stößt die staatliche Integritätsmauer an. Entitätsauflösungsvarianten führen bei Hunderten von Referenzen zu echter Verwirrung. Die sitzungsübergreifende Zustandsdrift bedeutet, dass die Korrekturen der letzten Woche möglicherweise bestehen bleiben oder auch nicht. Werkzeugübergreifende Fragmentierung bedeutet, dass dieselbe Entität in Claude, Cursor und ChatGPT unterschiedliche Darstellungen hat. Der Plattformspeicher wurde mehrmals stillschweigend und ohne Prüfprotokoll zurückgesetzt oder überschrieben. Hier beginnen Benutzer mit der Erstellung von Workarounds: SOUL.md-Dateien, JSON-Heartbeat-Dateien, Markdown-CRMs. Der Schadensersatzaufwand übersteigt die Toleranz.

Bei 2 bis 10 Millionen Token (monate Agentennutzung) verschärfen sich beide Probleme. Standard-RAG gibt Abschnitte über drei verschiedene „Alices“ zurück. Selbst wenn der Abruf die richtige Entität findet, können Sie nicht bestätigen, dass es sich um die neueste Version handelt. Wurde die Korrektur vom 15. März angewendet? Was ist die Herkunftskette? BEAM befasst sich mit dieser Ebene beim Abruf. Niemand misst die Integrität des Staates.

Bei 10 Millionen Token und mehr ist Kontextfüllung nicht möglich. Nur die echte Speicherarchitektur ist erhalten geblieben. Hier zeigen sich die 64,1 % von Hindsight gegenüber 24,9 % von RAG. Aber ohne strukturierten Zustand muss der Abruf 10 Millionen Tokens an Rauschen durchsuchen.

## Die Skalenlücke

Staatliche Integrität hat keinen sicheren Schwellenwert, unterhalb dessen sie nicht existiert. Die erste widersprüchliche Beobachtung ist das erste Integritätsproblem. Das erste Überschreiben des letzten Schreibvorgangs ist die erste verlorene Korrektur. Diese verbinden sich nichtlinear. Wenn Benutzer 500.000 bis 2 Millionen Tokens des akkumulierten Status erreichen, überschreiten die Workaround-Kosten die Toleranz.

Die Leute, mit denen ich mit Agenten spreche, haben keine 10-Millionen-Tokens. Sie liegen bei 500K bis 2M. Sie verwalten 25 autonome Schleifen mit einem Markdown-CRM für 112 Personen. Sie betreiben Heartbeat-Pipelines für die Geschäftsentwicklung. Ihre Agenten haben zwischen den geplanten Läufen Sitzungsamnesie. Der Schmerz der Staatsintegrität ist bereits schwerwiegend. Die Abruffrage wurde noch nicht aktiviert.

## Konvergente Architektur

Die vier Gewinnfähigkeiten von Hindsight bei 10 Mio. Token konvergieren aus der entgegengesetzten Richtung mit denselben strukturellen Grundelementen, die ich in [Neotoma](https://neotoma.io) einbaue.

Vorberechnete Beobachtungen in Hindsight konsolidieren faktenübergreifende Muster vor der Abfrage. Die deterministischen Reduzierer von Neotoma berechnen kanonische Schnappschüsse aus dem Beobachtungsverlauf vor der Abfragezeit. Beide führen eine Vorabberechnung durch und werden nicht zum Zeitpunkt der Abfrage erneut abgeleitet. Neotoma fügt eine Determinismusgarantie hinzu: gleiche Beobachtungen rein, gleicher Schnappschuss raus.

Entitätsauflösung in Hindsight-Karten „Alice“, „Alice Chen“ und „Alice C.“ zu kanonischen Entitäten mit typisierten Diagrammkanten. Die Hash-basierte Entitätsauflösung von Neotoma normalisiert und hasht kanonische IDs mit typisierten Beziehungskanten. Beide Auflösungsvarianten. Die Auflösung von Neotoma ist deterministisch: Der gleiche Name erzeugt immer die gleiche ID.

Die Graphendurchquerung in Hindsight folgt Entitätsverknüpfungen, um kausal verwandte Fakten zu finden, die bei der eingebetteten Suche übersehen werden. Der Speichergraph von Neotoma durchläuft Entitäten, Beobachtungen und Ereignisse mit typisierten Kanten. Beide verwenden die Graphstruktur zum Abrufen, was mit der Ähnlichkeitssuche nicht möglich ist.

Die zeitliche Filterung in Hindsight ordnet die Ergebnisse vor dem semantischen Ranking dem richtigen Zeitfenster zu. Die Ereigniszeitleisten von Neotoma extrahieren Datumsfelder in typisierte Ereignisse, um sie zeitlich zu ordnen und zu filtern.

Diese Parallelen sind kein Zufall. Im Maßstab gelangen beide Systeme zu denselben Grundelementen: Entitäten, Beziehungen, zeitliche Reihenfolge, vorberechnete Zusammenfassungen. Sie unterscheiden sich darin, was sie optimieren. Hindsight optimiert den Abruf über 10 Millionen historische Token. Neotoma stellt sicher, dass die Fakten deterministisch, versioniert und überprüfbar sind, wenn sie gefunden werden.

## Komplementär, nicht konkurrierend

Die Gegenüberstellung von abruforientierten und zustandsorientierten Speichersystemen ist ein Kategorienfehler. Sie befassen sich mit Fehlermodi, die in verschiedenen Größenordnungen auftreten und sich unabhängig voneinander verschlimmern.

Durch einen besseren Abruf bei 10 Mio. Token wird eine Korrektur nicht behoben, die bei 500.000 stillschweigend überschrieben wurde. Eine bessere Zustandsintegrität bei 500.000 hilft Ihnen nicht dabei, die richtige Entität über 10 Millionen Token des Konversationsverlaufs hinweg zu finden.

Im Produktionsmaßstab benötigen Agenten beides: die Fähigkeit, relevanten Kontext zu finden, und die Gewissheit, dass der Kontext korrekt ist. BEAM bewies das erste Problem. Das zweite ist, wo ich baue.