Nicolò Boschi menerbitkan postingan pada bulan April 2026 dengan argumen bahwa [10 juta token adalah satu-satunya tolok ukur memori yang penting](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). Argumennya spesifik. Ketika jendela konteks mencapai 1 juta token, pengisian konteks secara brute force melewati tolok ukur memori yang ada tanpa jalur pengambilan apa pun. Anda cukup membuang semuanya ke jendela konteks. Tolok ukurnya adalah menguji ukuran jendela konteks, bukan arsitektur memori.

[BEAM benchmark](https://arxiv.org/abs/2504.01076) memperbaikinya. Ini menguji pada 500 ribu hingga 10 juta token. Pada 10M, tidak ada model produksi yang memiliki jendela konteks tersebut. Pengisian konteks tidak dapat berfungsi. Arsitektur memori nyata diperlukan.

Sistem Boschi, [Hindsight](https://vectorize.io), mendapat skor 64,1% pada tingkat 10 juta. Tempat kedua (Honcho) mendapat skor 40,6%. Skor dasar RAG standar adalah 24,9%. Kesenjangan tersebut berasal dari pengambilan multi-strategi: pencarian semantik, pencocokan kata kunci, traversal grafik, dan pemfilteran temporal, yang digabungkan melalui fusi peringkat timbal balik. Tambahkan pengamatan yang telah dihitung sebelumnya dan resolusi entitas pada jutaan token dan efek gabungannya akan signifikan.

Hasil pengambilannya nyata. Dengan 10 juta token, Anda memerlukan arsitektur, bukan jendela konteks yang lebih besar. BEAM membuktikannya.

Saya baru-baru ini menulis tentang [mengapa tidak ada benchmark memori AI yang menguji apa yang sebenarnya rusak](/posts/no-ai-memory-benchmark-tests-what-actually-break): industri melakukan benchmark pada pengambilan tetapi tidak menulis integritas. BEAM adalah tolok ukur pengambilan terbaik yang pernah saya lihat. Ini masih hanya menguji satu dari dua mode kegagalan. Ia menanyakan apakah Anda dapat menemukan fakta yang benar. Ia tidak menanyakan apakah fakta yang Anda temukan masih benar.

Posting ini membahas kapan setiap mode kegagalan diaktifkan, dan mengapa jawabannya penting untuk apa yang Anda buat pertama kali.

## Pertanyaan ambang batas

BEAM bertanya: pada skala token apa arsitektur memori penting untuk pengambilan?

Jawaban: 10 juta token.

Ada pertanyaan kedua yang tidak ditanyakan BEAM: pada skala apa integritas negara penting bagi kepercayaan?

Jawabannya berbeda. Integritas negara menurun pada 500 ribu menjadi 2 juta token. Kira-kira seperlima hingga sepersepuluh skala dimana arsitektur pengambilan menjadi penting.

## Empat tingkatan

Pada 100K hingga 500K token (penggunaan agen berat selama beberapa hari), pengambilannya baik-baik saja. Jendela konteks 1M menutupinya. Tidak diperlukan arsitektur pengambilan. Tapi integritas negara sudah terpuruk. "Acme Corp" dan "ACME CORP" dan "Acme Corporation" terakumulasi sebagai entitas terpisah. Koreksi diam-diam ditimpa. Pengguna memberikan kompensasi secara manual. Mengganggu tapi bisa dikendalikan.

Pada 500 ribu hingga 2 juta token (penggunaan agen multi-alat dalam beberapa minggu), tembok integritas negara terbentur. Varian resolusi entitas menimbulkan kebingungan di ratusan referensi. Penyimpangan status lintas sesi berarti koreksi dari minggu lalu mungkin berlanjut atau tidak. Fragmentasi lintas alat berarti entitas yang sama memiliki representasi berbeda di Claude, Cursor, dan ChatGPT. Memori platform telah dikembalikan atau ditimpa secara diam-diam beberapa kali tanpa jejak audit. Di sinilah pengguna mulai membuat solusi: file SOUL.md, file detak jantung JSON, CRM penurunan harga. Biaya kompensasi melebihi toleransi.

Pada token 2 juta hingga 10 juta (penggunaan agen selama berbulan-bulan), kedua masalah tersebut bertambah. RAG standar mengembalikan potongan tentang tiga "Alice" yang berbeda. Meskipun pengambilan menemukan entitas yang tepat, Anda tidak dapat memastikan bahwa itu adalah versi terbaru. Apakah koreksi mulai tanggal 15 Maret diterapkan? Apa rantai asalnya? BEAM menangani tingkatan ini untuk pengambilan. Tidak ada yang membandingkannya dengan integritas negara.

Pada 10 juta token atau lebih, pengisian konteks tidak mungkin dilakukan. Hanya arsitektur memori nyata yang bertahan. Di sinilah 64,1% Hindsight versus 24,9% RAG terwujud. Namun tanpa keadaan terstruktur, pengambilan memiliki 10 juta token noise untuk ditelusuri.

## Kesenjangan skala

Integritas negara tidak memiliki ambang batas aman yang di bawahnya tidak ada. Pengamatan konflik pertama adalah masalah integritas pertama. Penimpaan kemenangan penulisan terakhir yang pertama adalah koreksi kekalahan pertama. Senyawa ini bersifat nonlinier. Pada saat pengguna mencapai 500 ribu hingga 2 juta token status akumulasi, biaya penyelesaiannya melebihi toleransi.

Orang yang saya ajak bicara membangun dengan agen tidak memiliki 10 juta token. Mereka berada di 500K hingga 2M. Mereka mengelola 25 putaran otonom dengan CRM penurunan harga 112 orang. Mereka menjalankan jalur pipa detak jantung untuk pengembangan bisnis. Agen mereka mengalami amnesia sesi di antara jadwal berjalan. Masalah integritas negara sudah sangat parah. Pertanyaan pengambilan belum diaktifkan.

## Arsitektur konvergen

Empat kemampuan pemenang Hindsight pada 10 juta token berkumpul pada struktur primitif yang sama dengan yang saya bangun di [Neotoma](https://neotoma.io), dari arah yang berlawanan.

Pengamatan yang telah dihitung sebelumnya di Hindsight mengkonsolidasikan pola di seluruh fakta sebelum waktu kueri. Pereduksi deterministik Neotoma menghitung snapshot kanonik dari riwayat observasi sebelum waktu kueri. Keduanya melakukan pra-komputasi, bukan mengambil ulang pada waktu kueri. Neotoma menambahkan jaminan determinisme: observasi masuk yang sama, snapshot keluar yang sama.

Resolusi entitas di Hindsight memetakan "Alice", "Alice Chen", dan "Alice C." ke entitas kanonik dengan tepi grafik yang diketik. Resolusi entitas berbasis hash Neotoma dinormalisasi dan di-hash ke ID kanonik dengan tepi hubungan yang diketik. Keduanya menyelesaikan varian. Resolusi Neotoma bersifat deterministik: nama yang sama selalu menghasilkan ID yang sama.

Penjelajahan grafik di Hindsight mengikuti tautan entitas untuk menemukan fakta terkait kausal yang luput dari penelusuran penyematan. Grafik memori Neotoma melintasi entitas, observasi, dan peristiwa dengan tepi yang diketik. Keduanya menggunakan struktur grafik untuk pengambilan yang tidak dapat dilakukan oleh pencarian kesamaan.

Pemfilteran temporal dalam cakupan Hindsight menghasilkan jendela waktu yang tepat sebelum pemeringkatan semantik. Garis waktu acara Neotoma mengekstrak bidang tanggal ke dalam acara yang diketik untuk pengurutan dan pemfilteran sementara.

Persamaan ini bukanlah suatu kebetulan. Dalam skala besar, kedua sistem sampai pada primitif yang sama: entitas, hubungan, pengurutan temporal, ringkasan yang telah dihitung sebelumnya. Mereka berbeda dalam hal apa yang mereka optimalkan. Tinjauan ke belakang mengoptimalkan pengambilan 10 juta token sejarah. Neotoma memastikan fakta bersifat deterministik, berversi, dan dapat diaudit ketika ditemukan.

## Saling melengkapi, bukan berkompetisi

Memposisikan sistem memori yang berfokus pada pengambilan dan berfokus pada keadaan satu sama lain merupakan kesalahan kategori. Mereka mengatasi mode kegagalan yang aktif pada skala berbeda dan digabungkan secara independen.

Pengambilan yang lebih baik pada 10 juta token tidak memperbaiki koreksi yang diam-diam ditimpa pada 500 ribu. Integritas negara yang lebih baik pada 500 ribu tidak membantu Anda menemukan entitas yang tepat di 10 juta token riwayat percakapan.

Pada skala produksi, agen memerlukan keduanya: kemampuan untuk menemukan konteks yang relevan, dan keyakinan bahwa konteks tersebut benar. BEAM membuktikan masalah pertama. Yang kedua adalah tempat saya membangun.