[Shubham Saboo](https://x.com/Saboo_Shubham_) (PM Google) [Agen Memori Selalu Aktif bersumber terbuka](https://github.com/GoogleCloudPlatform/generative-ai/tree/main/gemini/agents/always-on-memory-agent) minggu lalu sebagai bagian dari repo generatif-ai GCP. [VentureBeat membahasnya](https://venturebeat.com/orchestration/google-pm-open-sources-always-on-memory-agent-ditching-vector-databases-for) sebagai sinyal tentang arah infrastruktur agen. Ini adalah sistem memori persisten yang berjalan 24/7 sebagai proses latar belakang, menyerap file, mengkonsolidasikan pada pengatur waktu, dan menjawab pertanyaan. Tidak ada basis data vektor. Tidak ada penyematan. Hanya LLM yang membaca, memikirkan, dan menulis memori terstruktur ke SQLite.

Proyek ini memvalidasi sesuatu yang telah saya kembangkan dengan [Neotoma](https://github.com/markmhendrickson/neotoma): memori persisten untuk agen adalah kebutuhan yang nyata dan terus berkembang. Namun kedua proyek tersebut membuat pilihan arsitektur yang berlawanan. Posting ini membandingkannya.

## Apa itu Agen Memori Selalu Aktif

Project ini merupakan implementasi referensi yang dibuat dengan [Google ADK (Agent Development Kit)](https://google.github.io/adk-docs/) dan [Gemini 3.1 Flash-Lite](https://ai.google.dev/gemini-api/docs/models). Ini berjalan sebagai proses latar belakang yang ringan dengan tiga subagen khusus: satu untuk penyerapan, satu untuk konsolidasi, dan satu untuk kueri.

1. **Penyerapan.** Pengamat file memantau direktori kotak masuk. Masukkan file dan agen mengambilnya. Ia juga menerima input melalui HTTP POST. Ini menangani teks, gambar, audio, video, dan PDF. LLM mengekstrak ringkasan, entitas, topik, dan skor kepentingan.

2. **Konsolidasi.** Pada pengatur waktu, agen konsolidasi membaca semua memori yang tersimpan, menemukan koneksi dan pola di dalamnya, mengompresi item terkait, dan menulis wawasan baru yang disintesis. Ini berjalan di latar belakang tanpa disuruh.

3. **Permintaan.** Anda mengajukan pertanyaan. Agen kueri membaca ingatan yang relevan dan mengkonsolidasikan wawasan, menyatukan jawaban, dan mengembalikannya dengan kutipan ke catatan memori tertentu.

Penyimpanannya adalah SQLite. Tidak ada basis data vektor, tidak ada indeks penyematan. Arsitekturnya bertaruh bahwa LLM dapat menangani pengambilan secara langsung atas catatan teks terstruktur tanpa memerlukan pencarian kesamaan.

## Dimana keunggulannya

**Kesederhanaan.** Kloning repo, setel kunci API Gemini, dan jalankan. Pengamat file, API HTTP, dan dasbor Streamlit. Ketergantungan minimal dan tidak ada infrastruktur untuk dikelola selain satu proses. Bagi pengembang yang mengeksplorasi memori agen dengan Gemini, ini adalah jalur tercepat menuju demo yang berfungsi.

**Narasi "tanpa DB vektor".** Menghapus database vektor akan mengurangi kompleksitas operasional dan konseptual. Tidak ada model penyematan yang dapat dipilih, tidak ada indeks yang harus dipertahankan, tidak ada penyetelan pengambilan. Untuk penerapan skala kecil, hal ini merupakan penyederhanaan nyata.

**Konsolidasi aktif.** Konsolidasi berbasis pengatur waktu adalah bagian yang paling khas. Kebanyakan sistem memori bersifat pasif: menyimpan sesuatu, mengambil sesuatu. Yang ini secara aktif menghubungkan, mengompresi, dan mensintesis. Ia menemukan pola yang tidak Anda tanyakan. Hal ini selaras dengan siapa pun yang menginginkan "kenangan yang berpikir" daripada kenangan yang menunggu.

## Dimana pendekatannya berbeda

Agen Memori Selalu Aktif dan Neotoma memiliki tujuan yang sama (memori agen persisten) tetapi berbeda pada hampir setiap keputusan desain. Perbedaan-perbedaan tersebut bukan merupakan suatu hal yang kebetulan. Mereka mencerminkan premis awal yang berbeda tentang memori apa yang harus dioptimalkan.

### Penyerapan otomatis vs eksplisit

Pengamat file otomatis. Apa pun yang masuk ke kotak masuk akan diproses. Tidak ada langkah persetujuan, tidak ada validasi skema pertama, tidak ada konfirmasi pengguna sebelum LLM mengekstrak dan menyimpan. Neotoma mengambil pendekatan sebaliknya: tidak ada yang masuk ke sistem kecuali agen atau pengguna secara eksplisit menuliskannya melalui MCP. Untuk catatan pribadi, penyerapan otomatis lebih mudah dilakukan. Untuk apa pun yang memiliki persyaratan privasi atau kepatuhan, kontrol eksplisit adalah pilihan default yang lebih aman.

### Siapa yang memutuskan apa yang perlu diingat

Neotoma mengandalkan agen klien untuk memanggil penyimpanan memori. Agen yang Anda ajak bicara (ChatGPT, Claude, Cursor) memutuskan apa yang perlu diingat dan bagaimana menyusunnya. Ketika menyimpulkan bahwa fakta, kontak, atau tugas harus tetap ada, operasi penyimpanan akan dipanggil melalui MCP. Tanggung jawab atas "apa yang perlu diingat" tetap berada di lapisan agen, dalam proses yang sama seperti percakapan Anda.

Agen Memori Selalu Aktif membagi tanggung jawab tersebut ke seluruh subagen spesialis. Agen penyerapan memutuskan apa yang akan diekstraksi dari file. Agen konsolidasi memutuskan apa yang akan digabungkan dan hubungan apa yang akan ditarik. Agen kueri memutuskan apa yang akan dikembalikan. "Apa yang patut diingat" dan "bagaimana" didistribusikan ke seluruh sub-agen ini, yang berjalan secara independen dari percakapan. Pengguna tidak menyetujui setiap keputusan. Subagen membuatnya di latar belakang.

### Ekstraksi berbasis LLM vs deterministik

Agen Memori Selalu Aktif menggunakan LLM untuk segalanya: mengekstraksi entitas, menetapkan kepentingan, membuat ringkasan. Jalankan ekstraksi yang sama pada file yang sama dua kali dan hasilnya mungkin berbeda. Neotoma menggunakan [ekstraksi deterministik pertama skema](/posts/truth-layer-agent-memory). Masukan yang sama menghasilkan entitas yang sama, ID kanonik yang sama, dan hubungan yang sama. Interpretasi LLM opsional berjalan di atas lapisan deterministik tersebut, bukan di tempatnya.

### Konsolidasi vs kebenaran yang tidak dapat diubah

Agen konsolidasi memutuskan apa yang akan digabungkan, koneksi apa yang akan dibuat, dan apa yang akan dikompres. Ini mengubah memori seiring waktu. Kenangan lama terserap ke dalam wawasan baru yang disintesis. Neotoma tidak berkonsolidasi. Itu ditambahkan. Setiap observasi tidak dapat diubah. Sejarah bersumber dari peristiwa. Jika Anda perlu melihat apa yang berubah, kapan, dan mengapa, jejak lengkapnya ada di sana. Tidak ada yang ditimpa atau dikompresi.

### Platform tunggal vs lintas platform

Proyek ini dibangun di atas Gemini dan Google ADK. Memori berada dalam file SQLite lokal yang hanya dapat diakses melalui tumpukan agen khusus ini. Neotoma mengekspos memori melalui MCP, yang berarti entitas yang sama dapat diakses dari ChatGPT, Claude, Cursor, dan alat lain yang kompatibel dengan MCP. Satu lapisan memori, banyak konsumen.

### Tidak ada asal vs garis keturunan penuh

Catatan memori di Agen Memori Selalu Aktif berisi ringkasan dan entitas yang diekstraksi tetapi tidak melacak kembali ke file, baris, atau sesi tertentu yang menghasilkannya. Jika wawasan konsolidasi salah, tidak ada jejak audit yang bisa diikuti. Di Neotoma, setiap bidang di setiap entitas ditelusuri ke sumber observasi. Anda dapat mengaudit fakta apa pun kembali ke tempat asalnya.

### Skala pengorbanan

Tanpa penyematan atau indeks vektor, sistem membaca catatan teks terstruktur secara langsung menggunakan LLM. Ini berfungsi dalam skala kecil. Seiring bertambahnya penyimpanan memori, pendekatan ini mungkin tidak dapat diterapkan. Menghapus DB vektor tidak menghapus desain pengambilan. Ini memindahkan kompleksitas ke jendela konteks LLM. Neotoma menggunakan kueri terstruktur atas entitas yang diketik, yang diskalakan secara independen dari batas konteks LLM.

## Substrat vs agen

Perbedaan yang paling jelas adalah peran. Agen Memori Selalu Aktif adalah agen. Ini menyerap secara otomatis, mengkonsolidasikan jadwal, dan menyatukan jawaban. Ia memiliki alur penalarannya sendiri. Ia memutuskan apa yang akan digabungkan, koneksi apa yang akan dibuat, dan kapan akan dikompres.

Neotoma bukanlah agen. Ini adalah substrat. Ini menyimpan entitas yang diketik dengan ID kanonik. Itu mempertahankan asal usulnya. Ini menjawab pertanyaan deterministik. Ia tidak memutuskan apa pun dengan sendirinya. Tidak ada penyerapan latar belakang. Tidak ada konsolidasi otomatis. Tidak ada pemrosesan berbasis waktu. Agen membacanya dan menulisnya melalui [MCP](/posts/agentic-search-and-the-truth-layer). Alasannya terjadi di lapisan agen. Kebenaran ada di substrat.

Ini penting karena apa yang terjadi jika agen salah. Jika konsolidasi Agen Memori Selalu Aktif menghasilkan wawasan yang buruk, wawasan tersebut kini menjadi bagian dari memori. Tidak ada lapisan terpisah untuk diverifikasi. Agen adalah kebenaran.

Dengan lapisan kebenaran di bawahnya, Anda dapat melacak apa yang dibaca agen, kapan agen membacanya, dan apa yang ditulisnya kembali. Jika wawasan baru salah, Anda dapat mengembalikannya. Keluaran agen konsolidasi adalah observasi di atas keadaan deterministik, bukan mutasinya.

| Dimensi | Agen Memori Selalu Aktif | Lapisan kebenaran (Neotoma) |
|-----------|------------------------|------------------------|
| Peran | Agen dengan lingkaran penalaran | Substrat tanpa perilaku agen |
| Siapa yang memutuskan apa yang akan disimpan | Subagen spesialis (penyerapan, konsolidasi) | Agen klien (melalui MCP) |
| Penelanan | Otomatis (pengamat file, API) | Hanya eksplisit (MCP, CLI, unggah) |
| Ekstraksi | didorong oleh LLM; probabilistik | Skema-pertama; deterministik |
| Konsolidasi | Konsolidasi LLM berbasis waktu | Tidak ada; kebenaran yang tidak dapat diubah, pembaruan yang bersumber dari peristiwa |
| Asal | Dasar (sumber/ringkasan dalam catatan) | Garis keturunan penuh; setiap bidang dilacak ke sumber |
| Peron | Khusus Gemini/Google ADK | Lintas platform melalui MCP (ChatGPT, Claude, Cursor) |
| Privasi | Tidak diposisikan sebagai yang mengutamakan privasi | Dikendalikan pengguna; tidak ada akses penyedia |
| Kembalikan | TIDAK; memori dimutasi oleh konsolidasi | Ya; hanya tambahan, berversi, dapat dibalik |
| Model skala | LLM membaca semua catatan; dibatasi oleh konteks | Kueri terstruktur atas entitas yang diketik |

## Bagaimana mereka bisa bekerja sama

Kedua pendekatan ini tidak saling eksklusif. Agen konsolidasi dan lapisan kebenaran memecahkan masalah yang berbeda. Seseorang menemukan pola. Yang lain menjaga kepercayaan. Arsitektur yang menarik menggabungkan keduanya.

Sketsanya mudah. Agen konsolidasi (seperti yang ada di Agen Memori Selalu Aktif) membaca entitas dari lapisan kebenaran melalui MCP. Ia memiliki akses ke keadaan terstruktur penuh: entitas yang diketik, hubungan, garis waktu, asal. Ia menjalankan putaran pencarian pola pada keadaan tersebut, mencari koneksi, kesenjangan, atau wawasan yang tidak diminta oleh pengguna. Ketika menemukan sesuatu, ia menulis hasilnya kembali ke lapisan kebenaran sebagai observasi baru, ditandai dengan entitas sumber dan alasannya.

Lapisan kebenaran memperlakukan wawasan tersebut dengan cara yang sama seperti memperlakukan tulisan lainnya. Ia mencatatnya sebagai pengamatan dengan sumber yang lengkap: entitas mana yang dibaca oleh agen, kapan, dan apa yang disimpulkannya. Wawasan menjadi bagian dari grafik entitas. Jika wawasannya salah, Anda dapat melihat dengan tepat apa yang dikonsumsi agen, melacak alasannya, dan mengembalikan pengamatan tanpa memengaruhi entitas dasar yang dibacanya.

Ini berbeda dengan cara kerja konsolidasi di Agen Memori Selalu Aktif saat ini. Di sana, agen konsolidasi mengubah memori secara langsung. Kenangan lama diserap ke dalam rekaman baru yang disintesis. Keadaan sebelumnya hilang. Jika sintesisnya salah, tidak ada lapisan terpisah yang bisa dibandingkan.

Dengan lapisan kebenaran di bawahnya, konsolidasi menjadi operasi non-destruktif. Agen menambahkan lapisan interpretasi di atas keadaan deterministik. Negara itu sendiri tetap tidak berubah. Anda mendapatkan manfaat penemuan pola aktif (kekuatan Agen Memori Selalu Aktif) dengan manfaat kemampuan audit dan rollback (kekuatan lapisan kebenaran). Kecerdasan di atas, kepercayaan di bawah.

## Apa yang divalidasi ini

Agen Memori Selalu Aktif adalah implementasi referensi, bukan produk. Hal ini menegaskan bahwa permintaan akan memori agen yang persisten dan dinamis adalah nyata. "[Vector DB plus RAG](/posts/why-agent-memory-needs-more-than-rag)" bukan satu-satunya model pengambilan. [Tren struktural yang mendorong hal ini](/posts/six-agentic-trends-betting-on) sudah jelas: agen menjadi stateful, kesalahan semakin diperhitungkan, dan platform tetap buram. Proyek ini menandakan bahwa industri sedang bergerak menuju sistem memori yang selalu aktif yang lebih dari sekadar penyimpanan dan pengambilan sederhana.

Jika kedua proyek sepakat: memori pasif saja tidak cukup. Perbedaan pendapat mereka adalah: apakah lapisan memori itu sendiri yang harus melakukan penalaran, atau apakah penalaran harus terjadi pada lapisan terpisah di atas keadaan deterministik. Itu adalah pertanyaan inti dalam arsitektur memori agen saat ini. Pasar kemungkinan besar akan mendukung kedua pendekatan tersebut. Saya berharap arsitekturnya dapat menyatu pada agen konsolidasi yang berpikir, berjalan di atas lapisan kebenaran yang dapat Anda percayai.

## Apa yang saya bangun

Saya sedang membangun [Neotoma](https://github.com/markmhendrickson/neotoma) sebagai lapisan kepercayaan. Entitas yang diketik, ID kanonik, penggabungan deterministik, asal, akses lintas platform melalui MCP. Saya menggunakannya setiap hari di ChatGPT, Claude, dan Cursor. [Rilis pengembang](/posts/neotoma-developer-release) sekarang tersedia di [neotoma.io](https://neotoma.io).

Sampel Google menunjukkan bahwa industri sedang melakukan konvergensi pada memori agen yang persisten. Pertanyaan terbukanya bukanlah apakah agen akan mengingatnya, tapi bagaimana caranya. Kapabilitas atau tata kelola. Agen atau substrat. Konsolidasi probabilistik atau kebenaran deterministik. Saya bertaruh pada yang terakhir.