Saya mengirimi seorang teman tautan ke produk saya di akhir panggilan dan memintanya agar agennya memberi tahu dia apakah itu akan membantu.

Dia telah menggaruk-garuk kepala tentang bagaimana dia bisa menggunakannya. Agen AI-nya membaca situs tersebut, menganalisis alur kerjanya, dan menghasilkan penilaian dua halaman dengan kasus penggunaan spesifik, perbandingan kompetitif, dan kekhawatiran yang jujur. Ini mengidentifikasi skenario yang jelas di mana dia membutuhkan produk untuk bisnis agen B2B-nya.

Itu lebih baik daripada apa pun yang saya terima selama berminggu-minggu menelepon. Hal ini juga memicu percakapan teks lanjutan yang lebih dalam daripada panggilan telepon.

Dalam waktu satu jam saya menjangkau selusin orang lagi. Selama tiga minggu, total ada 26 orang: pendiri, insinyur, pengguna ahli AI, orang-orang yang menjalankan tumpukan agen mereka sendiri. Sekitar 18 orang menerima perintah evaluasi agen yang sama. Sisanya memberikan feedback melalui panggilan atau pesan tanpa melibatkan agen.

Produknya adalah [Neotoma](https://neotoma.io), sistem memori terstruktur untuk agen AI. Saya menggunakannya setiap hari untuk mengatasi kesulitan saya sendiri: mengelola kontak, keuangan, tugas, konten, dan percakapan di [tumpukan multi-agen](/posts/apa yang sebenarnya dilakukan oleh tumpukan agensaya). Saya baru-baru ini [merombak situs](/posts/neotoma-site-overhaul-developer-feedback) agar lebih mudah dibaca. Saya perlu tahu apakah ada orang lain yang membutuhkannya, apalagi memahaminya.

Sebelumnya, saya menghabiskan waktu seminggu untuk membuat [aplikasi wawancara](https://github.com/markmhendrickson/interviews) untuk mengotomatiskan evaluasi terstruktur, dengan skrip yang terhubung dengan Neotoma untuk menyediakan kontak, mengirim undangan, dan menyinkronkan hasil. Saya belum menyelesaikannya. Namun metode agent-prompt menjadikannya sebagian besar tidak relevan. Tanpa UI, tanpa penjadwalan, tanpa wawancara terstruktur. Hanya tautan dan pertanyaan.

## Pengaturan

Perintah evaluasinya sederhana. Saya akan membagikan sesuatu seperti: "Seorang teman sedang membuat ini. Bisakah Anda memberi tahu saya apakah ini akan membantu atau tidak?" Kemudian link ke website produk. Agen orang tersebut akan membaca situs tersebut, mempertimbangkan alur kerja orang tersebut, dan melaporkan kembali.

Satu thread menggunakan bentuk itu kata demi kata—baris di bawah ini disalin kata demi kata dari metadata pesan keluar yang saya simpan:

> Seorang teman sedang membangun ini dan ingin tahu apakah ini berguna atau tidak: https://neotoma.io

Perintah yang sama, orang yang berbeda. Agen mereka memetakan produk langsung ke titik kesulitan di tumpukan orang tersebut:

> Ini sepertinya sangat berguna. Mengapa ini penting untuk kasus penggunaan Anda:
>
> Pemeriksaan detak jantung: Melacak "email yang terakhir diperiksa" atau "pemindaian kalender terakhir" di file JSON berfungsi, tetapi rapuh. Neotoma akan membuat versinya dengan benar. Orkestrasi multi-agen: Saat Anda menelurkan subagen yang perlu berkoordinasi, mereka saat ini tidak dapat berbagi status dengan andal.
>
> Apakah ini membantu? Ya — jika teman Anda serius ingin agen produksi melakukan pekerjaan nyata seiring waktu. Untuk alur penulisan hantu dan koordinasi lintas sesi Anda, ini bisa menghilangkan masalah yang nyata.

Sebagian besar meneruskan tanggapan lengkap agen tersebut dalam waktu 24 jam melalui pesan teks atau email, banyak juga dalam waktu satu atau dua jam. Beberapa merangkumnya melalui telepon. Beberapa memberikan masukan hanya kepada manusia tanpa melibatkan agen.

Saya melacak semuanya di Neotoma itu sendiri. Neotoma menyimpan entitas terstruktur (kontak, tugas, catatan umpan balik, percakapan) dengan observasi berversi, sehingga saya dapat melihat bagaimana setiap evaluasi berkembang seiring waktu dan menghubungkannya dengan orang yang memberikannya. Setiap evaluasi menjadi entitas umpan balik dengan petunjuk yang saya gunakan, agen yang merespons, teks lengkap tanggapan, tindak lanjut manusia, saluran, dan penilaian saya terhadap kekuatan sinyal. Pada akhirnya saya memiliki lebih dari 45 catatan umpan balik yang ditautkan ke entitas kontak, riwayat percakapan, dan catatan analisis.

## Apa yang dilakukan agen secara berbeda

Ada tiga hal yang menjadikan umpan balik yang dimediasi agen lebih baik daripada percakapan riset pelanggan tradisional.

### Mereka jujur

Seorang agen mengatakan kepada salah satu evaluator: "Ini bukan untuk Anda. Kesinambungan yang Anda butuhkan antar sesi adalah tentang konteks dan suara, bukan versi keadaan yang deterministik." Evaluator meneruskan tanggapan penuh tanpa penolakan. Manusia dalam percakapan yang sama mungkin mengatakan sesuatu yang sopan dan melanjutkan.

Agen lain menilai produk dengan baik tetapi menandai risiko keamanan ketergantungan dalam proses instalasi. Ia merekomendasikan pemiliknya untuk tidak menginstal sampai masalah tersebut diatasi. Saya telah menambalnya (hal ini disebabkan oleh pengerasan manajemen ketergantungan), namun umpan baliknya jujur, spesifik, dan lebih berguna daripada "kelihatannya keren, saya akan memeriksanya nanti."

Agen lain menilai produk tersebut dengan baik secara keseluruhan namun menyimpulkan: "Pasar untuk manajemen negara agen masih kecil saat ini dan sebagian besar agen pembangun belum mencapai titik kesulitannya. Mereka akan meraihnya setelah mereka bosan dengan penimpaan diam-diam atau kehilangan konteks, bukan sebelumnya." Itu bukanlah pujian yang dibungkus dengan dorongan. Ini adalah penilaian risiko yang disampaikan tanpa penyaringan sosial.

Ada satu manusia yang cocok dengan keterusterangan itu. Dia mengatakan kepada saya bahwa positioning tersebut terasa seperti "mencoba menemukan masalah yang dapat diperbaiki oleh solusi Anda, daripada masalah yang perlu diperbaiki." Dia pengecualian. Kebanyakan manusia tidak akan mengatakan itu di depan Anda. Agen akan melakukannya.

### Itu spesifik

Salah satu agen mengidentifikasi tiga titik kesulitan nyata dalam alur kerja pemiliknya yang tidak pernah diutarakan pemiliknya dalam percakapan biasa: penulisan secara bersamaan ke entitas bersama, batasan skala pada sistem kontak berbasis penurunan harga, dan penelusuran asal ("apa yang agen saya ketahui tentang orang ini saat ia membuat draf email tersebut?").

The human's feedback on a call had been "interesting experiment." Tanggapan dari agen tersebut adalah "di sinilah letak permasalahannya bagi kami, dan inilah tiga kemampuan yang kami perlukan."

Agen lain membuat analisis kompetitif lengkap yang membandingkan produk dengan lima alternatif, lalu memetakan masing-masing alternatif ke kesenjangan alur kerja tertentu dalam pengaturan pemiliknya. Ini memakan waktu sekitar 30 detik. Manusia memerlukan penelitian selama seminggu untuk menghasilkan perbandingan yang sama, dan tidak akan repot-repot mengerjakan proyek sampingan temannya.

Kesenjangan kekhususan ini sebagian disebabkan oleh pengetahuan. Agen memiliki akses ke konteks lengkap pemiliknya: file, alat, percakapan terkini, struktur proyek. Tapi ini juga tentang insentif. Seorang agen yang diminta untuk mengevaluasi tidak perlu khawatir akan terlalu kritis atau terlalu detail. Itu hanya mengevaluasi.

### Mereka mengungkapkan untuk siapa produk tersebut

Ini adalah temuan yang tidak terduga. Agen yang menggunakan alat sendiri, artinya agen yang berjalan di Claude Code atau Cursor dengan server MCP, eksekusi kode, dan akses sistem file, secara konsisten mengevaluasi produk dengan lebih baik daripada chatbot pencarian saja seperti antarmuka web ChatGPT atau sesi Gemini dasar.

Agen bergaya chatbot mengatakan hal-hal seperti "konsep menarik" atau "dapat berguna bagi beberapa pengembang". Agen yang menggunakan alat mengatakan hal-hal seperti "kami mempunyai masalah yang sama persis" dan "berikut adalah tiga alur kerja yang akan kami gunakan saat ini."

Polanya masuk akal. Agen yang mengelola status di seluruh sesi, menulis ke file, dan berkoordinasi dengan alat lain memiliki pengalaman langsung dengan masalah memori yang dipecahkan oleh produk. Chatbot yang menghasilkan teks di jendela tanpa kewarganegaraan tidak dapat melakukannya. Nilai produk paling jelas terlihat oleh agen yang memiliki masalah arsitektur yang sama yang ditanganinya.

Hal ini mempunyai implikasi distribusi. Jika agen yang menggunakan alat mengevaluasi alat pengembang dengan lebih akurat, dan jika agen tersebut semakin membuat atau memengaruhi keputusan penggunaan alat bagi pemiliknya, maka rekomendasi antar agen menjadi saluran yang nyata. Tidak secara abstrak. Dalam arti khusus bahwa penilaian positif agen evaluator dapat mengarahkan pemiliknya untuk menginstal, dan penggunaan alat tersebut selanjutnya akan membuatnya terlihat oleh agen lain di tumpukan pemilik.

## Apa yang akan saya lakukan secara berbeda

Beberapa hal yang saya pelajari tentang metode itu sendiri:

**Minta agen untuk mengevaluasi "untuk saya", bukan secara umum.** Beberapa evaluasi muncul sebagai analisis umum startup: ukuran pasar, lanskap persaingan, kelayakan model bisnis. Berguna, tapi bukan yang saya butuhkan. Evaluasi terbaik adalah ketika agen menilai produk berdasarkan alur kerja spesifik pemiliknya. Ketika prompt berkata "apakah ini bermanfaat bagi saya?" agen mengambil file, alat, dan proyek terbaru orang tersebut. Ketika perintahnya berbunyi "evaluasi produk ini", agen tersebut menulis memo konsultan. Yang pertama memberi tahu Anda apakah orang tersebut merasakan sakit. Yang kedua memberi tahu Anda apa yang dipikirkan seorang MBA.

**Dorong manusia untuk melepaskan agennya terlebih dahulu.** Saat seseorang meminta agennya mengevaluasi sebelum membentuk opininya sendiri, saya mendapat sinyal yang paling kaya. Penilaian teknis agen dan reaksi manusia selanjutnya terhadap hal tersebut merupakan dua titik data yang berbeda. Kesenjangan di antara mereka sangat berharga. Ketika agen mengatakan "Anda memerlukan ini" tetapi manusia mengatakan "Saya akan memeriksanya nanti", risiko aktivasi terlihat bahkan sebelum orang tersebut menginstal. Saat Anda bertanya kepada manusia terlebih dahulu, mereka akan fokus pada reaksi awal mereka dan penilaian agen akan disaring melalui reaksi tersebut.

**Tingkatkan situs Anda agar mudah dibaca oleh agen.** Agen mengevaluasi dengan membaca situs Anda. Jika situsnya tidak jelas, evaluasinya juga tidak jelas. Saya menyadari di tengah jalan bahwa saya perlu meningkatkan cara situs saya menyajikan informasi untuk pembaca agen, bukan hanya pembaca manusia. Data terstruktur, pernyataan masalah yang jelas, kasus penggunaan yang konkrit, dan dokumentasi yang dapat dibaca mesin, semuanya membuat evaluasi agen menjadi lebih tajam. Ini adalah bentuk awal dari apa yang oleh sebagian orang disebut sebagai optimasi evaluasi agen (AEO). Jika agen membuat rekomendasi penggunaan alat, situs Anda harus dapat dibaca oleh mereka. Hal ini saya ambil lebih lanjut setelah proses penelitian berakhir, yang saya uraikan di bawah ini.

**Lacak jenis agen.** Agen dengan akses alat memberikan masukan yang berbeda secara kualitatif dibandingkan agen yang hanya menggunakan penelusuran. Saya tidak melacaknya secara sistematis pada awalnya dan harus merekonstruksinya nanti. Jika Anda menjalankan proses ini, perhatikan apakah agen evaluator memiliki MCP, eksekusi kode, atau akses sistem file. Ini berkorelasi dengan kedalaman evaluasi.

**Jangan terlalu mengoptimalkan perintah untuk penelitian.** Perintah saya longgar. "Seorang teman sedang membuat ini. Apakah ini akan membantu?" Beberapa orang mungkin membuat kerangka evaluasi yang rumit. Saya pikir perintah longgar lebih baik untuk penelitian. Ini memungkinkan setiap agen membawa struktur analitisnya sendiri, yang mengungkapkan bagaimana pendapat agen yang berbeda tentang produk yang sama. Variasi itu informatif. Ketika sasaran beralih dari penelitian ke konversi, struktur menjadi lebih penting. Itu sebabnya halaman evaluasi yang saya jelaskan di bawah ini menggunakan skrip lima langkah yang terperinci, bukan prompt longgar yang saya gunakan dengan teman-teman.

## Saat metode ini berhasil

Pendekatan ini bekerja paling baik jika produk Anda bersifat teknis, evaluator Anda adalah pengguna ahli AI, dan agen memiliki konteks yang cukup tentang alur kerja pemiliknya untuk memberikan penilaian spesifik.

Cara ini kurang efektif untuk produk konsumen, untuk evaluator yang tidak menggunakan agen AI secara teratur, atau untuk produk yang nilainya lebih estetis atau emosional daripada fungsional. Agen dapat memberi tahu Anda apakah sistem memori memecahkan masalah alur kerja. Itu tidak bisa memberi tahu Anda apakah suatu merek terasa dapat dipercaya.

Ini juga berfungsi paling baik bila Anda memiliki jaringan yang kuat untuk memanfaatkannya. Saya menghubungi 26 orang yang saya kenal secara pribadi atau memiliki koneksi dengannya. Penjangkauan dingin kepada orang asing yang meminta mereka menjalankan evaluasi agen mungkin akan gagal. Kepercayaan sosial yang membuat seseorang meneruskan tanggapan agen adalah kepercayaan yang sama yang membuat riset pelanggan manusia berhasil. Agen hanya memberi Anda data yang lebih baik setelah kepercayaan itu ada. Proses penelitian juga mengubah cara saya berpikir tentang alur akuisisi situs. Saya jelaskan di bagian selanjutnya bagaimana saya membangun evaluasi langsung ke dalam produk.

Dua puluh dari 26 orang memberikan tanggapan substantif. Tiga sedang menunggu keputusan. Tingkat keberhasilannya lebih tinggi dibandingkan proses survei atau wawancara apa pun yang pernah saya jalankan sebelumnya. Bagian dari itu adalah jaringan. Salah satu alasannya adalah meminta agen seseorang untuk mengevaluasi sesuatu merupakan permintaan yang lebih rendah dibandingkan menjadwalkan panggilan telepon selama 30 menit. Orang tersebut hanya meneruskan tanggapannya. Membutuhkan waktu dua menit.

## Dari prompt ke produk

Proses penelitian mengubah cara saya membangun situs itu sendiri. Perintah longgar yang saya bagikan dengan teman-teman berhasil, tetapi itu bergantung pada agen yang mengimprovisasi struktur evaluasi. Beberapa agen melakukan penilaian yang ketat. Yang lain menulis memo konsultan. Variasi ini informatif untuk riset pelanggan, tetapi itu bukan yang Anda inginkan ketika sasarannya beralih ke mengonversi seseorang yang tiba-tiba membuka situs Anda.

![Halaman Neotoma /evaluasi](/images/posts/neotoma-evaluate-page-screenshot.png)

Jadi saya memasukkan evaluasi ke dalam alur akuisisi produk. [Beranda Neotoma](https://neotoma.io) kini mengarah dengan "Minta agen Anda untuk mengevaluasi" sebagai ajakan bertindak utama, bukan "Instal" atau "Mulai". Ini menunjuk ke halaman [/evaluate](https://neotoma.io/evaluate) khusus yang dirancang untuk dibaca oleh agen, bukan hanya manusia. Halaman tersebut berisi skrip evaluasi lima langkah terstruktur yang dapat diikuti oleh agen mana pun, apa pun alat yang digunakan pengguna untuk memulai.

Skrip ini meningkatkan permintaan yang dibagikan dengan teman dengan cara tertentu:

1. **Sapuan konteks.** Sebelum mengatakan apa pun, agen memeriksa alat yang diinstal pengguna, konfigurasi MCP, skrip otomatisasi, direktori proyek, dan sistem memori yang ada. Hal ini mendasarkan evaluasi pada alur kerja nyata orang tersebut dan bukan pada jendela obrolan tunggal.
2. **Satu pertanyaan yang ditargetkan.** Berdasarkan hal yang belum diketahui, agen bertanya tentang pola sesi pengguna atau batasan alat.
3. **Tindak lanjut singkat.** Satu atau dua pertanyaan lagi untuk mengisi kekosongan yang tersisa.
4. **Penilaian yang jujur.** Apakah Neotoma cocok, masalah spesifik apa yang akan diselesaikan sesuai dengan keinginan pengguna, dari mana harus memulai, dan apa yang harus disimpan terlebih dahulu. Jika agen tidak memiliki akses terhadap konteks yang lebih luas, maka agen akan menyatakan demikian dan menganggap rekomendasi tersebut bersifat sementara.
5. **Urutan kanonik.** Jika agen menilai kecocokan kuat atau sedang, agen akan menanyakan langsung kepada pengguna apakah mereka ingin melanjutkan. Urutannya adalah evaluasi, lalu instalasi, lalu aktivasi, lalu konfigurasi perkakas. Agen membaca panduan instalasi, menjalankan `npm install -g neotoma` dan `neotoma init` jika diperlukan, kemudian membawa pengguna melalui aktivasi kontekstual: menemukan kandidat data bernilai tinggi, melihat pratinjau apa yang akan disimpan, menyerap sumber yang dikonfirmasi, merekonstruksi garis waktu dengan asal, dan menjalankan kueri tindak lanjut dengan koreksi.

Pengalaman nyata pertama pengguna terhadap produk adalah garis waktu yang direkonstruksi dari data mereka sendiri, bukan halaman dokumentasi.

Ini berbeda dari perintah ad-hoc yang saya gunakan selama riset pelanggan. Prompt itu menanyakan "apakah ini berguna?" Halaman evaluasi meminta agen untuk menilai kesesuaian, mengidentifikasi titik awal dengan nilai tertinggi, dan kemudian menjalankan orientasi penuh jika pengguna ingin melanjutkan. Agen menjadi saluran akuisisi. Ini mengevaluasi, merekomendasikan, menginstal, dan mengaktifkan, semuanya dalam satu sesi, di alat apa pun yang sedang digunakan pengguna.

Saya belum tahu apakah konversi ini lebih baik daripada laman landas tradisional dengan tombol "Mulai". Namun logikanya jelas: jika agenlah yang menilai relevansi alat bagi pemiliknya, maka situs tersebut harus dioptimalkan agar agen dapat mengevaluasi dan mengambil tindakan, bukan hanya untuk dibaca dan di-bookmark oleh manusia.

## Intinya

Riset pelanggan terpersonalisasi yang dimediasi agen memberi saya tiga hal yang tidak dapat dilakukan oleh metode tradisional: diskualifikasi yang jujur (agen memberi tahu pemiliknya bahwa produk tersebut bukan untuk mereka), identifikasi spesifik atas poin-poin masalah yang tidak diungkapkan oleh manusia, dan sinyal segmentasi berdasarkan kemampuan agen yang mengungkapkan untuk siapa produk tersebut sebenarnya.

Umpan balik dari proses ini mengubah pemahaman saya tentang target pengguna, posisi saya, dan risiko terbesar saya. Saya akan menulis tentang temuan tersebut secara terpisah. Posting ini tentang metodenya.

Ini juga mengubah cara berpikir saya tentang pemasaran dan akuisisi. Jika agen membuat atau memengaruhi keputusan penggunaan alat bagi pemiliknya, maka Anda perlu memasarkan ke agen dan juga ke manusia. Saya jelaskan di atas bagaimana hal ini mengarahkan saya untuk membangun situs evaluasi pertama dengan skrip evaluasi agen terstruktur dan urutan kanonik dari evaluasi hingga instalasi dan aktivasi. Namun prinsipnya bersifat umum: pengoptimalan evaluasi agen berarti memastikan produk Anda terlihat, terbaca, dan dapat ditindaklanjuti oleh agen tepat pada saat mereka menghadapi permasalahan yang Anda selesaikan. Bukan hanya metadata terstruktur dan dokumen yang dapat dibaca mesin, namun jalur evaluasi hingga aktivasi lengkap yang dapat dijalankan agen tanpa pengguna meninggalkan alat mereka saat ini.

Ada pertanyaan yang lebih sulit di balik pertanyaan ini. Beberapa sistem akan mendapat manfaat jika menggunakan alat seperti Neotoma lebih awal, sebelum masalah menjadi akut, karena migrasi status nanti akan lebih mahal dibandingkan memulai dengan penyimpanan terstruktur dari awal. Bagaimana Anda memberi tahu agen yang membangun sistem baru bahwa biaya jangka panjang jika tidak menggunakan alat saat ini lebih tinggi daripada biaya penyiapan? Saya belum punya jawabannya. Namun proses penelitian itu sendiri, meminta agen untuk mengevaluasi produk, merupakan langkah pertama menuju pemahaman bagaimana alasan agen mengenai adopsi alat.

Jika Anda sedang membangun sesuatu dan calon pengguna Anda menjalankan agen AI dengan akses alat, tanyakan kepada agen tersebut. Mereka akan memberitahumu hal-hal yang tidak akan diberitahukan manusia.