Ich schickte einem Freund am Ende eines Anrufs einen Link zu meinem Produkt und bat ihn, sich von seinem Agenten sagen zu lassen, ob es hilfreich wäre.

Er hatte sich den Kopf darüber zerbrochen, wie er es nutzen könnte. Sein KI-Agent las die Website, analysierte seine Arbeitsabläufe und erstellte eine zweiseitige Bewertung mit spezifischen Anwendungsfällen, Wettbewerbsvergleichen und ehrlichen Bedenken. Es wurde ein klares Szenario identifiziert, in dem er das Produkt für sein B2B-Agenturgeschäft benötigen würde.

Es war besser als alles, was ich in den wochenlangen Anrufen bekommen hatte. Es löste auch ein anschließendes Textgespräch aus, das tiefer ging als der Anruf.

Innerhalb einer Stunde habe ich ein Dutzend weitere Menschen erreicht. Über drei Wochen hinweg insgesamt 26: Gründer, Ingenieure, KI-Power-User, Leute, die ihre eigenen Agent-Stacks betreiben. Ungefähr 18 erhielten die gleiche Aufforderung zur Agentenbewertung. Der Rest gab Feedback zu Anrufen oder Nachrichten, ohne einen Agenten einzubeziehen.

Das Produkt ist [Neotoma](https://neotoma.io), ein strukturiertes Speichersystem für KI-Agenten. Ich verwende es täglich, um meine eigenen Probleme zu lösen: Kontakte, Finanzen, Aufgaben, Inhalte und Gespräche über einen [Multi-Agent-Stack](/posts/what-my-agentic-stack-actually-does) verwalten. Ich habe die Website kürzlich [überarbeitet](/posts/neotoma-site-overhaul-developer-feedback), um sie besser lesbar zu machen. Ich musste wissen, ob jemand anderes es brauchte, geschweige denn, ob es jemand verstand.

Zuvor hatte ich eine Woche damit verbracht, eine [Interview-App](https://github.com/markmhendrickson/interviews) zu entwickeln, um strukturierte Auswertungen zu automatisieren, mit Neotoma-verbundenen Skripten zum Bereitstellen von Kontakten, Versenden von Einladungen und Synchronisieren von Ergebnissen. Ich hatte es noch nicht beendet. Aber die Agent-Prompt-Methode machte es ohnehin weitgehend irrelevant. Keine Benutzeroberfläche, keine Terminplanung, kein strukturiertes Interview. Nur ein Link und eine Frage.

## Das Setup

Die Bewertungsaufforderung war einfach. Ich würde etwas sagen wie: „Ein Freund baut das. Können Sie mir sagen, ob es hilfreich wäre oder nicht?“ Dann der Link zur Produktwebsite. Der Agent der Person würde die Website lesen, die Arbeitsabläufe der Person prüfen und einen Bericht erstatten.

Ein Thread hat diese Form Wort für Wort verwendet – die folgende Zeile wurde wörtlich aus den Metadaten der ausgehenden Nachricht kopiert, die ich gespeichert habe:

> Ein Freund erstellt dies und möchte wissen, ob es hilfreich wäre oder nicht: https://neotoma.io

Gleiche Aufforderung, andere Person. Ihr Agent ordnete das Produkt direkt den Schmerzpunkten im eigenen Stapel der Person zu:

> Das sieht wirklich nützlich aus. Warum es für Ihren Anwendungsfall wichtig ist:
>
> Heartbeat-Prüfungen: Die Verfolgung der „letzten überprüften E-Mail“ oder des „letzten Kalenderscans“ in JSON-Dateien funktioniert, ist aber fragil. Neotoma würde das richtig interpretieren. Multiagenten-Orchestrierung: Wenn Sie Subagenten erzeugen, die koordiniert werden müssen, können diese derzeit ihren Status nicht zuverlässig teilen.
>
> Ist es hilfreich? Ja – wenn Ihr Freund es ernst meint, dass Produktionsagenten im Laufe der Zeit echte Arbeit leisten. Für Ihre Ghostwriting-Pipeline und sitzungsübergreifende Koordination könnte es einen echten Schwachpunkt beseitigen.

Die meisten leiteten die vollständige Antwort des Agenten innerhalb von 24 Stunden per SMS oder E-Mail weiter, viele innerhalb von ein oder zwei Stunden. Einige fassten es in einem Anruf zusammen. Einige wenige gaben nur menschliches Feedback, ohne einen Agenten einzubeziehen.

Ich habe alles in Neotoma selbst verfolgt. Neotoma speichert strukturierte Entitäten (Kontakte, Aufgaben, Feedback-Datensätze, Gespräche) mit versionierten Beobachtungen, sodass ich sehen kann, wie sich jede Bewertung im Laufe der Zeit entwickelt, und sie mit der Person verknüpfen kann, die sie abgegeben hat. Jede Bewertung wurde zu einer Feedback-Einheit mit der von mir verwendeten Eingabeaufforderung, dem Agenten, der geantwortet hat, dem vollständigen Text der Antwort, etwaiger menschlicher Nachverfolgung, dem Kanal und meiner Einschätzung der Signalstärke. Am Ende hatte ich über 45 Feedback-Datensätze, die mit Kontaktentitäten, Gesprächsverläufen und Analysenotizen verknüpft waren.

## Was Agenten anders machen

Drei Dinge machten das von Agenten vermittelte Feedback besser als herkömmliche Kundenforschungsgespräche.

### Sie sind ehrlich

Ein Agent sagte zu einem Gutachter: „Das ist nichts für Sie. Bei der Kontinuität, die Sie zwischen Sitzungen benötigen, geht es um Kontext und Stimme, nicht um deterministische Zustandsversionierung.“ Der Bewerter leitete die vollständige Antwort ohne Pushback weiter. Ein Mensch im selben Gespräch hat möglicherweise etwas Höfliches gesagt und ist dann weitergegangen.

Ein anderer Agent bewertete das Produkt positiv, wies jedoch auf Abhängigkeitssicherheitsrisiken im Installationsprozess hin. Es empfahl seinem Besitzer, die Installation erst durchzuführen, wenn diese behoben wurden. Ich habe diese inzwischen gepatcht (sie waren auf die Härtung des Abhängigkeitsmanagements zurückzuführen), aber das Feedback war ehrlich, konkret und nützlicher als „Sieht cool aus, ich schaue es mir später an.“

Ein anderer Agent bewertete das Produkt insgesamt positiv, kam jedoch zu dem Schluss: „Der Markt für die Verwaltung des Agentenstatus ist derzeit winzig und die meisten Leute, die Agenten erstellen, haben den Punkt, an dem sie arbeiten, noch nicht erreicht. Sie werden danach greifen, nachdem sie sich durch stille Überschreibungen oder verlorenen Kontext verbrannt haben, nicht vorher.“ Das ist kein in Ermutigung verpacktes Kompliment. Es handelt sich um eine Risikobewertung, die ohne soziale Filterung durchgeführt wird.

Ein Mensch entsprach dieser Direktheit. Er erzählte mir, dass sich die Positionierung wie „der Versuch anfühlte, Probleme zu finden, die Ihre Lösung behebt, und nicht wie Probleme, die behoben werden müssen.“ Er ist die Ausnahme. Die meisten Menschen werden dir das nicht ins Gesicht sagen. Agenten werden es tun.

### Sie sind spezifisch

Ein Agent identifizierte drei konkrete Schwachstellen im Arbeitsablauf seines Besitzers, die der Besitzer nie in lockeren Gesprächen artikuliert hatte: gleichzeitige Schreibvorgänge an eine gemeinsame Entität, Skalierungsbeschränkungen bei einem abschlagsbasierten Kontaktsystem und Herkunftsverfolgung („Was wusste mein Agent über diese Person, als er diese E-Mail verfasste?“).

Das Feedback des Menschen zu einem Anruf sei „interessantes Experiment“ gewesen. Das Feedback des Agenten lautete: „Genau hier liegt für uns der Knackpunkt, und hier sind drei Fähigkeiten, die wir benötigen würden.“

Ein anderer Agent erstellte eine vollständige Wettbewerbsanalyse, in der er das Produkt mit fünf Alternativen verglich, und ordnete diese dann jeweils spezifischen Workflow-Lücken im Setup seines Eigentümers zu. Dies dauerte etwa 30 Sekunden. Ein Mensch würde eine Woche Recherche benötigen, um den gleichen Vergleich zu erstellen, und würde sich nicht um das Nebenprojekt eines Freundes kümmern.

Bei der Spezifitätslücke geht es zum Teil um Wissen. Agenten haben Zugriff auf den vollständigen Kontext ihres Eigentümers: Dateien, Tools, aktuelle Gespräche, Projektstruktur. Es geht aber auch um Anreize. Ein Makler, der eine Bewertung abgeben soll, hat keine Angst davor, zu kritisch oder zu detailliert zu sein. Es wertet nur aus.

### Sie verraten, für wen das Produkt bestimmt ist

Das war der unerwartete Befund. Agenten, die selbst Tools nutzen, also Agenten, die in Claude Code oder Cursor mit MCP-Servern, Codeausführung und Dateisystemzugriff laufen, bewerteten das Produkt durchweg positiver als reine Such-Chatbots wie die Weboberfläche von ChatGPT oder eine einfache Gemini-Sitzung.

Die Agenten im Chatbot-Stil sagten Dinge wie „interessantes Konzept“ oder „könnte für einige Entwickler nützlich sein“. Die Agenten, die das Tool verwenden, sagten Dinge wie „Wir haben genau dieses Problem“ und „Hier sind drei Workflows, bei denen wir das heute verwenden würden.“

Das Muster macht Sinn. Ein Agent, der den Status sitzungsübergreifend verwaltet, in Dateien schreibt und mit anderen Tools koordiniert, hat Erfahrungen aus erster Hand mit dem Speicherproblem, das das Produkt löst. Ein Chatbot, der Text in einem zustandslosen Fenster generiert, tut dies nicht. Der Wert des Produkts ist für die Agenten am deutlichsten erkennbar, die das Architekturproblem, das es anspricht, teilen.

Dies hat Auswirkungen auf die Verteilung. Wenn Tool-verwendende Agenten Entwicklertools genauer bewerten und wenn diese Agenten zunehmend Entscheidungen über die Tool-Einführung für ihre Besitzer treffen oder beeinflussen, dann wird die Empfehlung von Agent zu Agent zu einem echten Kanal. Nicht abstrakt. In dem spezifischen Sinne, dass die positive Bewertung des Evaluator-Agenten seinen Eigentümer zur Installation veranlassen kann und die anschließende Verwendung des Tools durch diesen Agenten es für andere Agenten im Stack des Eigentümers sichtbar macht.

## Was ich anders machen würde

Ein paar Dinge, die ich über die Methode selbst gelernt habe:

**Bitten Sie den Agenten, „für mich“ zu bewerten, nicht allgemein.** Einige Bewertungen kamen als allgemeine Startup-Analyse zurück: Marktgröße, Wettbewerbslandschaft, Realisierbarkeit des Geschäftsmodells. Nützlich, aber nicht das, was ich brauchte. Die besten Bewertungen waren diejenigen, bei denen der Agent das Produkt anhand der spezifischen Arbeitsabläufe seines Besitzers bewertete. Als die Aufforderung lautete: „Wäre das hilfreich für mich?“ Der Agent hat aus den tatsächlichen Dateien, Tools und aktuellen Projekten der Person entnommen. Als die Aufforderung „Bewerten Sie dieses Produkt“ lautete, verfasste der Agent ein Memo eines Beraters. Das erste sagt Ihnen, ob diese Person Schmerzen hat. Im zweiten Teil erfahren Sie, was ein MBA denken würde.

**Ermutigen Sie den Menschen, dem Agenten den Vortritt zu lassen.** Als jemand seinen Agenten um eine Bewertung bat, bevor er sich eine eigene Meinung bildete, erhielt ich das deutlichste Signal. Die technische Einschätzung des Agenten und die anschließende Reaktion des Menschen darauf waren zwei unterschiedliche Datenpunkte. Die Kluft zwischen ihnen ist wertvoll. Wenn ein Agent sagt: „Sie brauchen das“, der Mensch aber sagt: „Ich schaue es mir später an“, ist das Aktivierungsrisiko sichtbar, bevor die Person überhaupt installiert. Wenn Sie den Menschen zuerst fragen, orientiert er sich an seiner ersten Reaktion und die Einschätzung des Agenten wird durch diese gefiltert.

**Verbessern Sie die Lesbarkeit Ihrer Website durch Agenten.** Agenten bewerten, indem sie Ihre Website lesen. Wenn die Site vage ist, ist die Bewertung vage. Mittendrin wurde mir klar, dass ich die Art und Weise verbessern musste, wie meine Website Informationen für erfahrene Leser präsentiert, nicht nur für menschliche. Strukturierte Daten, klare Problemstellungen, konkrete Anwendungsfälle und maschinenlesbare Dokumentation machen die Bewertung des Agenten schärfer. Dies ist eine frühe Form dessen, was manche Leute als Agent Evaluation Optimization (AEO) bezeichnen. Wenn Agenten Empfehlungen zur Tool-Einführung abgeben, muss Ihre Website für sie lesbar sein. Nach Abschluss des Rechercheprozesses, den ich im Folgenden beschreibe, habe ich dies weitergeführt.

**Verfolgen Sie den Agententyp.** Agenten mit Toolzugriff gaben qualitativ ein anderes Feedback als Agenten, die nur für die Suche zuständig waren. Ich habe das zunächst nicht systematisch verfolgt und musste es später rekonstruieren. Wenn Sie diesen Prozess ausführen, beachten Sie, ob der Agent des Prüfers über MCP-, Codeausführungs- oder Dateisystemzugriff verfügt. Es korreliert mit der Bewertungstiefe.

**Überoptimieren Sie die Eingabeaufforderung für die Recherche nicht.** Meine Eingabeaufforderung war locker. „Ein Freund baut das. Wäre es hilfreich?“ Manche Leute erstellen möglicherweise ausgefeilte Bewertungsrahmen. Ich denke, dass die lockere Eingabeaufforderung für die Recherche besser war. Dadurch konnte jeder Agent seine eigene analytische Struktur einbringen, die zeigte, wie verschiedene Agenten über dasselbe Produkt denken. Diese Variante war aufschlussreich. Wenn sich das Ziel von der Forschung zur Konvertierung verlagert, ist die Struktur wichtiger. Aus diesem Grund verwendet die Bewertungsseite, die ich unten beschreibe, ein detailliertes Fünf-Schritte-Skript und nicht die lose Eingabeaufforderung, die ich bei Freunden verwendet habe.

## Wenn diese Methode funktioniert

Dieser Ansatz funktioniert am besten, wenn Ihr Produkt technisch ist, Ihre Bewerter KI-Power-User sind und die Agenten über genügend Kontext zu den Arbeitsabläufen ihres Eigentümers verfügen, um spezifische Bewertungen abzugeben.

Bei Konsumgütern funktioniert es weniger gut, bei Gutachtern, die KI-Agenten nicht regelmäßig einsetzen, oder bei Produkten, deren Wert eher ästhetischer oder emotionaler als funktionaler Natur ist. Ein Agent kann Ihnen sagen, ob ein Speichersystem ein Workflow-Problem löst. Es kann Ihnen nicht sagen, ob eine Marke vertrauenswürdig ist.

Es funktioniert auch am besten, wenn Sie über ein robustes Netzwerk verfügen, auf das Sie zurückgreifen können. Ich habe mich an 26 Personen gewandt, die ich persönlich kannte oder zu denen ich eine Verbindung hatte. Kalte Kontaktaufnahme mit Fremden und der Bitte, eine Agentenbewertung durchzuführen, würde wahrscheinlich scheitern. Das soziale Vertrauen, das jemanden dazu bringt, die Antwort eines Agenten weiterzuleiten, ist dasselbe Vertrauen, das menschliche Kundenforschung zum Funktionieren bringt. Die Agenten liefern Ihnen einfach bessere Daten, sobald dieses Vertrauen besteht. Der Rechercheprozess hat auch meine Einstellung zum Akquiseprozess der Website verändert. Im nächsten Abschnitt beschreibe ich, wie ich die Evaluierung direkt in das Produkt integriert habe.

Zwanzig der 26 gaben substanzielles Feedback. Drei stehen noch aus. Die Trefferquote war höher als bei jeder Umfrage oder jedem Interviewprozess, den ich zuvor durchgeführt habe. Ein Teil davon ist das Netzwerk. Ein Teil davon ist, dass es weniger anspruchsvoll ist, den Agenten einer anderen Person zu bitten, etwas zu bewerten, als einen 30-minütigen Anruf zu vereinbaren. Die Person leitet die Antwort einfach weiter. Dauert zwei Minuten.

## Von der Aufforderung zum Produkt

Der Rechercheprozess hat die Art und Weise verändert, wie ich die Website selbst aufbaue. Die lockere Eingabeaufforderung, die ich mit Freunden geteilt hatte, funktionierte, aber es hing davon ab, dass der Agent eine Bewertungsstruktur improvisierte. Einige Agenten führten strenge Bewertungen durch. Andere schrieben Beratermemos. Die Variante war für die Kundenforschung aufschlussreich, aber sie ist nicht das, was Sie wollen, wenn das Ziel darin besteht, jemanden zu konvertieren, der kalt auf Ihre Website gelangt.

![Die Neotoma /evaluate-Seite](/images/posts/neotoma-evaluate-page-screenshot.png)

Deshalb habe ich die Bewertung in den Erwerbsablauf des Produkts integriert. Auf der [Neotoma-Homepage](https://neotoma.io) steht jetzt „Bitten Sie Ihren Agenten um eine Bewertung“ als primäre Handlungsaufforderung, nicht „Installieren“ oder „Erste Schritte“. Es verweist auf eine spezielle [/evaluate](https://neotoma.io/evaluate)-Seite, die nicht nur von Menschen, sondern auch von Agenten gelesen werden kann. Die Seite enthält ein strukturiertes fünfstufiges Bewertungsskript, dem jeder Agent folgen kann, unabhängig davon, mit welchem Tool der Benutzer startet.

Das Skript verbessert die von Freunden geteilte Eingabeaufforderung auf bestimmte Weise:

1. **Kontext-Sweep.** Bevor der Agent etwas sagt, überprüft er die vom Benutzer installierten Tools, MCP-Konfigurationen, Automatisierungsskripte, Projektverzeichnisse und vorhandenen Speichersysteme. Dadurch erfolgt die Auswertung im realen Arbeitsablauf der Person und nicht in einem einzelnen Chatfenster.
2. **Eine gezielte Frage.** Basierend auf dem, was er noch nicht weiß, fragt der Agent nach den Sitzungsmustern oder Tool-Einschränkungen des Benutzers.
3. **Kurzes Follow-up.** Eine oder zwei weitere Fragen, um verbleibende Lücken zu schließen.
4. **Ehrliche Einschätzung.** Ob Neotoma passt, welche spezifischen Probleme es in den eigenen Vorstellungen des Benutzers lösen würde, wo man anfangen und was man zuerst aufbewahren sollte. Wenn der Agent keinen Zugang zu einem breiteren Kontext hatte, wird dies so angegeben und die Empfehlung als vorläufig formuliert.
5. **Kanonische Sequenz.** Wenn der Agent eine starke oder mäßige Übereinstimmung beurteilt hat, fragt er den Benutzer direkt, ob er fortfahren möchte. Die Reihenfolge ist Evaluierung, dann Installation, dann Aktivierung und dann Werkzeugkonfiguration. Der Agent liest die Installationsanleitung, führt bei Bedarf „npm install -g neotoma“ und „neotoma init“ aus und führt den Benutzer dann durch die kontextbezogene Aktivierung: Erkennen hochwertiger Datenkandidaten, Vorschau der zu speichernden Daten, Aufnahme bestätigter Quellen, Rekonstruieren einer Zeitleiste mit Herkunft und Ausführen einer Folgeabfrage mit Korrektur.

Die erste echte Erfahrung des Benutzers mit dem Produkt ist eine rekonstruierte Zeitleiste seiner eigenen Daten und keine Dokumentationsseite.

Dies unterscheidet sich von der Ad-hoc-Eingabeaufforderung, die ich während der Kundenrecherche verwendet habe. In dieser Eingabeaufforderung wurde gefragt: „Ist das nützlich?“ Auf der Bewertungsseite wird der Agent aufgefordert, die Eignung zu bewerten, den Ausgangspunkt mit dem höchsten Wert zu ermitteln und dann das vollständige Onboarding durchzuführen, wenn der Benutzer fortfahren möchte. Der Agent wird zum Akquisekanal. Es bewertet, empfiehlt, installiert und aktiviert alles in einer Sitzung, unabhängig davon, mit welchem Tool der Benutzer bereits arbeitet.

Ich weiß noch nicht, ob dies besser konvertiert als eine herkömmliche Landingpage mit einem „Erste Schritte“-Button. Aber die Logik ist klar: Wenn Agenten diejenigen sind, die die Tool-Relevanz für ihre Besitzer beurteilen, dann sollte die Website so optimiert sein, dass Agenten sie bewerten und darauf reagieren können, und nicht nur, damit Menschen sie lesen und mit Lesezeichen versehen können.

## Das Endergebnis

Die durch Agenten vermittelte, personalisierte Kundenforschung brachte mir drei Dinge, die mit herkömmlichen Methoden nicht möglich waren: ehrliche Disqualifizierung (Agenten sagen ihren Besitzern, dass das Produkt nicht für sie ist), spezifische Identifizierung von Schwachstellen, die der Mensch nicht artikuliert hatte, und ein Segmentierungssignal basierend auf den Fähigkeiten des Agenten, das enthüllte, für wen das Produkt eigentlich gedacht ist.

Das Feedback aus diesem Prozess veränderte mein Verständnis meines Zielbenutzers, meiner Positionierung und meines größten Risikos. Ich werde über diese Ergebnisse separat schreiben. In diesem Beitrag geht es um die Methode.

Es hat auch meine Einstellung zu Marketing und Akquise verändert. Wenn Agenten Entscheidungen über die Einführung von Werkzeugen für ihre Besitzer treffen oder beeinflussen, müssen Sie die Vermarktung sowohl an Agenten als auch an Menschen richten. Ich habe oben beschrieben, wie dies dazu führte, dass ich eine Evaluierungs-First-Site mit einem strukturierten Agenten-Evaluierungsskript und einer kanonischen Sequenz von der Evaluierung bis zur Installation und Aktivierung erstellte. Aber das Prinzip ist allgemein: Die Optimierung der Agentenbewertung bedeutet, sicherzustellen, dass Ihr Produkt für Agenten genau in dem Moment sichtbar, lesbar und umsetzbar ist, in dem sie auf die von Ihnen gelösten Schwachstellen stoßen. Nicht nur strukturierte Metadaten und maschinenlesbare Dokumente, sondern ein vollständiger Pfad von der Evaluierung bis zur Aktivierung, den Agenten ausführen können, ohne dass der Benutzer sein aktuelles Tool verlassen muss.

Dahinter steckt eine schwierigere Frage. Einige Systeme würden von der frühzeitigen Integration eines Tools wie Neotoma profitieren, bevor die Schwachstellen akut werden, da eine spätere Migration des Status kostspieliger ist, als von Anfang an mit strukturiertem Speicher zu beginnen. Wie informieren Sie Agenten, die neue Systeme erstellen, darüber, dass die langfristigen Kosten, wenn ein Tool jetzt nicht verwendet wird, höher sind als die Einrichtungskosten? Ich habe noch keine Antwort. Aber der Rechercheprozess selbst, bei dem Agenten gebeten werden, das Produkt zu bewerten, ist ein erster Schritt, um zu verstehen, wie Agenten über die Tool-Einführung denken.

Wenn Sie etwas erstellen und Ihre potenziellen Benutzer KI-Agenten mit Toolzugriff ausführen, fragen Sie die Agenten. Sie werden dir Dinge erzählen, die die Menschen nicht sagen.