我在通话结束时向朋友发送了我的产品链接，并要求他让他的经纪人告诉他这是否有帮助。

他一直在绞尽脑汁地思考如何使用它。他的人工智能代理阅读了该网站，分析了他的工作流程，并制作了一份两页的评估报告，其中包含具体的用例、竞争比较和诚实的担忧。它确定了一个明确的场景，即他需要该产品来开展 B2B 代理业务。

这比我几周来接到的任何电话都要好。这也引发了后续的短信对话，比通话的内容更深入。

一个小时之内，我又联系了十几个人。在三周内，总共 26 人：创始人、工程师、AI 高级用户、运行自己的代理堆栈的人员。大约 18 人收到了相同的代理评估提示。其余的人通过电话或消息提供反馈，无需代理参与。

该产品是[Neotoma](https://neotoma.io)，一个用于人工智能代理的结构化记忆系统。我每天都用它来解决我自己的痛苦：跨[多代理堆栈](/posts/what-my-agentic-stack-actually-does)管理联系人、财务、任务、内容和对话。我最近[彻底修改了该网站](/posts/neotoma-site-overhaul-developer-feedback)以使其更加清晰。我需要知道其他人是否需要它，更不用说理解它了。

在此之前，我花了一周时间构建一个[面试应用程序](https://github.com/markmhendrickson/interviews)来自动化结构化评估，并使用与 Neotoma 连接的脚本来配置联系人、发送邀请和同步结果。我还没做完。但无论如何，代理提示方法使其基本上变得无关紧要。没有用户界面，没有日程安排，没有结构化面试。只是一个链接和一个问题。

## 设置

评估提示很简单。我会分享这样的话：“一个朋友正在构建这个。你能告诉我它是否有帮助吗？”然后是产品网站的链接。该人的代理将阅读该网站，考虑该人的工作流程，然后进行报告。

大多数人在 24 小时内通过短信或电子邮件转发了代理的完整回复，许多人在一两个小时内转发了代理的完整回复。一些人通过电话进行了总结。一些人只提供了人工反馈，而无需代理参与。

我追踪了 Neotoma 本身的一切。 Neotoma 存储带有版本化观察的结构化实体（联系人、任务、反馈记录、对话），因此我可以看到每个评估如何随着时间的推移而演变，并将其与给出评估的人联系起来。每个评估都成为一个反馈实体，其中包含我使用的提示、响应的代理、响应的全文、任何人工跟进、渠道以及我对信号强度的评估。到最后，我有超过 45 条与联系人实体、对话历史记录和分析笔记相关联的反馈记录。

## 代理的做法有何不同

三个因素使得代理介导的反馈比传统的客户研究对话更好。

### 他们很诚实

一位代理告诉一位评估人员：“这不适合你。会话之间所需的连续性是上下文和语音，而不是确定性的状态版本控制。”评估员转发了完整的回复，没有提出异议。同一对话中的人可能说了一些礼貌的话然后继续前进。

另一位代理对该产品进行了积极评价，但在安装过程中标记了依赖性安全风险。它建议其所有者在这些问题得到解决之前不要安装。我已经修补了这些（它们是由于依赖管理强化），但反馈是诚实的、具体的，并且比“看起来很酷，我稍后会检查一下”更有用。

另一位代理对该产品总体评价良好，但得出的结论是：“目前代理状态管理的市场很小，大多数构建代理的人还没有遇到痛点。他们会在被无声覆盖或丢失上下文所困扰后才会使用它，而不是之前。”这并不是一种包含着鼓励的赞美。这是一种没有社会过滤的风险评估。

有一个人确实符合这种直接性。他告诉我，这种定位感觉就像“试图找到你的解决方案解决的问题，而不是需要解决的问题”。他是个例外。大多数人不会当着你的面这么说。代理商会的。

### 它们是具体的

一位代理发现了其所有者工作流程中的三个具体痛点，而所有者从未在随意谈话中阐明过这些痛点：对共享实体的并发写入、基于 Markdown 的联系系统的规模限制以及来源追踪（“我的代理在起草该电子邮件时对这个人了解多少？”）。

人类对通话的反馈是“有趣的实验”。代理的反馈是“这正是我们遇到的问题，这是我们需要的三项功能。”

另一位代理进行了全面的竞争分析，将该产品与五个替代品进行比较，然后将每个替代品映射到其所有者设置中的特定工作流程差距。这花了大约 30 秒。人类需要一周的研究才能进行相同的比较，并且不会为朋友的业余项目而烦恼。

特异性差距部分与知识有关。代理可以访问其所有者的完整上下文：文件、工具、最近的对话、项目结构。但这也与激励措施有关。被要求进行评估的代理人不必担心过于挑剔或过于详细。它只是评估。

### 他们揭示了产品的用途

这是意外的发现。本身使用工具的代理，即在带有 MCP 服务器、代码执行和文件系统访问的 Claude Code 或 Cursor 中运行的代理，始终比 ChatGPT 的 Web 界面或基本 Gemini 会话等仅搜索聊天机器人更有利地评估该产品。

聊天机器人式的代理表示诸如“有趣的概念”或“可能对某些开发人员有用”之类的内容。使用工具的代理会说“我们遇到了这个确切的问题”和“这是我们今天使用的三个工作流程”。

这个模式是有道理的。跨会话管理状态、写入文件以及与其他工具协调的代理拥有产品解决的内存问题的第一手经验。在无状态窗口中生成文本的聊天机器人则不会。产品的价值对于共享其所解决的架构问题的代理来说是最容易理解的。

这具有分布含义。如果使用工具的代理能够更准确地评估开发人员工具，并且如果这些代理越来越多地为其所有者制定或影响工具采用决策，那么代理到代理的推荐就会成为真正的渠道。不是抽象的。在特定意义上，评估者代理的积极评估可能会导致其所有者进行安装，并且该代理对该工具的后续使用使其对所有者堆栈中的其他代理可见。

## 我会采取什么不同的做法

我学到了一些关于该方法本身的知识。

**要求代理人“为我”进行评估，而不是笼统地评估。**一些评估作为一般的初创公司分析返回：市场规模、竞争格局、商业模式可行性。有用，但不是我需要的。最好的评估是代理商根据其所有者的特定工作流程评估产品的评估。当提示说“这对我有帮助吗？”时代理从该人的实际文件、工具和最近的项目中提取数据。当提示说“评估该产品”时，代理人写了一份顾问备忘录。第一个告诉你这个人是否有痛苦。第二个告诉你 MBA 会怎么想。

**鼓励人们先让代理人走。**当有人要求他们的代理人在形成自己的意见之前进行评估时，我得到了最丰富的信号。智能体的技术评估和人类随后对此的反应是两个不同的数据点。他们之间的差距是宝贵的。当代理说“你需要这个”但人说“我稍后再查看”时，激活风险在该人安装之前就已经可见。当你首先询问人类时，他们会根据他们的最初反应进行判断，然后代理的评估就会通过它进行过滤。

**提高您网站的代理易读性。**代理通过阅读您的网站进行评估。如果网站模糊，那么评价也模糊。我中途意识到，我需要改进我的网站向代理读者（而不仅仅是人类读者）呈现信息的方式。结构化数据、清晰的问题陈述、具体的用例和机器可读的文档都使代理的评估更加清晰。这是一些人所说的代理评估优化 (AEO) 的早期形式。如果代理正在提出工具采用建议，您的网站需要对他们来说清晰可见。研究过程结束后，我进一步采取了这一点，我将在下面对此进行描述。

**跟踪座席类型。** 具有工具访问权限的座席提供的反馈与仅搜索座席在质量上有所不同。我一开始并没有系统地跟踪它，后来不得不重新构建它。如果运行此过程，请注意评估者的代理是否具有 MCP、代码执行或文件系统访问权限。它与评估深度相关。

**不要过度优化研究提示。**我的提示很松散。 “一个朋友正在建造这个。有帮助吗？”有些人可能会精心设计评估框架。我认为宽松的提示更有利于研究。它让每个代理都有自己的分析结构，这揭示了不同代理如何看待同一产品。这种变化提供了丰富的信息。当目标从研究转向转化时，结构就更加重要。这就是为什么我下面描述的评估页面使用详细的五步脚本，而不是我与朋友一起使用的松散提示。

## 当这个方法起作用时

当你的产品是技术性的，你的评估者是人工智能高级用户，并且代理有足够的关于其所有者的工作流程的背景来提供具体的评估时，这种方法效果最好。

对于消费品、不经常使用人工智能代理的评估者，或者价值是审美或情感而非功能的产品来说，它的效果不太好。代理可以告诉您内存系统是否解决了工作流程问题。它无法告诉您一个品牌是否值得信赖。

当您拥有强大的网络可供借鉴时，它也能发挥最佳作用。我联系了 26 名我认识或有联系的人。冷淡地联系陌生人并要求他们进行代理评估可能会失败。促使某人转发代理回复的社会信任与使人类客户研究发挥作用的信任相同。一旦信任存在，代理就会为您提供更好的数据。研究过程也改变了我对网站获取流程的看法。我将在下一节中描述如何将评估直接构建到产品中。

26 人中的 20 人给出了实质性反馈。三个待定。命中率比我之前进行的任何调查或采访过程都要高。其中一部分是网络。部分原因是要求某人的代理人评估某件事比安排 30 分钟的通话要低。该人只是转发响应。需要两分钟。

## 从提示到产品

研究过程改变了我构建网站本身的方式。我与朋友分享的宽松提示有效，但这取决于代理即兴设计的评估结构。一些代理人进行了严格的评估。其他人则写了顾问备忘录。这种变化对于客户研究来说是有用的，但当目标转向转变那些冷冰冰地来到你网站的人时，这并不是你想要的。

![Neotoma /评估页面](/images/posts/neotoma-evaluate-page-screenshot.png)

因此，我将评估纳入产品的获取流程中。 [Neotoma 主页](https://neotoma.io) 现在以“请您的代理评估”作为主要号召性用语，而不是“安装”或“开始”。它指向一个专门的[/evaluate](https://neotoma.io/evaluate)页面，旨在由代理（而不仅仅是人类）阅读。该页面包含一个结构化的五步评估脚本，任何代理都可以遵循该脚本，无论用户使用哪个工具启动。

该脚本以特定方式改进了好友共享提示：

1. **上下文扫描。** 在进行任何操作之前，代理会检查用户安装的工具、MCP 配置、自动化脚本、项目目录和现有内存系统。这使得评估基于人的真实工作流程而不是单个聊天窗口。
2. **一个有针对性的问题。** 根据其尚不知道的信息，代理询问用户的会话模式或工具限制。
3. **简短的后续行动。** 再提出一两个问题来填补剩余的空白。
4. **诚实的评估。** Neotoma是否适合，从用户自己的角度来说它会解决什么具体问题，从哪里开始，首先存储什么。如果代理无法获得更广泛的背景信息，它就会这么说并将建议定为临时建议。
5. **规范序列。** 如果代理评估出强烈或中等适合度，它会直接询问用户是否愿意继续。顺序是评估、安装、激活、工具配置。代理读取安装指南，运行“npm install -g neotoma”和“neotoma init”（如果需要），然后引导用户完成上下文激活：发现高价值候选数据、预览要存储的内容、摄取已确认的源、重建具有出处的时间线，以及运行经过更正的后续查询。

用户对产品的第一次真实体验是他们自己的数据重建的时间线，而不是文档页面。

这与我在客户研究期间使用的临时提示不同。该提示询问“这有用吗？”评估页面要求代理评估适合度，确定最高价值的起点，然后在用户想要继续时执行完整的引导。代理商成为收购渠道。它可以在一个会话中使用用户已经使用的任何工具进行评估、推荐、安装和激活。

我还不知道这是否比带有“开始”按钮的传统登陆页面转换得更好。但逻辑很简单：如果代理是评估工具与其所有者的相关性的人，那么应该优化网站以供代理评估和采取行动，而不仅仅是供人类阅读和添加书签。

## 底线

以代理为中介的个性化客户研究为我提供了传统方法所没有的三样东西：诚实的取消资格（代理告诉其所有者该产品不适合他们）、对人类未明确表达的痛点进行具体识别，以及基于代理能力的细分信号，揭示产品的实际用途。

这个过程的反馈改变了我对目标用户、我的定位和我最大风险的理解。我将单独写下这些发现。这篇文章是关于方法的。

它也改变了我对营销和收购的看法。如果代理正在为其所有者制定或影响工具采用决策，那么您需要向代理进行营销，就像向人类进行营销一样。我在上面描述了这如何引导我构建一个评估优先的站点，其中包含结构化代理评估脚本以及从评估到安装和激活的规范序列。但原则是通用的：座席评估优化意味着确保您的产品在座席遇到您解决的痛点时对他们来说是可见的、易读的且可操作的。不仅仅是结构化元数据和机器可读文档，还有代理可以在用户不离开当前工具的情况下执行的完整评估到激活路径。

这背后还有一个更难的问题。在痛点变得严重之前，一些系统会受益于尽早合并像 Neotoma 这样的工具，因为稍后迁移状态比从一开始就开始结构化存储的成本更高。您如何告知构建新系统的代理，现在不使用工具的长期成本高于设置成本？我还没有答案。但要求代理人评估产品的研究过程本身是了解代理人如何推理工具采用的第一步。

如果您正在构建某些东西，并且您的潜在用户运行具有工具访问权限的 AI 代理，请询问代理。他们会告诉你人类不会告诉你的事情。