Enviei a um amigo um link para meu produto no final de uma ligação e pedi que seu agente lhe dissesse se seria útil.

Ele estava coçando a cabeça sobre como poderia usá-lo. Seu agente de IA leu o site, analisou seus fluxos de trabalho e produziu uma avaliação de duas páginas com casos de uso específicos, comparações competitivas e preocupações honestas. Identificou um cenário claro em que ele precisaria do produto para seu negócio de agência B2B.

Foi melhor do que qualquer coisa que recebi em semanas de ligações. Também estimulou uma conversa de texto de acompanhamento que foi mais profunda do que a ligação.

Em uma hora, alcancei mais uma dúzia de pessoas. Ao longo de três semanas, 26 no total: fundadores, engenheiros, usuários avançados de IA, pessoas administrando suas próprias pilhas de agentes. Cerca de 18 receberam a mesma solicitação de avaliação do agente. O restante deu feedback por meio de ligações ou mensagens sem envolver um agente.

O produto é [Neotoma](https://neotoma.io), um sistema de memória estruturada para agentes de IA. Eu o uso diariamente para resolver meus próprios problemas: gerenciar contatos, finanças, tarefas, conteúdo e conversas em uma [pilha multiagente](/posts/what-my-agentic-stack-actually-does). Recentemente, [reformulei o site](/posts/neotoma-site-overhaul-developer-feedback) para torná-lo mais legível. Eu precisava saber se mais alguém precisava disso, muito menos se entendia.

Antes disso, passei uma semana criando um [aplicativo de entrevistas](https://github.com/markmhendrickson/interviews) para automatizar avaliações estruturadas, com scripts conectados ao Neotoma para provisionar contatos, enviar convites e sincronizar resultados. Eu não tinha terminado. Mas, de qualquer forma, o método de solicitação do agente tornou-o bastante irrelevante. Sem UI, sem agendamento, sem entrevista estruturada. Apenas um link e uma pergunta.

## A configuração

O prompt de avaliação foi simples. Eu compartilharia algo como: "Um amigo está construindo isso. Você pode me dizer se seria útil ou não?" Em seguida, o link para o site do produto. O agente da pessoa leria o site, consideraria os fluxos de trabalho da pessoa e apresentaria um relatório.

Um thread usou esse formato palavra por palavra – a linha abaixo é copiada literalmente dos metadados da mensagem de saída que armazenei:

> Um amigo está construindo isso e quer saber se seria útil ou não: https://neotoma.io

A mesma mensagem, pessoa diferente. Seu agente mapeou o produto diretamente para os pontos problemáticos da pilha da própria pessoa:

> Isso parece genuinamente útil. Por que isso é importante para o seu caso de uso:
>
> Verificações de pulsação: rastrear “último e-mail verificado” ou “última verificação de calendário” em arquivos JSON funciona, mas é frágil. Neotoma faria essa versão corretamente. Orquestração multiagente: quando você gera subagentes que precisam ser coordenados, eles atualmente não podem compartilhar o estado de maneira confiável.
>
> É útil? Sim - se o seu amigo leva a sério que os agentes de produção fazem um trabalho real ao longo do tempo. Para o seu pipeline de escrita fantasma e coordenação entre sessões, isso pode remover um verdadeiro problema.

A maioria encaminhou a resposta completa do agente em 24 horas por mensagem de texto ou e-mail, muitos deles em uma ou duas horas. Alguns resumiram tudo em uma ligação. Alguns deram feedback apenas humano, sem envolver um agente.

Rastreei tudo no próprio Neotoma. O Neotoma armazena entidades estruturadas (contatos, tarefas, registros de feedback, conversas) com observações versionadas, para que eu possa ver como cada avaliação evolui ao longo do tempo e conectá-la à pessoa que a fez. Cada avaliação tornou-se uma entidade de feedback com o prompt que usei, o agente que respondeu, o texto completo da resposta, qualquer acompanhamento humano, o canal e minha avaliação da intensidade do sinal. No final, eu tinha mais de 45 registros de feedback vinculados a entidades de contato, históricos de conversas e notas de análise.

## O que os agentes fazem de diferente

Três coisas tornaram o feedback mediado por agentes melhor do que as conversas tradicionais de pesquisa com clientes.

### Eles são honestos

Um agente disse a um avaliador: "Isso não é para você. A continuidade que você precisa entre as sessões tem a ver com contexto e voz, não com versão determinística do estado." O avaliador encaminhou a resposta completa sem resistência. Um humano na mesma conversa pode ter dito algo educado e seguido em frente.

Outro agente avaliou o produto favoravelmente, mas sinalizou riscos de segurança de dependência no processo de instalação. Ele recomendou que seu proprietário não instalasse até que esses problemas fossem resolvidos. Desde então, eu os corrigi (devido ao fortalecimento do gerenciamento de dependências), mas o feedback foi honesto, específico e mais útil do que "parece legal, verificarei mais tarde".

Outro agente avaliou o produto de maneira geral favorável, mas concluiu: “O mercado para gerenciamento de estado de agente é pequeno no momento e a maioria das pessoas que constroem agentes ainda não atingiu o ponto problemático. Isso não é um elogio envolto em encorajamento. É uma avaliação de risco realizada sem filtragem social.

Um humano correspondeu a essa franqueza. Ele me disse que o posicionamento parecia "tentar encontrar problemas que sua solução resolve, em vez de problemas que precisam ser corrigidos". Ele é a exceção. A maioria dos humanos não dirá isso na sua cara. Os agentes irão.

### Eles são específicos

Um agente identificou três pontos problemáticos concretos no fluxo de trabalho de seu proprietário que o proprietário nunca havia articulado em uma conversa casual: gravações simultâneas em uma entidade compartilhada, limites de escala em um sistema de contato baseado em descontos e rastreamento de procedência (“o que meu agente sabia sobre essa pessoa no momento em que redigiu aquele e-mail?”).

O feedback do humano em uma ligação foi um “experimento interessante”. O feedback do agente foi "é exatamente aqui que isso acontece para nós e aqui estão três recursos que precisaríamos".

Outro agente produziu uma análise competitiva completa comparando o produto com cinco alternativas e, em seguida, mapeou cada uma delas para lacunas específicas do fluxo de trabalho na configuração do seu proprietário. Isso levou cerca de 30 segundos. Um humano precisaria de uma semana de pesquisa para produzir a mesma comparação e não se preocuparia com o projeto paralelo de um amigo.

A lacuna de especificidade tem a ver, em parte, com o conhecimento. Os agentes têm acesso ao contexto completo do seu proprietário: arquivos, ferramentas, conversas recentes, estrutura do projeto. Mas também se trata de incentivos. Um agente solicitado a avaliar não se preocupa em ser muito crítico ou muito detalhado. Apenas avalia.

### Eles revelam para quem é o produto

Esta foi a descoberta inesperada. Os próprios agentes que usam ferramentas, ou seja, agentes executados em Claude Code ou Cursor com servidores MCP, execução de código e acesso ao sistema de arquivos, avaliaram consistentemente o produto de forma mais favorável do que chatbots somente de pesquisa, como a interface web do ChatGPT ou uma sessão básica do Gemini.

Os agentes do tipo chatbot disseram coisas como “conceito interessante” ou “poderia ser útil para alguns desenvolvedores”. Os agentes usuários da ferramenta disseram coisas como “temos exatamente esse problema” e “aqui estão três fluxos de trabalho onde usaríamos isso hoje”.

O padrão faz sentido. Um agente que gerencia o estado entre sessões, grava em arquivos e coordena com outras ferramentas tem experiência em primeira mão com o problema de memória que o produto resolve. Um chatbot que gera texto em uma janela sem estado, não. O valor do produto é mais legível para os agentes que compartilham o problema de arquitetura que ele aborda.

Isto tem uma implicação de distribuição. Se os agentes usuários de ferramentas avaliarem as ferramentas de desenvolvimento com mais precisão, e se esses agentes tomarem ou influenciarem cada vez mais as decisões de adoção de ferramentas para seus proprietários, então a recomendação de agente para agente se tornará um canal real. Não em abstrato. No sentido específico de que a avaliação positiva do agente avaliador pode levar seu proprietário a instalar, e o uso subsequente da ferramenta por esse agente a torna visível para outros agentes na pilha do proprietário.

## O que eu faria diferente

Algumas coisas que aprendi sobre o método em si:

**Peça ao agente para avaliar "para mim", não em geral.** Algumas avaliações retornaram como análises genéricas de startups: tamanho do mercado, cenário competitivo, viabilidade do modelo de negócios. Útil, mas não o que eu precisava. As melhores avaliações foram aquelas em que o agente avaliou o produto em relação aos fluxos de trabalho específicos do seu proprietário. Quando o prompt disse "isso seria útil para mim?" o agente extraiu dos arquivos, ferramentas e projetos recentes reais da pessoa. Quando a mensagem dizia “avalie este produto”, o agente escreveu um memorando de consultor. A primeira informa se essa pessoa sente dor. A segunda diz o que um MBA pensaria.

**Incentive o humano a deixar o agente ir primeiro.** Quando alguém pediu ao seu agente para avaliar antes de formar sua própria opinião, recebi o sinal mais rico. A avaliação técnica do agente e a reação subsequente do ser humano a ela foram dois dados distintos. A lacuna entre eles é valiosa. Quando um agente diz “você precisa disso”, mas o humano diz “Vou verificar mais tarde”, o risco de ativação é visível antes mesmo de a pessoa instalar. Quando você pergunta primeiro ao humano, ele se ancora em sua reação inicial e a avaliação do agente é filtrada por meio dela.

**Melhore a legibilidade do seu site.** Os agentes avaliam lendo seu site. Se o site for vago, a avaliação será vaga. Percebi no meio do caminho que precisava melhorar a forma como meu site apresenta informações para leitores agentes, não apenas para leitores humanos. Dados estruturados, declarações claras de problemas, casos de uso concretos e documentação legível por máquina tornam a avaliação do agente mais nítida. Esta é uma forma inicial do que algumas pessoas chamam de otimização de avaliação de agentes (AEO). Se os agentes estiverem fazendo recomendações de adoção de ferramentas, seu site precisará ser legível para eles. Levei isso adiante após o término do processo de pesquisa, que descrevo a seguir.

**Rastreie o tipo de agente.** Os agentes com acesso à ferramenta forneceram feedback qualitativamente diferente dos agentes somente de pesquisa. Não acompanhei isso sistematicamente no início e tive que reconstruí-lo mais tarde. Se você executar esse processo, observe se o agente do avaliador tem MCP, execução de código ou acesso ao sistema de arquivos. Ele se correlaciona com a profundidade da avaliação.

**Não otimize demais o prompt de pesquisa.** Meu prompt estava solto. "Um amigo está construindo isso. Seria útil?" Algumas pessoas podem criar estruturas de avaliação elaboradas. Acho que o prompt solto foi melhor para pesquisa. Permitiu que cada agente trouxesse sua própria estrutura analítica, o que revelou como diferentes agentes pensam sobre o mesmo produto. Essa variação foi informativa. Quando o objetivo muda da pesquisa para a conversão, a estrutura é mais importante. É por isso que a página de avaliação que descrevo abaixo usa um script detalhado de cinco etapas, em vez do prompt solto que usei com amigos.

## Quando este método funciona

Essa abordagem funciona melhor quando seu produto é técnico, seus avaliadores são usuários avançados de IA e os agentes têm contexto suficiente sobre os fluxos de trabalho de seus proprietários para fornecer avaliações específicas.

Funciona menos bem para produtos de consumo, para avaliadores que não utilizam agentes de IA regularmente ou para produtos cujo valor é estético ou emocional em vez de funcional. Um agente pode dizer se um sistema de memória resolve um problema de fluxo de trabalho. Não pode dizer se uma marca parece confiável.

Também funciona melhor quando você tem uma rede robusta para utilizar. Entrei em contato com 26 pessoas que conhecia pessoalmente ou com quem tinha uma conexão. O contato frio com estranhos, pedindo-lhes que fizessem uma avaliação de agente, provavelmente falharia. A confiança social que leva alguém a encaminhar a resposta de um agente é a mesma confiança que faz a pesquisa de clientes humanos funcionar. Os agentes apenas fornecem dados melhores quando existe confiança. O processo de pesquisa também mudou a forma como penso sobre o fluxo de aquisição do site. Descrevo na próxima seção como incorporei a avaliação diretamente no produto.

Vinte dos 26 deram feedback substancial. Três estão pendentes. A taxa de acerto foi maior do que qualquer pesquisa ou processo de entrevista que já realizei. Parte disso é a rede. Parte disso é que pedir ao agente de alguém para avaliar algo é menos exigente do que agendar uma ligação de 30 minutos. A pessoa apenas encaminha a resposta. Demora dois minutos.

## Do prompt ao produto

O processo de pesquisa mudou a forma como construo o próprio site. A sugestão solta que eu estava compartilhando com os amigos funcionou, mas dependia do agente improvisar uma estrutura de avaliação. Alguns agentes realizaram avaliações rigorosas. Outros escreveram memorandos para consultores. A variação foi informativa para a pesquisa do cliente, mas não é o que você deseja quando o objetivo muda para converter alguém que chega frio ao seu site.

![A página Neotoma /avaliar](/images/posts/neotoma-evaluate-page-screenshot.png)

Então incluí a avaliação no fluxo de aquisição do produto. A [página inicial do Neotoma](https://neotoma.io) agora apresenta "Peça ao seu agente para avaliar" como a principal frase de chamariz, e não "Instalar" ou "Começar". Ele aponta para uma página dedicada [/evaluate](https://neotoma.io/evaluate) projetada para ser lida por agentes, não apenas por humanos. A página contém um script de avaliação estruturado em cinco etapas que qualquer agente pode seguir, independentemente da ferramenta em que o usuário inicia.

O script melhora o prompt compartilhado por amigos de maneiras específicas:

1. **Varredura de contexto.** Antes de dizer qualquer coisa, o agente verifica as ferramentas instaladas do usuário, as configurações do MCP, os scripts de automação, os diretórios do projeto e os sistemas de memória existentes. Isso fundamenta a avaliação no fluxo de trabalho real da pessoa, em vez de em uma única janela de bate-papo.
2. **Uma pergunta direcionada.** Com base no que ainda não sabe, o agente pergunta sobre os padrões de sessão do usuário ou restrições de ferramenta.
3. **Breve acompanhamento.** Mais uma ou duas perguntas para preencher as lacunas restantes.
4. **Avaliação honesta.** Se o Neotoma se adapta, quais problemas específicos ele resolveria nos próprios termos do usuário, por onde começar e o que armazenar primeiro. Se o agente não teve acesso a um contexto mais amplo, ele diz isso e enquadra a recomendação como provisória.
5. **Sequência canônica.** Se o agente avaliou um ajuste forte ou moderado, ele pergunta diretamente ao usuário se ele deseja prosseguir. A sequência é avaliação, instalação, ativação e configuração de ferramentas. O agente lê o guia de instalação, executa `npm install -g neotoma` e `neotoma init` se necessário, e então conduz o usuário pela ativação contextual: descobrindo candidatos a dados de alto valor, visualizando o que armazenar, ingerindo fontes confirmadas, reconstruindo uma linha do tempo com proveniência e executando uma consulta de acompanhamento com correção.

A primeira experiência real do usuário com o produto é uma linha do tempo reconstruída de seus próprios dados, não uma página de documentação.

Isso é diferente do prompt ad hoc que usei durante a pesquisa do cliente. Esse prompt perguntou "isso é útil?" A página de avaliação pede ao agente que avalie a adequação, identifique o ponto de partida de maior valor e, em seguida, execute a integração completa se o usuário desejar prosseguir. O agente se torna o canal de aquisição. Ele avalia, recomenda, instala e ativa, tudo em uma única sessão, em qualquer ferramenta em que o usuário já esteja trabalhando.

Ainda não sei se isso converte melhor do que uma landing page tradicional com um botão “Começar”. Mas a lógica é simples: se são os agentes que avaliam a relevância da ferramenta para os seus proprietários, então o site deve ser otimizado para que os agentes avaliem e ajam, e não apenas para que os humanos leiam e marquem.

## O resultado final

A pesquisa personalizada de clientes mediada por agentes me deu três coisas que os métodos tradicionais não ofereceram: desqualificação honesta (agentes dizendo a seus proprietários que o produto não é para eles), identificação específica de pontos problemáticos que o humano não havia articulado e um sinal de segmentação baseado na capacidade do agente que revelou para quem o produto realmente se destina.

O feedback desse processo mudou minha compreensão do meu usuário-alvo, meu posicionamento e meu maior risco. Escreverei sobre essas descobertas separadamente. Este post é sobre o método.

Também mudou a forma como penso sobre marketing e aquisição. Se os agentes estão tomando ou influenciando decisões de adoção de ferramentas para seus proprietários, então você precisa comercializar tanto para os agentes quanto para os humanos. Descrevi acima como isso me levou a construir um site de avaliação inicial com um script estruturado de avaliação de agente e uma sequência canônica desde a avaliação até a instalação e ativação. Mas o princípio é geral: a otimização da avaliação do agente significa garantir que seu produto seja visível, legível e acionável para os agentes no exato momento em que eles encontrarem os problemas que você resolve. Não apenas metadados estruturados e documentos legíveis por máquina, mas um caminho completo da avaliação até a ativação que os agentes podem executar sem que o usuário saia da ferramenta atual.

Há uma questão mais difícil por trás desta. Alguns sistemas se beneficiariam com a incorporação precoce de uma ferramenta como o Neotoma, antes que os pontos problemáticos se tornassem agudos, porque migrar o estado posteriormente é mais caro do que começar com o armazenamento estruturado desde o início. Como informar aos agentes que estão construindo novos sistemas que o custo a longo prazo de não usar uma ferramenta agora é maior do que o custo de configuração? Ainda não tenho uma resposta. Mas o próprio processo de investigação, pedindo aos agentes que avaliem o produto, é um primeiro passo para compreender como os agentes raciocinam sobre a adopção da ferramenta.

Se você estiver construindo algo e seus usuários em potencial executam agentes de IA com acesso a ferramentas, pergunte aos agentes. Eles lhe dirão coisas que os humanos não dirão.