Le envié a un amigo un enlace a mi producto al final de una llamada y le pedí que su agente le dijera si sería útil.

Había estado rascándose la cabeza sobre cómo podría usarlo. Su agente de IA leyó el sitio, analizó sus flujos de trabajo y produjo una evaluación de dos páginas con casos de uso específicos, comparaciones competitivas e inquietudes honestas. Identificó un escenario claro en el que necesitaría el producto para su negocio de agencia B2B.

Fue mejor que cualquier cosa que haya recibido en semanas de llamadas. También impulsó una conversación de texto de seguimiento que fue más profunda que la llamada.

En una hora me comuniqué con una docena de personas más. Durante tres semanas, 26 en total: fundadores, ingenieros, usuarios avanzados de IA, personas que ejecutan sus propias pilas de agentes. Alrededor de 18 recibieron el mismo mensaje de evaluación agente. El resto brindó retroalimentación a través de llamadas o mensajes sin involucrar a un agente.

El producto es [Neotoma](https://neotoma.io), un sistema de memoria estructurada para agentes de IA. Lo uso a diario para resolver mis propios problemas: administrar contactos, finanzas, tareas, contenido y conversaciones en una [pila de múltiples agentes](/posts/what-my-agentic-stack-actually-does). Recientemente [revisé el sitio](/posts/neotoma-site-overhaul-developer-feedback) para hacerlo más legible. Necesitaba saber si alguien más lo necesitaba, y mucho menos lo entendía.

Antes de esto, pasé una semana creando una [aplicación de entrevistas](https://github.com/markmhendrickson/interviews) para automatizar evaluaciones estructuradas, con scripts conectados a Neotoma para aprovisionar contactos, enviar invitaciones y sincronizar resultados. No lo había terminado. Pero el método del agente-prompt lo hizo en gran medida irrelevante de todos modos. Sin interfaz de usuario, sin programación, sin entrevista estructurada. Sólo un enlace y una pregunta.

## La configuración

El mensaje de evaluación fue simple. Compartiría algo como: "Un amigo está creando esto. ¿Puedes decirme si sería útil o no?". Luego el enlace al sitio web del producto. El agente de la persona leería el sitio, consideraría los flujos de trabajo de la persona e informaría.

La mayoría envió la respuesta completa del agente dentro de las 24 horas mediante mensaje de texto o correo electrónico, muchos de ellos en una o dos horas. Algunos lo resumieron durante una llamada. Algunos dieron retroalimentación únicamente humana sin involucrar a un agente.

Seguí todo en Neotoma. Neotoma almacena entidades estructuradas (contactos, tareas, registros de comentarios, conversaciones) con observaciones versionadas, para poder ver cómo evoluciona cada evaluación con el tiempo y conectarla con la persona que la realizó. Cada evaluación se convirtió en una entidad de retroalimentación con el mensaje que utilicé, el agente que respondió, el texto completo de la respuesta, cualquier seguimiento humano, el canal y mi evaluación de la intensidad de la señal. Al final, tenía más de 45 registros de comentarios vinculados a entidades de contacto, historiales de conversaciones y notas de análisis.

## Qué hacen los agentes de manera diferente

Tres cosas hicieron que la retroalimentación mediada por agentes fuera mejor que las conversaciones tradicionales de investigación de clientes.

### Son honestos

Un agente le dijo a un evaluador: "Esto no es para usted. La continuidad que necesita entre sesiones tiene que ver con el contexto y la voz, no con versiones de estado deterministas". El evaluador envió la respuesta completa sin rechazo. Es posible que un humano en la misma conversación haya dicho algo cortés y haya seguido adelante.

Otro agente evaluó favorablemente el producto, pero señaló riesgos de seguridad de dependencia en el proceso de instalación. Recomendó a su propietario que no lo instalara hasta que se solucionaran esos problemas. Desde entonces, los parcheé (se debieron al endurecimiento de la gestión de dependencias), pero los comentarios fueron honestos, específicos y más útiles que "se ve bien, lo comprobaré más tarde".

Otro agente evaluó favorablemente el producto en general, pero concluyó: "El mercado para la gestión del estado de los agentes es pequeño en este momento y la mayoría de las personas que crean agentes aún no han llegado al punto débil. Lo alcanzarán después de que los quemen las sobrescrituras silenciosas o la pérdida de contexto, no antes". Eso no es un cumplido envuelto en aliento. Es una evaluación de riesgos realizada sin filtrado social.

Un humano coincidió con esa franqueza. Me dijo que el posicionamiento se sentía como "tratar de encontrar problemas que su solución solucione, en lugar de problemas que deben solucionarse". Él es la excepción. La mayoría de los humanos no te dirán eso a la cara. Los agentes lo harán.

### Son específicos

Un agente identificó tres puntos débiles concretos en el flujo de trabajo de su propietario que este nunca había articulado en una conversación informal: escrituras simultáneas a una entidad compartida, límites de escala en un sistema de contacto basado en rebajas y seguimiento de procedencia ("¿qué sabía mi agente sobre esta persona en el momento en que redactó ese correo electrónico?").

La respuesta del humano a una llamada había sido un "experimento interesante". La respuesta del agente fue "aquí es exactamente donde esto se rompe para nosotros, y aquí hay tres capacidades que necesitaríamos".

Otro agente realizó un análisis competitivo completo comparando el producto con cinco alternativas y luego asignó cada una a brechas de flujo de trabajo específicas en la configuración de su propietario. Esto tomó unos 30 segundos. Un humano necesitaría una semana de investigación para producir la misma comparación y no se molestaría en el proyecto paralelo de un amigo.

La brecha de especificidad tiene que ver en parte con el conocimiento. Los agentes tienen acceso al contexto completo de su propietario: archivos, herramientas, conversaciones recientes, estructura del proyecto. Pero también se trata de incentivos. Un agente al que se le pide que evalúe no se preocupa por ser demasiado crítico o demasiado detallado. Simplemente evalúa.

### Revelan para quién es el producto

Este fue el hallazgo inesperado. Los agentes que utilizan herramientas, es decir, agentes que se ejecutan en Claude Code o Cursor con servidores MCP, ejecución de código y acceso al sistema de archivos, evaluaron consistentemente el producto de manera más favorable que los chatbots de solo búsqueda como la interfaz web de ChatGPT o una sesión básica de Gemini.

Los agentes estilo chatbot dijeron cosas como "concepto interesante" o "podría ser útil para algunos desarrolladores". Los agentes que usaban la herramienta dijeron cosas como "tenemos exactamente este problema" y "aquí hay tres flujos de trabajo en los que usaríamos esto hoy".

El patrón tiene sentido. Un agente que gestiona el estado entre sesiones, escribe en archivos y coordina con otras herramientas tiene experiencia de primera mano con el problema de memoria que resuelve el producto. Un chatbot que genera texto en una ventana sin estado no lo hace. El valor del producto es más legible para los agentes que comparten el problema de arquitectura que aborda.

Esto tiene una implicación distributiva. Si los agentes que utilizan herramientas evalúan las herramientas de los desarrolladores con mayor precisión, y si esos agentes toman o influyen cada vez más en las decisiones de adopción de herramientas para sus propietarios, entonces la recomendación de agente a agente se convierte en un canal real. No en abstracto. En el sentido específico de que la evaluación positiva del agente evaluador puede llevar a su propietario a instalar, y el uso posterior de la herramienta por parte de ese agente la hace visible para otros agentes en la pila del propietario.

## Lo que haría diferente

Algunas cosas que aprendí sobre el método en sí.

**Pídale al agente que evalúe "por mí", no en general.** Algunas evaluaciones resultaron como análisis genéricos de inicio: tamaño del mercado, panorama competitivo, viabilidad del modelo de negocio. Útil, pero no lo que necesitaba. Las mejores evaluaciones fueron aquellas en las que el agente comparó el producto con los flujos de trabajo específicos de su propietario. Cuando el mensaje decía "¿sería útil para mí?" el agente extrajo de los archivos, herramientas y proyectos recientes reales de la persona. Cuando el mensaje decía "evalúe este producto", el agente escribió un memorando de consultor. El primero te dice si esta persona tiene dolor. El segundo te dice lo que pensaría un MBA.

**Anima al humano a dejar ir primero al agente.** Cuando alguien le pidió a su agente que evaluara antes de formarse su propia opinión, obtuve la señal más rica. La evaluación técnica del agente y la posterior reacción del humano fueron dos puntos de datos distintos. La brecha entre ellos es valiosa. Cuando un agente dice "necesitas esto", pero el humano dice "lo comprobaré más tarde", el riesgo de activación es visible incluso antes de que la persona realice la instalación. Cuando le preguntas al humano primero, se fija en su reacción inicial y la evaluación del agente se filtra a través de ella.

**Mejore su sitio para que los agentes sean legibles.** Los agentes evalúan leyendo su sitio. Si el sitio es vago, la evaluación es vaga. A mitad de camino me di cuenta de que necesitaba mejorar la forma en que mi sitio presenta la información para los lectores agentes, no solo para los humanos. Los datos estructurados, los planteamientos claros de los problemas, los casos de uso concretos y la documentación legible por máquina hacen que la evaluación del agente sea más precisa. Esta es una forma temprana de lo que algunas personas llaman optimización de la evaluación del agente (AEO). Si los agentes hacen recomendaciones para la adopción de herramientas, su sitio debe ser legible para ellos. Llevé esto más lejos después de que finalizó el proceso de investigación, que describo a continuación.

**Seguimiento del tipo de agente.** Los agentes con acceso a herramientas dieron comentarios cualitativamente diferentes a los agentes que solo realizan búsquedas. Al principio no seguí esto sistemáticamente y tuve que reconstruirlo más tarde. Si ejecuta este proceso, observe si el agente del evaluador tiene MCP, ejecución de código o acceso al sistema de archivos. Se correlaciona con la profundidad de la evaluación.

**No optimice demasiado el mensaje para la investigación.** Mi mensaje era flojo. "Un amigo está construyendo esto. ¿Sería útil?" Algunas personas podrían elaborar marcos de evaluación elaborados. Creo que el mensaje suelto fue mejor para la investigación. Permitió que cada agente aportara su propia estructura analítica, lo que reveló cómo piensan diferentes agentes sobre el mismo producto. Esa variación fue informativa. Cuando el objetivo pasa de la investigación a la conversión, la estructura importa más. Es por eso que la página de evaluación que describo a continuación utiliza un guión detallado de cinco pasos en lugar del sencillo mensaje que usaba con mis amigos.

## Cuándo funciona este método

Este enfoque funciona mejor cuando su producto es técnico, sus evaluadores son usuarios avanzados de IA y los agentes tienen suficiente contexto sobre los flujos de trabajo de sus propietarios para realizar evaluaciones específicas.

Funciona menos bien para productos de consumo, para evaluadores que no utilizan agentes de IA con regularidad o para productos cuyo valor es estético o emocional en lugar de funcional. Un agente puede decirle si un sistema de memoria resuelve un problema de flujo de trabajo. No puede decirte si una marca se siente digna de confianza.

También funciona mejor cuando tienes una red sólida a la que recurrir. Me comuniqué con 26 personas que conocía personalmente o con las que tenía una conexión. El contacto en frío con extraños para pedirles que realicen una evaluación de agente probablemente fracasaría. La confianza social que hace que alguien envíe la respuesta de un agente es la misma confianza que hace que la investigación de clientes humanos funcione. Los agentes simplemente le brindan mejores datos una vez que existe esa confianza. El proceso de investigación también cambió mi forma de pensar sobre el flujo de adquisición del sitio. En la siguiente sección describo cómo incorporé la evaluación directamente al producto.

Veinte de los 26 dieron comentarios sustanciales. Tres están pendientes. La tasa de aciertos fue más alta que cualquier proceso de encuesta o entrevista que haya realizado antes. Parte de eso es la red. Parte de esto es que pedirle al agente de alguien que evalúe algo es una petición más baja que programar una llamada de 30 minutos. La persona simplemente envía la respuesta. Tarda dos minutos.

## Del mensaje al producto

El proceso de investigación cambió la forma en que construyo el sitio. El mensaje flexible que había estado compartiendo con mis amigos funcionó, pero dependía de que el agente improvisara una estructura de evaluación. Algunos agentes realizaron evaluaciones rigurosas. Otros escribieron memorandos de consultores. La variación fue informativa para la investigación de clientes, pero no es lo que desea cuando el objetivo cambia a convertir a alguien que llega a su sitio en frío.

![La página Neotoma /evaluate](/images/posts/neotoma-evaluate-page-screenshot.png)

Así que incorporé la evaluación al flujo de adquisición del producto. La [página de inicio de Neotoma](https://neotoma.io) ahora incluye "Pídale a su agente que evalúe" como llamado a la acción principal, no "Instalar" o "Comenzar". Apunta a una página dedicada [/evaluate](https://neotoma.io/evaluate) diseñada para ser leída por agentes, no solo por humanos. La página contiene un guión de evaluación estructurado de cinco pasos que cualquier agente puede seguir, independientemente de la herramienta con la que comience el usuario.

El script mejora el mensaje compartido con amigos de maneras específicas:

1. **Barrido de contexto.** Antes de decir algo, el agente verifica las herramientas instaladas por el usuario, las configuraciones de MCP, los scripts de automatización, los directorios de proyectos y los sistemas de memoria existentes. Esto basa la evaluación en el flujo de trabajo real de la persona en lugar de en una única ventana de chat.
2. **Una pregunta específica.** Según lo que aún no sabe, el agente pregunta sobre los patrones de sesión del usuario o las limitaciones de las herramientas.
3. **Breve seguimiento.** Una o dos preguntas más para llenar los vacíos restantes.
4. **Evaluación honesta.** Si Neotoma encaja, qué problemas específicos resolvería en los propios términos del usuario, por dónde empezar y qué almacenar primero. Si el agente no tuvo acceso a un contexto más amplio, lo dice y formula la recomendación como provisional.
5. **Secuencia canónica.** Si el agente evaluó un ajuste fuerte o moderado, le pregunta directamente al usuario si desea continuar. La secuencia es evaluación, luego instalación, luego activación y luego configuración de herramientas. El agente lee la guía de instalación, ejecuta `npm install -g neotoma` y `neotoma init` si es necesario, luego guía al usuario a través de la activación contextual: descubre candidatos de datos de alto valor, obtiene una vista previa de qué almacenar, ingiere fuentes confirmadas, reconstruye una línea de tiempo con procedencia y ejecuta una consulta de seguimiento con corrección.

La primera experiencia real del producto por parte del usuario es una línea de tiempo reconstruida a partir de sus propios datos, no una página de documentación.

Esto es diferente del mensaje ad hoc que utilicé durante la investigación de clientes. Ese mensaje preguntaba "¿es útil?" La página de evaluación le pide al agente que evalúe la idoneidad, identifique el punto de partida de mayor valor y luego ejecute la incorporación completa si el usuario desea continuar. El agente se convierte en el canal de adquisición. Evalúa, recomienda, instala y activa, todo en una sola sesión, en cualquier herramienta en la que el usuario ya esté trabajando.

Todavía no sé si esto genera mejores conversiones que una página de destino tradicional con un botón "Comenzar". Pero la lógica es sencilla: si los agentes son los que evalúan la relevancia de las herramientas para sus propietarios, entonces el sitio debe optimizarse para que los agentes lo evalúen y actúen, no solo para que los humanos lo lean y lo marquen como favorito.

## El resultado final

La investigación personalizada de clientes mediada por agentes me dio tres cosas que los métodos tradicionales no ofrecían: descalificación honesta (agentes que les dicen a sus propietarios que el producto no es para ellos), identificación específica de puntos débiles que el humano no había articulado y una señal de segmentación basada en la capacidad del agente que revelaba para quién es realmente el producto.

Los comentarios de este proceso cambiaron mi comprensión de mi usuario objetivo, mi posicionamiento y mi mayor riesgo. Escribiré sobre esos hallazgos por separado. Esta publicación trata sobre el método.

También cambió mi forma de pensar sobre el marketing y la adquisición. Si los agentes toman o influyen en las decisiones de adopción de herramientas para sus propietarios, entonces es necesario comercializar tanto para los agentes como para los humanos. Describí anteriormente cómo esto me llevó a crear un sitio de evaluación primero con un script de evaluación de agente estructurado y una secuencia canónica desde la evaluación hasta la instalación y activación. Pero el principio es general: la optimización de la evaluación de los agentes significa garantizar que su producto sea visible, legible y procesable para los agentes en el momento exacto en que encuentran los puntos débiles que usted resuelve. No solo metadatos estructurados y documentos legibles por máquina, sino una ruta completa desde la evaluación hasta la activación que los agentes pueden ejecutar sin que el usuario abandone su herramienta actual.

Hay una pregunta más difícil detrás de ésta. Algunos sistemas se beneficiarían de la incorporación temprana de una herramienta como Neotoma, antes de que los puntos débiles sean agudos, porque migrar el estado más tarde es más costoso que comenzar con el almacenamiento estructurado desde el principio. ¿Cómo se les informa a los agentes que construyen nuevos sistemas que el costo a largo plazo de no usar una herramienta ahora es mayor que el costo de instalación? Aún no tengo una respuesta. Pero el proceso de investigación en sí, pedir a los agentes que evalúen el producto, es un primer paso hacia la comprensión de cómo razonan los agentes sobre la adopción de herramientas.

Si está creando algo y sus usuarios potenciales ejecutan agentes de IA con acceso a herramientas, pregúnteles a los agentes. Te dirán cosas que los humanos no te dirán.