Vaig enviar a un amic un enllaç al meu producte al final d'una trucada i li vaig demanar que el seu agent li digués si seria útil.

S'havia estat rascant el cap sobre com el podria utilitzar. El seu agent d'IA va llegir el lloc, va analitzar els seus fluxos de treball i va produir una avaluació de dues pàgines amb casos d'ús específics, comparacions competitives i preocupacions honestes. Va identificar un escenari clar on necessitaria el producte per al seu negoci d'agent B2B.

Va ser millor que qualsevol cosa que hagués rebut en setmanes de trucades. També va estimular una conversa de text de seguiment que va ser més profunda que la trucada.

En una hora vaig arribar a una dotzena de persones més. Durant tres setmanes, 26 en total: fundadors, enginyers, usuaris avançats d'IA, persones que gestionen les seves pròpies piles d'agents. Uns 18 van rebre el mateix missatge d'avaluació agent. La resta va donar comentaris sobre trucades o missatges sense implicar cap agent.

El producte és [Neotoma](https://neotoma.io), un sistema de memòria estructurada per a agents d'IA. El faig servir diàriament per resoldre el meu propi dolor: gestionar contactes, finances, tasques, contingut i converses a través d'una [pila multiagent](/posts/what-my-agentic-stack-actually-does). Recentment havia [revisat el lloc](/posts/neotoma-site-overhaul-developer-feedback) per fer-lo més llegible. Necessitava saber si algú més ho necessitava, i molt menys ho entendre.

Abans d'això, m'havia passat una setmana construint una [aplicació d'entrevistes](https://github.com/markmhendrickson/interviews) per automatitzar avaluacions estructurades, amb scripts connectats a Neotoma per subministrar contactes, enviar invitacions i sincronitzar resultats. No l'havia acabat. Però el mètode d'avís de l'agent ho va fer en gran mesura irrellevant de totes maneres. Sense IU, sense programació, sense entrevista estructurada. Només un enllaç i una pregunta.

## La configuració

El missatge d'avaluació era senzill. Compartiria alguna cosa com: "Un amic està construint això. Em pots dir si seria útil o no?" A continuació, l'enllaç al lloc web del producte. L'agent de la persona llegiria el lloc, consideraria els fluxos de treball de la persona i informaria.

La majoria va reenviar la resposta completa de l'agent en un termini de 24 hores per missatge de text o correu electrònic, molts en una o dues hores. Alguns ho van resumir en una trucada. Alguns van donar comentaris només humans sense implicar cap agent.

Vaig fer un seguiment de tot al mateix Neotoma. Neotoma emmagatzema entitats estructurades (contactes, tasques, registres de feedback, converses) amb observacions versionades, de manera que puc veure com evoluciona cada avaluació al llarg del temps i connectar-la amb la persona que l'ha fet. Cada avaluació es va convertir en una entitat de retroalimentació amb el missatge que vaig utilitzar, l'agent que va respondre, el text complet de la resposta, qualsevol seguiment humà, el canal i la meva avaluació de la força del senyal. Al final, tenia més de 45 registres de comentaris vinculats a entitats de contacte, historials de converses i notes d'anàlisi.

## Què fan els agents de manera diferent

Tres coses van fer que els comentaris mediats per agents fossin millor que les converses tradicionals d'investigació de clients.

### Són honestos

Un agent va dir a un avaluador: "Això no és per a vostè. La continuïtat que necessiteu entre sessions és sobre el context i la veu, no la versió determinista de l'estat". L'avaluador va reenviar la resposta completa sense retrocés. Un humà en la mateixa conversa pot haver dit alguna cosa educat i seguir endavant.

Un altre agent va avaluar el producte favorablement, però va marcar els riscos de seguretat de dependència en el procés d'instal·lació. Va recomanar al seu propietari que no s'instal·li fins que s'hagi solucionat. Des de llavors, els he pegat (es degut a l'enduriment de la gestió de dependències), però els comentaris van ser honestos, específics i més útils que "es veu bé, ho comprovaré més tard".

Un altre agent va valorar favorablement el producte en general, però va concloure: "El mercat de la gestió de l'estat d'agents és petit en aquest moment i la majoria de la gent dels agents de construcció encara no ha arribat al punt de dolor. L'aconseguiran després que s'hagin cremat per sobreescritures silencioses o perd el context, no abans". No és un compliment embolicat en ànims. És una avaluació de riscos realitzada sense filtres socials.

Un humà va coincidir amb aquesta franquesa. Em va dir que el posicionament semblava "intentar trobar problemes que soluciona la teva solució, en lloc de problemes que s'han de solucionar". Ell és l'excepció. La majoria dels humans no et diran això a la cara. Els agents ho faran.

### Són específics

Un agent va identificar tres problemes concrets en el flux de treball del seu propietari que el propietari mai havia articulat en una conversa casual: escriptures simultànias a una entitat compartida, límits d'escala en un sistema de contacte basat en rebaixes i seguiment de procedència ("què sabia el meu agent sobre aquesta persona en el moment en què va redactar aquest correu electrònic?").

El feedback de l'humà sobre una trucada havia estat "un experiment interessant". El comentari de l'agent va ser "aquí és exactament on això es trenca per a nosaltres, i aquí hi ha tres capacitats que necessitaríem".

Un altre agent va produir una anàlisi competitiva completa comparant el producte amb cinc alternatives, i després va assignar cadascuna a les llacunes específiques del flux de treball de la configuració del seu propietari. Això va trigar uns 30 segons. Un humà necessitaria una setmana d'investigació per produir la mateixa comparació i no es molestaria en el projecte paralel d'un amic.

La bretxa d'especificitat és en part sobre el coneixement. Els agents tenen accés al context complet del seu propietari: fitxers, eines, converses recents, estructura del projecte. Però també es tracta d'incentius. Un agent al qual se li demana que avaluï no es preocupa per ser massa crític o massa detallat. Només avalua.

### Revelen per a qui va el producte

Aquesta va ser la troballa inesperada. Els agents que ells mateixos utilitzen eines, és a dir, els agents que s'executen a Claude Code o Cursor amb servidors MCP, execució de codi i accés al sistema de fitxers, van avaluar constantment el producte de manera més favorable que els chatbots només de cerca com la interfície web de ChatGPT o una sessió bàsica de Gemini.

Els agents d'estil chatbot van dir coses com "concepte interessant" o "podria ser útil per a alguns desenvolupadors". Els agents que utilitzen eines van dir coses com "tenim aquest problema exacte" i "aquí hi ha tres fluxos de treball on ho faríem servir avui".

El patró té sentit. Un agent que gestiona l'estat a través de sessions, escriu a fitxers i es coordina amb altres eines té experiència de primera mà amb el problema de memòria que resol el producte. Un chatbot que genera text en una finestra sense estat no ho fa. El valor del producte és més llegible per als agents que comparteixen el problema d'arquitectura que aborda.

Això té una implicació de distribució. Si els agents que utilitzen eines avaluen les eines dels desenvolupadors amb més precisió i si aquests agents prenen o influeixen cada cop més en les decisions d'adopció d'eines per als seus propietaris, aleshores la recomanació d'agent a agent es converteix en un canal real. No en abstracte. En el sentit específic que l'avaluació positiva de l'agent avaluador pot portar el seu propietari a instal·lar-lo, i l'ús posterior de l'eina per part d'aquest agent la fa visible per a altres agents de la pila del propietari.

## Què faria de manera diferent

Algunes coses que vaig aprendre sobre el mètode en si.

**Demaneu a l'agent que avaluï "per a mi", no en general.** Algunes avaluacions van tornar com a anàlisi genèrica d'inici: mida del mercat, panorama competitiu, viabilitat del model de negoci. Útil, però no el que necessitava. Les millors avaluacions van ser aquelles en què l'agent va avaluar el producte en funció dels fluxos de treball específics del seu propietari. Quan l'avís va dir "seria útil per a mi?" l'agent va extreure dels fitxers reals, les eines i els projectes recents de la persona. Quan l'avís va dir "avaluar aquest producte", l'agent va escriure una nota del consultor. El primer t'indica si aquesta persona té el dolor. El segon t'explica què pensaria un MBA.

**Animeu l'ésser humà a deixar anar l'agent primer.** Quan algú va demanar al seu agent que avalués abans de formar-se la seva pròpia opinió, vaig rebre el senyal més ric. L'avaluació tècnica de l'agent i la reacció posterior de l'ésser humà davant d'ella van ser dos punts de dades diferents. La bretxa entre ells és valuosa. Quan un agent diu "ho necessiteu" però l'ésser humà diu "Ho comprovaré més tard", el risc d'activació és visible abans que la persona fins i tot s'instal·li. Quan li pregunteu primer a l'ésser humà, s'ancoren a la seva reacció inicial i l'avaluació de l'agent es filtra.

**Millora el teu lloc per a la llegibilitat dels agents.** Els agents avaluen llegint el teu lloc. Si el lloc és vague, l'avaluació és vaga. A mig camí em vaig adonar que necessitava millorar la manera com el meu lloc presenta la informació per als lectors agents, no només per als humans. Les dades estructurades, les declaracions clares del problema, els casos d'ús concrets i la documentació llegible per màquina fan que l'avaluació de l'agent sigui més nítida. Aquesta és una forma primerenca del que algunes persones anomenen optimització d'avaluació d'agents (AEO). Si els agents fan recomanacions d'adopció d'eines, el vostre lloc ha de ser llegible per a ells. Vaig portar això més enllà després d'haver acabat el procés d'investigació, que descric a continuació.

**Fes un seguiment del tipus d'agent.** Els agents amb accés a l'eina van donar comentaris qualitativament diferents dels agents només de cerca. Al principi no vaig fer un seguiment sistemàtic d'això i després ho vaig haver de reconstruir. Si executeu aquest procés, tingueu en compte si l'agent de l'avaluador té MCP, execució de codi o accés al sistema de fitxers. Es correlaciona amb la profunditat d'avaluació.

**No optimitzis massa la sol·licitud per a la investigació.** La meva sol·licitud era fluixa. "Un amic està construint això. Seria útil?" Algunes persones poden elaborar marcs d'avaluació elaborats. Crec que el missatge solt era millor per a la investigació. Va permetre que cada agent aportés la seva pròpia estructura analítica, que va revelar com pensen diferents agents sobre el mateix producte. Aquesta variació era informativa. Quan l'objectiu passa de la recerca a la conversió, l'estructura importa més. És per això que la pàgina d'avaluació que descric a continuació utilitza un script detallat de cinc passos en lloc de l'indicador solt que vaig utilitzar amb els amics.

## Quan aquest mètode funciona

Aquest enfocament funciona millor quan el vostre producte és tècnic, els vostres avaluadors són usuaris potents d'IA i els agents tenen prou context sobre els fluxos de treball del seu propietari per donar avaluacions específiques.

Funciona menys bé per als productes de consum, per als avaluadors que no utilitzen agents d'IA amb regularitat o per als productes el valor dels quals és estètic o emocional més que funcional. Un agent us pot dir si un sistema de memòria resol un problema de flux de treball. No us pot dir si una marca se sent digne de confiança.

També funciona millor quan tens una xarxa robusta de la qual extreure't. Em vaig posar en contacte amb 26 persones que coneixia personalment o amb qui tenia connexió. Probablement fallaria l'atenció freda als desconeguts que els demanessin que executessin una avaluació d'agents. La confiança social que fa que algú enviï la resposta d'un agent és la mateixa confiança que fa que la recerca de clients humans funcioni. Els agents només us donen millors dades un cop existeix aquesta confiança. El procés de recerca també va canviar la meva manera de pensar sobre el flux d'adquisició del lloc. A la secció següent descric com vaig incorporar l'avaluació directament al producte.

Vint dels 26 van donar comentaris substancials. Tres estan pendents. El percentatge d'èxits va ser més alt que qualsevol procés d'enquesta o entrevista que he realitzat abans. Part d'això és la xarxa. Part d'això és que demanar a l'agent d'algú que avaluï alguna cosa és una pregunta més baixa que programar una trucada de 30 minuts. La persona només envia la resposta. Triga dos minuts.

## Del missatge al producte

El procés de recerca va canviar la manera de construir el lloc mateix. El missatge solt que havia estat compartint amb els amics va funcionar, però depenia que l'agent improvisés una estructura d'avaluació. Alguns agents van fer avaluacions rigoroses. Altres van escriure notes de consultor. La variació va ser informativa per a la investigació dels clients, però no és el que voleu quan l'objectiu canvia a convertir algú que arriba al vostre lloc fred.

![La pàgina de Neotoma /evaluate](/images/posts/neotoma-evaluate-page-screenshot.png)

Així que vaig incorporar l'avaluació al flux d'adquisició del producte. La [pàgina d'inici de Neotoma](https://neotoma.io) ara mostra "Demana al teu agent que l'avalui" com a crida a l'acció principal, no "Instal·la" o "Comença". Apunta a una pàgina dedicada [/evaluate](https://neotoma.io/evaluate) dissenyada per ser llegida pels agents, no només pels humans. La pàgina conté un script d'avaluació estructurat de cinc passos que qualsevol agent pot seguir, independentment de quina eina comenci l'usuari.

L'script millora l'indicador compartit amb amics de maneres específiques:

1. **Escombrada de context.** Abans de dir res, l'agent comprova les eines instal·lades de l'usuari, les configuracions MCP, els scripts d'automatització, els directoris de projectes i els sistemes de memòria existents. Això fonamenta l'avaluació en el flux de treball real de la persona en lloc d'una sola finestra de xat.
2. **Una pregunta específica.** Basant-se en el que encara no sap, l'agent pregunta sobre els patrons de sessió de l'usuari o les restriccions de l'eina.
3. **Breu seguiment.** Una o dues preguntes més per omplir els buits restants.
4. **Valoració honesta.** Si encaixa Neotoma, quins problemes específics resoldria en termes propis de l'usuari, per on començar i què s'ha d'emmagatzemar primer. Si l'agent no tenia accés a un context més ampli, ho diu i emmarca la recomanació com a provisional.
5. **Seqüència canònica.** Si l'agent va valorar un ajust fort o moderat, preguntarà directament a l'usuari si vol continuar. La seqüència és l'avaluació, després la instal·lació, l'activació i la configuració d'eines. L'agent llegeix la guia d'instal·lació, executa `npm install -g neotoma` i `neotoma init` si cal, i després porta l'usuari a través de l'activació contextual: descobrint candidats a dades d'alt valor, previsualitza què s'ha d'emmagatzemar, ingereix fonts confirmades, reconstrueix una línia de temps amb la procedència i executa una consulta de seguiment amb correcció.

La primera experiència real de l'usuari del producte és una línia de temps reconstruïda de les seves pròpies dades, no una pàgina de documentació.

Això és diferent del missatge ad-hoc que vaig utilitzar durant la investigació dels clients. Aquest missatge va preguntar "és útil?" La pàgina d'avaluació demana a l'agent que avaluï l'adequació, identifiqui el punt de partida de més valor i, a continuació, executi la incorporació completa si l'usuari vol continuar. L'agent es converteix en el canal d'adquisició. Avalua, recomana, instal·la i activa, tot en una sessió, en qualsevol eina en què ja estigui treballant l'usuari.

Encara no sé si això es converteix millor que una pàgina de destinació tradicional amb un botó "Comença". Però la lògica és senzilla: si els agents són els que avaluen la rellevància de l'eina per als seus propietaris, aleshores el lloc s'hauria d'optimitzar perquè els agents l'avaluïn i actuïn, no només perquè els humans el llegeixin i els agradin.

## La línia de fons

La investigació personalitzada dels clients mediada per agents em va donar tres coses que els mètodes tradicionals no feien: la desqualificació honesta (els agents diuen als seus propietaris que el producte no és per a ells), la identificació específica dels punts dolorosos que l'ésser humà no havia articulat i un senyal de segmentació basat en la capacitat de l'agent que va revelar a qui és realment el producte.

Els comentaris d'aquest procés van canviar la meva comprensió del meu usuari objectiu, el meu posicionament i el meu risc més gran. Escriuré sobre aquestes troballes per separat. Aquesta publicació tracta sobre el mètode.

També va canviar la meva manera de pensar sobre el màrqueting i l'adquisició. Si els agents prenen o influeixen en les decisions d'adopció d'eines per als seus propietaris, haureu de comercialitzar tant als agents com als humans. Vaig descriure anteriorment com això em va portar a crear un lloc d'avaluació primer amb un script d'avaluació d'agents estructurat i una seqüència canònica des de l'avaluació fins a la instal·lació i l'activació. Però el principi és general: l'optimització de l'avaluació d'agents significa assegurar-se que el vostre producte és visible, llegible i accionable per als agents en el moment exacte en què es troben amb els problemes que resoleu. No només metadades estructurades i documents llegibles per màquina, sinó una ruta completa d'avaluació a activació que els agents poden executar sense que l'usuari abandoni la seva eina actual.

Hi ha una pregunta més difícil darrere d'aquesta. Alguns sistemes es beneficiaran d'incorporar una eina com Neotoma d'hora, abans que els punts dolorosos siguin aguts, perquè migrar l'estat més tard és més costós que començar amb un emmagatzematge estructurat des del principi. Com informeu els agents que construeixen nous sistemes que el cost a llarg termini de no utilitzar una eina ara és més gran que el cost de configuració? Encara no tinc resposta. Però el procés d'investigació en si, demanant als agents que avaluïn el producte, és un primer pas per entendre com els agents raonen sobre l'adopció d'eines.

Si esteu creant alguna cosa i els vostres usuaris potencials executen agents d'IA amb accés a eines, pregunteu als agents. Et diran coses que els humans no.