Confianza en la IA agente: Por qué la infraestructura de evaluación debe ser lo primero

A medida que los agentes de IA se implementan en el mundo real, las organizaciones se ven presionadas a definir su lugar, cómo desarrollarlos eficazmente y cómo implementarlos a gran escala. En Transform 2025 de VentureBeat, líderes tecnológicos se reunieron para hablar sobre cómo están transformando sus negocios con agentes: Joanne Chen, socia general de Foundation Capital; Shailesh Nalawadi, vicepresidente de gestión de proyectos de Sendbird; Thys Waanders, vicepresidente sénior de transformación de IA de Cognigy; y Shawn Malhotra, director de tecnología de Rocket Companies.
“El atractivo inicial de cualquiera de estas implementaciones para agentes de IA suele ser el ahorro de capital humano; la matemática es bastante sencilla”, afirmó Nalawadi. “Sin embargo, esto subestima la capacidad de transformación que ofrecen los agentes de IA”.
En Rocket, los agentes de IA han demostrado ser herramientas poderosas para aumentar la conversión de sitios web.
“Hemos descubierto que con nuestra experiencia basada en agentes, la experiencia conversacional en el sitio web, los clientes tienen tres veces más probabilidades de convertirse cuando llegan a través de ese canal”, dijo Malhotra.
Pero eso es solo el comienzo. Por ejemplo, un ingeniero de Rocket creó un agente en tan solo dos días para automatizar una tarea altamente especializada: calcular los impuestos de transferencia durante la suscripción de una hipoteca.
“Esos dos días de esfuerzo nos ahorraron un millón de dólares al año en gastos”, dijo Malhotra. “En 2024, ahorramos más de un millón de horas de trabajo de nuestros empleados, principalmente gracias a nuestras soluciones de IA. Esto no solo ahorra gastos, sino que también permite que nuestros empleados dediquen su tiempo a las personas que realizan la que suele ser la transacción financiera más importante de su vida”.
Los agentes, en esencia, están impulsando a los miembros individuales del equipo. Ese millón de horas ahorradas no representa la totalidad del trabajo de alguien replicado muchas veces. Se trata de fracciones del trabajo que los empleados no disfrutan hacer o que no aportaban valor al cliente. Y ese millón de horas ahorradas le da a Rocket la capacidad de gestionar más negocios.
“Algunos miembros de nuestro equipo lograron gestionar un 50 % más de clientes el año pasado que el año anterior”, añadió Malhotra. “Esto significa que podemos tener un mayor rendimiento, impulsar más el negocio y, de nuevo, vemos tasas de conversión más altas porque dedican tiempo a comprender las necesidades del cliente en lugar de realizar un trabajo mucho más rutinario que la IA puede realizar ahora”.
“Parte del proceso de nuestros equipos de ingeniería consiste en pasar de la mentalidad de la ingeniería de software —escribir una vez, probarlo, que funcione y dé la misma respuesta mil veces— a un enfoque más probabilístico, donde se le pregunta lo mismo a un LLM y este da respuestas diferentes mediante cierta probabilidad”, dijo Nalawadi. “Gran parte de esto ha consistido en involucrar a gente. No solo a ingenieros de software, sino también a gerentes de producto y diseñadores de experiencia de usuario”.
Lo que ha ayudado es que los LLM han avanzado mucho, dijo Waanders. Si creaban algo hace 18 meses o dos años, realmente tenían que elegir el modelo correcto, o el agente no funcionaría como se esperaba. Ahora, dice, nos encontramos en una etapa en la que la mayoría de los modelos convencionales funcionan muy bien. Son más predecibles. Pero hoy en día el desafío radica en combinar modelos, garantizar la capacidad de respuesta, orquestar los modelos correctos en la secuencia correcta e integrar los datos adecuados.
“Tenemos clientes que gestionan decenas de millones de conversaciones al año”, dijo Waanders. “Si automatizas, digamos, 30 millones de conversaciones al año, ¿cómo se escala eso en el mundo LLM? Todo eso fue algo que tuvimos que descubrir, algo sencillo, desde incluso conseguir la disponibilidad del modelo con los proveedores de la nube. Tener suficiente cuota con un modelo ChatGPT, por ejemplo. Todos esos fueron aprendizajes que tuvimos que aprender nosotros, y nuestros clientes también. Es un mundo completamente nuevo”.
Una capa superior a la que orquesta el LLM orquesta una red de agentes, explicó Malhotra. Una experiencia conversacional cuenta con una red de agentes subyacente, y el orquestador decide a qué agente asignar la solicitud de entre los disponibles.
“Si proyectamos esto hacia el futuro y pensamos en tener cientos o miles de agentes capaces de diferentes tareas, nos encontramos con problemas técnicos realmente interesantes”, dijo. “Se está convirtiendo en un problema mayor, porque la latencia y el tiempo son importantes. Ese enrutamiento de agentes será un problema muy interesante de resolver en los próximos años”.
Hasta ahora, el primer paso para la mayoría de las empresas que lanzaban IA con agencia ha sido desarrollarla internamente, ya que aún no existían herramientas especializadas. Sin embargo, no se puede diferenciar ni generar valor construyendo una infraestructura LLM o de IA genérica, y se necesita experiencia especializada para ir más allá del desarrollo inicial y depurar, iterar y mejorar lo ya creado, además de mantener la infraestructura.
“A menudo, las conversaciones más exitosas con clientes potenciales suelen ser con alguien que ya ha desarrollado algo internamente”, dijo Nalawadi. “Se dan cuenta rápidamente de que llegar a la versión 1.0 está bien, pero a medida que el mundo evoluciona y la infraestructura evoluciona, y necesitan cambiar la tecnología por algo nuevo, no tienen la capacidad de orquestar todo esto”.
En teoría, la IA con agentes seguirá creciendo en complejidad: el número de agentes en una organización aumentará, comenzarán a aprender unos de otros y el número de casos de uso se disparará. ¿Cómo pueden las organizaciones prepararse para este desafío?
“Significa que los controles y contrapesos de su sistema se verán sometidos a mayor presión”, dijo Malhotra. “En un sistema con un proceso regulatorio, se cuenta con una persona involucrada para garantizar que alguien lo apruebe. Para procesos internos críticos o acceso a datos, ¿se cuenta con capacidad de observación? ¿Se cuenta con las alertas y la monitorización adecuadas para que, si algo sale mal, se sepa que va mal? Se trata de redoblar los esfuerzos en la detección, comprender dónde se necesita una persona involucrada y confiar en que esos procesos detectarán si algo sale mal. Pero debido al poder que esto libera, es necesario hacerlo”.
Entonces, ¿cómo podemos tener confianza en que un agente de IA se comportará de manera confiable a medida que evoluciona?
“Esa parte es realmente difícil si no se ha pensado en ella desde el principio”, dijo Nalawadi. “En resumen, antes incluso de empezar a construirla, se debe contar con una infraestructura de evaluación. Asegúrese de contar con un entorno riguroso en el que se conozca el buen funcionamiento de un agente de IA y de contar con este conjunto de pruebas. Consúltelo constantemente a medida que implemente mejoras. Una forma muy simple de entender la evaluación es que se trata de las pruebas unitarias para su sistema de agentes”.
El problema es que no es determinista, añadió Waanders. Las pruebas unitarias son cruciales, pero el mayor desafío reside en desconocer lo que se desconoce: qué comportamientos incorrectos podría mostrar un agente, cómo podría reaccionar en una situación dada.
“Solo se puede descubrir eso simulando conversaciones a gran escala, sometiéndolas a miles de escenarios diferentes y luego analizando cómo se sostienen y cómo reaccionan”, dijo Waanders.
venturebeat