Patronus AI suma 50 millones de dólares para crear entornos digitales que estresan a los agentes de IA
Los agentes de inteligencia artificial se están volviendo cada vez más sofisticados, evolucionando desde responder preguntas hasta ejecutar tareas complejas de múltiples pasos de forma autónoma. Sin embargo, antes de que estos agentes puedan ser confiables para reservar viajes o realizar análisis financieros en nombre de los usuarios, los proveedores de modelos y las startups que los construyen desean asegurarse de que funcionen de manera confiable en una amplia gama de escenarios.
Los laboratorios de IA suelen usar puntos de referencia para mostrar el poder de sus modelos, pero una puntuación alta, incluso en un punto de referencia orientado a agentes, no prueba realmente que una IA pueda realizar correctamente trabajos complejos del mundo real.
La solución de Patronus AI: mundos digitales simulados
Patronus AI, una startup fundada en 2023 por los ex investigadores de Meta AI Anand Kannappan y Rebecca Qian, está ayudando a los creadores de modelos y empresas a ajustar modelos para lograr precisamente eso: construir entornos digitales simulados en los que evaluar el rendimiento de los agentes.
La startup con sede en San Francisco debe estar resolviendo un problema importante. Prácticamente todos los laboratorios fronterizos de IA y muchas startups emergentes son ahora clientes, según Glenn Solomon, director gerente de Notable Capital, quien describe la demanda de los entornos simulados de la compañía como casi insaciable.

Ronda de financiación Serie B
Los ingresos de Patronus se han multiplicado por 15 en el último año, lo que ha generado un gran interés por parte de los inversores. Este jueves, la compañía anunció una ronda Serie B de 50 millones de dólares liderada por Greenfield Partners, con la participación de Notable Capital, Lightspeed, Datadog y Samsung. La ronda eleva la financiación total de la empresa a 70 millones de dólares.
¿Cómo funcionan los «modelos de mundo digital»?
Patronus utiliza lo que denomina «modelos de mundo digital» para crear réplicas de sitios web y sistemas internos. En estos entornos, los agentes son sometidos a pruebas de estrés después del entrenamiento mediante aprendizaje por refuerzo, que recompensa iterativamente la finalización exitosa de tareas y penaliza los errores.
Los laboratorios de IA ven un gran valor en estas simulaciones digitales porque brindan a los agentes la oportunidad de probar diferentes escenarios, a veces impredecibles. La compañía compara su enfoque con la forma en que Waymo entrenó autos autónomos: primero construyendo mundos sintéticos para probar vehículos contra peligros poco comunes, como condiciones climáticas adversas o un niño corriendo tras una pelota.
«La diferencia con los agentes de IA es que tienden a tomar atajos, lo que significa que no completan la tarea correctamente. Patronus es muy bueno detectando estos atajos y asegurándose de que los modelos rindan cuentas», afirmó Solomon.
Áreas de aplicación y futuro
Actualmente, Patronus ofrece sus mundos digitales simulados para ingeniería de software y finanzas, pero estos son solo el comienzo, según Kannappan.
«Hoy nos centramos en problemas que son verificables, es decir, problemas que se pueden comprobar y verificar de inmediato, pero hay muchísimas áreas más que no son verificables o que son muy difíciles de verificar», explicó. «Queremos poder crear el entorno en el que se pueda operar un agente que funcione durante 10 horas, 10 días o 10 semanas».
Competencia
En cuanto a la competencia, Patronus cree que se enfrenta principalmente a los equipos internos que los laboratorios de IA ya han creado para evaluar el comportamiento de los agentes. Mientras que empresas de datos humanos como Mercor y Surge ayudan a los creadores de modelos con el aprendizaje por refuerzo, Patronus opera de manera diferente al evaluar cómo se comportan los agentes sin intervención humana.

Con 70 millones de dólares en financiación total y un crecimiento de ingresos de 15 veces, Patronus AI se posiciona como un actor clave en la verificación y validación de agentes de IA, allanando el camino para una adopción más segura y fiable de la inteligencia artificial autónoma.