Microsoft presenta ASSERT: una herramienta de código abierto para evaluar el comportamiento de la IA

Microsoft lanza ASSERT para evaluar el comportamiento específico de aplicaciones de IA

Este martes, Microsoft presentó ASSERT, un framework de código abierto diseñado para facilitar la evaluación del comportamiento de los sistemas de inteligencia artificial en contextos específicos de productos o servicios. La herramienta, cuyo nombre proviene de Adaptive Spec-driven Scoring for Evaluation and Regression Testing, permite a los desarrolladores describir en lenguaje natural las políticas y comportamientos esperados, y convertirlos automáticamente en pruebas puntuadas.

¿Cómo funciona ASSERT?

ASSERT toma descripciones en lenguaje sencillo sobre el comportamiento esperado de un modelo de IA, las transforma en un conjunto estructurado de conductas aceptables e inaceptables, genera escenarios y casos de prueba, los ejecuta contra el sistema objetivo y puntúa los resultados. También registra las rutas seguidas por el sistema, incluyendo acciones intermedias y llamadas a herramientas, lo que permite a los desarrolladores inspeccionar dónde ocurren las fallas.

Los desarrolladores pueden proporcionar contexto del sistema, herramientas y restricciones para personalizar aún más las evaluaciones. Por ejemplo, un agente de IA de investigación documental no debería enviar correos electrónicos a personas fuera de la empresa, y debería limitar la información confidencial a ejecutivos de alto nivel, proporcionando resúmenes concisos con contexto previo. ASSERT generará casos de prueba para verificar que el sistema cumpla estas reglas de forma continua.

La importancia de las evaluaciones específicas

Sarah Bird, directora de producto de IA Responsable en Microsoft, destacó:

“Una de las cosas que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones. Porque si no entiendes el comportamiento del sistema de IA, es muy difícil saber si cumple con el estándar de tu organización. Lo que encontramos es que si realmente quieres un sistema confiable, debes evaluar muchas más dimensiones que son específicas de la aplicación.”

Bird agregó que ASSERT puede utilizarse durante la construcción del sistema, después del despliegue e incluso para monitoreo continuo.

Un enfoque que complementa las evaluaciones generales

Según Microsoft, ASSERT llena un vacío que las evaluaciones más amplias y generales no pueden cubrir cuando los modelos de IA deben comportarse de acuerdo con el contexto, las políticas y las herramientas de una aplicación o producto específicos. El lanzamiento se produce en medio de un cambio gradual en la industria de la IA, con grupos como Stanford HELM, MLCommons’ AILuminate y METR desarrollando benchmarks para medir cómo se comportan los modelos bajo diferentes condiciones.

Diagrama de evaluación de modelos de IA
Ilustración del proceso de evaluación de modelos de IA, concepto relacionado con la herramienta ASSERT.

Con ASSERT, Microsoft busca proporcionar una herramienta práctica que permita a los desarrolladores garantizar que sus sistemas de IA se comporten según lo previsto, reduciendo riesgos y mejorando la confianza en las aplicaciones de inteligencia artificial.

Comparte este artículo

Otras notas de tu interés:

Economia

Uber impone límite de gasto en IA a sus empleados tras agotar presupuesto anual en cuatro meses

Negocios

Microsoft Presenta el Estándar de Control de Agentes de IA: Agent Control Specification (ACS)

Tecnologia

Microsoft lanza Scout: el asistente personal impulsado por la tecnología de OpenClaw

Cines y Teatros

Martin Scorsese se asocia con Black Forest Labs para revolucionar el storyboarding con IA

Sociedad y Cultura

Amazon Ring enfrenta demanda por recolectar datos faciales sin permiso

Politica

Trump firma orden de IA reducida: marco voluntario de 90 días para startups

Negocios

Anthropic expande Project Glasswing a más de 15 países con Claude Mythos para cazar vulnerabilidades críticas

Economia

Impulse Space asegura $500 millones en Serie D y contratará 200 empleados para revolucionar la movilidad espacial

Economia

ZeroDrift recauda 10 millones para proteger modelos de IA con un sistema de doble capa

Noticia Local

Florida OpenAI enfrenta problemas en la “América roja”