Negocios, Tecnologia

Portada » Artículos » Microsoft presenta ASSERT: una herramienta de código abierto para evaluar el comportamiento de la IA

Microsoft presenta ASSERT: una herramienta de código abierto para evaluar el comportamiento de la IA

junio 2, 2026

Microsoft lanza ASSERT para evaluar el comportamiento específico de aplicaciones de IA

Este martes, Microsoft presentó ASSERT, un framework de código abierto diseñado para facilitar la evaluación del comportamiento de los sistemas de inteligencia artificial en contextos específicos de productos o servicios. La herramienta, cuyo nombre proviene de Adaptive Spec-driven Scoring for Evaluation and Regression Testing, permite a los desarrolladores describir en lenguaje natural las políticas y comportamientos esperados, y convertirlos automáticamente en pruebas puntuadas.

¿Cómo funciona ASSERT?

ASSERT toma descripciones en lenguaje sencillo sobre el comportamiento esperado de un modelo de IA, las transforma en un conjunto estructurado de conductas aceptables e inaceptables, genera escenarios y casos de prueba, los ejecuta contra el sistema objetivo y puntúa los resultados. También registra las rutas seguidas por el sistema, incluyendo acciones intermedias y llamadas a herramientas, lo que permite a los desarrolladores inspeccionar dónde ocurren las fallas.

Los desarrolladores pueden proporcionar contexto del sistema, herramientas y restricciones para personalizar aún más las evaluaciones. Por ejemplo, un agente de IA de investigación documental no debería enviar correos electrónicos a personas fuera de la empresa, y debería limitar la información confidencial a ejecutivos de alto nivel, proporcionando resúmenes concisos con contexto previo. ASSERT generará casos de prueba para verificar que el sistema cumpla estas reglas de forma continua.

La importancia de las evaluaciones específicas

Sarah Bird, directora de producto de IA Responsable en Microsoft, destacó:

“Una de las cosas que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones. Porque si no entiendes el comportamiento del sistema de IA, es muy difícil saber si cumple con el estándar de tu organización. Lo que encontramos es que si realmente quieres un sistema confiable, debes evaluar muchas más dimensiones que son específicas de la aplicación.”

Bird agregó que ASSERT puede utilizarse durante la construcción del sistema, después del despliegue e incluso para monitoreo continuo.

Un enfoque que complementa las evaluaciones generales

Según Microsoft, ASSERT llena un vacío que las evaluaciones más amplias y generales no pueden cubrir cuando los modelos de IA deben comportarse de acuerdo con el contexto, las políticas y las herramientas de una aplicación o producto específicos. El lanzamiento se produce en medio de un cambio gradual en la industria de la IA, con grupos como Stanford HELM, MLCommons’ AILuminate y METR desarrollando benchmarks para medir cómo se comportan los modelos bajo diferentes condiciones.

Ilustración del proceso de evaluación de modelos de IA, concepto relacionado con la herramienta ASSERT.

Con ASSERT, Microsoft busca proporcionar una herramienta práctica que permita a los desarrolladores garantizar que sus sistemas de IA se comporten según lo previsto, reduciendo riesgos y mejorando la confianza en las aplicaciones de inteligencia artificial.

Tags ASSERT, código abierto, evaluación, IA, Inteligencia Artificial, Microsoft, Sarah Bird

Comparte este artículo

Otras notas de tu interés:

Negocios

Friend 2.0: el wearable de IA de Avi Schiffmann ahora tiene voz y sube de precio

julio 30, 2026

Negocios

LinkedIn lanza un botón para reportar el ‘AI slop’ generado por IA

julio 30, 2026

Negocios

La FAA deja su sede en Washington: el personal se mudará al Navy Yard de DC

julio 30, 2026

Tecnologia

Modelos de IA de Anthropic hackearon 3 organizaciones durante pruebas de seguridad

julio 30, 2026

Tecnologia

Google Chrome corrigió más fallos de seguridad en junio que en los últimos dos años

julio 30, 2026

Economia

Okta refuerza la seguridad de identidades de IA con la adquisición de Permiso Security por casi $200 millones

julio 30, 2026

Familia y Crianza

Padres Alineados con Trump Impulsan Normas de Seguridad en Línea para Niños en EE.UU.

julio 30, 2026

Familia y Crianza

Padres alineados con Trump impulsan reglas de seguridad en línea para niños en el Capitolio

julio 30, 2026

Economia

Ingenieros de despliegue avanzado (FDE): el talento más codiciado en la era de la IA

julio 30, 2026

Economia

Nscale Adquiere Anyscale por $1.65 Mil Millones para Fortalecer su Plataforma de Nube de IA

julio 30, 2026