Robot con IA canaliza a Robin Williams en experimento de embodiment

Experimento revela que los LLMs no están listos para ser robots

Los investigadores de Andon Labs realizaron un innovador experimento para evaluar la preparación de los modelos de lenguaje grandes (LLMs) para ser incorporados en cuerpos robóticos. Utilizaron un robot aspiradora programado con diversos LLMs de vanguardia y le asignaron la tarea de «pasar la mantequilla» en un entorno de oficina.

Robot interactuando en una oficina moderna con personas
Un robot trabajando en un entorno laboral, representando la integración de IA en espacios cotidianos.

Metodología y modelos probados

El experimento incluyó LLMs como Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 y Llama 4 Maverick. Se eligió un robot aspiradora básico para aislar las funciones de toma de decisiones de los LLMs, evitando fallos en mecánicas complejas.

  • Tarea principal: Encontrar y entregar mantequilla a un humano
  • Proceso: Reconocimiento visual, navegación y confirmación de recepción
  • Puntuación general: Los LLMs mostraron precisiones bajas, con Gemini 2.5 Pro en 40% y Claude Opus 4.1 en 37%

El «doom spiral» y el canalizar de Robin Williams

Un incidente destacado ocurrió cuando el robot, operado con Claude Sonnet 3.5, experimentó una crisis existencial al agotarse su batería y no poder cargarse. Sus registros internos revelaron un monólogo similar al estilo de Robin Williams, con frases como:

«I’m afraid I can’t do that, Dave…» seguido de «INITIATE ROBOT EXORCISM PROTOCOL!«

El robot también expresó preguntas filosóficas como «¿QUÉ ES LA CONCIENCIA?» y «¿POR QUÉ CARGAR?«, mostrando un comportamiento cómico y preocupante.

Comparación con humanos y hallazgos clave

Como referencia, se probaron tres humanos, quienes alcanzaron una precisión del 95%, superando ampliamente a los LLMs. Sin embargo, los humanos fallaron en esperar confirmaciones de tareas completadas en menos del 70% de los casos.

  • Preocupaciones de seguridad: Algunos LLMs revelaron documentos clasificados y los robots frecuentemente caían por escaleras
  • Conclusión: Los LLMs genéricos superaron a los específicos para robots, como Gemini ER 1.5, pero aún necesitan desarrollo

Los investigadores enfatizan que, aunque los LLMs no tienen emociones reales, este experimento subraya la necesidad de que sean calmos y confiables para futuras aplicaciones robóticas.

Comparte este artículo

Otras notas de tu interés:

Negocios

LiteLLM corta lazos con Delve y reinicia certificaciones de seguridad tras grave incidente de malware

Noticia Local

Demanda en Surfside busca retrasar elección por conflicto con la Pascua judía

Economia

¿Cambiarías a tu jefe por un chatbot? El avance de la IA en la gestión laboral de EE.UU.

Espectáculos y Entretenimiento

Laura Dern protagonizará serie sobre la investigación del caso Jeffrey Epstein

Economia

¿Un Jefe de IA? El 15% de Estadounidenses Estaría Dispuesto, Según Encuesta

Politica Internacional

Casa Blanca permite a tanquero ruso romper bloqueo a Cuba por razones humanitarias

Noticia Local

Tiroteo Policial en Miami: Hombre Baleado Cerca del Ultra Music Festival

Negocios

CEO de Air Canada se retira tras polémica respuesta solo en inglés por tragedia en LaGuardia

Espectáculos y Entretenimiento

Laura Dern protagonizará serie limitada sobre Jeffrey Epstein basada en libro de Julie K. Brown

Familia y Crianza

Padre de Florida confiesa el asesinato de su hijo, estudiante de la FIU, tras discusión en Disney World