Google DeepMind abre Project Genie: IA para crear mundos interactivos desde texto e imágenes

Google DeepMind lanza su prototipo de IA que genera mundos jugables

Google DeepMind ha abierto el acceso a Project Genie, su herramienta de inteligencia artificial experimental que permite crear mundos de juego interactivos a partir de simples prompts de texto o imágenes.

¿Cómo funciona esta innovadora IA?

A partir de este jueves, los suscriptores de Google AI Ultra en Estados Unidos pueden probar este prototipo. La herramienta combina el modelo mundial Genie 3, el modelo de generación de imágenes Nano Banana Pro y Gemini. El usuario comienza con un «world sketch», describiendo un entorno y un personaje principal.

Comparación visual de escenas urbanas generadas por inteligencia artificial
Ejemplo de la capacidad de la IA para generar entornos visuales complejos.

Nano Banana Pro genera una imagen basada en los textos, la cual sirve como base para que Genie cree un mundo explorable en primera o tercera persona. También es posible usar fotografías reales como punto de partida, aunque con resultados variables.

El papel crucial de los modelos mundiales hacia la AGI

Los modelos mundiales son sistemas de IA que generan una representación interna de un entorno para predecir resultados y planificar acciones. Para los investigadores de DeepMind, son un paso crucial hacia la Inteligencia General Artificial (AGI). A corto plazo, la comercialización empezaría con videojuegos y entretenimiento, para luego usarse en la formación de agentes robóticos mediante simulación.

Se intensifica la carrera por los modelos mundiales

El lanzamiento de Project Genie llega en un momento de creciente competencia. World Labs de Fei-Fei Li lanzó Marble, Runway presentó su propio modelo mundial, y la startup AMI Labs de Yann LeCun también se centrará en esta tecnología.

Limitaciones y naturaleza experimental

Los investigadores son transparentes: Project Genie es inconsistente. A veces crea mundos impresionantes, otras veces resultados desconcertantes. Además, existe una fuerte limitación técnica.

  • Límite de tiempo: Solo se permiten 60 segundos de generación y navegación, debido a las restricciones de cómputo dedicado.
  • Guardias de seguridad: Activados para bloquear contenido inapropiado o que infrinja derechos de autor (como personajes de Disney).
  • Controles: La navegación con teclas (flechas, W-A-S-D) puede ser no responsiva o errática.
Paisajes europeos generados por IA para una encuesta de detección
Paisajes sintéticos: un desafío para distinguir entre lo real y lo generado por IA.

Una demostración desde lo caprichoso hasta lo práctico

En pruebas, la herramienta creó un castillo en las nubes de malvaviscos con un río de chocolate y árboles de caramelo en estilo claymation. Sin embargo, lucha con entornos fotorrealistas, que suelen parecer más un videojuego. Al usar una foto de una oficina real, el mundo generado tenía muebles similares pero con un aspecto digital y estéril. Curiosamente, al proporcionar una foto de un escritorio con un peluche, Project Genie animó al juguete navegando el espacio.

Feedback de usuarios y el camino a seguir

Shlomi Fruchter, director de investigación en DeepMind, destacó la emoción de poder recibir comentarios del público.

«No pensamos en [Project Genie] como un producto integral al que la gente pueda volver todos los días, pero creemos que ya hay un atisbo de algo interesante y único», afirmó.

El equipo busca mejorar el realismo y la capacidad de interacción, dando a los usuarios más control sobre las acciones y los entornos. Project Genie marca un hito en la IA creativa, acercando la posibilidad de que cualquier persona materialice su imaginación en mundos virtuales.

Comparte este artículo

Otras notas de tu interés:

Economia

Gobierno de EE.UU. Negocia Acuerdos para Centros de Datos en Medio de Crisis Energética

Arte y Cultura

Bad Bunny hace historia en el Super Bowl con un show cargado de cultura e identidad puertorriqueña

Economia

Anthropic se Enfrenta a una Empresa India en una Disputa por el Nombre

Economia

Marcha por los Multimillonarios: Protesta Contra el Impuesto a la Riqueza en California

Arte y Cultura

Bad Bunny Escribe Historia: Un Halftime Show del Super Bowl Cargado de Símbolos Culturales y Protesta

Economia

OpenAI inicia pruebas de anuncios en ChatGPT para usuarios gratuitos en EE. UU.

Negocios

Los agentes de IA dan un salto en tareas profesionales, pero aún no sustituyen a los abogados

Deportes

MAGA arremete contra Bad Bunny por su espectáculo en el medio tiempo del Super Bowl

Deportes

Análisis y Opiniones: El Éxito Cultural de Bad Bunny en el Halftime del Super Bowl

Economia

Workday anuncia la salida inmediata de su CEO Carl Eschenbach y el regreso del cofundador Aneel Bhusri