Google Gemini Omni: El nuevo modelo multimodal que genera videos, imágenes, audio y texto

Google da un paso concreto hacia la inteligencia artificial multimodal con Gemini Omni

Hoy, en su conferencia de desarrolladores Google I/O, la compañía anunció Gemini Omni, una nueva familia de modelos multimodales que, según Sundar Pichai, CEO de Google, será capaz de “crear cualquier cosa a partir de cualquier entrada”. El objetivo original de Gemini, lanzado hace tres años, era construir un modelo de lenguaje multimodal, una única red neuronal entrenada en texto, imagen, audio y video, capaz de generar contenido en cualquiera de esos formatos. Con Omni, ese objetivo se materializa.

¿Qué es Gemini Omni y cómo funciona?

Gemini Omni comienza con la capacidad de generar video. Los usuarios pueden combinar imágenes, audio, video y texto, y el modelo no solo une esas entradas, sino que razona a través de todas ellas para producir una salida coherente. El resultado son videos de alta calidad que reflejan una comprensión de la física, la cultura, la historia y la ciencia. Por ejemplo, cuando se le dio una simple instrucción como “un video explicativo de claymation sobre el plegamiento de proteínas”, Omni generó rápidamente un video con narración que describía el proceso.

Persona tecleando en laptop con íconos holográficos de IA y generación multimedia
La interfaz de usuario de Gemini Omni permite interactuar con múltiples formatos de contenido.

Edición de fotos con texto y avatares digitales

Además de la generación de video, Omni permite editar fotos con comandos de texto simples, similar a la herramienta Nano Banana de Google. Los usuarios también podrán crear videos con sus propios avatares digitales, una funcionalidad popularizada por OpenAI en Sora. Para prevenir deepfakes, los usuarios deberán pasar por un proceso de incorporación que incluye grabarse a sí mismos pronunciando una serie de números; el avatar se almacena para uso futuro. Todos los videos creados con Omni incluirán la marca de agua digital SynthID de Google, que permite verificar su origen.

Omni Flash: el primer modelo disponible para consumidores

El primer modelo de la familia es Gemini Omni Flash, que se lanza hoy en la aplicación Gemini, YouTube Shorts y en el estudio creativo Flow. Flash puede generar videos de hasta 10 segundos. Nicole Brichtova, directora de gestión de productos de Google DeepMind, explicó que esta duración no es una limitación del modelo, sino una decisión para ponerlo en más manos y anticipando que la mayoría de los usuarios aún no querrán videos mucho más largos. Se esperan duraciones mayores en el futuro cercano.

Los ejemplos de uso para avatares digitales son personales: crear un video de uno mismo ganando un premio, yendo a la luna o eliminando a un transeúnte del fondo de un video tomado en vacaciones. Gabe Barth-Maron, ingeniero de investigación en DeepMind, lo llamó “memes personalizados”. La facilidad de uso conlleva una advertencia: las indicaciones de edición deben ser muy específicas para evitar sobreditar o alterar elementos no deseados.

Implicaciones empresariales y creativas

A pesar del enfoque inicial en consumidores, las implicaciones empresariales y creativas de Omni son evidentes. Google pondrá Omni disponible a través de API en las próximas semanas. La herramienta de generación de avatares, que ya está disponible en Shorts, se espera que sea adoptada por creadores de contenido. Pero más allá, un flujo de trabajo multimodal completo podría transformar a anunciantes y cineastas. Brichtova destacó la capacidad del modelo para renderizar texto con precisión, muy útil para publicidad. El modelo Omni Pro, que ofrecerá un mejor rendimiento, aún no tiene fecha de lanzamiento, pero llegará cuando “sientan que hay un cambio significativo sobre Flash”.

“Cuando anunciamos Gemini por primera vez, era nuestro primer modelo de IA nativamente multimodal. Sabíamos que entrenarlo en una combinación de texto, código, audio, imágenes y video le daría una comprensión más profunda del mundo. Con los modelos de mundo, la IA está pasando de predecir texto a simular la realidad. Gemini Omni es el siguiente paso en esa dirección.” – Sundar Pichai.

El artículo original de referencia menciona que Google está construyendo algo similar a lo que hace la startup Luma AI, pero sin mencionar fuentes externas. Lo clave es que Google apuesta a que Omni sea una herramienta fácil de usar para todos, desde creadores casuales hasta profesionales.

Comparte este artículo

Otras notas de tu interés:

Politica

Donald Trump y su ‘Gira de Venganza’ Republicana: El Apoyo a Cassidy Define el Camino Hacia las Primarias

Economia

Los centros de datos se convierten en un tema clave en la carrera por la gobernación de Georgia

Tecnologia

Google anuncia audífonos inteligentes con reconocimiento de voz en Google I/O 2026

Tecnologia

Google Gemini se renueva en el I/O 2026: Daily Brief, diseño ‘Neural Expressive’ y el agente Gemini Spark para competir con ChatGPT y Claude

Economia

Google Universal Cart y AP2: La nueva era de las compras en línea con inteligencia artificial

Negocios

Ocean, la startup que combate el phishing con IA, levanta $28 millones

Negocios

Google revoluciona la búsqueda con agentes de IA que trabajan 24/7

Tecnologia

Google I/O 2026: Gmail Live revoluciona la bandeja de entrada con búsqueda conversacional impulsada por IA

Tecnologia

Google lanza Pics: la nueva app de diseño e imagen generativa con IA para Workspace

Economia

El veredicto que expuso las contradicciones de Elon Musk en el juicio contra OpenAI