Negocios, Tecnologia, Tendencias

Portada » Artículos » Google Gemini Omni: El nuevo modelo multimodal que genera videos, imágenes, audio y texto

Google Gemini Omni: El nuevo modelo multimodal que genera videos, imágenes, audio y texto

mayo 19, 2026

Google da un paso concreto hacia la inteligencia artificial multimodal con Gemini Omni

Hoy, en su conferencia de desarrolladores Google I/O, la compañía anunció Gemini Omni, una nueva familia de modelos multimodales que, según Sundar Pichai, CEO de Google, será capaz de “crear cualquier cosa a partir de cualquier entrada”. El objetivo original de Gemini, lanzado hace tres años, era construir un modelo de lenguaje multimodal, una única red neuronal entrenada en texto, imagen, audio y video, capaz de generar contenido en cualquiera de esos formatos. Con Omni, ese objetivo se materializa.

¿Qué es Gemini Omni y cómo funciona?

Gemini Omni comienza con la capacidad de generar video. Los usuarios pueden combinar imágenes, audio, video y texto, y el modelo no solo une esas entradas, sino que razona a través de todas ellas para producir una salida coherente. El resultado son videos de alta calidad que reflejan una comprensión de la física, la cultura, la historia y la ciencia. Por ejemplo, cuando se le dio una simple instrucción como “un video explicativo de claymation sobre el plegamiento de proteínas”, Omni generó rápidamente un video con narración que describía el proceso.

La interfaz de usuario de Gemini Omni permite interactuar con múltiples formatos de contenido.

Edición de fotos con texto y avatares digitales

Además de la generación de video, Omni permite editar fotos con comandos de texto simples, similar a la herramienta Nano Banana de Google. Los usuarios también podrán crear videos con sus propios avatares digitales, una funcionalidad popularizada por OpenAI en Sora. Para prevenir deepfakes, los usuarios deberán pasar por un proceso de incorporación que incluye grabarse a sí mismos pronunciando una serie de números; el avatar se almacena para uso futuro. Todos los videos creados con Omni incluirán la marca de agua digital SynthID de Google, que permite verificar su origen.

Omni Flash: el primer modelo disponible para consumidores

El primer modelo de la familia es Gemini Omni Flash, que se lanza hoy en la aplicación Gemini, YouTube Shorts y en el estudio creativo Flow. Flash puede generar videos de hasta 10 segundos. Nicole Brichtova, directora de gestión de productos de Google DeepMind, explicó que esta duración no es una limitación del modelo, sino una decisión para ponerlo en más manos y anticipando que la mayoría de los usuarios aún no querrán videos mucho más largos. Se esperan duraciones mayores en el futuro cercano.

Los ejemplos de uso para avatares digitales son personales: crear un video de uno mismo ganando un premio, yendo a la luna o eliminando a un transeúnte del fondo de un video tomado en vacaciones. Gabe Barth-Maron, ingeniero de investigación en DeepMind, lo llamó “memes personalizados”. La facilidad de uso conlleva una advertencia: las indicaciones de edición deben ser muy específicas para evitar sobreditar o alterar elementos no deseados.

Implicaciones empresariales y creativas

A pesar del enfoque inicial en consumidores, las implicaciones empresariales y creativas de Omni son evidentes. Google pondrá Omni disponible a través de API en las próximas semanas. La herramienta de generación de avatares, que ya está disponible en Shorts, se espera que sea adoptada por creadores de contenido. Pero más allá, un flujo de trabajo multimodal completo podría transformar a anunciantes y cineastas. Brichtova destacó la capacidad del modelo para renderizar texto con precisión, muy útil para publicidad. El modelo Omni Pro, que ofrecerá un mejor rendimiento, aún no tiene fecha de lanzamiento, pero llegará cuando “sientan que hay un cambio significativo sobre Flash”.

“Cuando anunciamos Gemini por primera vez, era nuestro primer modelo de IA nativamente multimodal. Sabíamos que entrenarlo en una combinación de texto, código, audio, imágenes y video le daría una comprensión más profunda del mundo. Con los modelos de mundo, la IA está pasando de predecir texto a simular la realidad. Gemini Omni es el siguiente paso en esa dirección.” – Sundar Pichai.

El artículo original de referencia menciona que Google está construyendo algo similar a lo que hace la startup Luma AI, pero sin mencionar fuentes externas. Lo clave es que Google apuesta a que Omni sea una herramienta fácil de usar para todos, desde creadores casuales hasta profesionales.

Tags Avatares digitales, deepfake, Gemini Omni, Generación de Video, Google, Google I/O, Inteligencia Artificial, modelo multimodal, multimodal, SynthID

Comparte este artículo

Otras notas de tu interés:

Negocios

Vercel CEO Guillermo Rauch: ‘Estamos decidiendo si el modelo y el agente se acoplan’

julio 6, 2026

Tecnologia

Reddit Combate el Spam Generado por IA con sus Propias Herramientas de LLM

julio 6, 2026

Economia

Crisis de empleo tech en 2026: la inteligencia artificial ha eliminado 120,000 puestos

julio 6, 2026

Tecnologia

Google entrena su IA con tus fotos y audios: así puedes desactivarlo

julio 6, 2026

Economia

Microsoft despide a 4,800 empleados: Xbox y ventas comerciales sufren el mayor impacto

julio 6, 2026

Politica Internacional

Recortes Presupuestarios Amenazan las Advertencias Meteorológicas en EE. UU.

julio 6, 2026

Negocios

Station F Refuerza su Apuesta por la IA con la Segunda Edición del Programa F/ai en Europa

julio 6, 2026

Economia

Epstein movió millones a través del banco Southern Country International antes de su arresto

julio 6, 2026

Economia

Trump MAGA Inc: 350 Millones de Dólares que los Republicanos Quieren Ver

julio 6, 2026

Economia

Millones Fueron Movidos al Banco Secreto de Epstein en las Islas Vírgenes Antes de su Arresto

julio 6, 2026