ChatGPT Images 2.0: La nueva frontera en generación de imágenes con IA

De los errores cómicos a la perfección visual: así ha evolucionado la IA generativa

Hace solo dos años, distinguir entre una imagen creada por un humano y una generada por inteligencia artificial era una tarea sencilla. Los modelos de imagen de la época, como DALL-E 3, solían inventar platos absurdos al intentar crear menús para restaurantes, con resultados hilarantes como «enchuita», «churiros», «burrto» o «margartas».

Robot de IA generando contenido junto a una laptop
La IA ha avanzado desde simples asistentes de texto hasta complejos generadores de contenido visual.

Hoy, la historia es radicalmente distinta. Al pedirle al nuevo modelo ChatGPT Images 2.0 que genere un menú de comida mexicana, el resultado es tan preciso y profesional que podría usarse inmediatamente en un restaurante sin que los clientes perciban nada extraño. (Aunque un ceviche a 13.50 dólares quizás haría dudar de la calidad del pescado).

Superando el talón de Aquiles: la ortografía y el texto

Los generadores de imágenes han tenido históricamente dificultades para renderizar texto correctamente. Esto se debía a que generalmente utilizaban modelos de difusión, los cuales reconstruyen imágenes a partir de ruido.

«Los modelos de difusión reconstruyen una entrada dada. Podemos asumir que los textos en una imagen son una parte minúscula, por lo que el generador aprende los patrones que cubren más píxeles», explicó un experto en el campo.

Posteriormente, se exploraron otros mecanismos como los modelos autoregresivos, que predicen cómo debería verse una imagen y funcionan de manera más similar a un modelo de lenguaje grande (LLM).

«Capacidades de pensamiento»: el motor detrás de Images 2.0

OpenAI no ha revelado públicamente qué tipo de modelo impulsa a ChatGPT Images 2.0. Sin embargo, la compañía sí ha explicado que el nuevo modelo posee «capacidades de pensamiento». Esto le otorga la habilidad de:

  • Buscar información en la web para contextualizar sus creaciones.
  • Generar múltiples imágenes a partir de un solo prompt.
  • Verificar sus propias creaciones para asegurar la calidad.

Estas capacidades permiten a Images 2.0 crear activos de marketing en varios tamaños e incluso tiras cómicas de varios paneles de manera coherente.

Un modelo más global y con límites temporales

OpenAI también destaca que Images 2.0 tiene una comprensión más robusta del texto no latino, mejorando el renderizado en idiomas como japonés, coreano, hindi y bengalí. No obstante, el conocimiento del modelo tiene una fecha de corte: diciembre de 2025. Esto podría impactar en la precisión al generar prompts que involucren eventos o noticias muy recientes.

Especificidad, fidelidad y resolución 2K

Según un comunicado de la empresa, «Images 2.0 lleva un nivel de especificidad y fidelidad sin precedentes a la creación de imágenes. No solo puede conceptualizar imágenes más sofisticadas, sino que efectivamente da vida a esa visión, siendo capaz de seguir instrucciones, preservar detalles solicitados y renderizar elementos de grano fino que a menudo rompen los modelos de imagen: texto pequeño, iconografía, elementos de interfaz de usuario, composiciones densas y restricciones estilísticas sutiles, todo con una resolución de hasta 2K».

Estas capacidades avanzadas significan que la generación de imágenes no es tan rápida como hacer una pregunta de texto a ChatGPT, pero crear algo complejo como una tira cómica de varios paneles solo toma unos minutos.

Disponibilidad y acceso para desarrolladores

Todos los usuarios de ChatGPT y Codex podrán acceder a Images 2.0 a partir de este martes. Los usuarios con planes de pago tendrán acceso a salidas más avanzadas. Además, la compañía pondrá a disposición la API gpt-image-2, cuyo precio dependerá de la calidad y resolución de las imágenes generadas.

Este avance marca un hito en la democratización de la creación de contenido visual de alta calidad, acercando las capacidades profesionales de diseño a un público mucho más amplio.

Comparte este artículo

Otras notas de tu interés:

Economia

Tornado Impacta Fábrica de Rivian: Daños en la Línea de Producción del R2 SUV

Negocios

Meta utiliza datos de sus empleados para entrenar sus modelos de inteligencia artificial

Economia

SpaceX Asegura Opción para Comprar la Startup de IA Cursor por $60 Mil Millones

Noticia Local

Investigación Criminal a OpenAI por Uso de ChatGPT en Planificación de Tiroteo en FSU

Negocios

AllHere: La empresa tecnológica que recaudó $1.6 millones de Miami-Dade antes de colapsar en investigación federal

Economia

John Ternus: Los Colosales Desafíos y Batallas que Hereda al Tomar el Mando de Apple

Economia

NeoCognition Revoluciona la IA con Agentes Autoaprendices y una Inversión de $40 Millones

Negocios

Sam Altman acusa a Anthropic de usar el miedo para vender su modelo de ciberseguridad ‘Mythos’

Noticia Local

Florida Investiga el Papel de ChatGPT en el Tiroteo de la Universidad Estatal de Florida

Negocios

Escándalo de Datos: Clarifai Elimina 3 Millones de Fotos de OkCupid para Entrenar su IA