ChatGPT Images 2.0: La nueva frontera en generación de imágenes con IA

De los errores cómicos a la perfección visual: así ha evolucionado la IA generativa

Hace solo dos años, distinguir entre una imagen creada por un humano y una generada por inteligencia artificial era una tarea sencilla. Los modelos de imagen de la época, como DALL-E 3, solían inventar platos absurdos al intentar crear menús para restaurantes, con resultados hilarantes como «enchuita», «churiros», «burrto» o «margartas».

Robot de IA generando contenido junto a una laptop
La IA ha avanzado desde simples asistentes de texto hasta complejos generadores de contenido visual.

Hoy, la historia es radicalmente distinta. Al pedirle al nuevo modelo ChatGPT Images 2.0 que genere un menú de comida mexicana, el resultado es tan preciso y profesional que podría usarse inmediatamente en un restaurante sin que los clientes perciban nada extraño. (Aunque un ceviche a 13.50 dólares quizás haría dudar de la calidad del pescado).

Superando el talón de Aquiles: la ortografía y el texto

Los generadores de imágenes han tenido históricamente dificultades para renderizar texto correctamente. Esto se debía a que generalmente utilizaban modelos de difusión, los cuales reconstruyen imágenes a partir de ruido.

«Los modelos de difusión reconstruyen una entrada dada. Podemos asumir que los textos en una imagen son una parte minúscula, por lo que el generador aprende los patrones que cubren más píxeles», explicó un experto en el campo.

Posteriormente, se exploraron otros mecanismos como los modelos autoregresivos, que predicen cómo debería verse una imagen y funcionan de manera más similar a un modelo de lenguaje grande (LLM).

«Capacidades de pensamiento»: el motor detrás de Images 2.0

OpenAI no ha revelado públicamente qué tipo de modelo impulsa a ChatGPT Images 2.0. Sin embargo, la compañía sí ha explicado que el nuevo modelo posee «capacidades de pensamiento». Esto le otorga la habilidad de:

  • Buscar información en la web para contextualizar sus creaciones.
  • Generar múltiples imágenes a partir de un solo prompt.
  • Verificar sus propias creaciones para asegurar la calidad.

Estas capacidades permiten a Images 2.0 crear activos de marketing en varios tamaños e incluso tiras cómicas de varios paneles de manera coherente.

Un modelo más global y con límites temporales

OpenAI también destaca que Images 2.0 tiene una comprensión más robusta del texto no latino, mejorando el renderizado en idiomas como japonés, coreano, hindi y bengalí. No obstante, el conocimiento del modelo tiene una fecha de corte: diciembre de 2025. Esto podría impactar en la precisión al generar prompts que involucren eventos o noticias muy recientes.

Especificidad, fidelidad y resolución 2K

Según un comunicado de la empresa, «Images 2.0 lleva un nivel de especificidad y fidelidad sin precedentes a la creación de imágenes. No solo puede conceptualizar imágenes más sofisticadas, sino que efectivamente da vida a esa visión, siendo capaz de seguir instrucciones, preservar detalles solicitados y renderizar elementos de grano fino que a menudo rompen los modelos de imagen: texto pequeño, iconografía, elementos de interfaz de usuario, composiciones densas y restricciones estilísticas sutiles, todo con una resolución de hasta 2K».

Estas capacidades avanzadas significan que la generación de imágenes no es tan rápida como hacer una pregunta de texto a ChatGPT, pero crear algo complejo como una tira cómica de varios paneles solo toma unos minutos.

Disponibilidad y acceso para desarrolladores

Todos los usuarios de ChatGPT y Codex podrán acceder a Images 2.0 a partir de este martes. Los usuarios con planes de pago tendrán acceso a salidas más avanzadas. Además, la compañía pondrá a disposición la API gpt-image-2, cuyo precio dependerá de la calidad y resolución de las imágenes generadas.

Este avance marca un hito en la democratización de la creación de contenido visual de alta calidad, acercando las capacidades profesionales de diseño a un público mucho más amplio.

Comparte este artículo

Otras notas de tu interés:

Sociedad y Cultura

Campbell Brown y Forum AI: La lucha por la verdad en la era de la inteligencia artificial

Economia

Clio Alcanza $500M en ARR: La IA Impulsa el Crecimiento del Sector Legal Tech

Economia

Exdirector de hacking de L3Harris pagará $10 millones por vender herramientas a un broker ruso

Economia

Amazon Lanza ‘Amazon Now’: Entregas en 30 Minutos en Estados Unidos

Tecnologia

Google lanza ‘Create My Widget’: personaliza tu Android con inteligencia artificial

Tecnologia

Google I/O: Nuevas funciones de IA Gemini transforman Android con widgets, navegación y asistencia inteligente

Negocios

Anthropic lanza nuevas herramientas de IA para el sector legal en medio de una intensa competencia

Politica

RFK Jr. y su postura sobre vacunas: ¿factor decisivo en la campaña presidencial de EE. UU.?

Negocios

Google lanza Rambler: la función de dictado con IA para Gboard que desafía a las startups

Tecnologia

Android Show de Google: Nuevas funciones, Googlebook y Gemini llegan con grandes actualizaciones