De los errores cómicos a la perfección visual: así ha evolucionado la IA generativa
Hace solo dos años, distinguir entre una imagen creada por un humano y una generada por inteligencia artificial era una tarea sencilla. Los modelos de imagen de la época, como DALL-E 3, solían inventar platos absurdos al intentar crear menús para restaurantes, con resultados hilarantes como «enchuita», «churiros», «burrto» o «margartas».

Hoy, la historia es radicalmente distinta. Al pedirle al nuevo modelo ChatGPT Images 2.0 que genere un menú de comida mexicana, el resultado es tan preciso y profesional que podría usarse inmediatamente en un restaurante sin que los clientes perciban nada extraño. (Aunque un ceviche a 13.50 dólares quizás haría dudar de la calidad del pescado).
Superando el talón de Aquiles: la ortografía y el texto
Los generadores de imágenes han tenido históricamente dificultades para renderizar texto correctamente. Esto se debía a que generalmente utilizaban modelos de difusión, los cuales reconstruyen imágenes a partir de ruido.
«Los modelos de difusión reconstruyen una entrada dada. Podemos asumir que los textos en una imagen son una parte minúscula, por lo que el generador aprende los patrones que cubren más píxeles», explicó un experto en el campo.
Posteriormente, se exploraron otros mecanismos como los modelos autoregresivos, que predicen cómo debería verse una imagen y funcionan de manera más similar a un modelo de lenguaje grande (LLM).
«Capacidades de pensamiento»: el motor detrás de Images 2.0
OpenAI no ha revelado públicamente qué tipo de modelo impulsa a ChatGPT Images 2.0. Sin embargo, la compañía sí ha explicado que el nuevo modelo posee «capacidades de pensamiento». Esto le otorga la habilidad de:
- Buscar información en la web para contextualizar sus creaciones.
- Generar múltiples imágenes a partir de un solo prompt.
- Verificar sus propias creaciones para asegurar la calidad.
Estas capacidades permiten a Images 2.0 crear activos de marketing en varios tamaños e incluso tiras cómicas de varios paneles de manera coherente.
Un modelo más global y con límites temporales
OpenAI también destaca que Images 2.0 tiene una comprensión más robusta del texto no latino, mejorando el renderizado en idiomas como japonés, coreano, hindi y bengalí. No obstante, el conocimiento del modelo tiene una fecha de corte: diciembre de 2025. Esto podría impactar en la precisión al generar prompts que involucren eventos o noticias muy recientes.
Especificidad, fidelidad y resolución 2K
Según un comunicado de la empresa, «Images 2.0 lleva un nivel de especificidad y fidelidad sin precedentes a la creación de imágenes. No solo puede conceptualizar imágenes más sofisticadas, sino que efectivamente da vida a esa visión, siendo capaz de seguir instrucciones, preservar detalles solicitados y renderizar elementos de grano fino que a menudo rompen los modelos de imagen: texto pequeño, iconografía, elementos de interfaz de usuario, composiciones densas y restricciones estilísticas sutiles, todo con una resolución de hasta 2K».
Estas capacidades avanzadas significan que la generación de imágenes no es tan rápida como hacer una pregunta de texto a ChatGPT, pero crear algo complejo como una tira cómica de varios paneles solo toma unos minutos.
Disponibilidad y acceso para desarrolladores
Todos los usuarios de ChatGPT y Codex podrán acceder a Images 2.0 a partir de este martes. Los usuarios con planes de pago tendrán acceso a salidas más avanzadas. Además, la compañía pondrá a disposición la API gpt-image-2, cuyo precio dependerá de la calidad y resolución de las imágenes generadas.
Este avance marca un hito en la democratización de la creación de contenido visual de alta calidad, acercando las capacidades profesionales de diseño a un público mucho más amplio.