OpenAI presenta su nueva ola de inteligencia vocal en la API
Este jueves 7 de mayo de 2026, OpenAI anunció la incorporación de varias funciones de inteligencia vocal en su API, diseñadas para que los desarrolladores puedan crear aplicaciones capaces de conversar, transcribir y traducir interacciones con los usuarios de forma natural y fluida.
Nuevos modelos de voz: GPT-Realtime-2, Translate y Whisper
La compañía lanzó GPT‑Realtime‑2, un modelo de voz avanzado que ofrece una simulación vocal realista y está potenciado con la capacidad de razonamiento de la clase GPT‑5. A diferencia de su predecesor (GPT-Realtime-1.5), este nuevo modelo está diseñado para manejar solicitudes más complejas por parte de los usuarios.
Además, OpenAI presentó GPT‑Realtime‑Translate, una herramienta de traducción en tiempo real que «se mantiene al ritmo» del usuario de manera conversacional. Este servicio soporta más de 70 idiomas de entrada (los que puede comprender) y 13 idiomas de salida (los que transmite al hablante).
Por último, GPT-Realtime-Whisper ofrece capacidades de transcripción de voz a texto en vivo, capturando las interacciones tal como ocurren.
Declaraciones de OpenAI
“En conjunto, los modelos que lanzamos transforman el audio en tiempo real, pasando de simples llamadas y respuestas a interfaces de voz que realmente pueden trabajar: escuchar, razonar, traducir, transcribir y actuar mientras se desarrolla una conversación”, afirmó la compañía.
¿A quiénes beneficiarán estas actualizaciones?
Según OpenAI, estas nuevas capacidades tienen un amplio espectro de aplicaciones:
- Atención al cliente: empresas que deseen expandir sus servicios de soporte.
- Educación: plataformas de aprendizaje de idiomas y herramientas educativas.
- Medios y comunicación: traducción y transcripción en vivo para periodistas y creadores.
- Eventos y plataformas de creadores: interacciones en tiempo real con audiencias globales.

Seguridad y prevención de abusos
OpenAI ha implementado barreras de seguridad para evitar el mal uso de estas funciones, como la generación de spam, fraude u otro tipo de abuso online. Se han integrado disparadores en el sistema para que “las conversaciones puedan detenerse si se detecta que violan nuestras pautas de contenido dañino”, explicó la empresa.
Modelos de facturación
Todos los nuevos modelos de voz están incluidos en la API Realtime de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura por consumo de tokens.
Con estas innovaciones, OpenAI da un paso firme hacia interfaces de voz más inteligentes y versátiles, abriendo un abanico de posibilidades para desarrolladores y empresas en todo el mundo.