OpenAI Revoluciona la Inteligencia Vocal: Nuevas Funciones en su API para Hablar, Transcribir y Traducir en Tiempo Real

OpenAI presenta su nueva ola de inteligencia vocal en la API

Este jueves 7 de mayo de 2026, OpenAI anunció la incorporación de varias funciones de inteligencia vocal en su API, diseñadas para que los desarrolladores puedan crear aplicaciones capaces de conversar, transcribir y traducir interacciones con los usuarios de forma natural y fluida.

Nuevos modelos de voz: GPT-Realtime-2, Translate y Whisper

La compañía lanzó GPT‑Realtime‑2, un modelo de voz avanzado que ofrece una simulación vocal realista y está potenciado con la capacidad de razonamiento de la clase GPT‑5. A diferencia de su predecesor (GPT-Realtime-1.5), este nuevo modelo está diseñado para manejar solicitudes más complejas por parte de los usuarios.

Además, OpenAI presentó GPT‑Realtime‑Translate, una herramienta de traducción en tiempo real que «se mantiene al ritmo» del usuario de manera conversacional. Este servicio soporta más de 70 idiomas de entrada (los que puede comprender) y 13 idiomas de salida (los que transmite al hablante).

Por último, GPT-Realtime-Whisper ofrece capacidades de transcripción de voz a texto en vivo, capturando las interacciones tal como ocurren.

Declaraciones de OpenAI

“En conjunto, los modelos que lanzamos transforman el audio en tiempo real, pasando de simples llamadas y respuestas a interfaces de voz que realmente pueden trabajar: escuchar, razonar, traducir, transcribir y actuar mientras se desarrolla una conversación”, afirmó la compañía.

¿A quiénes beneficiarán estas actualizaciones?

Según OpenAI, estas nuevas capacidades tienen un amplio espectro de aplicaciones:

  • Atención al cliente: empresas que deseen expandir sus servicios de soporte.
  • Educación: plataformas de aprendizaje de idiomas y herramientas educativas.
  • Medios y comunicación: traducción y transcripción en vivo para periodistas y creadores.
  • Eventos y plataformas de creadores: interacciones en tiempo real con audiencias globales.

Diseño abstracto de inteligencia vocal con ondas sonoras

Representación visual de la interacción de voz con inteligencia artificial.

Seguridad y prevención de abusos

OpenAI ha implementado barreras de seguridad para evitar el mal uso de estas funciones, como la generación de spam, fraude u otro tipo de abuso online. Se han integrado disparadores en el sistema para que “las conversaciones puedan detenerse si se detecta que violan nuestras pautas de contenido dañino”, explicó la empresa.

Modelos de facturación

Todos los nuevos modelos de voz están incluidos en la API Realtime de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura por consumo de tokens.

Con estas innovaciones, OpenAI da un paso firme hacia interfaces de voz más inteligentes y versátiles, abriendo un abanico de posibilidades para desarrolladores y empresas en todo el mundo.

Comparte este artículo

Otras notas de tu interés:

Politica Internacional

EE.UU. Afianza su Liderazgo en IA: Nuevas Regulaciones y Proyectos Estratégicos

Tecnologia

Hackers desfiguran páginas de inicio de sesión de escuelas tras nueva filtración de datos de Instructure

Negocios

OpenAI lanza modelo avanzado de IA para competir con Mythos de Anthropic

Economia

Pit: La startup sueca de IA que apuesta por la automatización empresarial desde Estocolmo

Politica Internacional

Hackers roban datos de estudiantes en masiva brecha de Instructure

Bienestar y Salud Mental

OpenAI presenta ‘Trusted Contact’: una función para prevenir el auto-daño en ChatGPT

Negocios

Bumble elimina la función de deslizamiento: CEO Whitney Wolfe Herd anuncia un cambio radical

Economia

La demanda de Elon Musk contra OpenAI expone fallas en la seguridad por priorizar productos

Negocios

Perplexity Lanza su «Personal Computer» para Mac: Asistente de IA Local Ahora Disponible

Economia

EE.UU. impone sanciones a la empresa militar cubana GAESA y provoca la suspensión de Sherritt