OpenAI Revoluciona la Inteligencia Vocal: Nuevas Funciones en su API para Hablar, Transcribir y Traducir en Tiempo Real

OpenAI presenta su nueva ola de inteligencia vocal en la API

Este jueves 7 de mayo de 2026, OpenAI anunció la incorporación de varias funciones de inteligencia vocal en su API, diseñadas para que los desarrolladores puedan crear aplicaciones capaces de conversar, transcribir y traducir interacciones con los usuarios de forma natural y fluida.

Nuevos modelos de voz: GPT-Realtime-2, Translate y Whisper

La compañía lanzó GPT‑Realtime‑2, un modelo de voz avanzado que ofrece una simulación vocal realista y está potenciado con la capacidad de razonamiento de la clase GPT‑5. A diferencia de su predecesor (GPT-Realtime-1.5), este nuevo modelo está diseñado para manejar solicitudes más complejas por parte de los usuarios.

Además, OpenAI presentó GPT‑Realtime‑Translate, una herramienta de traducción en tiempo real que «se mantiene al ritmo» del usuario de manera conversacional. Este servicio soporta más de 70 idiomas de entrada (los que puede comprender) y 13 idiomas de salida (los que transmite al hablante).

Por último, GPT-Realtime-Whisper ofrece capacidades de transcripción de voz a texto en vivo, capturando las interacciones tal como ocurren.

Declaraciones de OpenAI

“En conjunto, los modelos que lanzamos transforman el audio en tiempo real, pasando de simples llamadas y respuestas a interfaces de voz que realmente pueden trabajar: escuchar, razonar, traducir, transcribir y actuar mientras se desarrolla una conversación”, afirmó la compañía.

¿A quiénes beneficiarán estas actualizaciones?

Según OpenAI, estas nuevas capacidades tienen un amplio espectro de aplicaciones:

  • Atención al cliente: empresas que deseen expandir sus servicios de soporte.
  • Educación: plataformas de aprendizaje de idiomas y herramientas educativas.
  • Medios y comunicación: traducción y transcripción en vivo para periodistas y creadores.
  • Eventos y plataformas de creadores: interacciones en tiempo real con audiencias globales.

Diseño abstracto de inteligencia vocal con ondas sonoras

Representación visual de la interacción de voz con inteligencia artificial.

Seguridad y prevención de abusos

OpenAI ha implementado barreras de seguridad para evitar el mal uso de estas funciones, como la generación de spam, fraude u otro tipo de abuso online. Se han integrado disparadores en el sistema para que “las conversaciones puedan detenerse si se detecta que violan nuestras pautas de contenido dañino”, explicó la empresa.

Modelos de facturación

Todos los nuevos modelos de voz están incluidos en la API Realtime de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura por consumo de tokens.

Con estas innovaciones, OpenAI da un paso firme hacia interfaces de voz más inteligentes y versátiles, abriendo un abanico de posibilidades para desarrolladores y empresas en todo el mundo.

Comparte este artículo

Otras notas de tu interés:

Economia

Gavin Newsom logra acuerdo con Uber para evitar costosa batalla legal en California

Economia

Gobierno de Trump impone restricciones al lanzamiento de OpenAI GPT 5.6 por seguridad

Economia

Patronus AI recauda 50 millones de dólares para poner a prueba agentes de IA en mundos digitales simulados

Economia

Claude de Anthropic: Crecimiento Imparable entre Consumidores de IA

Tecnologia

Arquitectura oscilatoria: la nueva era de la computación para IA promete reducir el consumo energético 1000 veces

Negocios

Inteligencia Artificial Generalizada a través de Videojuegos: El Modelo que Aprende a Navegar el Mundo Real

Economia

La inflación en EE.UU. retrocede a 2,89% en julio de 2024: señales para las tasas de interés y los mercados

Economia

Founder Summit 2026: Última oportunidad para ahorrar hasta $190 en tu entrada

Negocios

Victoria en la Corte Suprema: Bayer Gana el Caso Legal MAHA sobre el Herbicida Roundup

Economia

Netris asegura $15 millones en Serie A para automatizar centros de datos de IA