Mistral AI lanza Voxtral TTS: el modelo de voz open source que rivaliza con los gigantes

Mistral AI revoluciona el mercado de la síntesis de voz con un nuevo modelo open source

La empresa francesa de inteligencia artificial Mistral anunció este jueves el lanzamiento de un nuevo modelo de texto a voz de código abierto, diseñado para ser utilizado en asistentes de voz IA o en casos de uso empresarial como el soporte al cliente. Este movimiento posiciona a la compañía en competencia directa con actores consolidados como ElevenLabs, Deepgram y OpenAI.

Ilustración de herramientas de generación de voz IA
Herramientas digitales para la síntesis de voz y soluciones de IA moderna.

Voxtral TTS: Multilingüe y altamente personalizable

El nuevo modelo, llamado Voxtral TTS, soporta nueve idiomas: inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe. Según Pierre Stock, vicepresidente de operaciones científicas de Mistral AI, el modelo fue creado para satisfacer la demanda de los clientes y su tamaño reducido le permite ejecutarse en dispositivos de borde como smartwatches, smartphones o laptops, con un costo significativamente menor al del mercado.

Una de sus capacidades destacadas es la adaptación de una voz personalizada con una muestra de menos de cinco segundos, capturando características como acentos sutiles, inflexiones, entonaciones e irregularidades en el flujo del habla. Basado en Ministral 3B, el modelo puede cambiar entre idiomas fácilmente sin perder las características de la voz, lo que es útil para doblaje o traducción en tiempo real. «Queríamos que el modelo sonara humano y no robótico», afirmó Stock.

Rendimiento en tiempo real para aplicaciones empresariales

Mistral ha construido el modelo pensando en el rendimiento en tiempo real. Cuenta con un tiempo para el primer audio (TTFA) de 90 milisegundos para una muestra de 10 segundos y 500 caracteres. Además, su factor de tiempo real (RTF) es de 6x, lo que significa que puede renderizar un clip de 10 segundos en aproximadamente 1.6 segundos.

Generador de texto a voz con robot y ondas sonoras
Interfaz de generación de voz que muestra la síntesis de audio en acción.

Una suite completa de productos de voz

A principios de este año, Mistral lanzó un par de modelos de transcripción, uno para procesamiento por lotes y otro para casos de uso en tiempo real con baja latencia. Con este nuevo modelo de voz, la compañía busca ofrecer una suite completa de productos de voz para empresas.

«Planeamos tener una plataforma integral que pueda manejar flujos de entrada multimodales, incluidos audio, texto e imagen, y también de salida. El principal beneficio es que obtienes mucha más información con un sistema agéntico integral que admite el audio como entrada o salida», explicó Stock.

Ventaja competitiva: open source y personalización

La posición de Mistral se basa en que su enfoque de código abierto y la capacidad de personalización ayudarán a las empresas a adoptar sus modelos de voz sobre los de la competencia, ya que pueden ajustarlos a su manera. Este modelo permite a las empresas construir agentes de voz para ventas y compromiso con el cliente, consolidando la oferta de Mistral en el creciente mercado de la IA conversacional.

Comparte este artículo

Otras notas de tu interés:

Sociedad y Cultura

Social Media en el Banquillo: La Crisis de Big Tech y las Tendencias de Evaluación

Politica

Senado de EE.UU. exige recopilación de datos sobre consumo energético de centros de datos

Negocios

OpenAI detiene indefinidamente el desarrollo del modo erótico de ChatGPT

Espectáculos y Entretenimiento

ByteDance revoluciona la creación de contenido con el lanzamiento de Dreamina Seedance 2.0 en CapCut

Economia

IA vs. Empleo: Un Senador Propone Gravar los Data Centers para Financiar la Transición Laboral

Economia

Guerra en Irán: Efectos en las Inversiones del Golfo

Negocios

Cohere Revoluciona el ASR con el Lanzamiento de Transcribe, su Modelo de Voz Open-Source

Negocios

Conntour recauda $7 millones para revolucionar la videovigilancia con inteligencia artificial

Economia

Manus: La startup china de IA que vendió todo a Meta y enfureció a Beijing

Politica

Newsom: El veredicto de las redes sociales debe ser un ‘momento de rendición de cuentas’ para Big Tech