Mistral AI revoluciona el mercado de la síntesis de voz con un nuevo modelo open source
La empresa francesa de inteligencia artificial Mistral anunció este jueves el lanzamiento de un nuevo modelo de texto a voz de código abierto, diseñado para ser utilizado en asistentes de voz IA o en casos de uso empresarial como el soporte al cliente. Este movimiento posiciona a la compañía en competencia directa con actores consolidados como ElevenLabs, Deepgram y OpenAI.

Voxtral TTS: Multilingüe y altamente personalizable
El nuevo modelo, llamado Voxtral TTS, soporta nueve idiomas: inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe. Según Pierre Stock, vicepresidente de operaciones científicas de Mistral AI, el modelo fue creado para satisfacer la demanda de los clientes y su tamaño reducido le permite ejecutarse en dispositivos de borde como smartwatches, smartphones o laptops, con un costo significativamente menor al del mercado.
Una de sus capacidades destacadas es la adaptación de una voz personalizada con una muestra de menos de cinco segundos, capturando características como acentos sutiles, inflexiones, entonaciones e irregularidades en el flujo del habla. Basado en Ministral 3B, el modelo puede cambiar entre idiomas fácilmente sin perder las características de la voz, lo que es útil para doblaje o traducción en tiempo real. «Queríamos que el modelo sonara humano y no robótico», afirmó Stock.
Rendimiento en tiempo real para aplicaciones empresariales
Mistral ha construido el modelo pensando en el rendimiento en tiempo real. Cuenta con un tiempo para el primer audio (TTFA) de 90 milisegundos para una muestra de 10 segundos y 500 caracteres. Además, su factor de tiempo real (RTF) es de 6x, lo que significa que puede renderizar un clip de 10 segundos en aproximadamente 1.6 segundos.

Una suite completa de productos de voz
A principios de este año, Mistral lanzó un par de modelos de transcripción, uno para procesamiento por lotes y otro para casos de uso en tiempo real con baja latencia. Con este nuevo modelo de voz, la compañía busca ofrecer una suite completa de productos de voz para empresas.
«Planeamos tener una plataforma integral que pueda manejar flujos de entrada multimodales, incluidos audio, texto e imagen, y también de salida. El principal beneficio es que obtienes mucha más información con un sistema agéntico integral que admite el audio como entrada o salida», explicó Stock.
Ventaja competitiva: open source y personalización
La posición de Mistral se basa en que su enfoque de código abierto y la capacidad de personalización ayudarán a las empresas a adoptar sus modelos de voz sobre los de la competencia, ya que pueden ajustarlos a su manera. Este modelo permite a las empresas construir agentes de voz para ventas y compromiso con el cliente, consolidando la oferta de Mistral en el creciente mercado de la IA conversacional.