Mistral AI lanza Voxtral TTS: el modelo de voz open source que rivaliza con los gigantes

Mistral AI revoluciona el mercado de la síntesis de voz con un nuevo modelo open source

La empresa francesa de inteligencia artificial Mistral anunció este jueves el lanzamiento de un nuevo modelo de texto a voz de código abierto, diseñado para ser utilizado en asistentes de voz IA o en casos de uso empresarial como el soporte al cliente. Este movimiento posiciona a la compañía en competencia directa con actores consolidados como ElevenLabs, Deepgram y OpenAI.

Ilustración de herramientas de generación de voz IA
Herramientas digitales para la síntesis de voz y soluciones de IA moderna.

Voxtral TTS: Multilingüe y altamente personalizable

El nuevo modelo, llamado Voxtral TTS, soporta nueve idiomas: inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe. Según Pierre Stock, vicepresidente de operaciones científicas de Mistral AI, el modelo fue creado para satisfacer la demanda de los clientes y su tamaño reducido le permite ejecutarse en dispositivos de borde como smartwatches, smartphones o laptops, con un costo significativamente menor al del mercado.

Una de sus capacidades destacadas es la adaptación de una voz personalizada con una muestra de menos de cinco segundos, capturando características como acentos sutiles, inflexiones, entonaciones e irregularidades en el flujo del habla. Basado en Ministral 3B, el modelo puede cambiar entre idiomas fácilmente sin perder las características de la voz, lo que es útil para doblaje o traducción en tiempo real. «Queríamos que el modelo sonara humano y no robótico», afirmó Stock.

Rendimiento en tiempo real para aplicaciones empresariales

Mistral ha construido el modelo pensando en el rendimiento en tiempo real. Cuenta con un tiempo para el primer audio (TTFA) de 90 milisegundos para una muestra de 10 segundos y 500 caracteres. Además, su factor de tiempo real (RTF) es de 6x, lo que significa que puede renderizar un clip de 10 segundos en aproximadamente 1.6 segundos.

Generador de texto a voz con robot y ondas sonoras
Interfaz de generación de voz que muestra la síntesis de audio en acción.

Una suite completa de productos de voz

A principios de este año, Mistral lanzó un par de modelos de transcripción, uno para procesamiento por lotes y otro para casos de uso en tiempo real con baja latencia. Con este nuevo modelo de voz, la compañía busca ofrecer una suite completa de productos de voz para empresas.

«Planeamos tener una plataforma integral que pueda manejar flujos de entrada multimodales, incluidos audio, texto e imagen, y también de salida. El principal beneficio es que obtienes mucha más información con un sistema agéntico integral que admite el audio como entrada o salida», explicó Stock.

Ventaja competitiva: open source y personalización

La posición de Mistral se basa en que su enfoque de código abierto y la capacidad de personalización ayudarán a las empresas a adoptar sus modelos de voz sobre los de la competencia, ya que pueden ajustarlos a su manera. Este modelo permite a las empresas construir agentes de voz para ventas y compromiso con el cliente, consolidando la oferta de Mistral en el creciente mercado de la IA conversacional.

Comparte este artículo

Otras notas de tu interés:

Tecnologia

Meta AI se integra en Threads: una función similar a Grok de X llega en beta a Asia y América Latina

Deportes

Miami Heat reinicia la cacería de Giannis Antetokounmpo: los Bucks abren la puerta a un trade

Economia

Empresas estadounidenses buscan reembolsos de aranceles mientras EE. UU. lanza un portal de devolución

Negocios

Dessn levanta $6 millones para transformar el diseño impulsado por IA en producción

Economia

Amazon Ring confía en Vapi AI: la startup de voz alcanza una valoración de $500 millones

Economia

FTC demanda a la ‘Mentora Millonaria’ Stormy Wellington por fraude en marketing multinivel

Tecnologia

Thinking Machines presenta modelos de interacción: la IA que te interrumpe en tiempo real

Economia

Robinhood prepara segundo fondo de inversión en startups y proceso de IPO para RVII

Economia

Quiebra de Spirit Airlines: 17,000 empleos perdidos y un golpe a la economía de Florida

Sociedad y Cultura

Hipótesis Nula: El Pilar Oculto de las Investigaciones Científicas