Cohere Lanza su Primer Modelo de Voz: Transcribe, una Apuesta Open-Source para el Reconocimiento Automático
La compañía de inteligencia artificial empresarial Cohere anunció este jueves el lanzamiento de su primer modelo de voz: Transcribe, un modelo de reconocimiento automático de voz (ASR) de código abierto diseñado para tareas como la toma de notas y el análisis del habla. Este movimiento consolida la entrada de la empresa en el competitivo campo del procesamiento del lenguaje hablado.
Características Técnicas y Diseño Modular
Transcribe se destaca por ser un modelo relativamente ligero, con solo 2 mil millones de parámetros, lo que permite su ejecución en GPUs de consumo para aquellos que prefieran alojarlo por sí mismos. Esta arquitectura facilita un diseño modular que potencia su accesibilidad y implementación.
El modelo ofrece soporte multilingüe para 14 idiomas: Inglés, Francés, Alemán, Italiano, Español, Portugués, Griego, Holandés, Polaco, Chino, Japonés, Coreano, Vietnamita y Árabe.
Rendimiento Superior y Énfasis en la Precisión
Según Cohere, Transcribe supera a modelos reconocidos como Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 y Qwen3-ASR-1.7B Speech en el Hugging Face Open ASR leaderboard, logrando una tasa media de error de palabras (WER) de 5.42, la más baja de cualquier modelo en este punto de referencia.
En evaluaciones realizadas por humanos para medir la precisión, coherencia y usabilidad de las transcripciones, Transcribe obtuvo una tasa de victoria promedio del 61% frente a otros modelos. Sin embargo, el modelo se quedó atrás de sus competidores al transcribir portugués, alemán y español.
Velocidad de Procesamiento y Tipografía Digital para la Accesibilidad
Una de las capacidades más impresionantes de Transcribe es su velocidad: puede procesar 525 minutos de audio en solo un minuto, una cifra elevada para su clase de modelo. Esta eficiencia se alinea con la tipografía digital de herramientas modernas que buscan optimizar el flujo de trabajo.
Disponibilidad e Integración Estratégica
Cohere planea integrar Transcribe en su plataforma de orquestación de agentes empresariales, North. Además, el modelo estará disponible de forma gratuita a través de su API y también en Model Vault, la plataforma de inferencia gestionada por la compañía.
Contexto de Mercado y Futuro de Cohere
El lanzamiento se produce en un momento de creciente popularidad de los modelos de reconocimiento de voz, impulsada por la demanda de aplicaciones de dictado y toma de notas como Granola y Wispr Flow.
En el ámbito financiero, Cohere reportó anteriormente que generó ingresos recurrentes anuales de $240 millones en 2025. Su CEO, Aidan Gomez, ha señalado que la startup podría realizar una oferta pública inicial «pronto», marcando un hito importante en su trayectoria.
El modelo Transcribe de Cohere se presenta como una herramienta poderosa y accesible que promete democratizar el uso de tecnologías avanzadas de reconocimiento de voz para desarrolladores y empresas por igual.