El Futuro de la IA de Audio: Commoditización y Evolución Multimodal
En una reveladora intervención durante la conferencia TechCrunch Disrupt 2025, el cofundador y CEO de ElevenLabs, Mati Staniszewski, compartió su visión sobre la inevitable commoditización de los modelos de inteligencia artificial aplicados al audio.
¿Por Qué Construir Modelos si se Commoditizarán?
Staniszewski afirmó que, a pesar de que los modelos de IA de audio se volverán commoditizados en un par de años, su empresa continúa enfocándose en desarrollarlos porque, a corto plazo, representan la «mayor ventaja y el cambio más significativo que se puede lograr hoy».
«La única manera de resolverlo es… construyendo los modelos tú mismo, y luego, a largo plazo, habrá otros actores que también lo resolverán», explicó el CEO.
Destacó que, actualmente, la calidad del audio generado por IA es crucial: si las voces o interacciones no suenan bien, sigue siendo un problema que debe abordarse mediante el desarrollo propio de modelos.
Hacia un Enfoque Multimodal Integrado
Staniszewski anticipó que, en el próximo año o dos, los modelos evolucionarán hacia enfoques multimodales o fusionados, donde se generará audio y video simultáneamente, o audio y modelos de lenguaje grande (LLMs) en entornos conversacionales.
Como ejemplo, citó a Google Veo 3, que demuestra lo achievable al combinar modelos. «Crearás audio y video al mismo tiempo, o audio y LLMs en un entorno conversacional», señaló.

Estrategia de Largo Plazo y Asociaciones
El fundador de ElevenLabs reveló planes de lanzar asociaciones con otras empresas y trabajar con tecnologías de código abierto para combinar su experiencia en audio con la de otros modelos. El objetivo es centrarse tanto en la construcción de modelos como en aplicaciones para crear valor a largo plazo.
«De la misma manera que el software y el hardware fueron la magia para Apple, creemos que el producto y la IA serán la magia para la generación de los mejores casos de uso», añadió Staniszewski, subrayando la analogía con el gigante tecnológico.
- Enfoque a corto plazo: Construcción de modelos propios para ventaja competitiva
- Predicción a largo plazo: Commoditización de modelos de audio IA
- Innovación clave: Integración multimodal con video y LLMs