La revolución de la voz: más allá del texto y la pantalla
El cofundador y CEO de ElevenLabs, Mati Staniszewski, ha declarado que la voz se está convirtiendo en la próxima interfaz principal para la inteligencia artificial. Según Staniszewski, esta será la forma en que las personas interactúen cada vez más con las máquinas, a medida que los modelos evolucionen más allá del texto y las pantallas.

Web Summit Doha: el punto de inflexión para los modelos de voz
Durante su intervención en el Web Summit en Doha, Staniszewski explicó que los modelos de voz, como los desarrollados por su empresa, han superado la simple imitación del habla humana. Ahora incorporan emoción y entonación y funcionan en conjunto con las capacidades de razonamiento de los grandes modelos de lenguaje. Este avance está provocando un cambio fundamental en la interacción humano-tecnología.
«Espero que en los próximos años todos nuestros teléfonos vuelvan a nuestros bolsillos, y podamos sumergirnos en el mundo real que nos rodea, con la voz como el mecanismo que controle la tecnología», afirmó Staniszewski.
Una visión que atrae inversión millonaria
Esta visión fue el motor tras la reciente ronda de financiación de $500 millones de ElevenLabs, que valora a la compañía en $11 billones. La industria de la IA comparte cada vez más esta perspectiva. Tanto OpenAI como Google han centrado sus esfuerzos en la voz para sus modelos de próxima generación, mientras que Apple parece estar construyendo de forma discreta tecnologías siempre activas y relacionadas con la voz a través de adquisiciones como la de Q.ai.

Teclados obsoletos y sistemas más agentes
Seth Pierrepont, socio general de Iconiq Capital, respaldó esta visión en el escenario del Web Summit. Argumentó que, aunque las pantallas seguirán siendo importantes para el gaming y el entretenimiento, los métodos de entrada tradicionales como los teclados comienzan a parecer «obsoletos».
Además, a medida que los sistemas de IA se vuelven más agenticos, la propia interacción cambiará. Los modelos ganarán guardrails, integraciones y contexto necesarios para responder con menos indicaciones explícitas de los usuarios.
Memoria persistente y un futuro híbrido
Staniszewski señaló este cambio agentico como una de las mayores transformaciones en curso. En lugar de detallar cada instrucción, los futuros sistemas de voz dependerán cada vez más de una memoria persistente y un contexto construido con el tiempo, haciendo que las interacciones sean más naturales y requieran menos esfuerzo.
Esta evolución influirá en cómo se implementan los modelos de voz. Aunque los modelos de audio de alta calidad han residido principalmente en la nube, ElevenLabs trabaja hacia un enfoque híbrido que combine el procesamiento en la nube y en el dispositivo. Este movimiento tiene como objetivo apoyar nuevo hardware, incluidos auriculares y otros wearables, donde la voz se convierta en un compañero constante.
Expansión a nuevas plataformas y preocupaciones de privacidad
ElevenLabs ya se asocia con Meta para llevar su tecnología de voz a productos como Instagram y Horizon Worlds, su plataforma de realidad virtual. Staniszewski también se mostró abierto a trabajar con Meta en sus gafas inteligentes Ray-Ban, a medida que las interfaces impulsadas por la voz se expandan a nuevos factores de forma.
Sin embargo, a medida que la voz se vuelve más persistente y se integra en el hardware cotidiano, se abren serias preocupaciones en torno a la privacidad, la vigilancia y la cantidad de datos personales que almacenarán estos sistemas basados en la voz. Compañías como Google ya han sido acusadas de abusar de dicha información, marcando un desafío crucial para el futuro de esta tecnología.