Sarvam apuesta por la IA eficiente y local con nuevos modelos de lenguaje
El laboratorio de inteligencia artificial indio Sarvam presentó este martes una nueva generación de modelos de lenguaje grande (LLM), apostando que modelos más pequeños y eficientes de código abierto pueden arrebatar cuota de mercado a los costosos sistemas de sus rivales estadounidenses y chinos.
El lanzamiento, anunciado en la India AI Impact Summit en Nueva Delhi, se alinea con el impulso del gobierno indio para reducir la dependencia de plataformas de IA extranjeras y adaptar modelos a idiomas y casos de uso locales.

Detalles técnicos de los nuevos modelos
La nueva línea de modelos incluye:
- Modelos de parámetros: uno de 30 mil millones y otro de 105 mil millones de parámetros.
- Modelos de conversión: texto a voz y voz a texto.
- Modelo de visión: para analizar documentos.
Esto supone una mejora significativa respecto al modelo Sarvam 1 de 2 mil millones de parámetros lanzado en octubre de 2024.
Los modelos de 30B y 105B utilizan una arquitectura de mixture-of-experts, que activa solo una fracción de sus parámetros totales cada vez, reduciendo drásticamente los costes computacionales. El modelo de 30B admite una ventana de contexto de 32,000 tokens para uso conversacional en tiempo real, mientras que el modelo más grande ofrece 128,000 tokens para tareas de razonamiento complejo y multi-paso.
Entrenamiento desde cero con soporte gubernamental
Sarvam destacó que los nuevos modelos de IA fueron entrenados desde cero, no ajustados sobre sistemas de código abierto existentes. El modelo de 30B fue pre-entrenado con aproximadamente 16 billones de tokens de texto, y el de 105B con billones de tokens que abarcan múltiples idiomas indios.
Estos modelos están diseñados para soportar aplicaciones en tiempo real, como asistentes basados en voz y sistemas de chat en idiomas indios.
El entrenamiento se realizó utilizando recursos informáticos proporcionados por la IndiaAI Mission, con apoyo de infraestructura del operador de centros de datos Yotta y soporte técnico de Nvidia.
Un enfoque medido para el escalado
Los ejecutivos de Sarvam señalaron que la empresa planea un enfoque cuidadoso para escalar sus modelos, centrándose en aplicaciones del mundo real más que en el tamaño bruto.
«Queremos ser conscientes en cómo hacemos el escalado», dijo el cofundador de Sarvam, Pratyush Kumar, en el lanzamiento. «No queremos escalar sin sentido. Queremos entender las tareas que realmente importan a escala y construir para ellas.»
Compromiso con el código abierto y productos especializados
Sarvam planea hacer de código abierto los modelos de 30B y 105B, aunque no especificó si los datos de entrenamiento o el código completo de entrenamiento también se harán públicos.
La compañía también esbozó planes para construir sistemas de IA especializados, incluidos modelos centrados en codificación y herramientas empresariales bajo un producto llamado Sarvam for Work, y una plataforma de agentes de IA conversacional llamada Samvaad.

Firma joven con gran respaldo
Fundada en 2023, Sarvam ha recaudado más de 50 millones de dólares en financiación y cuenta entre sus inversores con Lightspeed Venture Partners, Khosla Ventures y Peak XV Partners (anteriormente Sequoia Capital India).
Con esta movida, Sarvam se posiciona como un actor clave en la escena de IA india, promoviendo soluciones accesibles y adaptadas a las necesidades locales.