DeepSeek Lanza Modelo Experimental V3.2-exp con Atención Escasa para Reducir Costos de Inferencia
Este lunes 29 de septiembre de 2025, los investigadores de DeepSeek presentaron un nuevo modelo experimental denominado V3.2-exp, diseñado específicamente para reducir drásticamente los costos de inferencia en operaciones de contexto extenso. El modelo fue anunciado mediante una publicación en Hugging Face, acompañada de un artículo académico detallado en GitHub.

DeepSeek Sparse Attention: La Innovación Clave en Diseño Modular
La característica más importante del nuevo modelo es el DeepSeek Sparse Attention, un sistema complejo que opera mediante un diseño modular innovador. El sistema utiliza un módulo llamado «lightning indexer» para priorizar extractos específicos de la ventana de contexto, seguido de un «fine-grained token selection system» que selecciona tokens particulares dentro de esos extractos para cargarlos en la ventana de atención limitada del módulo.
En conjunto, estos componentes permiten a los modelos de Atención Escasa operar sobre porciones extensas de contexto con cargas de servidor comparativamente menores, optimizando la eficiencia computacional.
Beneficios en Costos y Eficiencia Operativa
Para operaciones de contexto largo, los beneficios del sistema son significativos. Las pruebas preliminares realizadas por DeepSeek indican que el precio de una llamada API simple podría reducirse hasta en un 50% en situaciones de contexto extenso. Si bien se requiere más testing para una evaluación más robusta, el modelo es de peso abierto y está disponible gratuitamente en Hugging Face, lo que permitirá pruebas de terceros para verificar estas afirmaciones.

Contexto de DeepSeek en el Ecosistema de IA
Con sede en China, DeepSeek ha sido una figura inusual en el auge de la IA, especialmente para quienes ven la investigación en IA como una lucha nacionalista entre Estados Unidos y China. La empresa generó expectativas a principios de año con su modelo R1, entrenado principalmente mediante aprendizaje por refuerzo a un costo mucho menor que sus competidores estadounidenses. Sin embargo, el modelo no provocó una revolución completa en el entrenamiento de IA como algunos predijeron, y la empresa ha perdido protagonismo en los meses posteriores.
El nuevo enfoque de «atención escasa» probablemente no genere el mismo revuelo que R1, pero podría enseñar a los proveedores estadounidenses técnicas necesarias para mantener bajos los costos de inferencia, un desafío crítico en la industria actual.
Impacto en la Arquitectura Transformer y Futuro de la IA
El modelo de DeepSeek se suma a una serie de avances recientes que abordan el problema de los costos de inferencia —esencialmente, los costos de servidor para operar un modelo de IA preentrenado, distintos a los costos de entrenamiento—. Los investigadores de DeepSeek buscaban formas de hacer que la arquitectura transformer fundamental opere de manera más eficiente, descubriendo que existen mejoras significativas por realizar en el diseño modular y la tipografía digital aplicada a visualizaciones de datos.