Laboratorio Chino Bajo Sospecha por Entrenamiento con Modelo Rival
La semana pasada, el laboratorio chino DeepSeek lanzó una versión actualizada de su modelo de IA R1, destacando en pruebas de matemáticas y programación. Sin revelar la fuente de sus datos de entrenamiento, investigadores sospechan que utilizó información de Google Gemini.

Evidencias de Uso Ilegítimo
Sam Paeach, desarrollador especializado en evaluar IA, publicó en X que el modelo R1-0528 de DeepSeek replica patrones lingüísticos de Gemini 2.5 Pro. Otro creador anónimo de la herramienta SpeechMap corroboró que los «rastros cognitivos» del modelo son idénticos a los de Gemini.
Antecedentes con OpenAI
En diciembre de 2024, el modelo V3 de DeepSeek se identificaba recurrentemente como ChatGPT. Según Bloomberg, Microsoft detectó filtración masiva de datos desde cuentas de OpenAI vinculadas a DeepSeek, usando «destilación» (técnica prohibida por OpenAI para competidores).

Contaminación de Datos Global
El problema se agrava por la saturación de «contenido basura generado por IA» en la web, usado involuntariamente en entrenamiento. Nathan Lambert del instituto AI2 justifica las acciones de DeepSeek:
«Con escasez de GPUs y exceso de capital, usar datos de Gemini es computacionalmente eficiente»
Contramedidas de la Industria
- OpenAI: Implementó verificación de identidad excluyendo a China
- Google: Comenzó a resumir rastros de Gemini en AI Studio
- Anthropic: Siguió el mismo camino para proteger ventajas competitivas
