Una nueva demanda sacude la industria tecnológica
La empresa de software Adobe, conocida por sus herramientas de diseño y su apuesta firme por la inteligencia artificial, enfrenta una demanda colectiva por presuntamente utilizar libros pirateados para entrenar uno de sus modelos de IA, según revela una nueva acción legal.

La acusación: piratería en el corazón del entrenamiento de IA
La demanda, presentada en nombre de la autora Elizabeth Lyon de Oregón, alega que Adobe utilizó copias no autorizadas de numerosos libros —incluidos los de la demandante— para entrenar su programa SlimLM.
Adobe describe a SlimLM como una serie de «modelos de lenguaje pequeños» optimizados para tareas de asistencia con documentos en dispositivos móviles. La compañía afirma que este modelo fue pre-entrenado con SlimPajama-627B, un conjunto de datos de código abierto publicado por Cerebras en junio de 2023.
El origen del conflicto: el dataset «Books3»
El pleito sostiene que el conjunto de datos SlimPajama es una copia manipulado del dataset RedPajama, que a su vez contiene la colección «Books3». Esta última es un masivo archivo de 191,000 libros que ha sido ampliamente utilizado, y cuestionado, para entrenar sistemas de inteligencia artificial generativa.
«El dataset SlimPajama contiene el dataset Books3, incluyendo las obras con derechos de autor de la demandante y los miembros de la clase», señala la demanda.
Un patrón de litigios en la industria
Este no es un caso aislado. El uso de Books3 y RedPajama ha sido citado en múltiples demandas contra gigantes tecnológicos:
- Apple: Demandada en septiembre por presuntamente usar material con derechos de autor para entrenar su modelo Apple Intelligence.
- Salesforce: Enfrentó una demanda similar en octubre por el uso de RedPajama.
En un precedente significativo, en septiembre la empresa Anthropic acordó pagar $1.5 mil millones a un grupo de autores que la demandaron por usar versiones pirateadas de su trabajo para entrenar su chatbot, Claude.
¿Un punto de inflexión para la IA?
Estas demandas se han vuelto cada vez más comunes, planteando preguntas cruciales sobre los límites éticos y legales del entrenamiento de algoritmos de inteligencia artificial con datos masivos que pueden incluir material protegido sin la debida autorización, crédito o compensación.
El caso contra Adobe podría añadir un capítulo crucial a la batalla legal en curso que busca definir el futuro del uso de material con derechos de autor en la era de la IA.