¿OpenAI Usó Libros y Artículos Protegidos para Entrenar sus Modelos?
Un estudio reciente de las universidades de Washington, Copenhague y Stanford reveló que GPT-4 y GPT-3.5 mostraron capacidad para «recordar» fragmentos de libros populares y artículos de The New York Times, reforzando las demandas por uso ilegal de contenido protegido.

El Método de los «Términos Sorprendentes»
- Los investigadores eliminaron palabras estadísticamente improbables (como «radar» en una oración) y pidieron a los modelos completarlas.
- Si los modelos acertaban, se infería que memorizaron el texto durante su entrenamiento.
Según los resultados, GPT-4 identificó correctamente fragmentos de libros incluidos en el conjunto de datos BookMIA, que contiene muestras de ebooks bajo derechos de autor.
Implicaciones Legales y Transparencia

Abhilasha Ravichander, coautora del estudio, destacó:
«Para tener modelos confiables, necesitamos poder auditarlos científicamente. Hay una necesidad urgente de transparencia en los datos»
OpenAI mantiene su postura de «uso justo» bajo la ley estadounidense, aunque enfrenta demandas de autores y programadores que exigen compensación por el uso de sus obras.
¿Qué Sigue?
- La compañía ha impulsado regulaciones que flexibilicen el uso de datos protegidos para IA.
- Ofrece mecanismos para que creadores excluyan su contenido, pero críticos argumentan que es insuficiente.