Acusaciones revelan uso de contenido premium en entrenamiento de IA
Un estudio del AI Disclosures Project señala que OpenAI podría haber utilizado libros bajo paywall de O’Reilly Media para entrenar su modelo GPT-4o, según análisis con el método DE-COP diseñado para detectar contenido protegido.
Detalles clave de la investigación:
- Método utilizado: DE-COP, técnica de inferencia para identificar textos protegidos.
- Muestra analizada: 13,962 fragmentos de 34 libros técnicos de O’Reilly.
- Resultados contundentes: GPT-4o mostró «reconocimiento significativo» de contenido no público vs. modelos anteriores como GPT-3.5 Turbo.
El informe, coescrito por Tim O’Reilly (CEO de O’Reilly Media) y el economista Ilan Strauss, sugiere que la mejora en el rendimiento de GPT-4o podría relacionarse con el acceso a estos materiales especializados, aunque «no es una prueba definitiva» según los autores.
«GPT-4o demuestra mayor reconocimiento de libros pagos de O’Reilly comparado con modelos anteriores, incluso considerando mejoras técnicas» – Extracto del estudio
Implicaciones legales y éticas
El hallazgo se suma a múltiples demandas contra OpenAI por uso de material protegido, aunque la compañía mantiene acuerdos de licencia con otros proveedores de contenido y mecanismos de exclusión voluntaria.
¿Qué sigue?: Los investigadores no analizaron modelos recientes como GPT-4.5, dejando abierta la pregunta sobre las prácticas actuales de entrenamiento de IA.