OpenAI bajo la lupa: ¿Modelos de IA entrenados con libros pagos de O’Reilly?

Acusaciones revelan uso de contenido premium en entrenamiento de IA

Un estudio del AI Disclosures Project señala que OpenAI podría haber utilizado libros bajo paywall de O’Reilly Media para entrenar su modelo GPT-4o, según análisis con el método DE-COP diseñado para detectar contenido protegido.

Logotipo de OpenAI con fondo de código binario
Representación visual de los sistemas de IA analizados en el estudio.

Detalles clave de la investigación:

  • Método utilizado: DE-COP, técnica de inferencia para identificar textos protegidos.
  • Muestra analizada: 13,962 fragmentos de 34 libros técnicos de O’Reilly.
  • Resultados contundentes: GPT-4o mostró «reconocimiento significativo» de contenido no público vs. modelos anteriores como GPT-3.5 Turbo.

El informe, coescrito por Tim O’Reilly (CEO de O’Reilly Media) y el economista Ilan Strauss, sugiere que la mejora en el rendimiento de GPT-4o podría relacionarse con el acceso a estos materiales especializados, aunque «no es una prueba definitiva» según los autores.

«GPT-4o demuestra mayor reconocimiento de libros pagos de O’Reilly comparado con modelos anteriores, incluso considerando mejoras técnicas» – Extracto del estudio

Detalle de código binario en fondo de logo OpenAI
Patrones digitales que simbolizan el entrenamiento algorítmico.

Implicaciones legales y éticas

El hallazgo se suma a múltiples demandas contra OpenAI por uso de material protegido, aunque la compañía mantiene acuerdos de licencia con otros proveedores de contenido y mecanismos de exclusión voluntaria.

¿Qué sigue?: Los investigadores no analizaron modelos recientes como GPT-4.5, dejando abierta la pregunta sobre las prácticas actuales de entrenamiento de IA.

Comparte este artículo

Otras notas de tu interés:

Economia

El Senado elimina fondos para seguridad de salón de baile por decisión del parlamentario

Economia

El boom de la IA en Silicon Valley: una brecha de riqueza y empleo que divide a la industria

Sociedad y Cultura

arXiv endurece políticas: prohibición de un año por uso descuidado de IA en artículos científicos

Politica

Sean Cairncross y el liderazgo en el control de la IA avanzada: nuevas preocupaciones cibernéticas

Economia

Trump impulsa vínculo entre su ley SAVE y proyectos bipartidistas en EE. UU.

Economia

El auge de los centros de datos AI en South Florida: crecimiento y polémica vecinal

Negocios

Greg Brockman asume el control de la estrategia de producto en OpenAI

Economia

Cancelación de la gira de Sean Duffy: patrocinadores se niegan en EE. UU.

Politica Internacional

Estados Unidos ordena a viajeros en Air Force One desechar regalos y teléfonos tras viaje a China

Economia

Crecimiento de centros de datos para IA en South Florida: ¿Progreso tecnológico o peligro ambiental y comunitario?