Negocios, Tecnologia, Tendencias

Portada » Artículos » EleutherAI lanza conjunto masivo de datos de entrenamiento para IA con licencia

EleutherAI lanza conjunto masivo de datos de entrenamiento para IA con licencia

junio 6, 2025

Revolución en datos de entrenamiento para inteligencia artificial

La organización de investigación EleutherAI ha lanzado The Common Pile v0.1, uno de los mayores conjuntos de datos de texto con licencia y dominio público para entrenar modelos de IA. Este desarrollo llega en medio de crecientes demandas por derechos de autor en el sector.

Características clave del proyecto

Tamaño: 8 terabytes de datos
Duración del desarrollo: 2 años
Modelos entrenados: Comma v0.1-1T y Comma v0.1-2T
Parámetros: 7 mil millones cada modelo

Colaboradores y fuentes legales

El conjunto de datos fue creado en colaboración con nuevas empresas de IA como Poolside y Hugging Face, junto con instituciones académicas. Se utilizaron fuentes legales que incluyen:

300,000 libros de dominio público digitalizados por la Biblioteca del Congreso
Contenido del Archivo de Internet
Transcripciones de audio generadas con Whisper, modelo de código abierto de OpenAI

Impacto en la industria y transparencia

Stella Biderman, directora ejecutiva de EleutherAI, destacó: «Las demandas por derechos de autor han disminuido drásticamente la transparencia de las empresas de IA». Los modelos entrenados con The Common Pile v0.1 igualan el rendimiento de alternativas propietarias en pruebas de:

Codificación
Comprensión de imágenes
Matemáticas

Disponibilidad y futuro

The Common Pile v0.1 está disponible en Hugging Face y GitHub. EleutherAI se compromete a lanzar conjuntos de datos abiertos con mayor frecuencia en el futuro, corrigiendo así su anterior colección The Pile que incluía material con derechos de autor.

Tags copyright, datos de entrenamiento, EleutherAI, Hugging Face, Inteligencia Artificial, modelos de IA, open source, The Common Pile

Comparte este artículo

Otras notas de tu interés:

Negocios

Microsoft Copilot: Las Advertencias Ocultas en sus Términos de Uso

abril 5, 2026

Politica

Políticos Despliegan Hologramas en Aeropuertos: ¿Innovación o Inautenticidad?

abril 5, 2026

Politica Internacional

Desaparece el CIA Factbook: Un vacío de datos a nivel mundial

abril 5, 2026

Economia

SpaceX proyecta centros de datos en órbita mientras busca una valoración récord de $1.75 billones

abril 5, 2026

Sociedad y Cultura

Artemis II: La misión lunar que busca superar el récord de Apollo 13

abril 5, 2026

Economia

Japón acelera la automatización industrial con IA física para enfrentar la crisis demográfica y dominar el mercado global

abril 5, 2026

Economia

El auge de los centros de datos desafía la agenda de asequibilidad en Nueva Jersey

abril 4, 2026

Economia

Allbirds Vende sus Activos por $39 Millones Tras Fracaso en IPO

abril 4, 2026

Arte y Cultura

Artemis II: Astronautas Artistas en Ruta Histórica a la Luna Superando el Hito de Apollo 13

abril 4, 2026

Economia

Controversia en Startup Delve: Acusaciones de Violar Licencia Open Source

abril 4, 2026