EleutherAI lanza conjunto masivo de datos de entrenamiento para IA con licencia

Revolución en datos de entrenamiento para inteligencia artificial

La organización de investigación EleutherAI ha lanzado The Common Pile v0.1, uno de los mayores conjuntos de datos de texto con licencia y dominio público para entrenar modelos de IA. Este desarrollo llega en medio de crecientes demandas por derechos de autor en el sector.

Diseño abstracto representando redes de datos

Características clave del proyecto

  • Tamaño: 8 terabytes de datos
  • Duración del desarrollo: 2 años
  • Modelos entrenados: Comma v0.1-1T y Comma v0.1-2T
  • Parámetros: 7 mil millones cada modelo

Colaboradores y fuentes legales

El conjunto de datos fue creado en colaboración con nuevas empresas de IA como Poolside y Hugging Face, junto con instituciones académicas. Se utilizaron fuentes legales que incluyen:

  • 300,000 libros de dominio público digitalizados por la Biblioteca del Congreso
  • Contenido del Archivo de Internet
  • Transcripciones de audio generadas con Whisper, modelo de código abierto de OpenAI

Mapa conceptual de estructuras tecnológicas

Impacto en la industria y transparencia

Stella Biderman, directora ejecutiva de EleutherAI, destacó: «Las demandas por derechos de autor han disminuido drásticamente la transparencia de las empresas de IA». Los modelos entrenados con The Common Pile v0.1 igualan el rendimiento de alternativas propietarias en pruebas de:

  • Codificación
  • Comprensión de imágenes
  • Matemáticas

Disponibilidad y futuro

The Common Pile v0.1 está disponible en Hugging Face y GitHub. EleutherAI se compromete a lanzar conjuntos de datos abiertos con mayor frecuencia en el futuro, corrigiendo así su anterior colección The Pile que incluía material con derechos de autor.

Comparte este artículo

Otras notas de tu interés:

Negocios

AWS despliega nuevas herramientas de agentes de IA en re:Invent 2025 para competir por el liderazgo

Negocios

Exempleados del Washington Post Presentan Demanda Colectiva por Violación de Datos

Negocios

Meta adquiere la startup de IA Limitless para reforzar su apuesta por los wearables inteligentes

Economia

Administración Trump Denuncia Multa Millonaria de la UE a X de Elon Musk

Economia

Informe Sensor Tower 2025: El crecimiento de ChatGPT se desacelera frente al avance de Gemini

Noticia Local

Expertos Exigen Monitoreo de Edificios en South Florida Tras Hundimientos Inesperados

Economia

AWS re:Invent: Los anuncios de IA chocan con la realidad de la adopción empresarial

Negocios

The New York Times demanda a Perplexity por infracción de derechos de autor en IA

Economia

Demanda en Miami busca reembolsar más de $75 millones en tarifas excesivas de permisos de construcción

Economia

Alerta en South Florida: Sensores Revelan Asentamientos en Edificios por Construcciones Vecinas