Revolución en el entrenamiento de IA con datos éticos
La organización de investigación EleutherAI ha lanzado el Common Pile v0.1, uno de los mayores conjuntos de datos con licencia abierta para entrenamiento de inteligencia artificial. Este proyecto de 8 terabytes representa un hito en el campo de IA ética tras dos años de desarrollo colaborativo.

Colaboración estratégica y modelos innovadores
Desarrollado con startups como Poolside y Hugging Face junto a instituciones académicas, este dataset ha permitido crear los modelos Comma v0.1-1T y Comma v0.1-2T. Ambos modelos, de 7 mil millones de parámetros, igualan en rendimiento a alternativas entrenadas con material protegido por derechos de autor.
- Tamaño del dataset: 8 terabytes
- Modelos generados: Comma v0.1-1T y v0.1-2T
- Parámetros: 7 mil millones por modelo
Respuesta al debate legal sobre copyright
Stella Biderman, directora ejecutiva de EleutherAI, señaló que las demandas contra empresas como OpenAI han «disminuido drásticamente la transparencia» en la industria. El Common Pile v0.1, disponible en Hugging Face y GitHub, se construyó consultando expertos legales usando fuentes como:
- 300,000 libros de dominio público de la Biblioteca del Congreso
- Archivos de Internet Archive
- Transcripciones de audio con Whisper de OpenAI

Rectificando el pasado, construyendo futuro
Este lanzamiento corrige el anterior «The Pile» de EleutherAI que contenía material con copyright. La organización se compromete a lanzar datasets abiertos con mayor frecuencia, demostrando que «la idea de que el texto sin licencia impulsa el rendimiento es injustificada» según Biderman.