Negocios, Sociedad y Cultura, Tecnologia

Portada » Artículos » EleutherAI lanza Common Pile v0.1: El gigantesco dataset ético para entrenar IA

EleutherAI lanza Common Pile v0.1: El gigantesco dataset ético para entrenar IA

junio 8, 2025

Revolución en el entrenamiento de IA con datos éticos

La organización de investigación EleutherAI ha lanzado el Common Pile v0.1, uno de los mayores conjuntos de datos con licencia abierta para entrenamiento de inteligencia artificial. Este proyecto de 8 terabytes representa un hito en el campo de IA ética tras dos años de desarrollo colaborativo.

Flujos de datos que simbolizan el entrenamiento de modelos de IA

Colaboración estratégica y modelos innovadores

Desarrollado con startups como Poolside y Hugging Face junto a instituciones académicas, este dataset ha permitido crear los modelos Comma v0.1-1T y Comma v0.1-2T. Ambos modelos, de 7 mil millones de parámetros, igualan en rendimiento a alternativas entrenadas con material protegido por derechos de autor.

Tamaño del dataset: 8 terabytes
Modelos generados: Comma v0.1-1T y v0.1-2T
Parámetros: 7 mil millones por modelo

Respuesta al debate legal sobre copyright

Stella Biderman, directora ejecutiva de EleutherAI, señaló que las demandas contra empresas como OpenAI han «disminuido drásticamente la transparencia» en la industria. El Common Pile v0.1, disponible en Hugging Face y GitHub, se construyó consultando expertos legales usando fuentes como:

300,000 libros de dominio público de la Biblioteca del Congreso
Archivos de Internet Archive
Transcripciones de audio con Whisper de OpenAI

Estructura de datos para entrenamiento de IA

Rectificando el pasado, construyendo futuro

Este lanzamiento corrige el anterior «The Pile» de EleutherAI que contenía material con copyright. La organización se compromete a lanzar datasets abiertos con mayor frecuencia, demostrando que «la idea de que el texto sin licencia impulsa el rendimiento es injustificada» según Biderman.

Tags Common Pile, copyright, datos de entrenamiento, EleutherAI, Inteligencia Artificial, modelos de IA, open source

Comparte este artículo

Otras notas de tu interés:

Politica

RFK Jr. recibe apoyo de la base MAGA en Estados Unidos

marzo 28, 2026

Tecnologia

Filtración de Herramientas de Hacking Coruna y DarkSword Amenaza a Millones de iPhones

marzo 28, 2026

Economia

Inteligencia Artificial Domina el Demo Day de Y Combinator W26 2024

marzo 28, 2026

Politica Internacional

Marina de México Busca Dos Veleros Desaparecidos con Ayuda para Cuba

marzo 28, 2026

Espectáculos y Entretenimiento

Bluesky lanza Attie: un asistente de IA para diseñar tus propios algoritmos sociales

marzo 28, 2026

Bienestar y Salud Mental

Estudio de Stanford revela los peligros ocultos de buscar consejos personales en chatbots de IA

marzo 28, 2026

Para Inmigrantes

Esfuerzo bipartidista logra forzar votación en la Cámara por extensión de TPS para haitianos

marzo 28, 2026

Noticia Local

Más de 400 personas protestan contra Trump en Tropical Park bajo el lema «No Kings»

marzo 28, 2026

Sociedad y Cultura

¿Vale la pena? La controversia del Spring Break que sacude la imagen turística de Florida

marzo 28, 2026

Politica

Oposición Demócrata a la Controversia del Megáfono de Hasan Piker

marzo 28, 2026