EleutherAI lanza Common Pile v0.1: El gigantesco dataset ético para entrenar IA

Revolución en el entrenamiento de IA con datos éticos

La organización de investigación EleutherAI ha lanzado el Common Pile v0.1, uno de los mayores conjuntos de datos con licencia abierta para entrenamiento de inteligencia artificial. Este proyecto de 8 terabytes representa un hito en el campo de IA ética tras dos años de desarrollo colaborativo.

Representación abstracta de flujos de datos en IA

Flujos de datos que simbolizan el entrenamiento de modelos de IA

Colaboración estratégica y modelos innovadores

Desarrollado con startups como Poolside y Hugging Face junto a instituciones académicas, este dataset ha permitido crear los modelos Comma v0.1-1T y Comma v0.1-2T. Ambos modelos, de 7 mil millones de parámetros, igualan en rendimiento a alternativas entrenadas con material protegido por derechos de autor.

  • Tamaño del dataset: 8 terabytes
  • Modelos generados: Comma v0.1-1T y v0.1-2T
  • Parámetros: 7 mil millones por modelo

Respuesta al debate legal sobre copyright

Stella Biderman, directora ejecutiva de EleutherAI, señaló que las demandas contra empresas como OpenAI han «disminuido drásticamente la transparencia» en la industria. El Common Pile v0.1, disponible en Hugging Face y GitHub, se construyó consultando expertos legales usando fuentes como:

  • 300,000 libros de dominio público de la Biblioteca del Congreso
  • Archivos de Internet Archive
  • Transcripciones de audio con Whisper de OpenAI

Diseño modular de arquitectura de datos

Estructura de datos para entrenamiento de IA

Rectificando el pasado, construyendo futuro

Este lanzamiento corrige el anterior «The Pile» de EleutherAI que contenía material con copyright. La organización se compromete a lanzar datasets abiertos con mayor frecuencia, demostrando que «la idea de que el texto sin licencia impulsa el rendimiento es injustificada» según Biderman.

Comparte este artículo

Otras notas de tu interés:

Politica Internacional

Protestas históricas: La lucha por la representación política negra en Estados Unidos

Politica

Disputa por redistribución de distritos en el sur de EE. UU. se intensifica

Economia

El boom de la IA en Silicon Valley: una brecha de riqueza y empleo que divide a la industria

Negocios

Cierre del restaurante Blue Collar en Miami: historia y despedida de un ícono de la comida casera

Sociedad y Cultura

arXiv endurece políticas: prohibición de un año por uso descuidado de IA en artículos científicos

Politica

Sean Cairncross y el liderazgo en el control de la IA avanzada: nuevas preocupaciones cibernéticas

Bienestar y Salud Mental

Feminicidio de mujeres negras en el sur de Florida: una llamada a la conciencia sobre la violencia doméstica

Economia

El auge de los centros de datos AI en South Florida: crecimiento y polémica vecinal

Negocios

Greg Brockman asume el control de la estrategia de producto en OpenAI

Politica Internacional

Estados Unidos ordena a viajeros en Air Force One desechar regalos y teléfonos tras viaje a China