EleutherAI lanza Common Pile v0.1: El gigantesco dataset ético para entrenar IA

Revolución en el entrenamiento de IA con datos éticos

La organización de investigación EleutherAI ha lanzado el Common Pile v0.1, uno de los mayores conjuntos de datos con licencia abierta para entrenamiento de inteligencia artificial. Este proyecto de 8 terabytes representa un hito en el campo de IA ética tras dos años de desarrollo colaborativo.

Representación abstracta de flujos de datos en IA

Flujos de datos que simbolizan el entrenamiento de modelos de IA

Colaboración estratégica y modelos innovadores

Desarrollado con startups como Poolside y Hugging Face junto a instituciones académicas, este dataset ha permitido crear los modelos Comma v0.1-1T y Comma v0.1-2T. Ambos modelos, de 7 mil millones de parámetros, igualan en rendimiento a alternativas entrenadas con material protegido por derechos de autor.

  • Tamaño del dataset: 8 terabytes
  • Modelos generados: Comma v0.1-1T y v0.1-2T
  • Parámetros: 7 mil millones por modelo

Respuesta al debate legal sobre copyright

Stella Biderman, directora ejecutiva de EleutherAI, señaló que las demandas contra empresas como OpenAI han «disminuido drásticamente la transparencia» en la industria. El Common Pile v0.1, disponible en Hugging Face y GitHub, se construyó consultando expertos legales usando fuentes como:

  • 300,000 libros de dominio público de la Biblioteca del Congreso
  • Archivos de Internet Archive
  • Transcripciones de audio con Whisper de OpenAI

Diseño modular de arquitectura de datos

Estructura de datos para entrenamiento de IA

Rectificando el pasado, construyendo futuro

Este lanzamiento corrige el anterior «The Pile» de EleutherAI que contenía material con copyright. La organización se compromete a lanzar datasets abiertos con mayor frecuencia, demostrando que «la idea de que el texto sin licencia impulsa el rendimiento es injustificada» según Biderman.

Comparte este artículo

Otras notas de tu interés:

Economia

Grandes tasas de retorno: una esperanza realista según los datos de las mejores empresas

Economia

Hipótesis Nula: El Pilar Estadístico en el Análisis de Inversiones

Economia

Cloudflare implementa nueva política: empresas de IA tendrán que pagar por el contenido web desde septiembre

Noticia Local

Venezolanos del sur de la Florida instan a EE.UU. a dejar de ser cómplice del régimen de Caracas

Politica

Texas Aprueba Lectura Obligatoria de la Biblia en Escuelas Públicas: ¿Florida Será la Próxima?

Tecnologia

Gemini Spark de Google ya está disponible para Mac

Economia

El boom de los centros de datos y el calor récord ponen a prueba la red eléctrica de EE. UU.

Economia

Venice AI se convierte en unicornio tras ronda Serie A de $65 millones

Noticia Local

Miami Nonprofits Lanzan Plan de Ayuda Médica de Emergencia para Cuba

Economia

Meta apuesta por la venta de capacidad de computación AI en la nube para rentabilizar su inversión multimillonaria