EleutherAI lanza Common Pile v0.1: El gigantesco dataset ético para entrenar IA

Revolución en el entrenamiento de IA con datos éticos

La organización de investigación EleutherAI ha lanzado el Common Pile v0.1, uno de los mayores conjuntos de datos con licencia abierta para entrenamiento de inteligencia artificial. Este proyecto de 8 terabytes representa un hito en el campo de IA ética tras dos años de desarrollo colaborativo.

Representación abstracta de flujos de datos en IA

Flujos de datos que simbolizan el entrenamiento de modelos de IA

Colaboración estratégica y modelos innovadores

Desarrollado con startups como Poolside y Hugging Face junto a instituciones académicas, este dataset ha permitido crear los modelos Comma v0.1-1T y Comma v0.1-2T. Ambos modelos, de 7 mil millones de parámetros, igualan en rendimiento a alternativas entrenadas con material protegido por derechos de autor.

  • Tamaño del dataset: 8 terabytes
  • Modelos generados: Comma v0.1-1T y v0.1-2T
  • Parámetros: 7 mil millones por modelo

Respuesta al debate legal sobre copyright

Stella Biderman, directora ejecutiva de EleutherAI, señaló que las demandas contra empresas como OpenAI han «disminuido drásticamente la transparencia» en la industria. El Common Pile v0.1, disponible en Hugging Face y GitHub, se construyó consultando expertos legales usando fuentes como:

  • 300,000 libros de dominio público de la Biblioteca del Congreso
  • Archivos de Internet Archive
  • Transcripciones de audio con Whisper de OpenAI

Diseño modular de arquitectura de datos

Estructura de datos para entrenamiento de IA

Rectificando el pasado, construyendo futuro

Este lanzamiento corrige el anterior «The Pile» de EleutherAI que contenía material con copyright. La organización se compromete a lanzar datasets abiertos con mayor frecuencia, demostrando que «la idea de que el texto sin licencia impulsa el rendimiento es injustificada» según Biderman.

Comparte este artículo

Otras notas de tu interés:

Politica

RFK Jr. recibe apoyo de la base MAGA en Estados Unidos

Tecnologia

Filtración de Herramientas de Hacking Coruna y DarkSword Amenaza a Millones de iPhones

Economia

Inteligencia Artificial Domina el Demo Day de Y Combinator W26 2024

Politica Internacional

Marina de México Busca Dos Veleros Desaparecidos con Ayuda para Cuba

Espectáculos y Entretenimiento

Bluesky lanza Attie: un asistente de IA para diseñar tus propios algoritmos sociales

Bienestar y Salud Mental

Estudio de Stanford revela los peligros ocultos de buscar consejos personales en chatbots de IA

Para Inmigrantes

Esfuerzo bipartidista logra forzar votación en la Cámara por extensión de TPS para haitianos

Noticia Local

Más de 400 personas protestan contra Trump en Tropical Park bajo el lema «No Kings»

Sociedad y Cultura

¿Vale la pena? La controversia del Spring Break que sacude la imagen turística de Florida

Politica

Oposición Demócrata a la Controversia del Megáfono de Hasan Piker