Empresas de IA Revolucionan el Entrenamiento con Recolección Manual de Datos en Video

El Arte de Entrenar IA: Datos Manuales en Video Toman el Centro del Escenario

Durante una semana este verano, Taylor y su compañera de cuarto utilizaron cámaras GoPro ajustadas a sus frentes mientras pintaban, esculpían y realizaban tareas domésticas. Este esfuerzo no era un simple pasatiempo, sino parte fundamental del entrenamiento de un modelo de visión de inteligencia artificial, donde sincronizaban meticulosamente su material filmado para proporcionar múltiples ángulos de un mismo comportamiento.

Persona grabando video con cámara para entrenamiento de IA
Ilustración que representa la recolección manual de datos visuales para modelos de IA.

«Nos despertábamos, hacíamos nuestra rutina normal y luego nos ajustábamos las cámaras en la cabeza sincronizando los tiempos», relató Taylor, quien prefirió no divulgar su apellido. Dedicaban siete horas diarias para producir cinco horas de video sincronizado, enfrentándose a desafíos físicos como dolores de cabeza y marcas en la piel.

Turing Labs: Diversificación de Datos para Habilidades Abstractas

Contratada como freelancer de datos para Turing Labs, Taylor formaba parte de un equipo que incluía artistas, chefs, trabajadores de la construcción y electricianos. Sudarshan Sivaraman, Director de AGI de Turing, explicó que la recolección manual es la única forma de obtener un conjunto de datos suficientemente variado durante la fase de pre-entrenamiento.

«Capturamos toda esta información para que los modelos comprendan cómo se realiza una tarea específica», afirmó Sivaraman.

El Cambio de Paradigma: Calidad sobre Cantidad en Datos de IA

Las empresas de IA están abandonando el raspado web masivo para priorizar datos cuidadosamente curados. Fyxer, compañía especializada en gestión de correos electrónicos con IA, descubrió que el rendimiento se define por la calidad de los datos, no por su volumen.

Persona grabando video con smartphone en entorno profesional
Ejemplo de grabación de video en entornos controlados para entrenamiento de modelos.

Richard Hollingsworth, fundador de Fyxer, reveló que en los inicios, los ingenieros eran superados en proporción 4 a 1 por asistentes ejecutivos necesarios para entrenar el modelo. «Encontramos que la mejor manera es a través de datos de alta calidad y entrenamiento liderado por humanos», destacó.

Datos Sintéticos y Ventaja Competitiva

Turing estima que 75% a 80% de sus datos son sintéticos, extrapolados de los videos originales. Sin embargo, Sivaraman advierte: «Si los datos de pre-entrenamiento no son de buena calidad, lo que hagas con datos sintéticos tampoco lo será».

Para empresas como Fyxer, este enfoque representa una ventaja competitiva sólida. Hollingsworth lo describe como un foso defensivo: cualquiera puede usar modelos de código abierto, pero no todos pueden acceder a anotadores expertos para entrenarlos efectivamente.

Comparte este artículo

Otras notas de tu interés:

Economia

El boom de la IA en Silicon Valley: una brecha de riqueza y empleo que divide a la industria

Negocios

Cierre del restaurante Blue Collar en Miami: historia y despedida de un ícono de la comida casera

Sociedad y Cultura

arXiv endurece políticas: prohibición de un año por uso descuidado de IA en artículos científicos

Politica

Sean Cairncross y el liderazgo en el control de la IA avanzada: nuevas preocupaciones cibernéticas

Economia

El auge de los centros de datos AI en South Florida: crecimiento y polémica vecinal

Negocios

Greg Brockman asume el control de la estrategia de producto en OpenAI

Politica Internacional

Estados Unidos ordena a viajeros en Air Force One desechar regalos y teléfonos tras viaje a China

Economia

Crecimiento de centros de datos para IA en South Florida: ¿Progreso tecnológico o peligro ambiental y comunitario?

Economia

Colapso de negociaciones en LIRR: Huelga amenaza el transporte en Nueva York

Politica

La Cámara de Representantes busca bloquear leyes estatales de IA en California y Nueva York