Empresas de IA Revolucionan el Entrenamiento con Recolección Manual de Datos en Video

El Arte de Entrenar IA: Datos Manuales en Video Toman el Centro del Escenario

Durante una semana este verano, Taylor y su compañera de cuarto utilizaron cámaras GoPro ajustadas a sus frentes mientras pintaban, esculpían y realizaban tareas domésticas. Este esfuerzo no era un simple pasatiempo, sino parte fundamental del entrenamiento de un modelo de visión de inteligencia artificial, donde sincronizaban meticulosamente su material filmado para proporcionar múltiples ángulos de un mismo comportamiento.

Persona grabando video con cámara para entrenamiento de IA
Ilustración que representa la recolección manual de datos visuales para modelos de IA.

«Nos despertábamos, hacíamos nuestra rutina normal y luego nos ajustábamos las cámaras en la cabeza sincronizando los tiempos», relató Taylor, quien prefirió no divulgar su apellido. Dedicaban siete horas diarias para producir cinco horas de video sincronizado, enfrentándose a desafíos físicos como dolores de cabeza y marcas en la piel.

Turing Labs: Diversificación de Datos para Habilidades Abstractas

Contratada como freelancer de datos para Turing Labs, Taylor formaba parte de un equipo que incluía artistas, chefs, trabajadores de la construcción y electricianos. Sudarshan Sivaraman, Director de AGI de Turing, explicó que la recolección manual es la única forma de obtener un conjunto de datos suficientemente variado durante la fase de pre-entrenamiento.

«Capturamos toda esta información para que los modelos comprendan cómo se realiza una tarea específica», afirmó Sivaraman.

El Cambio de Paradigma: Calidad sobre Cantidad en Datos de IA

Las empresas de IA están abandonando el raspado web masivo para priorizar datos cuidadosamente curados. Fyxer, compañía especializada en gestión de correos electrónicos con IA, descubrió que el rendimiento se define por la calidad de los datos, no por su volumen.

Persona grabando video con smartphone en entorno profesional
Ejemplo de grabación de video en entornos controlados para entrenamiento de modelos.

Richard Hollingsworth, fundador de Fyxer, reveló que en los inicios, los ingenieros eran superados en proporción 4 a 1 por asistentes ejecutivos necesarios para entrenar el modelo. «Encontramos que la mejor manera es a través de datos de alta calidad y entrenamiento liderado por humanos», destacó.

Datos Sintéticos y Ventaja Competitiva

Turing estima que 75% a 80% de sus datos son sintéticos, extrapolados de los videos originales. Sin embargo, Sivaraman advierte: «Si los datos de pre-entrenamiento no son de buena calidad, lo que hagas con datos sintéticos tampoco lo será».

Para empresas como Fyxer, este enfoque representa una ventaja competitiva sólida. Hollingsworth lo describe como un foso defensivo: cualquiera puede usar modelos de código abierto, pero no todos pueden acceder a anotadores expertos para entrenarlos efectivamente.

Comparte este artículo

Otras notas de tu interés:

Negocios

El Desarrollo de Startups de IA para Consumidores: Estabilización y Nuevos Dispositivos en el Horizonte

Negocios

Nvidia refuerza su apuesto por la IA abierta: adquiere SchedMD y lanza la familia Nemotron 3

Espectáculos y Entretenimiento

Disney y OpenAI: Un Año de Exclusividad en Asociación Millonaria

Economia

Chai Discovery, startup biotecnológica con respaldo de OpenAI, levanta $130 millones en ronda Serie B

Politica

Casa Blanca Anuncia Medidas Clave en Política de Inteligencia Artificial

Noticia Local

DeSantis Impulsa Ley para Controlar el Uso de IA en Florida

Economia

Nvidia evalúa aumentar producción de chips H200 ante fuerte demanda china

Bienestar y Salud Mental

Momo Self Care: La app de IA que combate la ‘basura digital’ y te ayuda a crear hábitos

Espectáculos y Entretenimiento

Mirelo, la startup de IA para bandas sonoras de video, recauda $41 millones en ronda semilla

Sociedad y Cultura

Desinformación de Grok: El chatbot de Elon Musk falsea datos del tiroteo en Bondi Beach