El Arte de Entrenar IA: Datos Manuales en Video Toman el Centro del Escenario
Durante una semana este verano, Taylor y su compañera de cuarto utilizaron cámaras GoPro ajustadas a sus frentes mientras pintaban, esculpían y realizaban tareas domésticas. Este esfuerzo no era un simple pasatiempo, sino parte fundamental del entrenamiento de un modelo de visión de inteligencia artificial, donde sincronizaban meticulosamente su material filmado para proporcionar múltiples ángulos de un mismo comportamiento.

«Nos despertábamos, hacíamos nuestra rutina normal y luego nos ajustábamos las cámaras en la cabeza sincronizando los tiempos», relató Taylor, quien prefirió no divulgar su apellido. Dedicaban siete horas diarias para producir cinco horas de video sincronizado, enfrentándose a desafíos físicos como dolores de cabeza y marcas en la piel.
Turing Labs: Diversificación de Datos para Habilidades Abstractas
Contratada como freelancer de datos para Turing Labs, Taylor formaba parte de un equipo que incluía artistas, chefs, trabajadores de la construcción y electricianos. Sudarshan Sivaraman, Director de AGI de Turing, explicó que la recolección manual es la única forma de obtener un conjunto de datos suficientemente variado durante la fase de pre-entrenamiento.
«Capturamos toda esta información para que los modelos comprendan cómo se realiza una tarea específica», afirmó Sivaraman.
El Cambio de Paradigma: Calidad sobre Cantidad en Datos de IA
Las empresas de IA están abandonando el raspado web masivo para priorizar datos cuidadosamente curados. Fyxer, compañía especializada en gestión de correos electrónicos con IA, descubrió que el rendimiento se define por la calidad de los datos, no por su volumen.

Richard Hollingsworth, fundador de Fyxer, reveló que en los inicios, los ingenieros eran superados en proporción 4 a 1 por asistentes ejecutivos necesarios para entrenar el modelo. «Encontramos que la mejor manera es a través de datos de alta calidad y entrenamiento liderado por humanos», destacó.
Datos Sintéticos y Ventaja Competitiva
Turing estima que 75% a 80% de sus datos son sintéticos, extrapolados de los videos originales. Sin embargo, Sivaraman advierte: «Si los datos de pre-entrenamiento no son de buena calidad, lo que hagas con datos sintéticos tampoco lo será».
Para empresas como Fyxer, este enfoque representa una ventaja competitiva sólida. Hollingsworth lo describe como un foso defensivo: cualquiera puede usar modelos de código abierto, pero no todos pueden acceder a anotadores expertos para entrenarlos efectivamente.