Empresas de IA Revolucionan el Entrenamiento con Recolección Manual de Datos en Video

El Arte de Entrenar IA: Datos Manuales en Video Toman el Centro del Escenario

Durante una semana este verano, Taylor y su compañera de cuarto utilizaron cámaras GoPro ajustadas a sus frentes mientras pintaban, esculpían y realizaban tareas domésticas. Este esfuerzo no era un simple pasatiempo, sino parte fundamental del entrenamiento de un modelo de visión de inteligencia artificial, donde sincronizaban meticulosamente su material filmado para proporcionar múltiples ángulos de un mismo comportamiento.

Persona grabando video con cámara para entrenamiento de IA
Ilustración que representa la recolección manual de datos visuales para modelos de IA.

«Nos despertábamos, hacíamos nuestra rutina normal y luego nos ajustábamos las cámaras en la cabeza sincronizando los tiempos», relató Taylor, quien prefirió no divulgar su apellido. Dedicaban siete horas diarias para producir cinco horas de video sincronizado, enfrentándose a desafíos físicos como dolores de cabeza y marcas en la piel.

Turing Labs: Diversificación de Datos para Habilidades Abstractas

Contratada como freelancer de datos para Turing Labs, Taylor formaba parte de un equipo que incluía artistas, chefs, trabajadores de la construcción y electricianos. Sudarshan Sivaraman, Director de AGI de Turing, explicó que la recolección manual es la única forma de obtener un conjunto de datos suficientemente variado durante la fase de pre-entrenamiento.

«Capturamos toda esta información para que los modelos comprendan cómo se realiza una tarea específica», afirmó Sivaraman.

El Cambio de Paradigma: Calidad sobre Cantidad en Datos de IA

Las empresas de IA están abandonando el raspado web masivo para priorizar datos cuidadosamente curados. Fyxer, compañía especializada en gestión de correos electrónicos con IA, descubrió que el rendimiento se define por la calidad de los datos, no por su volumen.

Persona grabando video con smartphone en entorno profesional
Ejemplo de grabación de video en entornos controlados para entrenamiento de modelos.

Richard Hollingsworth, fundador de Fyxer, reveló que en los inicios, los ingenieros eran superados en proporción 4 a 1 por asistentes ejecutivos necesarios para entrenar el modelo. «Encontramos que la mejor manera es a través de datos de alta calidad y entrenamiento liderado por humanos», destacó.

Datos Sintéticos y Ventaja Competitiva

Turing estima que 75% a 80% de sus datos son sintéticos, extrapolados de los videos originales. Sin embargo, Sivaraman advierte: «Si los datos de pre-entrenamiento no son de buena calidad, lo que hagas con datos sintéticos tampoco lo será».

Para empresas como Fyxer, este enfoque representa una ventaja competitiva sólida. Hollingsworth lo describe como un foso defensivo: cualquiera puede usar modelos de código abierto, pero no todos pueden acceder a anotadores expertos para entrenarlos efectivamente.

Comparte este artículo

Otras notas de tu interés:

Tecnologia

Google ahora permite a usuarios en EE. UU. cambiar su dirección de Gmail sin perder datos

Negocios

Anthropic, la ‘cuidadosa’ empresa de IA, sufre dos filtraciones de seguridad en una semana

Negocios

Salesforce revoluciona Slack con una oleada de funciones de IA para automatizar el trabajo

Economia

Salesforce Revoluciona Slack con 30 Nuevas Funciones de IA para la Empresa

Economia

OpenAI recauda $122 mil millones en ronda récord con inversores minoristas e institucionales

Economia

Yupp cierra sus puertas tras recaudar 33 millones de dólares de a16z y otros inversores

Economia

Explosión del Megarocket de Musk Amenaza Inversión Espacial de 8 Mil Millones de Dólares

Negocios

Alexa Plus revoluciona los pedidos de comida con experiencias conversacionales en Uber Eats y Grubhub

Negocios

IA y Precisión Digital: Claves para el Reacondicionamiento de Propiedades Contaminadas

Economia

NomadicML recauda $8.4 millones para su plataforma de datos que potencia la IA de vehículos autónomos