Startups de IA Toman el Control de la Recolección de Datos para Entrenar Modelos

La Revolución en la Recolección de Datos para IA

Durante una semana este verano, Taylor y su compañera de cuarto usaron cámaras GoPro sujetas a sus frentes mientras pintaban, esculpían y realizaban tareas domésticas. Estaban entrenando un modelo de visión de IA, sincronizando cuidadosamente su metraje para que el sistema obtuviera múltiples ángulos del mismo comportamiento. Aunque el trabajo era físicamente demandante, estaban bien pagadas por ello, lo que permitía a Taylor dedicar la mayor parte de su día al arte.

Cámara GoPro utilizada para recolección de datos en entrenamiento de IA

Dispositivos como la GoPro son clave en la captura de datos para modelos de visión artificial.

El Enfoque de Turing: Diversidad y Recolección Manual

Taylor, que pidió no revelar su apellido, trabajaba como freelancer de datos para Turing, una empresa de IA. El objetivo no era enseñar al AI a crear pinturas al óleo, sino desarrollar habilidades abstractas como la resolución secuencial de problemas y el razonamiento visual. A diferencia de los modelos de lenguaje, el modelo de visión de Turing se entrenaría completamente con video, y la mayor parte sería recolectada directamente por la empresa.

«Estamos haciendo esto para muchos tipos diferentes de trabajo manual, para tener diversidad de datos en la fase de pre-entrenamiento», explicó Sudarshan Sivaraman, Director de AGI de Turing. «Después de capturar toda esta información, los modelos podrán entender cómo se realiza una tarea específica».

Calidad sobre Cantidad: El Caso de Fyxer

Otra empresa, Fyxer, que utiliza modelos de IA para clasificar correos electrónicos y redactar respuestas, descubrió que el mejor enfoque era emplear modelos pequeños con datos de entrenamiento muy específicos. Richard Hollingsworth, fundador de Fyxer, destacó: «Nos dimos cuenta de que la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento».

En los primeros días, los ingenieros de Fyxer eran superados en número por asistentes ejecutivos necesarios para entrenar el modelo. Hollingsworth enfatizó la dificultad de encontrar personal calificado: «Es un problema muy orientado a las personas. Encontrar grandes talentos es muy difícil».

El Rol de los Datos Sintéticos y la Ventaja Competitiva

Turing estima que entre 75% y 80% de sus datos son sintéticos, extrapolados de los videos originales de GoPro. Sin embargo, Sivaraman advierte: «Si los datos de pre-entrenamiento no son de buena calidad, entonces lo que hagas con datos sintéticos tampoco será de buena calidad».

Mantener la recolección de datos internamente se ha convertido en una ventaja competitiva clave. Para Fyxer, el trabajo arduo de recopilación es una de las mejores barreras contra la competencia. Hollingsworth concluye: «Creemos que la mejor manera de hacerlo es through datos, through construir modelos personalizados, through entrenamiento de datos de alta calidad dirigido por humanos».

Comparte este artículo

Otras notas de tu interés:

Negocios

Devin Nunes Fuera de Trump Media: Se Despide como CEO Tras Salida de Ejecutivos

Economia

Tornado Impacta Fábrica de Rivian: Daños en la Línea de Producción del R2 SUV

Negocios

Meta utiliza datos de sus empleados para entrenar sus modelos de inteligencia artificial

Economia

SpaceX Asegura Opción para Comprar la Startup de IA Cursor por $60 Mil Millones

Economia

Trump Designa a Insider Republicana para Dirigir el Departamento de Trabajo

Noticia Local

Investigación Criminal a OpenAI por Uso de ChatGPT en Planificación de Tiroteo en FSU

Negocios

AllHere: La empresa tecnológica que recaudó $1.6 millones de Miami-Dade antes de colapsar en investigación federal

Economia

John Ternus: Los Colosales Desafíos y Batallas que Hereda al Tomar el Mando de Apple

Tecnologia

ChatGPT Images 2.0: La nueva frontera en generación de imágenes con IA

Economia

NeoCognition Revoluciona la IA con Agentes Autoaprendices y una Inversión de $40 Millones