Startups de IA Toman el Control de la Recolección de Datos para Entrenar Modelos

La Revolución en la Recolección de Datos para IA

Durante una semana este verano, Taylor y su compañera de cuarto usaron cámaras GoPro sujetas a sus frentes mientras pintaban, esculpían y realizaban tareas domésticas. Estaban entrenando un modelo de visión de IA, sincronizando cuidadosamente su metraje para que el sistema obtuviera múltiples ángulos del mismo comportamiento. Aunque el trabajo era físicamente demandante, estaban bien pagadas por ello, lo que permitía a Taylor dedicar la mayor parte de su día al arte.

Cámara GoPro utilizada para recolección de datos en entrenamiento de IA

Dispositivos como la GoPro son clave en la captura de datos para modelos de visión artificial.

El Enfoque de Turing: Diversidad y Recolección Manual

Taylor, que pidió no revelar su apellido, trabajaba como freelancer de datos para Turing, una empresa de IA. El objetivo no era enseñar al AI a crear pinturas al óleo, sino desarrollar habilidades abstractas como la resolución secuencial de problemas y el razonamiento visual. A diferencia de los modelos de lenguaje, el modelo de visión de Turing se entrenaría completamente con video, y la mayor parte sería recolectada directamente por la empresa.

«Estamos haciendo esto para muchos tipos diferentes de trabajo manual, para tener diversidad de datos en la fase de pre-entrenamiento», explicó Sudarshan Sivaraman, Director de AGI de Turing. «Después de capturar toda esta información, los modelos podrán entender cómo se realiza una tarea específica».

Calidad sobre Cantidad: El Caso de Fyxer

Otra empresa, Fyxer, que utiliza modelos de IA para clasificar correos electrónicos y redactar respuestas, descubrió que el mejor enfoque era emplear modelos pequeños con datos de entrenamiento muy específicos. Richard Hollingsworth, fundador de Fyxer, destacó: «Nos dimos cuenta de que la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento».

En los primeros días, los ingenieros de Fyxer eran superados en número por asistentes ejecutivos necesarios para entrenar el modelo. Hollingsworth enfatizó la dificultad de encontrar personal calificado: «Es un problema muy orientado a las personas. Encontrar grandes talentos es muy difícil».

El Rol de los Datos Sintéticos y la Ventaja Competitiva

Turing estima que entre 75% y 80% de sus datos son sintéticos, extrapolados de los videos originales de GoPro. Sin embargo, Sivaraman advierte: «Si los datos de pre-entrenamiento no son de buena calidad, entonces lo que hagas con datos sintéticos tampoco será de buena calidad».

Mantener la recolección de datos internamente se ha convertido en una ventaja competitiva clave. Para Fyxer, el trabajo arduo de recopilación es una de las mejores barreras contra la competencia. Hollingsworth concluye: «Creemos que la mejor manera de hacerlo es through datos, through construir modelos personalizados, through entrenamiento de datos de alta calidad dirigido por humanos».

Comparte este artículo

Otras notas de tu interés:

Economia

Cursor supera los 2.000 millones de dólares en ingresos anuales

Economia

ChatGPT sufre masivas desinstalaciones tras acuerdo con el Pentágono; Claude se dispara en descargas

Espectáculos y Entretenimiento

Netflix despierta en la Washington de Trump: Preocupaciones antimonopolio por acuerdo con Warner Bros.

Economia

Trump y Rubio Trabajan en Plan para Estabilizar los Mercados Petroleros

Economia

Trump se niega a poner fecha límite a las operaciones militares en Irán mientras el conflicto se expande por Medio Oriente

Economia

Byron Donalds Desvela sus Planes para Florida en Evento de Campaña en Miami

Economia

La Polémica Relación entre las Empresas de IA y el Gobierno: OpenAI y el Contrato del Pentágono

Economia

Gavin Newsom Culpa a Donald Trump por el Aumento en los Precios de la Gasolina

Costos de Vida en Miami

Ryan’s Rankings: La Guía Definitiva para Evaluar Condominios en Miami

Economia

Inversores Enfrían su Entusiasmo: Estos Modelos de IA SaaS Ya No Reciben Financiación