Guide Labs Desvela el Misterio: Presenta el Primer Modelo de Lenguaje con Trazabilidad Total

El Santo Grial de la IA: Entender por qué un modelo de lenguaje toma sus decisiones

Comprender el razonamiento interno de un modelo de aprendizaje profundo ha sido uno de los mayores desafíos en la inteligencia artificial. Desde los problemas de alucinaciones hasta las luchas con la sicofancia, navegar por una red neuronal con miles de millones de parámetros nunca ha sido fácil. Guide Labs, una start-up de San Francisco, cree tener la respuesta.

Diagrama que compara el razonamiento humano lógico con los enfoques de aprendizaje profundo
La interpretabilidad busca acercar el razonamiento de la IA al entendimiento humano.

Steerling-8B: Un LLM de código abierto con un diseño revolucionario

Este lunes, la compañía fundada por el CEO Julius Adebayo y la directora científica Aya Abdelsalam Ismail, ha liberado como código abierto un modelo de lenguaje grande (LLM) de 8 mil millones de parámetros llamado Steerling-8B. Su arquitectura está diseñada específicamente para hacer sus acciones fácilmente interpretables: cada token que produce el modelo puede ser rastreado hasta su origen en los datos de entrenamiento.

«La interpretabilidad que la gente hace es… neurociencia en un modelo, y nosotros le damos la vuelta a eso», explicó Adebayo. «Lo que hacemos es en realidad ingenierizar el modelo desde cero para que no necesites hacer neurociencia».

De la ciencia a la ingeniería: La capa de concepto clave

El trabajo de Adebayo, que comenzó durante su doctorado en el MIT, condujo a una nueva forma de construir LLMs. Los desarrolladores insertan una capa de concepto en el modelo que agrupa los datos en categorías rastreables. Aunque requiere más anotación de datos inicial, el uso de otros modelos de IA para ayudar permitió entrenar a Steerling-8B como su prueba de concepto más grande hasta la fecha.

Un interrogante sobre este enfoque es si eliminaría los comportamientos emergentes que hacen a los LLMs tan intrigantes. Adebayo afirma que esto todavía sucede en el modelo de su compañía, donde rastrean lo que llaman «conceptos descubiertos», como la computación cuántica, que el modelo halló por sí mismo.

Diagrama de flujo conceptual que muestra el proceso de interpretabilidad desde los humanos hasta los datos del mundo
Una visión general del proceso de interpretabilidad en el aprendizaje automático.

Aplicaciones prácticas: Desde derechos de autor hasta préstamos bancarios

Adebayo argumenta que esta arquitectura interpretable será necesaria para todos. Para los LLMs orientados al consumidor, estas técnicas permitirían bloquear el uso de materiales con derechos de autor o controlar mejor las salidas sobre violencia o abuso de drogas. Las industrias reguladas, como las finanzas, donde un modelo que evalúa solicitantes de préstamos debe considerar registros financieros pero no la raza, requerirán LLMs más controlables. La interpretabilidad también es crucial en el trabajo científico, como en el plegamiento de proteínas.

Rendimiento y el futuro de Guide Labs

Guide Labs afirma que Steerling-8B puede alcanzar el 90% de la capacidad de los modelos existentes, pero utilizando menos datos de entrenamiento, gracias a su novedosa arquitectura. La compañía, que surgió de Y Combinator y recaudó una ronda inicial de $9 millones de Initialized Capital en noviembre de 2024, planea ahora construir un modelo más grande y comenzar a ofrecer acceso por API y agentes a los usuarios.

«La forma en que estamos entrenando modelos actualmente es súper primitiva, y democratizar la interpretabilidad inherente será algo bueno a largo plazo para nuestra raza humana», señaló Adebayo. «Cuando buscamos estos modelos que van a ser superinteligentes, no quieres que algo tome decisiones en tu nombre que te resulten misteriosas».

Comparte este artículo

Otras notas de tu interés:

Tecnologia

Meredith Whittaker, presidenta de Signal, advierte sobre los chatbots de IA: «No son tus amigos»

Tecnologia

¿Te recuerda la IA? ‘In the Weights’ mide qué tan presente estás en los modelos de inteligencia artificial

Economia

Preocupaciones de los Banqueros Comunitarios: Perder Oportunidades Financieras Clave

Negocios

John Jumper, Premio Nobel de Química, deja DeepMind para unirse a Anthropic

Negocios

YC Demo Day Spring 2026: Las Startups Más Prometedoras en Defensa, Robótica e Infraestructura de IA

Tecnologia

Cómo desactivar la inteligencia artificial en Google Docs y deshacerte de Gemini de una vez por todas

Economia

Cuba anuncia histórica apertura al capital privado y extranjero en sectores clave

Negocios

Trump presenta el nuevo Air Force One convertido a partir de un jet qatarí

Economia

Estados Unidos impone control de exportaciones a modelos de IA de Anthropic

Economia

Cuba anuncia reformas históricas: apertura de sectores clave y privatización de empresas estatales