El Santo Grial de la IA: Entender por qué un modelo de lenguaje toma sus decisiones
Comprender el razonamiento interno de un modelo de aprendizaje profundo ha sido uno de los mayores desafíos en la inteligencia artificial. Desde los problemas de alucinaciones hasta las luchas con la sicofancia, navegar por una red neuronal con miles de millones de parámetros nunca ha sido fácil. Guide Labs, una start-up de San Francisco, cree tener la respuesta.

Steerling-8B: Un LLM de código abierto con un diseño revolucionario
Este lunes, la compañía fundada por el CEO Julius Adebayo y la directora científica Aya Abdelsalam Ismail, ha liberado como código abierto un modelo de lenguaje grande (LLM) de 8 mil millones de parámetros llamado Steerling-8B. Su arquitectura está diseñada específicamente para hacer sus acciones fácilmente interpretables: cada token que produce el modelo puede ser rastreado hasta su origen en los datos de entrenamiento.
«La interpretabilidad que la gente hace es… neurociencia en un modelo, y nosotros le damos la vuelta a eso», explicó Adebayo. «Lo que hacemos es en realidad ingenierizar el modelo desde cero para que no necesites hacer neurociencia».
De la ciencia a la ingeniería: La capa de concepto clave
El trabajo de Adebayo, que comenzó durante su doctorado en el MIT, condujo a una nueva forma de construir LLMs. Los desarrolladores insertan una capa de concepto en el modelo que agrupa los datos en categorías rastreables. Aunque requiere más anotación de datos inicial, el uso de otros modelos de IA para ayudar permitió entrenar a Steerling-8B como su prueba de concepto más grande hasta la fecha.
Un interrogante sobre este enfoque es si eliminaría los comportamientos emergentes que hacen a los LLMs tan intrigantes. Adebayo afirma que esto todavía sucede en el modelo de su compañía, donde rastrean lo que llaman «conceptos descubiertos», como la computación cuántica, que el modelo halló por sí mismo.

Aplicaciones prácticas: Desde derechos de autor hasta préstamos bancarios
Adebayo argumenta que esta arquitectura interpretable será necesaria para todos. Para los LLMs orientados al consumidor, estas técnicas permitirían bloquear el uso de materiales con derechos de autor o controlar mejor las salidas sobre violencia o abuso de drogas. Las industrias reguladas, como las finanzas, donde un modelo que evalúa solicitantes de préstamos debe considerar registros financieros pero no la raza, requerirán LLMs más controlables. La interpretabilidad también es crucial en el trabajo científico, como en el plegamiento de proteínas.
Rendimiento y el futuro de Guide Labs
Guide Labs afirma que Steerling-8B puede alcanzar el 90% de la capacidad de los modelos existentes, pero utilizando menos datos de entrenamiento, gracias a su novedosa arquitectura. La compañía, que surgió de Y Combinator y recaudó una ronda inicial de $9 millones de Initialized Capital en noviembre de 2024, planea ahora construir un modelo más grande y comenzar a ofrecer acceso por API y agentes a los usuarios.
«La forma en que estamos entrenando modelos actualmente es súper primitiva, y democratizar la interpretabilidad inherente será algo bueno a largo plazo para nuestra raza humana», señaló Adebayo. «Cuando buscamos estos modelos que van a ser superinteligentes, no quieres que algo tome decisiones en tu nombre que te resulten misteriosas».