El auge de la IA se ha basado en una premisa fundamental: los modelos más grandes son los más potentes. Pero la industria está a punto de descubrir qué sucede si esa premisa se rompe.
Los crecientes costos ya han presionado a los usuarios a reconsiderar modelos más pequeños y económicos. Esta nueva tendencia de búsqueda de modelos rentables podría tener un impacto significativo en la industria tecnológica.
Predicción de un cambio sísmico
El cofundador de Coinbase, Brian Armstrong, ha predicho que el 80% de las cargas de trabajo se ejecutarán en modelos un 99% más baratos en un plazo de 12 a 18 meses. «La demanda de inteligencia es casi infinita, pero el 80% de las cargas de trabajo se ejecutarán en modelos un 99% más baratos en 12-18 meses», escribió Armstrong. Esto representaría un cambio radical en la economía de la IA, afectando directamente a grandes laboratorios como OpenAI y Anthropic, justo cuando se preparan para sus salidas a bolsa.
Pruebas que respaldan el cambio
Pruebas iniciales sugieren que, con la configuración adecuada, los modelos más baratos pueden sustituir a los más grandes sin sacrificar calidad. La herramienta legal Harvey, en colaboración con Fireworks AI, logró reducir los costos de inferencia 3 veces sin pérdida de calidad, combinando Claude Opus y GLM 5.1, y utilizando Opus solo para las tareas más intensivas.
“La calidad es lo primero, y en el ámbito legal siempre lo será. Sin embargo, la definición de calidad está evolucionando: ya no se trata de usar el modelo más potente para todo, sino de usar el mejor modelo que obtenga la respuesta correcta de la manera más eficiente”, afirmó Gabe Pereyra, cofundador de Harvey.
La verdadera división: grandes vs. pequeños
La tendencia no es entre modelos propietarios y de código abierto, sino entre modelos grandes y pequeños. Se puede ahorrar dinero cambiando de GPT-5.5 a DeepSeek V4 Flash, pero cambiar a GPT-5.4-mini funciona igual de bien. La guerra de precios entre la inferencia interna de los grandes laboratorios y los modelos de peso abierto es irrelevante para la cuestión fundamental de pequeño versus grande.
El fin del escalado sin límites
Este cambio contradice el enfoque de escalado primero que ha dominado la industria. Inspirados por la lección amarga, los laboratorios han priorizado el entrenamiento de modelos con el máximo cómputo posible, subsidiados por inversores. Ahora, con el aumento de los precios de los tokens y la reducción de los subsidios, los usuarios enfrentan presiones de costos por primera vez.
Queda por ver si las empresas adoptarán modelos más pequeños o simplemente reducirán el uso de la IA. Pero si la mayoría de las tareas pueden realizarse igual de bien con modelos pequeños, la demanda de inferencia podría estancarse y surgirían nuevas preguntas sobre la justificación del costo de entrenar modelos de frontera.
