Avance en Chips para Inferencia de IA: General Compute y SambaNova Impulsan el Futuro del Hardware

Nueva Neocloud Apuesta por Chips Especializados

La demanda de computación para ejecutar modelos de inteligencia artificial sigue acelerándose, pero dos grandes obstáculos persisten: conseguir los chips adecuados y colocarlos en centros de datos que generen ingresos. General Compute, una nueva neocloud especializada en inferencia, ha encontrado respuestas a estas preguntas que iluminan hacia dónde se dirige el ecosistema de IA.

La compañía levantó una ronda semilla de $15 millones con una valoración post-money de $60 millones, liderada por FUSE VC con la participación de Carya Venture Partners y Village Global Ventures.

¿Cuál es el Chip Adecuado para Inferencia?

La demanda de GPUs se ha disparado, pero cada vez es más evidente que no son los chips más adecuados para ejecutar modelos de IA una vez entrenados. La fase de inferencia tiene requisitos computacionales diferentes, y una nueva clase de chips está siendo diseñada específicamente para ella. La adquisición de Groq por $20 mil millones en diciembre y la OPI de Cerebras por $57 mil millones la semana pasada son señales claras de esta tendencia.

Con la capacidad limitada en ambas empresas, los cofundadores de General Compute, CEO Finn Puklowski y CTO Jason Goodison, encontraron otra opción: recurrieron a los chips especializados de SambaNova, un fabricante de chips respaldado por Intel y enfocado en inferencia que ha estado un poco fuera del radar de Silicon Valley.

Chips de Nvidia para IA
Los chips de Nvidia han dominado el entrenamiento, pero para inferencia se buscan alternativas más eficientes. (Imagen: LA Times)

Rendimiento Superior

SambaNova afirma que su nueva arquitectura es más flexible y utiliza más memoria para almacenar contexto durante los cálculos de inferencia, superando no solo a las GPUs sino también a otros chips especializados como los de Groq o Cerebras. Según Puklowski, los nuevos chips generarán entre 600 y 700 tokens por segundo, frente a unos 250 tokens por segundo de las GPUs.

General Compute tiene pedidos por $300 millones de los chips SN50 de SambaNova y será la primera neocloud en implementarlos.

Solución al Problema de Ubicación

Estos chips también ayudan a resolver el segundo gran problema: dónde instalarlos. Son enfriados por aire, no por agua, y consumen menos energía, por lo que pueden colocarse en centros de datos existentes sin nuevas inversiones en infraestructura.

Puklowski está buscando acuerdos de coubicación no solo con proveedores de centros de datos, sino también con mineros de criptomonedas que buscan reutilizar su infraestructura, dado que el costo de producir un bitcoin a menudo ha superado su precio.

General Compute lanzó su oferta en la nube la semana pasada, afirmando que ya es la más rápida para ejecutar MiniMax 2.7, un potente LLM de código abierto.

Inversión y Visión de Futuro

Joe Hassleman, inversor que participó en la ronda inicial de Groq en 2021, lanzó este año su nuevo fondo Evercrest Partners, centrado en IA, e hizo de General Compute su primera inversión. Hassleman ve en la asociación de SambaNova con General Compute paralelismos con la relación entre Coreweave y Nvidia, así como con la combinación de la fabricación de chips de Groq y su antigua oferta en la nube.

“Necesitan una mezcla saludable de clientes que pondrán sus chips en entornos con alto crecimiento”, dijo Hassleman. “Tanto como General Compute apuesta por SambaNova, SambaNova apuesta por General Compute”.

El Papel de la Velocidad en la Inferencia

La pregunta es qué tipo de arquitectura informática capturará más valor en el futuro de la IA. Las nubes de inferencia son apuestas implícitas por un mundo de múltiples modelos y agentes, donde ningún proveedor domina y la velocidad y el costo de la inferencia se convierten en variables competitivas clave. Considérese la ronda Serie B de $113 millones recaudada por OpenRouter esta semana, reflejando la capacidad de la empresa para ofrecer acceso a múltiples modelos y optimizar el gasto en tokens.

La velocidad importa para el precio y la capacidad. Puklowski quiere convertir cargas de trabajo de una hora para agentes de codificación en tareas de cinco o diez minutos, y hacer más económicos los agentes de audio para servicio al cliente, que requieren inferencia más rápida para conversar de manera efectiva.

“Si usas ChatGPT y te da 50 tokens por segundo, sigue siendo mucho más rápido de lo que podemos leer”, explicó Puklowski. “Ahora que las cosas han pasado a agente a agente, donde los agentes leen en nuestro nombre o consultan bases de datos, necesitan ir más rápido”.

Comparte este artículo

Otras notas de tu interés:

Economia

Visa invierte en Replit para impulsar los pagos agénticos entre desarrolladores

Economia

¡Últimas Horas! Ahorra Hasta $410 en TechCrunch Disrupt 2026

Economia

El impacto de la reusabilidad de Starship en SpaceX y Starlink: ¿Clave para el futuro?

Politica

Divisiones en la Casa Blanca sobre Inteligencia Artificial

Economia

Los empleados estatales mejor pagados de Florida: ¿Quiénes ganan más?

Negocios

Vertu Alphafold: el lujoso smartphone plegable con inteligencia artificial para ejecutivos

Tecnologia

Google AI y los Errores Ortográficos: El Talón de Aquiles de los Modelos de Lenguaje

Economia

Newsom Promete Impuesto del 100% sobre Pagos del DOJ Anti-Weaponization Fund

Negocios

George Pino: Defensa y Fiscalía Enfrentan en Corte por Accidente Náutico Mortal

Economia

DeSantis Presenta un “Plan para Tener un Plan” de Alivio Fiscal, Dejando a Legisladores y Gobiernos Locales en la Incertidumbre