La batalla de IA en Kanto: ¿Benchmark justo o ventaja técnica?
Un stream en Twitch desató controversia esta semana al revelar que Google Gemini superó a Anthropic Claude en una prueba de juego de los clásicos Pokémon Rojo/Azul/Amarillo. Según reportes, Gemini alcanzó el Pueblo Lavanda el 10 de abril de 2025, mientras Claude seguía atascado en Montaña Luna desde febrero.
El detalle que cambia todo
Usuarios de Reddit descubrieron que el desarrollador del stream de Gemini implementó un minimapa personalizado que identifica «tiles» específicos como árboles cortables. Esta herramienta reduce la necesidad de análisis de capturas de pantalla, dando ventaja técnica frente a la implementación estándar de Claude.
Benchmarks bajo la lupa
- Anthropic 3.7 Sonnet: Reportó 62.3% de precisión en SWE-bench Verified, pero 70.3% con un «scaffold personalizado»
- Meta Llama 4 Maverick: Versión optimizada para LM Arena supera ampliamente al modelo base
«Pokémon es un benchmark semi-serio, pero muestra cómo las implementaciones personalizadas distorsionan resultados»
Implicaciones para el futuro de la IA
Este caso ejemplifica los desafíos en evaluación de modelos:
- Falta de estandarización en pruebas
- Dificultad para comparar modelos con implementaciones diferentes
- Riesgo de «overfitting» para benchmarks específicos