El debate sobre la validez de las evaluaciones colaborativas en IA
Grandes laboratorios como OpenAI, Google y Meta utilizan plataformas de crowdsourcing como Chatbot Arena para evaluar sus modelos de inteligencia artificial. Sin embargo, expertos cuestionan la fiabilidad académica y ética de este método. 
Problemas de validez y ética
Emily Bender, profesora de lingüística de la Universidad de Washington, señala que estos benchmarks carecen de «validez de constructo»: «No hay evidencia de que preferir una respuesta sobre otra en Chatbot Arena realmente mida capacidades significativas».
El caso Meta: manipulación de resultados
Asmelash Teka Hadgu, cofundador de Lesan, denuncia que Meta ajustó su modelo Llama 4 Maverick para destacar en Chatbot Arena, pero luego lanzó una versión inferior. 
Propuestas para mejorar las evaluaciones
- Benchmarks dinámicos: Distribuidos entre entidades independientes (universidades, organizaciones).
- Compensación justa: Kristine Gloria exige aprender de los errores de la industria de etiquetado de datos.
- Transparencia: Matt Frederikson (CEO de Gray Swan AI) aboga por combinar evaluaciones públicas con pruebas privadas remuneradas.

¿Qué dicen los creadores de Chatbot Arena?
Wei-Lin Chiang, de LMArena, defiende su plataforma: «Actualizamos políticas para garantizar evaluaciones justas y reproducibles. El ranking refleja la voz de la comunidad».