Ni siquiera Pokémon está a salvo de la controversia de la evaluación comparativa de IA.
La semana pasada, una publicación sobre X se volvió viral, alegando que el último modelo de Géminis de Google superó el modelo insignia de Anthrope Claude en la trilogía original de los videojuegos Pokémon. Según se informa, Géminis había llegado a la ciudad de Lavendar en la corriente de contracción de un desarrollador; Claude estaba atrapado en Mount Moon a fines de febrero.
Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town
119 vistas en vivo solo por cierto, transmisión increíblemente subestimada pic.twitter.com/8avsovai4x
– Jush (@jush21e8) 10 de abril de 2025
Pero lo que la publicación no mencionó es que Gemini tenía una ventaja.
Como señalaron los usuarios en Reddit, el desarrollador que mantiene la transmisión Gemini creó un minimaps personalizado que ayuda al modelo a identificar “mosaicos” en el juego como árboles de corte. Esto reduce la necesidad de que Gemini analice las capturas de pantalla antes de tomar decisiones de juego.
Ahora, Pokémon es un punto de referencia de IA semi-serioso en el mejor de los casos, pocos argumentarían que es una prueba muy informativa de las capacidades de un modelo. Pero es Un ejemplo instructivo de cómo las diferentes implementaciones de un punto de referencia pueden influir en los resultados.
Por ejemplo, Anthrope informó dos puntajes para su reciente modelo de soneto antrópico 3.7 en el banco de referencia verificado, que está diseñado para evaluar las habilidades de codificación de un modelo. Claude 3.7 El soneto logró una precisión del 62.3% en el bancos SWE verificado, pero el 70.3% con un “andamio personalizado” que desarrolló antrópico.
Más recientemente, Meta Fine-ajustó una versión de uno de sus modelos más nuevos, Llama 4 Maverick, para funcionar bien en un punto de referencia en particular, LM Arena. La versión de vainilla del modelo puntúa significativamente peor en la misma evaluación.
Dado que los puntos de referencia de IA, incluidos Pokémon, son medidas imperfectas para empezar, implementaciones personalizadas y no estándar amenazan con enturbiar aún más las aguas. Es decir, no parece probable que sea más fácil comparar modelos a medida que se lanzan.