¿Mentió Xai sobre los puntos de referencia de Grok 3?

by internauta febrero 22, 2025

by internauta febrero 22, 2025 0 comment

Los debates sobre puntos de referencia de AI, y cómo son informados por AI Labs, se están derramando a la vista pública.

Esta semana, un empleado de Openai acusó a la compañía de IA de Elon Musk, Xai, de publicar resultados de referencia engañosos para su último modelo de IA, Grok 3. Uno de los cofundadores de Xai, Igor Babushkin, insistió en que la compañía estaba a la derecha.

La verdad se encuentra en algún punto intermedio.

En una publicación en el blog de XAI, la compañía publicó un gráfico que muestra el desempeño de Grok 3 en AIME 2025, una colección de preguntas matemáticas desafiantes de un reciente examen de matemáticas de invitación. Algunos expertos han cuestionado la validez de AIME como un punto de referencia de IA. Sin embargo, las versiones AIME 2025 y más antiguas de la prueba se usan comúnmente para investigar la capacidad matemática de un modelo.

El gráfico de Xai mostró dos variantes de Grok 3, Grok 3 razonamiento beta y razonamiento de Grok 3 Mini, superando el modelo disponible de mejor rendimiento de OpenAI, O3-Mini-High, en Aime 2025. Pero los empleados de OpenAi en X se apresuraron a señalar que el gráfico de Xai’s Graph No incluyó el puntaje AIME 2025 de O3-Mini-High en “Contras@64”.

¿Qué es contras@64, podrías preguntar? Bueno, es la falta de “Consenso@64”, y básicamente le da a un modelo 64 intenta responder a cada problema en un punto de referencia y toma las respuestas generadas con mayor frecuencia como las respuestas finales. Como puede imaginar, contras@64 tiende a aumentar un poco los puntajes de referencia de los modelos, y omitirlo de un gráfico podría hacer que un modelo supera a otro cuando en realidad, ese no es el caso.

Grok 3 Razonamiento Beta y Grok 3 Mini razonamiento Los puntajes para AIME 2025 en “@1”, lo que significa que el primer puntaje que los modelos obtuvieron en el punto de referencia, caen por debajo del puntaje de O3-Mini-High. Grok 3 Razoning Beta también se sigue muy bien detrás del modelo O1 de OpenAI establecido en computación “media”. Sin embargo, Xai es publicidad Grok 3 como la “IA más inteligente del mundo”.

Babushkin argumentó en X que OpenAi ha publicado gráficos de referencia de manera similar en el pasado, aunque las listas de compras que comparan el rendimiento de sus propios modelos. Una fiesta más neutral en el debate organizó un gráfico más “preciso” que muestra casi el rendimiento de todos los modelos en contras@64:

Hilarante cómo algunas personas ven mi trama como ataque a Openai y otras como ataque contra Grok, mientras que en realidad es una propaganda de SpeedSek
(De hecho, creo que Grok se ve bien allí, y la TTC Chicanery de OpenAI detrás de O3-mini-*alto*-pass@”” “1” “merece más escrutinio). Https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic
– Teortaxes ▶ ️ (Deepseek 推特🐋铁粉 2023 – ∞) (@teortaxestex) 20 de febrero de 2025

Pero como señaló el investigador de IA Nathan Lambert en una publicación, quizás la métrica más importante sigue siendo un misterio: el costo computacional (y monetario) que tardó en cada modelo para lograr su mejor puntaje. Eso solo muestra cuán pocos puntos de referencia de IA se comunican sobre las limitaciones de los modelos y sus fortalezas.

¿Mentió Xai sobre los puntos de referencia de Grok 3?

Elección del Editor

Queue

¿Mentió Xai sobre los puntos de referencia de Grok 3?

El dolor de los artículos discontinuados y la emoción de encontrarlos en línea

El Instituto de Seguridad de AI de EE. UU. Podría enfrentar grandes cortes

You may also like

Elección del Editor

Queue