Home Tecnología ¿Mentió Xai sobre los puntos de referencia de Grok 3?

¿Mentió Xai sobre los puntos de referencia de Grok 3?

by internauta
0 comment


Los debates sobre puntos de referencia de AI, y cómo son informados por AI Labs, se están derramando a la vista pública.

Esta semana, un empleado de Openai acusó a la compañía de IA de Elon Musk, Xai, de publicar resultados de referencia engañosos para su último modelo de IA, Grok 3. Uno de los cofundadores de Xai, Igor Babushkin, insistió en que la compañía estaba a la derecha.

La verdad se encuentra en algún punto intermedio.

En una publicación en el blog de XAI, la compañía publicó un gráfico que muestra el desempeño de Grok 3 en AIME 2025, una colección de preguntas matemáticas desafiantes de un reciente examen de matemáticas de invitación. Algunos expertos han cuestionado la validez de AIME como un punto de referencia de IA. Sin embargo, las versiones AIME 2025 y más antiguas de la prueba se usan comúnmente para investigar la capacidad matemática de un modelo.

El gráfico de Xai mostró dos variantes de Grok 3, Grok 3 razonamiento beta y razonamiento de Grok 3 Mini, superando el modelo disponible de mejor rendimiento de OpenAI, O3-Mini-High, en Aime 2025. Pero los empleados de OpenAi en X se apresuraron a señalar que el gráfico de Xai’s Graph No incluyó el puntaje AIME 2025 de O3-Mini-High en “Contras@64”.

¿Qué es contras@64, podrías preguntar? Bueno, es la falta de “Consenso@64”, y básicamente le da a un modelo 64 intenta responder a cada problema en un punto de referencia y toma las respuestas generadas con mayor frecuencia como las respuestas finales. Como puede imaginar, contras@64 tiende a aumentar un poco los puntajes de referencia de los modelos, y omitirlo de un gráfico podría hacer que un modelo supera a otro cuando en realidad, ese no es el caso.

Grok 3 Razonamiento Beta y Grok 3 Mini razonamiento Los puntajes para AIME 2025 en “@1”, lo que significa que el primer puntaje que los modelos obtuvieron en el punto de referencia, caen por debajo del puntaje de O3-Mini-High. Grok 3 Razoning Beta también se sigue muy bien detrás del modelo O1 de OpenAI establecido en computación “media”. Sin embargo, Xai es publicidad Grok 3 como la “IA más inteligente del mundo”.

Babushkin argumentó en X que OpenAi ha publicado gráficos de referencia de manera similar en el pasado, aunque las listas de compras que comparan el rendimiento de sus propios modelos. Una fiesta más neutral en el debate organizó un gráfico más “preciso” que muestra casi el rendimiento de todos los modelos en contras@64:

Pero como señaló el investigador de IA Nathan Lambert en una publicación, quizás la métrica más importante sigue siendo un misterio: el costo computacional (y monetario) que tardó en cada modelo para lograr su mejor puntaje. Eso solo muestra cuán pocos puntos de referencia de IA se comunican sobre las limitaciones de los modelos y sus fortalezas.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00