Home Tecnología Los puntos de referencia de Meta para sus nuevos modelos de IA son un poco engañosos

Los puntos de referencia de Meta para sus nuevos modelos de IA son un poco engañosos

by internauta
0 comment


Uno de los nuevos modelos de IA insignia Meta lanzado el sábado, Maverick, ocupa el segundo lugar en el LM Arena, una prueba que hace que los evaluadores humanos comparen las salidas de modelos y elijan cuáles prefieren. Pero parece que la versión de Maverick que Meta implementó en LM Arena difiere de la versión que está ampliamente disponible para los desarrolladores.

Como varios investigadores de IA señalaron en X, Meta señaló en su anuncio que Maverick en LM Arena es una “versión de chat experimental”. Mientras tanto, un cuadro en el sitio web oficial de LLAMA revela que las pruebas de LM Arena de Meta se realizaron utilizando “Llama 4 Maverick optimizado para la conversación”.

Como hemos escrito antes, por varias razones, LM Arena nunca ha sido la medida más confiable del rendimiento de un modelo de IA. Pero las compañías de inteligencia artificial generalmente no han personalizado o no han ajustado sus modelos para obtener mejor en el LM Arena, o al menos no han admitido hacerlo.

El problema con la adaptación de un modelo a un punto de referencia, retenerlo y luego liberar una variante de “vainilla” de ese mismo modelo es que hace que sea difícil para los desarrolladores predecir exactamente qué tan bien funcionará el modelo en contextos particulares. También es engañoso. Idealmente, los puntos de referencia, lamentablemente inadecuados como son, proporcionan una instantánea de las fortalezas y debilidades de un solo modelo en una variedad de tareas.

De hecho, los investigadores en X han observado marcadas diferencias en el comportamiento del Maverick descargable públicamente en comparación con el modelo alojado en el LM Arena. La versión LM Arena parece usar muchos emojis y dar respuestas increíblemente largas.

Nos hemos comunicado con Meta y Chatbot Arena, la organización que mantiene el LM Arena, para hacer comentarios.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00