A principios de esta semana, Meta aterrizó en agua caliente para usar una versión experimental e inédita de su modelo Maverick Llama 4 para lograr una puntuación alta en un punto de referencia de crowdsourced, LM Arena. El incidente llevó a los mantenedores de LM Arena a disculparse, cambiar sus políticas y anotar al Maverick de vainilla no modificado.
Resulta que no es muy competitivo.
El Maverick no modificado, “Llama-4-Maverick-17B-128E-Instructo”, se clasificó a continuación modelos que incluyen el GPT-4O de Openai, el soneto Claude 3.5 de Anthrope y el Gemini 1.5 Pro de Google a partir del viernes. Muchos de estos modelos tienen meses.
La versión de lanzamiento de Llama 4 se ha agregado a Lmarena después de que se descubrió que engañaron, pero probablemente no la viste porque tienes que desplazarse hacia abajo hasta el lugar 32, que es donde está rango. pic.twitter.com/a0bxkdx4lx
– ρ: ɡeσn (@pigeon__s) 11 de abril de 2025
¿Por qué el bajo rendimiento? El Experimental Maverick de Meta, Llama-4-Maverick-03-26-Experimental, fue “optimizado para la conversación”, explicó la compañía en una lista publicada el sábado pasado. Esas optimizaciones evidentemente jugaron bien en el LM Arena, que hace que los evaluadores humanos comparen las salidas de los modelos y eligen cuáles prefieren.
Como hemos escrito antes, por varias razones, LM Arena nunca ha sido la medida más confiable del rendimiento de un modelo de IA. Aún así, adaptar un modelo a un punto de referencia, además de ser engañoso, hace que sea un desafío para los desarrolladores predecir exactamente qué tan bien funcionará el modelo en diferentes contextos.
En un comunicado, un portavoz de Meta le dijo a TechCrunch que meta experimenta con “todo tipo de variantes personalizadas”.
“‘Llama-4-Maverick-03-26-Experimental’ es una versión optimizada de chat con la que experimentamos que también funciona bien en Lmarena”, dijo el portavoz. “Ahora hemos lanzado nuestra versión de código abierto y veremos cómo los desarrolladores personalizan a Llama 4 para sus propios casos de uso. Estamos emocionados de ver qué construirán y esperamos sus comentarios continuos”.