La Fundación del Premio ARC, una organización sin fines de lucro cofundada por el destacado investigador de IA François Chollet, anunció en una publicación de blog el lunes que ha creado una nueva prueba desafiante para medir la inteligencia general de los principales modelos de IA.
Hasta ahora, la nueva prueba, llamada ARC-AGI-2, ha perseguido a la mayoría de los modelos.
Los modelos de IA “razonamiento” como OpenAi’s O1-Pro y Deepseek’s R1 obtienen entre 1% y 1.3% en ARC-AGI-2, según la tabla de clasificación del premio ARC. Poderosos modelos que no son de condensación que incluyen GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash anotan alrededor del 1%.
Las pruebas ARC-AGI consisten en problemas similares a los rompecabezas en los que una IA tiene que identificar patrones visuales de una colección de cuadrados de diferentes colores, y generar la cuadrícula correcta de “respuesta”. Los problemas fueron diseñados para obligar a una IA a adaptarse a nuevos problemas que no había visto antes.
La Fundación del Premio ARC tenía más de 400 personas que tomaron ARC-AGI-2 para establecer una línea de base humana. En promedio, los “paneles” de estas personas obtuvieron el 60% de las preguntas de la prueba correcta, mucho mejor que cualquiera de los puntajes de los modelos.

En una publicación sobre X, Chollet afirmó que ARC-AGI-2 es una mejor medida de la inteligencia real de un modelo de IA que la primera iteración de la prueba, ARC-AGI-1. Las pruebas de la Fundación del Premio ARC tienen como objetivo evaluar si un sistema de IA puede adquirir eficientemente nuevas habilidades fuera de los datos en los que fue capacitado.
Chollet dijo que, a diferencia de ARC-AGI-1, la nueva prueba evita que los modelos de IA confíen en la “fuerza bruta”, una amplia potencia informática, para encontrar soluciones. Chollet reconoció previamente que este era un defecto importante de Arc-AGI-1.
Para abordar los defectos de la primera prueba, ARC-AGI-2 presenta una nueva métrica: eficiencia. También requiere modelos para interpretar patrones sobre la mosca en lugar de depender de la memorización.
“La inteligencia no se define únicamente por la capacidad de resolver problemas o lograr puntajes altos”, escribió el cofundador de Arc Premio Foundation, Greg Kamradt, en una publicación de blog. “La eficiencia con la que se adquieren e implementan esas capacidades es un componente crucial y definitorio. La pregunta central que se hace no es solo” puede adquirir IA AI. [the] ¿Habilidad para resolver una tarea? Pero también, ‘¿A qué eficiencia o costo?’ “
ARC-AGI-1 estuvo invicto durante aproximadamente cinco años hasta diciembre de 2024, cuando Operai lanzó su modelo de razonamiento avanzado, O3, que superó a todos los demás modelos de IA y coincidió con el rendimiento humano en la evaluación. Sin embargo, como señalamos en ese momento, las ganancias de rendimiento de O3 en ARC-AGI-1 vinieron con un alto precio.
La versión del modelo O3 de OpenAI-O3 (bajo), que fue la primera en alcanzar nuevas alturas en ARC-AGI-1, con un puntaje del 75.7% en la prueba, obtuvo un miserable 4% en ARC-AGI-2 usando una potencia informática por valor de $ 200 por tarea.

La llegada de ARC-AGI-2 viene, ya que muchos en la industria de la tecnología están pidiendo nuevos puntos de referencia insaturados para medir el progreso de la IA. El cofundador de Hugging Face, Thomas Wolf, le dijo recientemente a TechCrunch que la industria de la IA carece de pruebas suficientes para medir los rasgos clave de la llamada inteligencia general artificial, incluida la creatividad.
Junto con el nuevo punto de referencia, la Fundación del Premio ARC anunció un nuevo concurso ARC Premio 2025, desafiando a los desarrolladores a alcanzar la precisión del 85% en la prueba ARC-AGI-2, y solo gasta $ 0.42 por tarea.