La gente está utilizando Super Mario para comparar AI ahora

by internauta marzo 3, 2025

by internauta marzo 3, 2025 0 comment

¿Pensó que Pokémon era un punto de referencia difícil para la IA? Un grupo de investigadores argumenta que Super Mario Bros. es aún más difícil.

HAO AI Lab, una organización de investigación en la Universidad de California en San Diego, lanzó el viernes AI a los juegos en vivo de Super Mario Bros. Claude 3.7 de Anthrope realizó lo mejor, seguido de Claude 3.5. Gemini 1.5 Pro de Google y GPT-4O de OpenAI lucharon.

No era la misma versión de Super Mario Bros. que el lanzamiento original de 1985, para ser claros. El juego se ejecutó en un emulador e integrado con un marco, Gamingagent, para dar el control de AIS sobre Mario.

Super Mario Bros AI Benchmark — <span class=wp block image credits><strong>Créditos de imagen<strong>Laboratorio hao<span>

Gamingagent, que ha desarrollado internamente, alimentó las instrucciones básicas de AI, como, “si un obstáculo o enemigo está cerca, mueva/salta a la izquierda a esquivar” y capturas de pantalla en el juego. La IA luego generó entradas en forma de código Python para controlar a Mario.

Aún así, Hao dice que el juego obligó a cada modelo a “aprender” a planificar maniobras complejas y desarrollar estrategias de juego. Curiosamente, el laboratorio descubrió que los modelos de razonamiento como Openi’s O1, que “piensan” a través de los problemas paso a paso para llegar a soluciones, funcionaban peor que los modelos de “no conducir”, a pesar de ser generalmente más fuertes en la mayoría de los puntos de referencia.

Una de las principales razones por las que los modelos de razonamiento tienen problemas para jugar juegos en tiempo real como este es que tardan un tiempo, segundos, generalmente, para decidir sobre las acciones, según los investigadores. En Super Mario Bros., el tiempo lo es todo. Un segundo puede significar la diferencia entre un salto despejado de manera segura y una caída de su muerte.

Los juegos se han utilizado para comparar la IA durante décadas. Pero algunos expertos han cuestionado la sabiduría de establecer conexiones entre las habilidades de juego de la IA y el avance tecnológico. A diferencia del mundo real, los juegos tienden a ser abstractos y relativamente simples, y proporcionan una cantidad teóricamente infinita de datos para entrenar IA.

Los recientes puntos de referencia de juegos llamativos apuntan a lo que Andrej Karpathy, un científico investigador y miembro fundador de OpenAI, llamó una “crisis de evaluación”.

“Realmente no sé qué [AI] Métricas para mirar en este momento “, escribió en una publicación sobre X.” TLDR Mi reacción es que realmente no sé qué tan buenos son estos modelos en este momento “.

Al menos podemos ver a Ai interpretar a Mario.

La gente está utilizando Super Mario para comparar AI ahora

Elección del Editor

Queue

La gente está utilizando Super Mario para comparar AI ahora

MWC escucha dos puntos de vista de AI del impacto de AI

Los recortes de la administración Trump pueden amenazar los esfuerzos de investigación de la IA

You may also like

Elección del Editor

Queue