Home Tecnología Un estudiante de secundaria construyó un sitio web que le permite desafiar los modelos de IA a una construcción de Minecraft

Un estudiante de secundaria construyó un sitio web que le permite desafiar los modelos de IA a una construcción de Minecraft

by internauta
0 comment


A medida que las técnicas de evaluación comparativa convencional de IA resultan inadecuadas, los constructores de IA están recurriendo a formas más creativas para evaluar las capacidades de los modelos de IA generativos. Para un grupo de desarrolladores, ese es Minecraft, el juego de construcción de sandbox propiedad de Microsoft.

El sitio web Minecraft Benchmark (o MC-Bench) se desarrolló en colaboración para hacer modelos de IA en los desafíos cara a cara para responder a las indicaciones con las creaciones de Minecraft. Los usuarios pueden votar qué modelo hicieron un mejor trabajo, y solo después de votar pueden ver qué IA hizo cada Minecraft.

<span class=wp block image credits><strong>Créditos de imagen<strong>Punto de referencia de Minecraft <span class=screen reader text>abre en una nueva ventana<span><span>

Para Adi Singh, el alumno de 12º grado que comenzó MC-Bench, el valor de Minecraft no es tanto el juego en sí, sino la familiaridad que la gente tiene con él, después de todo, es el videojuego más vendido de todos los tiempos. Incluso para las personas que no han jugado el juego, todavía es posible evaluar qué representación en bloque de una piña se realiza mejor.

“Minecraft permite a las personas ver el progreso [of AI development] Mucho más fácilmente “, dijo Singh a TechCrunch.” La gente está acostumbrada a Minecraft, acostumbrada al aspecto y al ambiente “.

MC-Bench actualmente enumera a ocho personas como contribuyentes voluntarios. Anthrope, Google, Openai y Alibaba han subsidiado el uso de sus productos por parte del proyecto para administrar indicaciones de referencia, según el sitio web de MC-Bench, pero las compañías no están afiliadas de otra manera.

“Actualmente estamos haciendo compilaciones simples para reflexionar sobre cuán lejos hemos llegado de la era GPT-3, pero [we] Podríamos vernos escalar a estos planes de forma más larga y tareas orientadas a objetivos “, dijo Singh.” Los juegos podrían ser un medio para probar un razonamiento de agente que es más seguro que en la vida real y más controlable para fines de prueba, lo que lo hace más ideal en mis ojos “.

Otros juegos como Pokémon Red, Street Fighter y Pictionary se han utilizado como puntos de referencia experimentales para la IA, en parte porque el arte de Benchmarking AI es notoriamente complicado.

Los investigadores a menudo prueban modelos de IA en evaluaciones estandarizadas, pero muchas de estas pruebas le dan a IA una ventaja de campo de origen. Debido a la forma en que están entrenados, los modelos están dotados naturalmente en ciertos tipos estrechos de resolución de problemas, particularmente la resolución de problemas que requiere memorización de memoria o extrapolación básica.

En pocas palabras, es difícil obtener lo que significa que el GPT-4 de Openai puede obtener en el percentil 88 en el LSAT, pero no puede discernir cuántas RS hay en la palabra “fresa”. El soneto Claude 3.7 de Anthrope alcanzó una precisión del 62.3% en un punto de referencia de ingeniería de software estandarizado, pero es peor para jugar Pokémon que la mayoría de los niños de cinco años.

<span class=wp block image credits><strong>Créditos de imagen<strong>Punto de referencia de Minecraft<span>

MC-Bench es técnicamente un punto de referencia de programación, ya que se les pide a los modelos que escriban código para crear la construcción solicitada, como “Frosty the Snowman” o “una encantadora cabaña de playa tropical en una orilla de arena virgen”.

Pero es más fácil para la mayoría de los usuarios de MC-Bench evaluar si un muñeco de nieve se ve mejor que profundizar en el código, lo que le da al proyecto un atractivo más amplio y, por lo tanto, el potencial de recopilar más datos sobre los modelos que obtienen mejor puntaje constantemente.

Si esos puntajes equivalen mucho a la utilidad de AI, por supuesto, está en debate. Sin embargo, Singh afirma que son una señal fuerte.

“La tabla de clasificación actual se refleja bastante estrechamente con mi propia experiencia de usar estos modelos, que es diferente a muchos puntos de referencia de texto puro”, dijo Singh. “Tal vez [MC-Bench] Podría ser útil para las empresas para saber si se dirigen en la dirección correcta ”.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00