Home Tecnología Estos investigadores utilizaron preguntas de rompecabezas de NPR Sunday para comparar modelos de ‘razonamiento’ de AI

Estos investigadores utilizaron preguntas de rompecabezas de NPR Sunday para comparar modelos de ‘razonamiento’ de AI

by internauta
0 comment


Todos los domingos, el anfitrión de NPR Will Shortz, el Guru de crucigramas del New York Times, consulta a miles de oyentes en un segmento de larga duración llamado Sunday Puzzle. Mientras está escrito para ser solucionable sin también Mucho conocimiento previo, los acertificadores generalmente son desafiantes incluso para concursantes calificados.

Es por eso que algunos expertos piensan que son una forma prometedora de probar los límites de las habilidades de resolución de problemas de IA.

En un estudio reciente, un equipo de investigadores provenientes de Wellesley College, Oberlin College, la Universidad de Texas en Austin, Northeastern University, Charles University y Startup Cursor crearon un punto de referencia de IA utilizando acertijos de episodios del rompecabezas del domingo. El equipo dice que su prueba descubrió ideas sorprendentes, como los modelos de razonamiento, Openi’s O1, entre otros, a veces “se rinde” y proporciona respuestas que saben que no son correctas.

“Queríamos desarrollar un punto de referencia con problemas que los humanos puedan entender con solo conocimiento general”, dijo a TechCrunch Arjun Guha, miembro de la facultad de ciencias de la informática en Northeastern y uno de los coautores del estudio.

La industria de la IA está en un dilema de evaluación comparativa en este momento. La mayoría de las pruebas comúnmente utilizadas para evaluar los modelos de IA sondea para habilidades, como la competencia en las preguntas de matemáticas y ciencias a nivel de doctorado, que no son relevantes para el usuario promedio. Mientras tanto, muchos puntos de referencia, incluso los puntos de referencia lanzados relativamente recientemente, se acercan rápidamente al punto de saturación.

Las ventajas de un juego de cuestionario de radio público como el rompecabezas del domingo es que no prueba el conocimiento esotérico, y los desafíos se redactan de manera que los modelos no pueden recurrir a la “memoria de memoria” para resolverlos, explicó Guha.

“Creo que lo que dificulta estos problemas es que es realmente difícil hacer un progreso significativo en un problema hasta que lo resuelvas, es cuando todo hace clic juntos de una vez”, dijo Guha. “Eso requiere una combinación de información y un proceso de eliminación”.

Ningún punto de referencia es perfecto, por supuesto. El rompecabezas del domingo está centrado en los EE. UU. Solo en inglés. Y debido a que los cuestionarios están disponibles públicamente, es posible que los modelos capacitados en ellos puedan “engañar” en cierto sentido, aunque Guha dice que no ha visto evidencia de esto.

“Se lanzan nuevas preguntas cada semana, y podemos esperar que las últimas preguntas sean realmente invisibles”, agregó. “Tenemos la intención de mantener el punto de referencia fresco y rastrear cómo cambia el rendimiento del modelo con el tiempo”.

En el punto de referencia de los investigadores, que consta de alrededor de 600 acertijos del rompecabezas del domingo, modelos de razonamiento como O1 y R1 de Deepseek superan al resto. Los modelos de razonamiento se verifican a fondo antes de dar resultados, lo que les ayuda a evitar algunas de las trampas que normalmente se disparan a los modelos de IA. La compensación es que los modelos de razonamiento tardan un poco más en llegar a soluciones, generalmente de segundos o minutos más.

Al menos un modelo, R1 de Deepseek, ofrece soluciones que sabe estar equivocada para algunas de las preguntas del rompecabezas del domingo. R1 indicará literalmente “me rindo”, seguido de una respuesta incorrecta elegida aparentemente al azar, comportamiento con el que este humano ciertamente puede relacionarse.

Los modelos toman otras opciones extrañas, como dar una respuesta incorrecta solo para retractarlo inmediatamente, intentar descubrir una mejor y fallar nuevamente. También se atascan “pensando” para siempre y dan explicaciones sin sentido para las respuestas, o llegan a una respuesta correcta de inmediato, pero luego consideran respuestas alternativas sin ninguna razón obvia.

“En problemas difíciles, R1 dice literalmente que se está ‘frustrado'”, dijo Guha. “Fue divertido ver cómo una modelo emula lo que podría decir un humano. Queda por ver cómo la “frustración” en el razonamiento puede afectar la calidad de los resultados del modelo “.

NPR Benchmark
<span class=wp element caption text>R1 se frustraba en una pregunta en el set de Sunday Puzzle Challenge<span><span class=wp block image credits><strong>Créditos de imagen<strong>Guha et al<span>

El modelo actual de mejor rendimiento en el punto de referencia es O1 con un puntaje del 59%, seguido por el O3-Mini recientemente lanzado con un alto “esfuerzo de razonamiento” (47%). (R1 obtuvo un puntaje del 35%). Como siguiente paso, los investigadores planean ampliar sus pruebas a modelos de razonamiento adicionales, que esperan ayudar a identificar áreas donde estos modelos podrían mejorarse.

NPR Benchmark
<span class=wp element caption text>Los puntajes de los modelos que el equipo probó en su punto de referencia<span><span class=wp block image credits><strong>Créditos de imagen<strong>Guha et al<span>

“No necesita un doctorado para ser bueno en el razonamiento, por lo que debería ser posible diseñar puntos de referencia de razonamiento que no requieran conocimiento a nivel de doctorado”, dijo Guha. “Un punto de referencia con acceso más amplio permite que un conjunto más amplio de investigadores comprendan y analice los resultados, lo que a su vez puede conducir a mejores soluciones en el futuro. Además, a medida que los modelos de vanguardia se implementan cada vez más en entornos que afectan a todos, creemos que todos deberían poder intuir de qué son, y no son capaces, de lo que no es capaz “.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00