Home Tecnología El modelo O3 AI de OpenAI obtiene puntajes más bajos en un punto de referencia de lo que la compañía inicialmente implica

El modelo O3 AI de OpenAI obtiene puntajes más bajos en un punto de referencia de lo que la compañía inicialmente implica

by internauta
0 comment


Una discrepancia entre los resultados de referencia de primer y tercero para el modelo O3 AI de OpenAI está planteando preguntas sobre la transparencia de la compañía y las prácticas de prueba de modelos.

Cuando Openai dio a conocer O3 en diciembre, la compañía afirmó que el modelo podría responder poco más de un cuarto de preguntas sobre Frontiermath, un conjunto desafiante de problemas matemáticos. Esa puntuación explotó la competencia: el mejor modelo mejor logró responder solo alrededor del 2% de los problemas de Frontyermath correctamente.

“Hoy, todas las ofertas tienen menos del 2% [on FrontierMath]”, Dijo Mark Chen, director de investigación de Openai, durante una transmisión en vivo.” Estamos viendo [internally]con O3 en la configuración agresiva de la prueba de tiempo de prueba, podemos superar el 25%”.

Resulta que esa cifra era probablemente un límite superior, logrado por una versión de O3 con más computación detrás de él que el modelo OpenAi lanzado públicamente la semana pasada.

Epoch AI, el Instituto de Investigación detrás de Frontiermath, publicó los resultados de sus pruebas de referencia independientes de O3 el viernes. Epoch descubrió que O3 obtuvo alrededor del 10%, muy por debajo del puntaje más alto reclamado de Openai.

Eso no significa que Operai mentiera, per se. Los resultados de referencia que la compañía publicó en diciembre muestra una puntuación inferior que coincide con la época de puntaje observada. Epoch también señaló que su configuración de prueba probablemente difiere de OpenAI, y que utilizó una versión actualizada de Frontiermath para sus evaluaciones.

“La diferencia entre nuestros resultados y la de OpenAI podría deberse a la evaluación de OpenAI con un andamio interno más potente, utilizando más tiempo de prueba [computing]o porque esos resultados se ejecutaron en un subconjunto diferente de Frontiermath (los 180 problemas en Frontiermath-2024-11-26 frente a los 290 problemas en Frontiermath-2025-02-28-Private) “, escribió Epoch.

Según una publicación sobre X de la Fundación del Premio ARC, una organización que probó una versión previa a la liberación de O3, el modelo Público de O3 “es un modelo diferente […] Sintonizado para el uso del chat/producto “, el informe de la época corroborante.

“Todos los niveles de cómputo O3 lanzados son más pequeños que la versión que [benchmarked]”, Escribió el Premio ARC. En términos generales, se puede esperar que los niveles de cómputo más grandes logren mejores puntajes de referencia.

La propia Wenda Zhou de Openai, miembro del personal técnico, dijo durante una transmisión en vivo la semana pasada que el O3 en producción está “más optimizado para los casos de uso del mundo real” y la velocidad versus la versión de O3 demostrada en diciembre. Como resultado, puede exhibir “disparidades”, agregó.

“[W]hemos hecho [optimizations] Para hacer el [model] más rentable [and] más útil en general “, dijo Zhou.” Todavía esperamos que, todavía pensemos que, este es un modelo mucho mejor […] No tendrá que esperar tanto cuando solicite una respuesta, lo cual es algo real con estos [types of] modelos “.

De acuerdo, el hecho de que el lanzamiento público de O3 no alcance las promesas de pruebas de OpenAi es un punto de discusión, ya que los modelos O3-Mini-High-Mini de la compañía superan a O3 en Frontiermath, y OpenAI planea debutar una variante O3 más potente, O3-Pro, en las próximas semanas.

Sin embargo, es otro recordatorio de que los puntos de referencia de IA son mejor no tomados al pie de la letra, particularmente cuando la fuente es una empresa con servicios para vender.

La evaluación comparativa de “controversias” se está convirtiendo en un hecho común en la industria de la IA a medida que los proveedores corren para capturar los titulares y la mentalidad con nuevos modelos.

En enero, Epoch fue criticada por esperar para revelar fondos de Operai hasta después de que la compañía anunció O3. Muchos académicos que contribuyeron al Frontiermath no fueron informados de la participación de OpenAi hasta que se hizo pública.

Más recientemente, el XAI de Elon Musk fue acusado de publicar gráficos de referencia engañosos para su último modelo de IA, Grok 3. Solo este mes, Meta admitió promover puntajes de referencia para una versión de un modelo que difería de la que la compañía puso a disposición de los desarrolladores.

Actualizado 4:21 PM Pacífico: Comentarios agregados de Wenda Zhou, miembro del personal técnico de Operai, de una transmisión en vivo la semana pasada.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00