Los modelos O3 y O4-Mini AI recientemente lanzados de OpenAI son de última generación en muchos aspectos. Sin embargo, los nuevos modelos aún alucinan o inventan las cosas; de hecho, alucinan más que varios de los modelos más antiguos de Openai.
Las alucinaciones han demostrado ser uno de los problemas más grandes y difíciles de resolver en la IA, lo que impacta incluso los sistemas de mejor rendimiento de hoy. Históricamente, cada nuevo modelo ha mejorado ligeramente en el departamento de alucinación, alucinando menos que su predecesor. Pero ese no parece ser el caso de O3 y O4-Mini.
De acuerdo con las pruebas internas de OpenAi, O3 y O4-Mini, que son los llamados modelos de razonamiento, alucinan más a menudo que los modelos de razonamiento anteriores de la compañía, O1, O1-Mini y O3-Mini, así como los modelos tradicionales de “no conducir” de OpenAI, como GPT-4O.
Quizás más preocupante, el fabricante de chatgpt realmente no sabe por qué está sucediendo.
En su informe técnico para O3 y O4-Mini, Operai escribe que “se necesita más investigación” para comprender por qué las alucinaciones están empeorando a medida que escala modelos de razonamiento. O3 y O4-Mini funcionan mejor en algunas áreas, incluidas las tareas relacionadas con la codificación y las matemáticas. Pero debido a que “hacen más reclamos en general”, a menudo se llevan a hacer “reclamos más precisos, así como reclamos más inexactos/alucinados”, según el informe.
Operai descubrió que O3 alucinó en respuesta al 33% de las preguntas sobre Personqa, el punto de referencia interno de la compañía para medir la precisión del conocimiento de un modelo sobre las personas. Eso es aproximadamente el doble de la tasa de alucinación de los modelos de razonamiento anteriores de OpenAI, O1 y O3-Mini, que obtuvieron un puntaje de 16% y 14.8%, respectivamente. O4-Mini fue aún peor en Personqa, alucinando el 48% del tiempo.
Las pruebas de terceros por Transluce, un laboratorio de investigación de IA sin fines de lucro, también encontró evidencia de que O3 tiene una tendencia a compensar las acciones que tomó en el proceso de llegada a las respuestas. En un ejemplo, Transluce O3 observado afirmando que ejecutaba código en un “Fuera de chatgpt” de 2021 MacBook Pro, luego copió los números en su respuesta. Si bien O3 tiene acceso a algunas herramientas, no puede hacer eso.
“Nuestra hipótesis es que el tipo de aprendizaje de refuerzo utilizado para los modelos de la serie O puede amplificar los problemas que generalmente son mitigados (pero no están completamente borrados) por las tuberías de post-entrenamiento estándar”, dijo Neil Chowdhury, un investigador de transluciones y ex empleado de Operai, en un correo electrónico a TechCrunch.
Sarah Schwettmann, cofundadora de Transluce, agregó que la tasa de alucinación de O3 puede hacerlo menos útil de lo que sería de otra manera.
Kian Katanforoosh, profesor adjunto de Stanford y CEO de la creación de inicio de Workera, le dijo a TechCrunch que su equipo ya está probando O3 en sus flujos de trabajo de codificación, y que han encontrado que está un paso por encima de la competencia. Sin embargo, Katanforoosh dice que O3 tiende a alucinar los enlaces de sitios web rotos. El modelo proporcionará un enlace que, cuando se hace clic, no funciona.
Las alucinaciones pueden ayudar a los modelos a llegar a ideas interesantes y ser creativas en su “pensamiento”, pero también hacen que algunos modelos sean una venta difícil para las empresas en los mercados donde la precisión es primordial. Por ejemplo, un bufete de abogados probablemente no estaría satisfecho con un modelo que inserta muchos errores objetivos en los contratos del cliente.
Un enfoque prometedor para aumentar la precisión de los modelos es darles capacidades de búsqueda web. El GPT-4O de OpenAI con la búsqueda web alcanza el 90% de precisión en SimpleQA, otro de los puntos de referencia de precisión de Openai. Potencialmente, la búsqueda podría mejorar las tasas de alucinación de los modelos de razonamiento, al menos en los casos en que los usuarios están dispuestos a exponer indicaciones a un proveedor de búsqueda de terceros.
Si la ampliación de los modelos de razonamiento continúa empeorando las alucinaciones, hará que la búsqueda de una solución sea aún más urgente.
“Abordar las alucinaciones en todos nuestros modelos es un área de investigación en curso, y estamos trabajando continuamente para mejorar su precisión y confiabilidad”, dijo el portavoz de OpenAI, Niko Felix, en un correo electrónico a TechCrunch.
En el último año, la industria de IA más amplia ha girado para centrarse en modelos de razonamiento después de las técnicas para mejorar los modelos tradicionales de IA comenzó a mostrar rendimientos decrecientes. El razonamiento mejora el rendimiento del modelo en una variedad de tareas sin requerir cantidades masivas de computación y datos durante la capacitación. Sin embargo, parece que el razonamiento también puede conducir a más alucinantes, presentando un desafío.