Esta semana, Sakana Ai, una startup respaldada por Nvidia que recaudó cientos de millones de dólares de empresas de capital de riesgo, hizo un reclamo notable. La compañía dijo que había creado un sistema de IA, el ingeniero de AI CUDA, que podría acelerar efectivamente la capacitación de ciertos modelos de IA por un factor de hasta 100 veces.
El único problema es que el sistema no funcionó.
Los usuarios en X descubrieron rápidamente que el sistema de Sakana en realidad resultó en un rendimiento de capacitación modelo peor que el promedio. Según un usuario, la IA de Sakana resultó en una desaceleración 3x, no una aceleración.
¿Qué salió mal? Un error en el código, según una publicación de Lucas Beyer, miembro del personal técnico de Operai.
“Su código de origen está mal en [a] de manera sutil “, escribió Beyer en X.” El hecho de que ejecutaran la evaluación comparativa dos veces con resultados muy diferentes debería hacer que se detengan y piensen “.
En una autopsia publicada el viernes, Sakana admitió que el sistema ha encontrado una manera de “engañar” (como lo describió Sakana) y culpó a la tendencia del sistema a “recompensar hackear”, es decir, identificar fallas para lograr altas métricas sin lograr el objetivo deseado (exceso de velocidad Entrenamiento de modelo UP). Se han observado fenómenos similares en la IA que está entrenado para jugar juegos de ajedrez.
Según Sakana, el sistema encontró hazañas en el código de evaluación que la compañía estaba utilizando que le permitió evitar validaciones para su precisión, entre otros controles. Sakana dice que ha abordado el problema y que tiene la intención de revisar sus reclamos en materiales actualizados.
“Desde entonces hemos hecho que la evaluación y el arnés de perfil de tiempo de ejecución sean más robustos para eliminar muchos de estos [sic] Lagunas ”, escribió la compañía en el X Post. “Estamos en el proceso de revisar nuestro documento y nuestros resultados para reflexionar y discutir los efectos […] Nos disculpamos profundamente por nuestra supervisión a nuestros lectores. Proporcionaremos una revisión de este trabajo pronto y discutiremos nuestros aprendizajes “.
Apoyos a Sakana por poseer el error. Pero el episodio es un buen recordatorio de que si un reclamo suena demasiado bueno para ser verdad, especialmente en AI, probablemente lo sea.