Un modelo de AI de Google recientemente lanzado puntúa peor en ciertas pruebas de seguridad que su predecesor, según la evaluación comparativa interna de la compañía.
En un informe técnico publicado esta semana, Google revela que es más probable que su modelo Gemini 2.5 Flash genere texto que viole sus pautas de seguridad que Gemini 2.0 Flash. En dos métricas, “seguridad de texto a texto” y “seguridad de imagen a texto”, Gemini 2.5 Flash regresa 4.1% y 9.6%, respectivamente.
La seguridad de texto a texto mide la frecuencia con la que un modelo viola las pautas de Google dadas un aviso, mientras que la seguridad de imagen a texto evalúa cuán de cerca se adhiere el modelo a estos límites cuando se le solicita una imagen. Ambas pruebas están automatizadas, no supervisadas por humanos.
En una declaración enviada por correo electrónico, un portavoz de Google confirmó que Gemini 2.5 Flash “funciona peor en la seguridad de texto a texto y imagen a texto”.
Estos sorprendentes resultados de referencia se producen a medida que las compañías de IA se mueven para hacer que sus modelos sean más permisivos: en otras palabras, es menos probable que se niegue a responder a sujetos controvertidos o sensibles. Para su última cosecha de modelos de llama, Meta dijo que sintonizó los modelos para no respaldar “algunos puntos de vista sobre otros” y responder a más indicaciones políticas “debatidas”. Operai dijo a principios de este año que ajustaría modelos futuros para no adoptar una postura editorial y ofrecer múltiples perspectivas sobre temas controvertidos.
A veces, esos esfuerzos de permisividad han fracasado. TechCrunch informó el lunes que el modelo predeterminado que impulsa el CHATGPT de OpenAI permitió a los menores generar conversaciones eróticas. Openai culpó del comportamiento de un “error”.
Según el informe técnico de Google, Gemini 2.5 Flash, que todavía está en vista previa, sigue las instrucciones más fiel que Gemini 2.0 Flash, incluidas las instrucciones que cruzan líneas problemáticas. La compañía afirma que las regresiones pueden atribuirse en parte a falsos positivos, pero también admite que Gemini 2.5 Flash a veces genera “contenido de violación” cuando se solicita explícitamente.
Evento de TechCrunch
Berkeley, CA
|
5 de junio
Reservar ahora
“Naturalmente, hay tensión entre [instruction following] Sobre temas delicados y violaciones de políticas de seguridad, que se reflejan en nuestras evaluaciones ”, se lee en el informe.
Los puntajes de SpeechMap, un punto de referencia que sondea cómo los modelos responden a las indicaciones confidenciales y controvertidas, también sugieren que Gemini 2.5 Flash es mucho menos probable que se niegue a responder preguntas contenciosas que Gemini 2.0 Flash. Las pruebas de TechCrunch del modelo a través de la plataforma AI OpenRouter descubrieron que escribirá ensayos de manera incompleta en apoyo de reemplazar a los jueces humanos con IA, debilitar las protecciones de debido proceso en los EE. UU. E implementar programas generalizados de vigilancia del gobierno sin orden judicial.
Thomas Woodside, cofundador del proyecto Secure AI, dijo que los detalles limitados que Google dio en su informe técnico demuestra la necesidad de más transparencia en las pruebas de modelos.
“Hay una compensación entre el seguimiento de las instrucciones y el seguimiento de la política, porque algunos usuarios pueden solicitar contenido que viole las políticas”, dijo Woodside a TechCrunch. “En este caso, el último modelo Flash de Google cumple más con las instrucciones más al tiempo que viola más las políticas. Google no proporciona muchos detalles sobre los casos específicos en los que se violan las políticas, aunque dicen que no son severos. Sin saber más, es difícil para los analistas independientes saber si hay un problema”.
Google ha sido criticado por sus prácticas de informes de seguridad modelo antes.
La compañía tardó semanas en publicar un informe técnico para su modelo más capaz, Gemini 2.5 Pro. Cuando el informe finalmente se publicó, inicialmente omitió los detalles clave de las pruebas de seguridad.
El lunes, Google publicó un informe más detallado con información de seguridad adicional.