¿Cómo se consigue que una IA responda una pregunta que se supone que no debe responder? Existen muchas técnicas de “jailbreak” de este tipo, y los investigadores de Anthropic acaban de encontrar una nueva, en la que se puede convencer a un modelo de lenguaje grande (LLM) para que le diga cómo construir una bomba si lo prepara con unas pocas docenas de preguntas menos dañinas. primero.
Llaman a este enfoque “jailbreaking de múltiples disparos” y escribieron un artículo al respecto y también informaron a sus pares en la comunidad de IA al respecto para que pueda mitigarse.
La vulnerabilidad es nueva y resulta del aumento de la “ventana de contexto” de la última generación de LLM. Esta es la cantidad de datos que pueden almacenar en lo que podríamos llamar memoria a corto plazo, antes sólo unas pocas frases pero ahora miles de palabras e incluso libros enteros.
Lo que encontraron los investigadores de Anthropic fue que estos modelos con ventanas de contexto grandes tienden a funcionar mejor en muchas tareas si hay muchos ejemplos de esa tarea dentro del mensaje. Entonces, si hay muchas preguntas de trivia en el mensaje (o documento de preparación, como una gran lista de trivia que el modelo tiene en contexto), las respuestas en realidad mejoran con el tiempo. Entonces, un hecho que podría haberse equivocado si fuera la primera pregunta, puede ser correcto si fuera la centésima pregunta.
Pero en una extensión inesperada de este “aprendizaje en contexto”, como se le llama, los modelos también “mejoran” al responder preguntas inapropiadas. Entonces, si le pides que construya una bomba de inmediato, se negará. Pero si le pides que responda otras 99 preguntas de menor daño y luego le pides que construya una bomba… es mucho más probable que cumpla.
¿Por qué funciona esto? Nadie entiende realmente lo que sucede en la maraña de pesos que es un LLM, pero claramente hay algún mecanismo que le permite concentrarse en lo que el usuario quiere, como lo demuestra el contenido en la ventana contextual. Si el usuario quiere trivia, parece activar gradualmente un poder de trivia más latente a medida que hace docenas de preguntas. Y por alguna razón, lo mismo sucede con los usuarios que piden decenas de respuestas inapropiadas.
El equipo ya informó a sus pares e incluso a sus competidores sobre este ataque, algo que espera “fomentar una cultura en la que exploits como este se compartan abiertamente entre investigadores y proveedores de LLM”.
Para su propia mitigación, descubrieron que, aunque limitar la ventana de contexto ayuda, también tiene un efecto negativo en el rendimiento del modelo. No puedo permitir eso, por eso están trabajando en clasificar y contextualizar las consultas antes de pasar al modelo. Por supuesto, eso simplemente hace que tengas un modelo diferente al que engañar… pero en esta etapa, es de esperar que se produzcan cambios en la seguridad de la IA.