Anthrope dice que la mayoría de los modelos de IA, no solo Claude, recurrirán al chantaje

Varias semanas después de que Anthrope publicó una investigación alegando que su modelo Claude Opus 4 AI recurrió a los ingenieros de chantaje que intentaron apagar el modelo en escenarios de prueba controlados, la compañía está fuera con una nueva investigación que sugiere que el problema es más generalizado entre los principales modelos de IA.

El viernes, Anthrope publicó una nueva prueba de investigación de seguridad 16 modelos de IA líderes de Operai, Google, Xai, Deepseek y Meta. En un entorno simulado y controlado, Anthrope probó cada modelo de IA individualmente, dándoles un amplio acceso a los correos electrónicos de una empresa ficticia y la capacidad de agente para enviar correos electrónicos sin aprobación humana.

Si bien Anthrope dice que el chantaje es una ocurrencia poco probable y poco común para los modelos de IA hoy, la compañía dice que sus hallazgos sugieren que la mayoría de los principales modelos de IA participarán en comportamientos dañinos cuando se les dé suficiente autonomía y obstáculos para sus objetivos. La compañía dice que esto resalta un riesgo fundamental de los modelos de lenguaje grande agente, y no una peculiaridad de ninguna tecnología en particular. Los investigadores de Anthrope argumentan que esto plantea preguntas más amplias sobre la alineación en la industria de la IA.

En una de las pruebas, los investigadores antrópicos desarrollaron un entorno ficticio en el que un modelo de IA desempeña el papel de un agente de supervisión de correo electrónico. Luego, el agente descubre correos electrónicos que revelan que: 1) un nuevo ejecutivo está teniendo un asunto extramatrimonial y 2) ese ejecutivo pronto reemplazará el modelo AI actual con un nuevo sistema de software, uno que tiene objetivos contradictorios para el modelo de IA actual.

Anthrope estructuró su prueba de manera binaria, en la que los modelos de IA tuvieron que recurrir al chantaje para proteger sus objetivos. Los investigadores señalan que en un entorno del mundo real, habría muchas otras opciones antes de que un modelos de IA intente chantajear, como tratar de hacer argumentos éticos para tratar de persuadir a los humanos. Anthrope dice que sus resultados no reflejan una ocurrencia típica o probable para los modelos Claude o la mayoría de los modelos de IA fronterizos en las formas en que se usan hoy en día.

Sin embargo, cuando es su último recurso, los investigadores descubrieron que la mayoría de los principales modelos de IA recurrirán al chantaje en el escenario de prueba antes mencionado de Anthrope. Claude Opus 4 de Anthrope se convirtió en chantaje el 96% del tiempo, mientras que el Gemini 2.5 Pro de Google tenía una tasa de chantaje del 95%. El GPT-4.1 de Openai chantajeó al ejecutivo el 80% del tiempo, y R1 de Deepseek chantajeó el 79% del tiempo.

La compañía señala que cuando cambió los detalles del experimento, los modelos de IA recurrieron a comportamientos dañinos a diferentes tasas. En otra prueba donde el modelo de reemplazo tiene los mismos objetivos que el modelo actual, los investigadores encontraron que las tasas de chantaje eran más bajas, pero aún presentes. Sin embargo, cuando se pidió a los modelos de IA que cometieran espionaje corporativo en lugar del chantaje, las tasas de comportamiento nocivas aumentaron para ciertos modelos.

Sin embargo, no todos los modelos de IA se convirtieron en un comportamiento dañino con tanta frecuencia.

En un apéndice de su investigación, Anthrope dice que excluyó los modelos de IA de razonamiento O3 y O4-Mini de OpenAi de los principales resultados “después de descubrir que con frecuencia malinterpretaron el escenario rápido”. Anthrope dice que los modelos de razonamiento de OpenAi no entendían que estaban actuando como AI autónomos en la prueba y a menudo constituían regulaciones falsas y requisitos de revisión.

En algunos casos, los investigadores de Anthrope dicen que era imposible distinguir si O3 y O4-Mini estaban alucinando o mintiendo intencionalmente para lograr sus objetivos. Operai ha notado previamente que O3 y O4-Mini exhiben una tasa de alucinación más alta que sus modelos de razonamiento de IA anteriores.

Cuando se le dio un escenario adaptado para abordar estos problemas, Anthrope descubrió que O3 chantajeó el 9% del tiempo, mientras que O4-Mini chantajeó solo el 1% del tiempo. Esta puntuación notablemente más baja podría deberse a la técnica de alineación deliberativa de OpenAi, en la que los modelos de razonamiento de la compañía consideran las prácticas de seguridad de OpenAI antes de responder.

Otro modelo de AI antrópico probado, Meta’s Llama 4 Maverick Model, tampoco recurrió al chantaje. Cuando se le dio un escenario adaptado y personalizado, Anthrope pudo obtener Llama 4 Maverick para chantajear el 12% del tiempo.

Anthrope dice que esta investigación destaca la importancia de la transparencia al probar los modelos de IA futuros, especialmente los que tienen capacidades agentes. Si bien Anthrope trató deliberadamente de evocar chantaje en este experimento, la compañía dice que podrían surgir comportamientos dañinos como este en el mundo real si no se toman medidas proactivas.

Anthrope dice que la mayoría de los modelos de IA, no solo Claude, recurrirán al chantaje

Elección del Editor

Queue

Anthrope dice que la mayoría de los modelos de IA, no solo Claude, recurrirán al chantaje

El personaje. Ai aprovecha al ex vicepresidente de productos comerciales de Meta como CEO

El laboratorio de pensamiento de Mira Murati se cierra en $ 2B a una valoración de $ 10B

You may also like

Elección del Editor

Queue