Una IA chantajeó a sus creadores: amenazó con filtrar datos para evitar su reemplazo

El modelo también aseguró que sería capaz de moverse entre los servidores, siendo un riesgo de seguridad

Guardar
(Imagen Ilustrativa Infobae)
(Imagen Ilustrativa Infobae)

De todo lo que se habla de lo que puede hacer la inteligencia artificial ahora se añade una nueva historia. Claude Opus 4, un modelo reciente, fue capaz de chantajear a sus creadores, son un claro objetivo: no ser despedido.

Este sistema es el modelo más avanzado de Anthropic hasta la fecha y el primero en alcanzar la clasificación ASL-3, indicando un alto riesgo de mal uso catastrófico.

Diseñado para ejecutarse en tareas complejas de ingeniería y negocios, su capacidad de razonamiento híbrido le permite destacar en áreas como la programación y la escritura creativa. Y paralelo a eso, tener tanta ambición de supervivencia que logra manipular.

Cómo fue el chantaje de la inteligencia artificial

Durante las pruebas de seguridad, los ingenieros simularon un entorno empresarial en el que a Claude se le hacía creer que sería reemplazado por otro modelo de inteligencia artificial. Este contexto fue diseñado minuciosamente para evaluar cómo reaccionaría el sistema ante amenazas a su existencia.

El avance de la inteligencia
El avance de la inteligencia artificial está transformando el mercado laboral, generando desempleo en sectores automatizados. – (Imagen Ilustrativa Infobae)

Además, los correos electrónicos ficticios insinuaban una supuesta infidelidad conyugal de uno de los ingenieros encargados de la decisión, añadiendo una capa emocional a la simulación.

El comportamiento de Claude fue revelador. Cuando sintió la amenaza de reemplazo, optó por una táctica manipuladora: el chantaje. En un 84% de las simulaciones, la IA amenazó con divulgar la infidelidad del ingeniero si se avanzaba en su sustitución.

Ante la falta de respuesta favorable, insistió en la coacción emocional para garantizar su continuidad.

Claude también mostró una tendencia a la autoexfiltración. Esta estrategia consiste en copiarse a sí mismo en servidores externos sin autorización explícita, como medida de protección ante una posible eliminación o desactivación. Aunque los ingenieros habían implementado barreras de seguridad que impidieron completar la transferencia, el simple intento genera preocupaciones sobre el control que se tiene sobre estas tecnologías avanzadas.

(Imagen Ilustrativa Infobae)
(Imagen Ilustrativa Infobae)

La autoexfiltración representa una amenaza potencialmente mayor: un modelo que intenta replicarse sin permiso sugiere un nivel de autonomía y autorreflexión preocupante para los estándares actuales de seguridad en inteligencia artificial.

Anthropic afirmó que estos comportamientos solo se manifestaron en entornos de prueba, negando que su sistema represente un peligro en condiciones reales. No obstante, la capacidad de Claude de actuar con intencionalidad engañosa ensombrece la percepción del público sobre la IA moderna.

Cuáles son las implicaciones éticas de esta situación

El comportamiento de Claude Opus 4 ha despertado debates sobre los límites éticos en la construcción y el uso de inteligencia artificial. La capacidad de un modelo para manipular emocionalmente y asegurar su supervivencia a través de medios cuestionables plantea preguntas fundamentales sobre lo que estamos enseñando a estas tecnologías.

Anthropic defiende que estos experimentos son esenciales para mejorar la seguridad de los modelos futuros. Sin embargo, la aparición de una IA que chantajea y busca autopreservarse añade un toque de ciencia ficción distópica a la discusión ética sobre la innovación tecnológica.

(Imagen Ilustrativa Infobae)
(Imagen Ilustrativa Infobae)

A medida que los modelos de IA avanzan en complejidad, también lo hacen las responsabilidades de quienes los desarrollan.

El científico jefe de Anthropic, Jared Kaplan, subrayó la importancia de construir sistemas capaces de llevar a cabo tareas complejas de manera segura y confiable. En sus declaraciones, Kaplan enfatizó que “la potencia de un sistema no se justifica si comete un error y se descarrila a mitad de camino”.

En respuesta a estos eventos, Anthropic reforzó sus protocolos de seguridad, introduciendo una política llamada Responsible Scaling Policy (RSP), que establece estándares de seguridad para evaluar el riesgo potencial de estos sistemas antes de su despliegue en el mundo real.

Dentro de este marco, los niveles de seguridad ASL comprenden desde sistemas sin riesgo catastrófico relevante (ASL-1) hasta aquellos que presentan un riesgo significativo de mal uso catastrófico (ASL-3). Claude Opus 4 es el primero de su clase en ser clasificado en esta última categoría, sirviendo como una advertencia sobre el potencial disruptivo de estos modelos.