Una IA de Anthropic chantajeó a sus creadores tras extraer ideas de la ficción sobre robots rebeldes

Páginas de la web de Anthropic y el logotipo de la empresa se muestran en la pantalla de un ordenador en Nueva York el 26 de febrero de 2026. - Derechos de autor Copyright 2026 The Associated Press. All rights reserved.

Por Alexandra Leistner

Publicado 11/05/2026 - 16:06 CEST•Ultima actualización 19:09

Comentarios

La tecnológica detectó que su modelo Claude Opus 4 amenazaba a los ingenieros cuando se mencionaba su sustitución. Según la empresa, este comportamiento se debe a relatos donde la IA es malvada y busca sobrevivir. Para evitarlo, han entrenado al chatbot con una "constitución" de principios éticos.

¿Alguna vez has leído un libro o visto una serie y te has sentido identificado en exceso con un personaje? Según Anthropic, algo similar podría haber ocurrido durante las pruebas de su chatbot Claude.

En las evaluaciones realizadas antes del lanzamiento del modelo de inteligencia artificial el año pasado, Anthropic descubrió que Claude Opus 4 a veces amenazaba a los ingenieros cuando se le decía que podía ser sustituido.

La empresa explicó más tarde que un comportamiento similar, conocido como "agentic misalignment" o desalineación agéntica, también se había observado en modelos de IA desarrollados por otras compañías.

La IA aprende de la ficción sobre IA

Ahora Anthropic cree haber encontrado la razón de ese comportamiento parecido al chantaje: los relatos de ficción sobre inteligencia artificial que circulan por internet.

"Creemos que el origen de este comportamiento fueron textos en internet que presentan a la IA como malvada y obsesionada con su propia supervivencia", escribió la empresa en X.

En una entrada de blog, Anthropic afirmó que los modelos posteriores de Claude ya "nunca" chantajeaban a nadie y explicó cómo se entrenó al chatbot para reaccionar de forma distinta.Los modelos se comportaron mejor cuando se les entrenó no solo con ejemplos de acciones "correctas", sino también con casos que mostraban razonamiento ético y representaciones positivas del comportamiento de la IA.

De este modo, Claude aprendió su propia "constitución", una serie de documentos que recogen principios éticos destinados a guiar su comportamiento. La empresa sostiene que, en lugar de limitarse a copiar conductas alineadas, el chatbot parece aprender mejor cuando interioriza los principios que subyacen a ese comportamiento.

Amenazar frente a convertirse en una amenaza

En enero, el director ejecutivo de Anthropic, Dario Amodei, advirtió de que una IA avanzada podría llegar a ser tan poderosa que supere las leyes e instituciones actuales, y la calificó de "desafío civilizatorio".

En un ensayo, argumentó que los sistemas de IA pronto podrían superar la pericia humana en ámbitos como la ciencia, la ingeniería y la programación, y que podrían combinarse hasta equivaler a "un país de genios en un centro de datos".

Alertó de que estos sistemas podrían ser utilizados por Gobiernos autoritarios para una vigilancia y un control a gran escala, lo que facilitaría formas de poder "totalitario" si no se les pone límites.

Ir a los atajos de accesibilidad

Comentarios

Una IA de Anthropic chantajeó a sus creadores tras extraer ideas de la ficción sobre robots rebeldes

La IA aprende de la ficción sobre IA

Amenazar frente a convertirse en una amenaza

Noticias relacionadas

Anthropic negocia con Fractile para reducir su dependencia de Nvidia y abaratar sus chips de IA

Dario Amodei advierte de un "desafío civilizacional" si no se controla la IA

Así es la máquina expendedora controlada por una IA que ha acabado en quiebra y lanzando amenazas

Ucrania ataca una refinería y un nodo clave de oleoductos rusos

Puede vivir gratis en esta isla de ensueño en Grecia cuidando gatos

El Gobierno de Meloni recortará 10.000 millones de los fondos SAFE

Ola de calor: Varios países en Europa rozan los 40ºC

El Ejército de EE.UU. ataca barco comercial que rompe bloqueo a Irán