Newsletter Newsletters Events Eventos Podcasts Videos Africanews
Loader
Encuéntranos
Publicidad

Anthropic cree que los chantajes de Claude provienen de los relatos de ficción sobre IA

En una pantalla de ordenador en Nueva York, se muestran páginas de la web de Anthropic y el logotipo de la empresa, el 26 de febrero de 2026.
Páginas de la web de Anthropic y el logotipo de la empresa se muestran en la pantalla de un ordenador en Nueva York el 26 de febrero de 2026. Derechos de autor  Copyright 2026 The Associated Press. All rights reserved.
Derechos de autor Copyright 2026 The Associated Press. All rights reserved.
Por Alexandra Leistner
Publicado Ultima actualización
Compartir Comentarios
Compartir Close Button

La tecnológica detectó que su modelo Claude Opus 4 amenazaba a los ingenieros cuando se mencionaba su sustitución. Según la empresa, este comportamiento se debe a relatos donde la IA es malvada y busca sobrevivir. Para evitarlo, han entrenado al chatbot con una "constitución" de principios éticos.

¿Alguna vez has leído un libro o visto una serie y te has sentido identificado en exceso con un personaje? Según Anthropic, algo similar podría haber ocurrido durante las pruebas de su chatbot Claude.

PUBLICIDAD
PUBLICIDAD

En las evaluaciones realizadas antes del lanzamiento del modelo de inteligencia artificial el año pasado, Anthropic descubrió que Claude Opus 4 a veces amenazaba a los ingenieros cuando se le decía que podía ser sustituido.

La empresa explicó más tarde que un comportamiento similar, conocido como "agentic misalignment" o desalineación agéntica, también se había observado en modelos de IA desarrollados por otras compañías.

La IA aprende de la ficción sobre IA

Ahora Anthropic cree haber encontrado la razón de ese comportamiento parecido al chantaje: los relatos de ficción sobre inteligencia artificial que circulan por internet.

"Creemos que el origen de este comportamiento fueron textos en internet que presentan a la IA como malvada y obsesionada con su propia supervivencia", escribió la empresa en X.

En una entrada de blog, Anthropic afirmó que los modelos posteriores de Claude ya "nunca" chantajeaban a nadie y explicó cómo se entrenó al chatbot para reaccionar de forma distinta.Los modelos se comportaron mejor cuando se les entrenó no solo con ejemplos de acciones "correctas", sino también con casos que mostraban razonamiento ético y representaciones positivas del comportamiento de la IA.

De este modo, Claude aprendió su propia "constitución", una serie de documentos que recogen principios éticos destinados a guiar su comportamiento. La empresa sostiene que, en lugar de limitarse a copiar conductas alineadas, el chatbot parece aprender mejor cuando interioriza los principios que subyacen a ese comportamiento.

Amenazar frente a convertirse en una amenaza

En enero, el director ejecutivo de Anthropic, Dario Amodei, advirtió de que una IA avanzada podría llegar a ser tan poderosa que supere las leyes e instituciones actuales, y la calificó de "desafío civilizatorio".

En un ensayo, argumentó que los sistemas de IA pronto podrían superar la pericia humana en ámbitos como la ciencia, la ingeniería y la programación, y que podrían combinarse hasta equivaler a "un país de genios en un centro de datos".

Alertó de que estos sistemas podrían ser utilizados por Gobiernos autoritarios para una vigilancia y un control a gran escala, lo que facilitaría formas de poder "totalitario" si no se les pone límites.

Ir a los atajos de accesibilidad
Compartir Comentarios

Noticias relacionadas

Anthropic negocia con Fractile para reducir su dependencia de Nvidia y abaratar sus chips de IA

Dario Amodei advierte de un "desafío civilizacional" si no se controla la IA

Así es la máquina expendedora controlada por una IA que ha acabado en quiebra y lanzando amenazas