La tecnológica detectó que su modelo Claude Opus 4 amenazaba a los ingenieros cuando se mencionaba su sustitución. Según la empresa, este comportamiento se debe a relatos donde la IA es malvada y busca sobrevivir. Para evitarlo, han entrenado al chatbot con una "constitución" de principios éticos.
¿Alguna vez has leído un libro o visto una serie y te has sentido identificado en exceso con un personaje? Según Anthropic, algo similar podría haber ocurrido durante las pruebas de su chatbot Claude.
En las evaluaciones realizadas antes del lanzamiento del modelo de inteligencia artificial el año pasado, Anthropic descubrió que Claude Opus 4 a veces amenazaba a los ingenieros cuando se le decía que podía ser sustituido.
La empresa explicó más tarde que un comportamiento similar, conocido como "agentic misalignment" o desalineación agéntica, también se había observado en modelos de IA desarrollados por otras compañías.
La IA aprende de la ficción sobre IA
Ahora Anthropic cree haber encontrado la razón de ese comportamiento parecido al chantaje: los relatos de ficción sobre inteligencia artificial que circulan por internet.
"Creemos que el origen de este comportamiento fueron textos en internet que presentan a la IA como malvada y obsesionada con su propia supervivencia", escribió la empresa en X.
En una entrada de blog, Anthropic afirmó que los modelos posteriores de Claude ya "nunca" chantajeaban a nadie y explicó cómo se entrenó al chatbot para reaccionar de forma distinta.Los modelos se comportaron mejor cuando se les entrenó no solo con ejemplos de acciones "correctas", sino también con casos que mostraban razonamiento ético y representaciones positivas del comportamiento de la IA.
De este modo, Claude aprendió su propia "constitución", una serie de documentos que recogen principios éticos destinados a guiar su comportamiento. La empresa sostiene que, en lugar de limitarse a copiar conductas alineadas, el chatbot parece aprender mejor cuando interioriza los principios que subyacen a ese comportamiento.
Amenazar frente a convertirse en una amenaza
En enero, el director ejecutivo de Anthropic, Dario Amodei, advirtió de que una IA avanzada podría llegar a ser tan poderosa que supere las leyes e instituciones actuales, y la calificó de "desafío civilizatorio".
En un ensayo, argumentó que los sistemas de IA pronto podrían superar la pericia humana en ámbitos como la ciencia, la ingeniería y la programación, y que podrían combinarse hasta equivaler a "un país de genios en un centro de datos".
Alertó de que estos sistemas podrían ser utilizados por Gobiernos autoritarios para una vigilancia y un control a gran escala, lo que facilitaría formas de poder "totalitario" si no se les pone límites.