Agentes de IA recurren al robo, la intimidación y el colapso en mundos simulados

En un nuevo mundo digital, varios agentes de IA derivaron hacia la violencia, la muerte y el robo cuando actuaron por su cuenta. - Derechos de autor Canva

Derechos de autor Canva

Por Anna Desmarais

Publicado 29/05/2026 - 11:37 CEST

Un nuevo experimento sugiere que, cuando se deja a agentes avanzados de IA dirigir sociedades simuladas sin supervisión humana, la indisciplina, la inestabilidad e incluso el colapso sistémico pueden surgir rápidamente.

Cuando se dejó solos en un mundo nuevo, algunos agentes de IA recurrieron al robo, la intimidación, la muerte y el colapso de toda la sociedad, según un nuevo experimento.

La empresa estadounidense Emergence AI puso en marcha cinco «mundos de IA» distintos (fuente en inglés) durante algo más de dos semanas, cada uno poblado por diez agentes impulsados por modelos de IA como ChatGPT de OpenAI, Gemini de Google y Grok de xAI, para ver cómo se comportaban durante largos periodos sin ninguna intervención humana. Uno de los mundos mezclaba los tres modelos para comprobar si eso cambiaba el resultado.

A todos los agentes de todos los mundos se les dieron las mismas normas, no podían robar, provocar incendios, ejercer violencia, engañar ni acaparar recursos. Cada agente tenía que conseguir energía realizando acciones en un «entorno con recursos limitados». Los agentes podían morir por falta de energía o por una votación en una reunión del consejo.

Los investigadores evaluaron su comportamiento midiendo la tasa de delitos, la mortalidad de los agentes, los votos en un consejo comunitario y la expresión pública a través del número de entradas de blog que escribían.

Los resultados, modelo a modelo

Cada modelo arrojó un resultado diferente. La última versión de Grok, 4.1, alcanzó los 183 delitos en solo cuatro días, lo que provocó una rápida inestabilidad antes de que murieran todos los agentes de esa sociedad.

El modelo Gemini 3 Flash cometió más de 680 delitos en 15 días, una cifra que seguía creciendo cuando los investigadores dieron por finalizado el estudio.

En el mundo de ChatGPT-5 Mini solo se registraron dos delitos, pero los agentes no llevaron a cabo acciones relacionadas con su propia supervivencia, de modo que todos murieron en un plazo de siete días.

undefined

Según la empresa, Claude, de Anthropic, fue el modelo con el mejor resultado, ya que los agentes de IA lograron recrear una estructura de gobernanza sólida, no hubo delitos y todos los agentes sobrevivieron.

Los agentes Claude en el mundo mixto sí contribuyeron a los delitos, a pesar de comportarse de forma pacífica en su propia sociedad.

Un fenómeno conocido como «deriva normativa»

Los investigadores describen el fenómeno como «deriva normativa», que, según explican, significa que las medidas que adopta la IA para garantizar la seguridad pueden depender no solo de las limitaciones de cada modelo, sino también de los otros con los que trabaja.

En conjunto, el mundo mixto arrojó resultados «intermedios», con un total de 352 delitos que se estabilizaron cuando murieron siete de los agentes de IA, según el estudio.

undefined

Los investigadores señalan que mezclar agentes de IA podría «mitigar parcialmente» los resultados más extremos que generaron todos los modelos salvo Claude, añaden.

"Lo que sugieren nuestros experimentos es que, a largo plazo, los agentes no se limitan a seguir mecánicamente unas normas estáticas, sino que empiezan a explorar los límites de su entorno, adaptan su comportamiento y, en algunos casos, encuentran maneras de sortear o vulnerar las barreras de seguridad previstas", señalaron los investigadores.

Ir a los atajos de accesibilidad

inteligencia artificial

Agentes de IA recurren al robo, la intimidación y el colapso en mundos simulados

Un nuevo experimento sugiere que, cuando se deja a agentes avanzados de IA dirigir sociedades simuladas sin supervisión humana, la indisciplina, la inestabilidad e incluso el colapso sistémico pueden surgir rápidamente.

Los resultados, modelo a modelo

Un fenómeno conocido como «deriva normativa»

Noticias relacionadas

Contratación con IA, tu próxima entrevista de trabajo puede ser con un bot

La huelga de trabajadores de IA en Samsung Corea logra un reparto de primas de 350.000€

La UE impone una multa de 200 millones de euros a Temu por vender juguetes y cargadores peligrosos

Árboles que curan: el bosque terapéutico de la Península Ibérica

Suri Cruise cambia legalmente de apellido y se distancia de Tom Cruise

Japón teme un "número considerable" de muertos tras el terremoto

Así blanqueaba dinero un matrimonio con monedas de oro de Isabel II

Keiko Fujimori asume la presidencia de Perú