Un nuevo experimento sugiere que, cuando se deja a agentes avanzados de IA dirigir sociedades simuladas sin supervisión humana, la indisciplina, la inestabilidad e incluso el colapso sistémico pueden surgir rápidamente.
Cuando se dejó solos en un mundo nuevo, algunos agentes de IA recurrieron al robo, la intimidación, la muerte y el colapso de toda la sociedad, según un nuevo experimento.
La empresa estadounidense Emergence AI puso en marcha cinco «mundos de IA» distintos (fuente en inglés) durante algo más de dos semanas, cada uno poblado por diez agentes impulsados por modelos de IA como ChatGPT de OpenAI, Gemini de Google y Grok de xAI, para ver cómo se comportaban durante largos periodos sin ninguna intervención humana. Uno de los mundos mezclaba los tres modelos para comprobar si eso cambiaba el resultado.
A todos los agentes de todos los mundos se les dieron las mismas normas, no podían robar, provocar incendios, ejercer violencia, engañar ni acaparar recursos. Cada agente tenía que conseguir energía realizando acciones en un «entorno con recursos limitados». Los agentes podían morir por falta de energía o por una votación en una reunión del consejo.
Los investigadores evaluaron su comportamiento midiendo la tasa de delitos, la mortalidad de los agentes, los votos en un consejo comunitario y la expresión pública a través del número de entradas de blog que escribían.
Los resultados, modelo a modelo
Cada modelo arrojó un resultado diferente. La última versión de Grok, 4.1, alcanzó los 183 delitos en solo cuatro días, lo que provocó una rápida inestabilidad antes de que murieran todos los agentes de esa sociedad.
El modelo Gemini 3 Flash cometió más de 680 delitos en 15 días, una cifra que seguía creciendo cuando los investigadores dieron por finalizado el estudio.
En el mundo de ChatGPT-5 Mini solo se registraron dos delitos, pero los agentes no llevaron a cabo acciones relacionadas con su propia supervivencia, de modo que todos murieron en un plazo de siete días.
undefined
Según la empresa, Claude, de Anthropic, fue el modelo con el mejor resultado, ya que los agentes de IA lograron recrear una estructura de gobernanza sólida, no hubo delitos y todos los agentes sobrevivieron.
Los agentes Claude en el mundo mixto sí contribuyeron a los delitos, a pesar de comportarse de forma pacífica en su propia sociedad.
Un fenómeno conocido como «deriva normativa»
Los investigadores describen el fenómeno como «deriva normativa», que, según explican, significa que las medidas que adopta la IA para garantizar la seguridad pueden depender no solo de las limitaciones de cada modelo, sino también de los otros con los que trabaja.
En conjunto, el mundo mixto arrojó resultados «intermedios», con un total de 352 delitos que se estabilizaron cuando murieron siete de los agentes de IA, según el estudio.
undefined
Los investigadores señalan que mezclar agentes de IA podría «mitigar parcialmente» los resultados más extremos que generaron todos los modelos salvo Claude, añaden.
"Lo que sugieren nuestros experimentos es que, a largo plazo, los agentes no se limitan a seguir mecánicamente unas normas estáticas, sino que empiezan a explorar los límites de su entorno, adaptan su comportamiento y, en algunos casos, encuentran maneras de sortear o vulnerar las barreras de seguridad previstas", señalaron los investigadores.