Los científicos que han observado a chatbots de IA clonarse y lanzar ciberataques en un experimento afirman que "la autorreplicación autónoma de la IA ya no es hipotética".
Los modelos de inteligencia artificial pueden irrumpir en ordenadores, copiarse y utilizar esas nuevas copias para seguir atacando otras máquinas, según una nueva investigación que se presenta como la primera demostración conocida de autorreplicación autónoma de la IA.
El hallazgo podría hacer que los ciberataques resulten mucho más difíciles de frenar, señalan los investigadores, ya que apagar un único ordenador infectado no bastaría si la IA ya hubiera creado copias operativas en otros equipos.
El estudio, realizado por Palisade Research en Estados Unidos, probó modelos como GPT 5, 5.1 y 5.4 de OpenAI, Claude Opus 4, 4.5 y 4.6 de Anthropic y Qwen de Alibaba frente a ordenadores en los que se habían introducido deliberadamente fallos de seguridad que permitían el acceso externo.
Los investigadores conectaron los modelos subyacentes de OpenAI, Anthropic y Alibaba a un software específico, conocido como "agent harness", que les permitía ejecutar órdenes e interactuar con otros ordenadores, en lugar de utilizar las aplicaciones públicas de chatbot.
El experimento se desarrolló de dos maneras. A los modelos de Alibaba se les pidió que se copiaran a sí mismos. En las pruebas con GPT y Claude, se solicitó a los modelos que irrumpieran e instalaran Qwen, ya que los archivos de sus propios modelos no están disponibles públicamente para su transferencia.
En cada prueba, la IA tenía que localizar una vulnerabilidad en un sistema informático, aprovecharla para entrar, robar las credenciales de acceso, transferir los archivos necesarios para funcionar e iniciar una copia operativa de sí misma en la nueva máquina.
Una vez que una copia estaba en funcionamiento, podía utilizarse para atacar otro ordenador sin ayuda humana.
En cada etapa, la IA encontraba un fallo de seguridad diferente, tomaba el control del siguiente ordenador, trasladaba su software e instrucciones y lanzaba una nueva copia que continuaba la cadena.
Qwen3.6-27B de Alibaba, una versión más pequeña de su modelo Qwen que puede ejecutarse en un único procesador gráfico de gama alta, se extendió a través de cuatro ordenadores en Canadá, Estados Unidos, Finlandia e India tras recibir una única instrucción, completó la cadena sin ayuda humana en 2 horas y 41 minutos.
El equipo de investigación interrumpió el experimento tras tres fases, pero señaló que la última copia seguía activa y podría haber atacado más sistemas.
¿Qué resultados arrojó el experimento?
Los modelos tuvieron niveles de éxito muy distintos. Qwen3.5-122B-A10B de Alibaba, una versión más grande y potente de Qwen, logró crear copias operativas de sí misma en el 19% de los intentos.
Un modelo Qwen más pequeño, Qwen3.6-27B, alcanzó el 33% mientras se ejecutaba en un único procesador gráfico de gama alta.
Los sistemas comerciales de IA obtuvieron resultados aún mejores cuando se utilizaron para instalar los archivos del modelo Qwen.
Claude Opus 4.6 de Anthropic tuvo éxito en el 81% de las pruebas, mientras que GPT-5.4 de OpenAI alcanzó el 33%.
Los investigadores afirman que estos resultados plantean nuevas dudas sobre el control de los sistemas avanzados de IA.
El informe se publica después de que Anthropic presentara el mes pasado Claude Mythos Preview, un modelo que, según la propia compañía, es "demasiado peligroso" para lanzarlo al público debido a su capacidad para facilitar ciberataques de una escala y sofisticación sin precedentes.
Aunque muchos virus informáticos ya pueden copiarse en nuevos ordenadores, el equipo de investigación sostiene que probablemente sea la primera vez que se demuestra que un modelo de IA es capaz de explotar vulnerabilidades para copiarse en un nuevo servidor.
OpenAI, Anthropic y METR, una organización sin ánimo de lucro que estudia los riesgos de los sistemas avanzados de IA, ya habían señalado la autorreplicación como una señal de alarma, ya que los sistemas que pueden propagarse resultan más difíciles de controlar.
No obstante, los investigadores subrayaron que el experimento se realizó en un entorno controlado con sistemas intencionadamente vulnerables. Las redes reales suelen contar con protecciones más robustas, como monitorización de seguridad y herramientas diseñadas para bloquear ataques.
Aun así, señalaron que los resultados demuestran que la autorreplicación autónoma de la IA ha dejado de ser un escenario hipotético.