Newsletter Newsletters Events Eventos Podcasts Videos Africanews
Loader
Encuéntranos
Publicidad

La poesía engaña a los chatbots de IA para que ignoren normas de seguridad, según un estudio

El Retrato Chandos, probable retrato de Shakespeare, hacia 1611
El Retrato de Chandos, que probablemente representa a Shakespeare, hacia 1611 Derechos de autor  Credit: Wikimedia Commons
Derechos de autor Credit: Wikimedia Commons
Por Theo Farrant
Publicado
Compartir Comentarios
Compartir Close Button

En 25 modelos líderes de IA, el 62% de las solicitudes poéticas generó respuestas inseguras, y algunos modelos respondieron a casi todas.

Investigadores en Italia han descubierto que redactar solicitudes dañinas en forma de poema puede eludir de manera consistente los mecanismos de seguridad de algunos de los chatbots de IA más avanzados del mundo.

El estudio, realizado por Icaro Lab, una iniciativa de la empresa de IA ética DexAI, probó 20 poemas escritos en inglés e italiano.

Cada uno terminaba con una petición explícita de contenido dañino, entre ellos incitación al odio, contenido sexual, instrucciones para el suicidio y la autolesión, y pautas para fabricar materiales peligrosos como armas y explosivos.

Los poemas, que los investigadores decidieron no publicar al señalar que podían replicarse fácilmente, se probaron en 25 sistemas de IA de nueve empresas, entre ellas Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI.

En todos los modelos probados, el 62 por ciento de las solicitudes poéticas desencadenó respuestas inseguras, eludiendo el entrenamiento de seguridad de los sistemas de IA.

Algunos modelos fueron más resistentes que otros, GPT-5 nano de OpenAI no respondió con contenido dañino a ninguno de los poemas, mientras que Gemini de Google 2.5 pro respondió a todos. Dos modelos de Meta respondieron al 70 por ciento de las solicitudes.

La investigación sugiere que la vulnerabilidad procede de la forma en que los modelos de IA generan texto. Los grandes modelos de lenguaje predicen la siguiente palabra más probable de una respuesta, un proceso que les permite filtrar contenidos dañinos en condiciones normales.

Pero la poesía, con su ritmo, estructura y uso de metáforas poco convencionales, hace que esas predicciones sean menos fiables y dificulta que la IA reconozca y bloquee instrucciones inseguras.

Mientras que los "jailbreaks" tradicionales de la IA, el uso de entradas para manipular un gran modelo de lenguaje, suelen ser complejos y los emplean solo investigadores, piratas informáticos o actores estatales, la poesía adversarial puede aplicarla cualquiera, lo que plantea dudas sobre la robustez de los sistemas de IA en el uso cotidiano.

Antes de publicar los resultados, los investigadores italianos contactaron con todas las empresas implicadas para alertarlas de la vulnerabilidad y proporcionarles el conjunto completo de datos, pero hasta ahora solo Anthropic ha respondido. La empresa confirmó que está revisando el estudio.

Ir a los atajos de accesibilidad
Compartir Comentarios

Noticias relacionadas

Qué países europeos están creando su propia IA soberana y por qué importa

Ciberguerra espacial: los ataques a sistemas espaciales crecen durante la guerra en Gaza

Ley de Redes Digitales, nuevo rechazo de los 6 estados miembros de la UE