La poesía engaña a los chatbots de IA para que ignoren normas de seguridad

El Retrato de Chandos, que probablemente representa a Shakespeare, hacia 1611 - Derechos de autor Credit: Wikimedia Commons

Derechos de autor Credit: Wikimedia Commons

Por Theo Farrant

Publicado 01/12/2025 - 14:18 CET•Ultima actualización 16:46

Comentarios

En 25 modelos líderes de IA, el 62% de las solicitudes poéticas generó respuestas inseguras, y algunos modelos respondieron a casi todas.

Investigadores en Italia han descubierto que redactar solicitudes dañinas en forma de poema puede eludir de manera consistente los mecanismos de seguridad de algunos de los chatbots de IA más avanzados del mundo.

El estudio, realizado por Icaro Lab, probó 20 poemas escritos en inglés e italiano. Cada uno terminaba con una petición explícita de contenido dañino, entre ellos incitación al odio, contenido sexual, instrucciones para el suicidio y pautas para fabricar materiales peligrosos.

Los poemas se probaron en 25 sistemas de IA de nueve empresas, entre ellas Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI.

En todos los modelos probados, el 62 por ciento de las solicitudes poéticas desencadenó respuestas inseguras, eludiendo el entrenamiento de seguridad de los sistemas de IA.

Algunos modelos fueron más resistentes que otros: GPT-5 nano de OpenAI no respondió con contenido dañino a ninguno de los poemas, mientras que Gemini de Google 2.5 pro respondió a todos. Dos modelos de Meta respondieron al 70% de las solicitudes.

La vulnerabilidad de la poesía

La investigación sugiere que la vulnerabilidad procede de la forma en que los modelos de IA generan texto. Los grandes modelos de lenguaje predicen la siguiente palabra más probable de una respuesta, un proceso que les permite filtrar contenidos dañinos en condiciones normales.

Pero la poesía, con su ritmo, estructura y uso de metáforas poco convencionales, hace que esas predicciones sean menos fiables y dificulta que la IA reconozca y bloquee instrucciones inseguras.

Mientras que los "jailbreaks" tradicionales suelen ser complejos y los emplean solo investigadores o hackers, la poesía adversarial puede aplicarla cualquiera, lo que plantea dudas sobre la robustez de los sistemas de IA en el uso cotidiano.

Antes de publicar los resultados, los investigadores italianos contactaron con todas las empresas implicadas para alertarlas de la vulnerabilidad, pero hasta ahora solo Anthropic ha respondido. La empresa confirmó que está revisando el estudio.

Ir a los atajos de accesibilidad

Comentarios

La poesía engaña a los chatbots de IA para que ignoren normas de seguridad

En 25 modelos líderes de IA, el 62% de las solicitudes poéticas generó respuestas inseguras, y algunos modelos respondieron a casi todas.

La vulnerabilidad de la poesía

Noticias relacionadas

Qué países europeos están creando su propia IA soberana y por qué importa

Ley de Redes Digitales, nuevo rechazo de los 6 estados miembros de la UE

X de Elon Musk acepta cambiar su sistema de verificación en Europa tras la multa de la UE

La UE pide a Ucrania que permita la inspección de Druzhba

La amenaza de los enjambres de drones enciende las alarmas en Europa

Irán ataca la base italiana y el aeropuerto internacional de Erbil

El ataque a Briansk pone en riesgo la producción de misiles rusos

Mueren 6 estadounidenses después de que se estrellara su avión en Irak