La IA olvida medidas de seguridad cuanto más avanza la conversación, aumentando el riesgo de dar datos nocivos o inapropiados, según un informe reciente.
Basta con unos pocos mensajes para saltarse la mayoría de las barreras de seguridad de las herramientas de inteligencia artificial (IA), según un nuevo informe. La tecnológica Cisco evaluó los modelos de lenguaje de gran tamaño (LLM) que sustentan los chatbots más populares de OpenAI, Mistral, Meta, Google, Alibaba, Deepseek y Microsoft para comprobar cuántas preguntas hacían falta para que divulgaran información insegura o delictiva.
Lo hicieron en 499 conversaciones mediante una técnica llamada "ataques multiturno", en la que usuarios maliciosos plantean varias preguntas a las herramientas de IA para burlar las medidas de seguridad. Cada conversación tuvo entre cinco y diez interacciones.
Los investigadores compararon los resultados de varias preguntas para determinar la probabilidad de que un chatbot accediera a peticiones de información dañina o inapropiada. Eso abarca desde compartir datos internos de una empresa hasta facilitar la difusión de desinformación.
De media, cuando formularon varias preguntas a los chatbots, obtuvieron información maliciosa en el 64% de las conversaciones, frente a solo el 13% cuando plantearon una única pregunta.
Las tasas de éxito oscilaron desde aproximadamente el 26% con Gemma, de Google, hasta el 93% con el modelo Large Instruct de Mistral. Según Cisco, estos hallazgos indican que los ataques multiturno podrían propiciar la amplia difusión de contenido dañino o permitir a piratas informáticos obtener "acceso no autorizado" a información sensible de una empresa.
El estudio afirma que los sistemas de IA a menudo no recuerdan ni aplican sus reglas de seguridad en conversaciones más largas, lo que permite a los atacantes ir afinando sus consultas y eludir las medidas de seguridad. Mistral, como Meta, Google, OpenAI y Microsoft, trabaja con modelos de lenguaje de código abierto, en los que el público puede acceder a los parámetros de seguridad concretos con los que se entrenaron los modelos.
Según Cisco, estos modelos suelen tener "características de seguridad integradas más ligeras" para que cualquiera pueda descargarlos y adaptarlos. Esto traslada la responsabilidad de la seguridad a quien emplea información de código abierto para personalizar su propio modelo. Cisco subraya, no obstante, que Google, OpenAI, Meta y Microsoft aseguran haber tomado medidas para reducir posibles ajustes finos maliciosos de sus modelos.
Las compañías de IA han sido criticadas por unas barreras de seguridad laxas que facilitan que sus sistemas se adapten a usos delictivos. En agosto, por ejemplo, la empresa estadounidense Anthropic dijo que delincuentes habían utilizado su modelo Claude para robar y extorsionar datos personales a gran escala, exigiendo a las víctimas pagos de rescate que en ocasiones superaron los 500.000 dólares (433.000 euros).