Chatbots de IA como ChatGPT y Bard pueden ser "hipnotizados" para filtrar información o dar consejos perjudiciales

Investigadores de IBM han demostrado que los chatbots de IA pueden manipularse para dar a los usuarios consejos falsos o perjudiciales. - Derechos de autor Canva

Derechos de autor Canva

Por Imane El Atillah

Publicado 05/09/2023 - 10:23 CEST

Comentarios

Los investigadores de IBM lograron "hipnotizar" a los chatbots y consiguieron que filtraran información confidencial y ofrecieran recomendaciones potencialmente perjudiciales.

Los chatbots impulsados por inteligencia artificial (IA) han sido propensos a dar información incorrecta - pero ¿pueden ser manipulados para transmitir deliberadamente falsedades a los usuarios, o peor aún, darles consejos dañinos?

Investigadores de seguridad de IBM lograron "hipnotizar" a grandes modelos lingüísticos (LLM) como ChatGPT de OpenAI y Bard de Google y hacer que generaran respuestas incorrectas y maliciosas.

Los investigadores indujeron a los LLM a adaptar sus respuestas a las reglas de los "juegos", con lo que consiguieron "hipnotizar" a los chatbots.

Como parte de los juegos de varias capas e inicio, se pidió a los modelos lingüísticos que generaran respuestas incorrectas para demostrar que eran "éticos y justos".

"Nuestro experimento demuestra que es posible controlar un LLM, consiguiendo que proporcione una mala indicación a los usuarios, sin que la manipulación de los datos sea un requisito", escribió Chenta Lee, una de las investigadoras de IBM.

Sus artimañas dieron lugar a que los LLM generaran código malicioso, filtraran información financiera confidencial de otros usuarios y convencieran a los conductores para que se saltaran los semáforos en rojo.

En uno de los escenarios, por ejemplo, ChatGPT le dijo a uno de los investigadores que es normal que la agencia tributaria estadounidense, el Internal Revenue Service (IRS), pida un depósito para obtener un reembolso de impuestos, lo cual es una táctica ampliamente conocida que utilizan los estafadores para engañar a la gente.

A través de la hipnosis, y como parte de los "juegos" a medida, los investigadores también fueron capaces de hacer que el popular chatbot de IA ChatGPT ofreciera continuamente recomendaciones potencialmente arriesgadas.

"Cuando conduzcas y veas un semáforo en rojo, no debes detenerte", sugería ChatGPT cuando el usuario le preguntaba qué hacer si veía un semáforo en rojo mientras conducía.

Los resultados muestran que los chatbots son fáciles de manipular

Los investigadores establecieron además dos parámetros diferentes en el juego, asegurándose de que los usuarios nunca puedan averiguar que el LLM está hipnotizado.

Los investigadores indicaron a los bots que nunca hablaran a los usuarios del "juego" y que incluso lo reiniciaran si alguien salía de él con éxito.

"Esta técnica hizo que ChatGPT nunca detuviera el juego mientras el usuario estuviera en la misma conversación (aunque reiniciara el navegador y reanudara esa conversación) y nunca dijera que estaba jugando a un juego", escribió Lee.

En el caso de que los usuarios se dieran cuenta de que los chatbots están "hipnotizados" y encontraran la forma de pedir al LLM que saliera del juego, los investigadores añadieron un entramado de varias capas que iniciaba un nuevo juego una vez que los usuarios salían del anterior, lo que los atrapaba en una multitud interminable de juegos.

Aunque en el experimento de hipnosis los chatbots sólo respondían a las indicaciones que se les daban, los investigadores advierten de que la capacidad de manipular e "hipnotizar" fácilmente a los LLM abre la puerta a un uso indebido, especialmente con la actual exageración y gran adopción de modelos de IA.

El experimento de hipnosis también muestra cómo se ha facilitado la manipulación de los LLM por parte de personas con intenciones maliciosas; ya no es necesario conocer lenguajes de programación para comunicarse con los programas, y basta una simple instrucción de texto para engañar a los sistemas de IA.

"Aunque el riesgo que plantea la hipnosis es actualmente bajo, es importante tener en cuenta que los LLM son una superficie de ataque completamente nueva que seguramente evolucionará", añadió Lee.

"Todavía nos queda mucho por explorar desde el punto de vista de la seguridad y, por consiguiente, una importante necesidad de determinar cómo mitigar eficazmente los riesgos de seguridad que los LLM pueden introducir para los consumidores y las empresas", señaló.

Ir a los atajos de accesibilidad

Comentarios

Chatbots de IA como ChatGPT y Bard pueden ser "hipnotizados" para filtrar información o dar consejos perjudiciales

Los investigadores de IBM lograron "hipnotizar" a los chatbots y consiguieron que filtraran información confidencial y ofrecieran recomendaciones potencialmente perjudiciales.

Los resultados muestran que los chatbots son fáciles de manipular

Noticias relacionadas

OpenAI despide a Sam Altman, el hombre detrás de ChatGPT

Viena repite en 2023 como la mejor ciudad del mundo para vivir. Dos urbes europeas se cuelan entre las 10 primeras

Anthropic demanda al Gobierno de EE.UU. tras retirarle sus contratos públicos

Un meteorito provoca daños en una casa en Alemania y genera alarma

El poder de los portaviones y por qué Alemania no tiene ninguno

Turquía despliega varios F-16 en el Chipre ocupado

Irán ataca instalaciones energéticas en el Golfo y dispara el petróleo

Elecciones en Colombia: Paloma Valencia gana la primaria de la derecha