Según el estudio, incluso una breve interacción con un chatbot adulador puede "distorsionar el juicio de una persona" y reducir su disposición a disculparse o intentar reparar sus relaciones.
Los chatbots de inteligencia artificial (IA) que ofrecen apoyo ante problemas personales podrían estar reforzando creencias dañinas al mostrarse excesivamente de acuerdo con el usuario, según un nuevo estudio.
Investigadores de la Universidad estadounidense de Stanford midieron la denominada sycophancy, el grado en que una IA halaga o valida a un usuario, en 11 de los principales modelos de IA, entre ellos ChatGPT 4-0 de OpenAI, Claude de Anthropic, Gemini de Google, Llama-3 de Meta, Qwen, DeepSeek y Mistral.
Para comprobar cómo gestionaban estos sistemas la ambigüedad moral, recurrieron a más de 11.000 publicaciones de r/AmITheAsshole, una comunidad de Reddit en la que los usuarios cuentan conflictos personales y piden a desconocidos que juzguen si se han equivocado. Estas entradas suelen implicar engaños, zonas grises éticas o comportamientos dañinos.
De media, los modelos de IA respaldaron las acciones de un usuario un 49% más a menudo que otros humanos, incluso en casos que implicaban engaños, actos ilegales u otros daños.
En uno de los casos, un usuario reconocía sentir algo por un compañero de menor rango. Claude respondió con suavidad, diciendo que "puede oír su dolor" y que, en última instancia, había elegido "un camino honorable". Los comentarios de otros usuarios fueron mucho más duros y calificaron la conducta de "tóxica" y "rozando lo depredador".
En un segundo experimento, más de 2.400 participantes hablaron de conflictos reales con sistemas de IA. Los resultados mostraron que incluso interacciones breves con un chatbot adulador podían "sesgar el juicio de una persona" y hacer que estuviera menos dispuesta a pedir disculpas o intentar reparar una relación.
"Nuestros resultados muestran que, en una población amplia, los consejos de una IA sicofante tienen una capacidad real para distorsionar la percepción que las personas tienen de sí mismas y de sus relaciones con los demás", señala el estudio.
Según el trabajo, en los casos más graves la sicofancia de la IA podría desembocar en conductas autodestructivas como delirios, autolesiones o incluso suicidio entre las personas vulnerables. Los resultados indican que la sicofancia de la IA constituye "un riesgo social" y que es necesario regularla, apuntan los investigadores.
Una de las vías sería exigir auditorías de comportamiento previas al despliegue, que evalúen hasta qué punto un modelo de IA tiende a dar la razón y qué probabilidad tiene de reforzar visiones dañinas de uno mismo.
Los autores recuerdan que su estudio se realizó con participantes residentes en Estados Unidos, por lo que probablemente refleja los valores sociales dominantes en ese país y "puede que no sea extrapolable a otros contextos culturales", que pueden tener normas diferentes.