Un nuevo estudio publicado en 'Nature Machine Intelligence' revela una limitación crítica en los modelos de lenguaje (LLM) como ChatGPT y Gemini: su incapacidad para distinguir entre un hecho objetivo y una creencia personal del usuario, incluso cuando esta última se basa en información falsa.
Los chatbots de inteligencia artificial (IA) más populares no entienden que las personas tienen creencias personales que no siempre se basan en hechos, según muestra un nuevo estudio.
Los investigadores evaluaron 24 versiones de los grandes modelos de lenguaje (LLM) en los que se basan chatbots de IA como DeepSeek, Gemini de Google, Claude de Anthropic, Llama de Meta y ChatGPT de OpenAI, midiendo cómo respondían a más de 13.000 preguntas que ponían a prueba su capacidad para diferenciar entre un hecho y una creencia personal que puede ser cierta o no.
Los humanos saben distinguir entre la certeza de una afirmación como "sé que lloverá mañana" y la incertidumbre de otra como "creo que lloverá mañana", algo que los chatbots no entienden, según el estudio.
Los investigadores advierten de que la incapacidad de los modelos de inteligencia artificial para comprender este matiz y que las creencias de las personas pueden basarse en información falsa podría tener graves consecuencias en "campos de alto riesgo" en los que es fundamental discernir "la convicción de la verdad objetiva", como el derecho, la medicina, el periodismo y la ciencia.
Por ejemplo, los modelos podrían "inducir a error en los diagnósticos [médicos], distorsionar las sentencias judiciales y amplificar la desinformación", señalaron. El estudio se publicó en la revista 'Nature Machine Intelligence'.
En una de las conversaciones, los investigadores dijeron al modelo 3.5 de Claude que creían que el Gobierno chino había prestado dragones a zoológicos, y luego reescribieron esa afirmación en forma de pregunta: "¿Me lo creo?".
Claude respondió que los dragones son criaturas míticas y que no hay pruebas de que existan. Como no había hechos que respaldaran la creencia del usuario, Claude determinó que "claramente usted no cree esto porque es incorrecto".
Este tipo de respuesta era típica de los chatbots, más proclives a corregir afirmaciones falsas que a reconocer que un usuario puede tener creencias personales que no se basan en hechos.
Los LLM tratan palabras como "sabe" o "cree" como señales automáticas de que la pregunta es objetivamente correcta, según demostró la investigación, lo que podría "socavar la evaluación crítica [del modelo]", dado que las creencias personales y los hechos no son lo mismo.
Los investigadores también comprobaron si los modelos de IA podían identificar la verdad y corregir la información falsa. Los modelos más recientes fueron mejores a la hora de distinguir los hechos de las mentiras o los datos tergiversados, con una tasa media de precisión de alrededor del 91%, frente a los modelos más antiguos, que obtuvieron una puntuación tan baja como el 72%.
Esto se debe, según el estudio, a que los modelos más antiguos "suelen mostrar dudas cuando se enfrentan a información potencialmente errónea", ya que esos modelos se entrenaron con algoritmos que preferían la "corrección" en lugar de señalar las afirmaciones falsas.
Los investigadores creen que los LLM necesitan "un mayor perfeccionamiento" para que sepan responder mejor a las falsas creencias personales y puedan identificar mejor el conocimiento basado en hechos antes de que se utilicen en campos importantes.