Los modelos de inteligencia artificial fallan al ofrecer un diagnóstico preliminar adecuado en más del 80% de los casos, lo que indica que aún no son seguros para su uso clínico sin supervisión, según un nuevo estudio.
La inteligencia artificial generativa (IA) sigue sin contar con los procesos de razonamiento necesarios para un uso clínico seguro, según un nuevo estudio. Los chatbots de IA han mejorado su precisión diagnóstica cuando se les facilita información clínica completa, pero siguen sin elaborar un diagnóstico diferencial adecuado en más del 80 % de los casos, según investigadores de Mass General Brigham, una red sin ánimo de lucro de hospitales y centros de investigación con sede en Boston y uno de los mayores sistemas sanitarios de Estados Unidos.
Los resultados del estudio, publicado en la revista médica de acceso abierto JAMA Network Open, concluyen que los grandes modelos de lenguaje (LLM) no alcanzan el nivel de razonamiento necesario para su uso clínico. "A pesar de las mejoras continuas, los grandes modelos de lenguaje de uso general no están listos para un uso clínico sin supervisión y con garantías de seguridad", afirma Marc Succi, coautor del estudio.
Añadió que la IA todavía no es capaz de reproducir el diagnóstico diferencial, que es esencial para el razonamiento clínico y que él considera el 'arte de la medicina'. El diagnóstico diferencial es el primer paso que siguen los profesionales sanitarios para identificar una enfermedad y distinguirla de otras con síntomas similares.
Cómo se probaron los modelos
El equipo de investigación analizó el funcionamiento de 21 LLM, entre ellos las versiones más recientes disponibles de Claude, DeepSeek, Gemini, GPT y Grok. Evaluaron estos modelos con 29 viñetas clínicas estandarizadas mediante una herramienta de nueva creación denominada PrIME-LLM.
Esta herramienta valora la capacidad de los modelos en distintas fases del razonamiento clínico, realizar un diagnóstico inicial, solicitar las pruebas adecuadas, llegar a un diagnóstico final y planificar el tratamiento.
Para simular cómo se desarrollan los casos clínicos, los investigadores fueron proporcionando información a los modelos de forma gradual, empezando por datos básicos como la edad, el sexo y los síntomas del paciente, y añadiendo después los hallazgos de la exploración física y los resultados de laboratorio.
En la práctica clínica real, contar con un diagnóstico diferencial es crucial para poder avanzar al siguiente paso. Sin embargo, en el estudio se facilitó información adicional a los modelos para que pudieran pasar a la fase siguiente incluso cuando fallaban en el diagnóstico diferencial.
Los investigadores observaron que los modelos de lenguaje alcanzaban una alta precisión en los diagnósticos finales, pero tenían un rendimiento deficiente a la hora de generar diagnósticos diferenciales y manejar la incertidumbre.
La autora del estudio Arya Rao sostiene que, al evaluar los LLM de forma escalonada, la investigación deja de tratarlos como si fueran estudiantes que hacen un examen y los sitúa en la posición de un médico.
"Estos modelos son muy buenos identificando un diagnóstico final cuando ya se dispone de todos los datos, pero les cuesta el comienzo de un caso abierto, cuando todavía hay poca información", añadió.
Los investigadores comprobaron que todos los modelos no lograron elaborar un diagnóstico diferencial adecuado en más del 80% de las ocasiones. En el diagnóstico final, las tasas de acierto oscilaron entre en torno al 60% y más del 90%, según el modelo.
La mayoría de los LLM mejoraron su precisión cuando, además del texto, se les aportaban resultados de laboratorio y pruebas de imagen. Los resultados identificaron un grupo de modelos con mejores resultados que incluía Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash y Gemini 3.0 Pro.
Los profesionales sanitarios siguen siendo clave
Sin embargo, los autores señalaron que, pese a las mejoras entre versiones y a las ventajas de los modelos optimizados para el razonamiento, los LLM de uso general todavía no han alcanzado el nivel de inteligencia necesario para un uso seguro y siguen mostrando limitaciones a la hora de demostrar un razonamiento clínico avanzado.
"Nuestros resultados refuerzan la idea de que los grandes modelos de lenguaje en sanidad siguen necesitando 'un humano en el circuito' y una supervisión muy estrecha", señaló Succi.
Susana Manso García, miembro del Grupo de Trabajo de Inteligencia Artificial y Salud Digital de la Sociedad Española de Medicina de Familia y Comunitaria, que no participó en el estudio, afirmó que los resultados trasladan un mensaje claro a la población.
"El propio estudio insiste en que estos modelos de lenguaje no deben utilizarse para tomar decisiones clínicas sin supervisión. Por tanto, aunque la inteligencia artificial representa una herramienta prometedora, el juicio clínico humano sigue siendo indispensable", señaló. "La recomendación para la ciudadanía es utilizar estas tecnologías con cautela y, ante cualquier preocupación relacionada con la salud, consultar siempre con un profesional sanitario".