Un grupo de investigadores ha comprobado que un modelo de inteligencia artificial supera a los médicos en la mayoría de tareas de razonamiento clínico, desde los diagnósticos hasta el asesoramiento sobre el manejo de pacientes.
Los modelos de inteligencia artificial superaron a los médicos en la toma de decisiones médicas en urgencias, según un nuevo estudio.
Investigadores de la Facultad de Medicina de Harvard y del Beth Israel Deaconess Medical Center, en Estados Unidos, compararon la inteligencia artificial con los médicos en una amplia gama de tareas de razonamiento clínico.
Comprobaron que los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) superaron a los médicos en varias tareas, entre ellas tomar decisiones en el servicio de urgencias con la información disponible, identificar los diagnósticos más probables y elegir los siguientes pasos en el manejo de los pacientes.
"Pusimos a prueba el modelo de IA frente a prácticamente todos los estándares de referencia y superó tanto a los modelos anteriores como a nuestros grupos de médicos", señaló Arjun Manrai, coautor sénior y profesor de la Facultad de Medicina de Harvard.
"Sin embargo, esto no significa que la IA vaya a mejorar necesariamente la atención, sigue siendo poco estudiado cómo y dónde debe implantarse y necesitamos con urgencia ensayos prospectivos rigurosos para evaluar el impacto de la IA en la práctica clínica".
¿Cómo se puso a prueba el modelo de IA?
Los investigadores evaluaron en primer lugar o1-preview, el modelo de razonamiento de OpenAI lanzado en 2024, al que sometieron a diversos casos clínicos, desde sesiones clínicas publicadas hasta historiales reales de servicios de urgencias.
La IA superó a los médicos en la mayoría de los experimentos, sobre todo en el razonamiento sobre el manejo de los casos, el razonamiento clínico, la documentación y los escenarios reales de urgencias con información limitada.
"Los modelos son cada vez más capaces. Antes evaluábamos los modelos con exámenes tipo test, ahora obtienen de forma sistemática puntuaciones cercanas al 100% y ya no podemos seguir la evolución porque han tocado techo", explicó el coautor principal Peter Brodeur, especialista clínico en medicina en el Beth Israel Deaconess y miembro de la Facultad de Medicina de Harvard.
En una de las pruebas, los investigadores pidieron a los modelos de lenguaje o1 y GPT-4o que evaluaran a pacientes en distintos momentos del circuito habitual de un servicio de urgencias, desde el triaje inicial hasta las decisiones posteriores de ingreso.
En cada fase, el modelo recibía solo la información disponible en ese momento y debía generar diagnósticos probables y recomendar el siguiente paso. La mayor diferencia entre la IA y los médicos se observó en la fase de triaje, cuando la información sobre el paciente es más limitada.
Al igual que ocurría con los médicos, los modelos de IA mejoraban su capacidad diagnóstica a medida que se iba disponiendo de más datos.
"Aunque el uso de la IA para apoyar la toma de decisiones clínicas se considera a veces una apuesta de alto riesgo, un mayor empleo de estas herramientas podría ayudar a reducir los costes humanos y económicos de los errores diagnósticos, los retrasos y la falta de acceso", escribieron los autores.
Aún hace falta más investigación
Los investigadores reclamaron la realización de ensayos prospectivos para evaluar estas tecnologías en entornos reales y pidieron a los sistemas sanitarios que inviertan en infraestructuras informáticas y desarrollen marcos que permitan integrar de forma segura las herramientas de IA en los circuitos clínicos.
"Un modelo puede acertar con el diagnóstico principal, pero también sugerir pruebas innecesarias que expongan al paciente a riesgos", advirtió Brodeur. "Las personas deben seguir siendo la referencia última a la hora de evaluar el rendimiento y la seguridad".
El estudio presenta algunas limitaciones. Los autores señalaron que solo refleja el rendimiento de los modelos y se centra sobre todo en la versión preliminar del modelo o1, que desde entonces ha sido sustituida por modelos más recientes como o3 de OpenAI.
"Aunque esperamos que el rendimiento se mantenga o mejore con los modelos más recientes, es necesario realizar más estudios para aclarar cómo varía ese rendimiento entre modelos y analizar de qué manera pueden colaborar los profesionales y los LLM", concluyeron los autores.