La respuesta a la pregunta es que, claramente, hoy en día no lo está, pero podría llegar a estarlo en el futuro, y prestar ayuda a los profesionales de la salud en la toma de decisiones clínicas. Así se desprende de un estudio realizado por investigadores alemanes, que pusieron a prueba diversos algoritmos basados en el modelo de inteligencia artificial (IA) generativa Llama 2.
Publicado en Nature Medicine, el trabajo consistió en proporcionar a los algoritmos la misma información de que dispusieron los cuatro médicos del servicio de urgencias de un hospital estadounidense para atender 2.400 casos de dolor abdominal. Todos los casos tuvieron uno de estos cuatro diagnósticos: apendicitis, pancreatitis, colecistitis o diverticulitis; y recibieron un plan de tratamiento.
Tras anonimizarlos, los datos se procesaron para que la IA pudiera simular los procesos reales de toma de decisiones en el servicio, como test o pruebas a realizar y los próximos pasos hasta llegar a un diagnóstico y tratamiento. Desarrollado por Meta, Llama 2 se eligió por ser de código abierto, un requisito que muchos expertos consideran esencial para que una IA sea aplicable en el sector salud.
El rendimiento diagnóstico de la IA fue significativamente inferior al de los médicos
Según los autores, los resultados mostraron que ningún algoritmo solicitaba de forma consistente todos los análisis y pruebas de imagen necesarias. Además, con frecuencia, los modelos no seguían las recomendaciones de las guías de práctica clínica.
También se dio la paradoja de que los diagnósticos de la IA fueron cada vez más imprecisos a medida que disponía de más información del caso. Y otro problema es que su precisión diagnóstica dependió también del orden en que recibía la información.
En un subgrupo de 80 casos, se comparó el rendimiento diagnóstico entre médicos e IA, y se observó que, mientras que la media de aciertos de los clínicos fue del 89%, el mejor algoritmo solo alcanzó el 73%, una diferencia que fue estadísticamente significativa.
A pesar de estos resultados, los investigadores imaginan un futuro en el que los modelos de IA generativa hayan mejorado lo suficiente como para prestar asistencia a los médicos a la hora de contrastar un caso, por ejemplo. Sin embargo, alertan de que con el nivel actual dicha tecnología es poco precisa a la hora de realizar diagnósticos, no consigue interpretar e integrar resultados de pruebas y análisis, y es difícil que pueda integrarse en los flujos de trabajo existentes.
Referencia:
Hager P, Jungmann F, Holland R, et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making.
Nat Med. Published online July 4, 2024.
doi:10.1038/s41591-024-03097-1
OAD-ES-AMG-0001