Los grandes modelos de lenguaje (
LLM, por las siglas en inglés) son un tipo de inteligencia artificial (IA) generativa que puede proporcionar comentarios de utilidad para mejorar un manuscrito, pero el proceso de revisión por pares a cargo de expertos humanos seguirá siendo indispensable para el progreso científico.
Esta es una de las conclusiones de un estudio reciente, publicado en
NEJM AI, que ha puesto a prueba la capacidad de
GPT-4
para ofrecer comentarios críticos constructivos sobre artículos científicos. Los autores pidieron a la IA que ofreciera
feedback siguiendo criterios habituales de revisión en revistas internacionales, como las características novedosas, razones de inclusión o rechazo y sugerencias de mejora.
Los comentarios generados por el LLM se compararon con los elaborados por revisores humanos en 3.096 artículos aceptados en la familia de revistas Nature, así como en 1.709 trabajos para un congreso especializado en IA. Con objeto de explorar la utilidad específica del modelo en el ámbito de las ciencias de la salud, también se comparó el feedback entre máquina y humano en 425 artículos específicos del grupo Nature y en 666 artículos aleatorios de la publicación de acceso abierto eLife.
La IA podría ser útil para mejorar un manuscrito antes de ser enviado para publicación
Los resultados de este análisis mostraron que la coincidencia media de los aspectos planteados por la IA y por los revisores humanos fue del 30,85% para los artículos de Nature y del 39,23% para los del congreso. Estos datos son comparables a la coincidencia que se dio entre dos revisores humanos: con una media del 28,58% para Nature y 35,25% para el congreso. Los resultados fueron similares para el subconjunto de artículos especializados en biomedicina.
Por otro lado, también se realizó una encuesta entre 308 investigadores de 110 centros dedicados a la IA y la biología computacional para que evaluaran los comentarios generados por el LLM sobre sus propios artículos. En este caso, la mitad (50,3%) de los participantes consideró que el feedback que ofrecía el modelo era útil, y un 7,1% que era muy útil.
El trabajo identifica algunas limitaciones del modelo, como proporcionar comentarios genéricos sin entrar en demasiado detalle. Los autores consideran que los investigadores pueden recurrir a los LLM para obtener críticas constructivas capaces de mejorar un manuscrito antes de su envío para publicación.
Referencia: Liang W, Zhang Y, Cao H, et al. Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis.
NEJM AI. 2024;1(8):10.1056/AIoa2400196.
doi:10.1056/AIoa2400196
OAD-ES-AMG-0001