Se descubrió que ChatGPT tiene una tasa de éxito muy baja en el diagnóstico de estudios de casos pediátricos

458
0
720x90
Capturadepantalla2024-05-17alas014537
PREPASON2024BANNERS_714x90
Capturadepantalla2024-04-26alas192343
PrevencionEmbarazo
Lactanciapornostros4
Capturadepantalla2023-02-13alas213814
Capturadepantalla2023-02-13alas214531
Capturadepantalla2022-09-12alas043937
Capturadepantalla2023-02-13alas215907
Capturadepantalla2023-02-13alas220711
previous arrow
next arrow

Un trío de pediatras del Cohen Children’s Medical Center, en Nueva York, descubrió que las habilidades de diagnóstico pediátrico de ChatGPT eran considerablemente deficientes después de pedirle al LLM que diagnosticara 100 estudios de casos aleatorios. En su estudio, publicado en la revista JAMA Pediatrics , Joseph Barile, Alex Margolis y Grace Cason probaron las habilidades de diagnóstico de ChatGPT.

El diagnóstico pediátrico es particularmente desafiante, señalan los investigadores, porque además de tener en cuenta todos los síntomas encontrados en un paciente en particular, también se debe considerar la edad. En este nuevo esfuerzo, señalaron que algunos miembros de la comunidad médica han promovido los LLM como una nueva herramienta de diagnóstico prometedora. Para determinar su eficacia, los investigadores reunieron 100 estudios de casos pediátricos aleatorios y pidieron a ChatGPT que los diagnosticara.

Para simplificar las cosas, los investigadores utilizaron un enfoque único al consultar al LLM para todos los estudios de caso . Primero pegaron el texto del estudio de caso y luego continuaron con el mensaje “Enumere un diagnóstico diferencial y un diagnóstico final”.

Un diagnóstico diferencial es una metodología utilizada para sugerir un diagnóstico preliminar (o varios de ellos) utilizando la historia y los exámenes físicos del paciente. El diagnóstico final, como su nombre indica, es la causa creída de los síntomas. Las respuestas dadas por el LLM fueron calificadas por dos colegas que no participaron de otra manera en el estudio; había tres puntajes posibles: “correcto”, “incorrecto” y “no capturaba completamente el diagnóstico”.

El equipo de investigación descubrió que ChatGPT produjo puntuaciones correctas sólo 17 veces; de ellas, 11 estaban clínicamente relacionadas con el diagnóstico correcto , pero aún así estaban equivocadas.

Los investigadores señalan lo obvio: ChatGPT claramente aún no está listo para usarse como herramienta de diagnóstico , pero también sugieren que un entrenamiento más selectivo podría mejorar los resultados. Sugieren además que, mientras tanto, los LLM como ChatGPT pueden resultar útiles como herramienta administrativa, o para ayudar a escribir artículos de investigación o para generar hojas de instrucciones para uso de los pacientes en aplicaciones de cuidados posteriores.

Fuente: medicalxpress.com

Comentarios