¿Puede un chatbot de inteligencia artificial ayudar a los médicos a diagnosticar mejor a sus pacientes?
No realmente, según una nueva investigación.
El estudio, publicado el mes pasado en la revista JAMA Network Open, encontró que el uso de ChatGPT, un chatbot creado por OpenAI, no mejoró significativamente el razonamiento diagnóstico de los médicos en comparación con los médicos que solo usaron recursos tradicionales. El estudio también encontró que ChatGPT por sí solo obtuvo mejores resultados que cualquiera de los grupos de médicos.
Los médicos que pudieron utilizar el software obtuvieron una puntuación media del 76 por ciento al hacer un diagnóstico y explicar una razón para ello, mientras que el grupo que solo utilizó recursos convencionales tuvo una puntuación media del 74 por ciento. Ejecutado de forma independiente, el software tuvo una puntuación media de aproximadamente el 90 por ciento.
El pequeño estudio es otra exploración del potencial del uso de la inteligencia artificial en la medicina. En los últimos años, hospitales de todo el país han estado invirtiendo en herramientas de inteligencia artificial, con la esperanza de integrarlas en su atención e investigación, para desilusión de aquellos que temen que la tecnología pronto comience a reemplazar a los médicos humanos.
Pero los autores del estudio enfatizaron que el hallazgo de que ChatGPT por sí solo podría diagnosticar mejor que los médicos no significa que la inteligencia artificial deba usarse para hacer diagnósticos sin la supervisión de un médico. La importancia de la investigación está limitada por el hecho de que fue simulada, en lugar de realizada en un entorno de práctica clínica con pacientes reales, dijo Ethan Goh, estudiante postdoctoral en la Escuela de Medicina de Stanford, quien fue coautor principal del estudio.
“Toda la información fue preparada de una manera que no imita la vida real”, dijo.
OpenAI no respondió de inmediato a una solicitud de comentarios sobre los hallazgos del estudio el lunes por la noche.
Goh dijo que él y los otros investigadores se interesaron en evaluar si ChatGPT podría diagnosticar pacientes después de enterarse de que las habilidades del software ya habían sido probadas con preguntas de opción múltiple, incluidos los exámenes de licencia médica en Estados Unidos que realizan los estudiantes de medicina. Querían diseñar una prueba diferente para el software, una más abierta.
“No llega un paciente y dice: ‘Hola doctor, A, B, C, D, ¿Cuál tengo?’ o ‘¿Cómo me va a tratar?’”, dijo Goh. “Esa fue la inspiración”.
Los investigadores esperaban encontrar que los médicos con la ayuda de ChatGPT tendrían un mejor desempeño, dijo Goh. Pero los resultados los sorprendieron.
“Todos estábamos impactados”, dijo Goh. “Hay un teorema fundamental de que AI más (humanos) o computadora más humana siempre deberían hacerlo mejor que los humanos solos”.
Los 50 médicos -26 asistentes y 24 residentes- que participaron en el estudio el año pasado recibieron seis casos seleccionados de un conjunto más amplio de 105 casos reales que se han utilizado en la investigación médica durante décadas. Los investigadores señalaron que esos casos nunca se han publicado, lo que significa que no podrían haber sido incluidos en los datos de entrenamiento de ChatGPT.
Se pidió a los médicos que formularan diagnósticos en la mayor cantidad de casos posible de los seis en una hora. Al azar, a la mitad de los médicos se les permitió usar el chatbot junto con recursos tradicionales como UpToDate, un sistema en línea con información clínica a disposición de los médicos. Ninguno de los médicos recibió capacitación explícita sobre el uso de ChatGPT para participar en el estudio.
El hallazgo de que el chatbot no ayuda significativamente a los médicos a realizar diagnósticos es notable porque algunos sistemas de salud ya ofrecen chatbots para que los doctores los utilicen en entornos clínicos, “a menudo con poca o ninguna capacitación sobre cómo utilizar estas herramientas”, escribieron los investigadores en el estudio.
Goh dijo que la capacitación, incluido un plan de estudios explícito para los médicos sobre cómo usar la inteligencia artificial y las instrucciones sobre sus limitaciones, podría ayudar a los médicos a utilizar más eficazmente los chatbots para hacer diagnósticos.
Más allá de eso, dijo que otra razón por la que el grupo de investigación que usó ChatGPT podría no haber tenido un mejor desempeño es un sesgo que pueden tener los médicos al hacer un diagnóstico. Una vez que los médicos han formulado un diagnóstico, pueden dudar en cambiar de opinión al respecto, incluso ante nueva información o información contradictoria. Esa tendencia pudo haberles impedido considerar completamente la entrada de ChatGPT al completar los casos durante el estudio, dijo Goh.
Añadió que esos factores necesitarían ser estudiados para saber si cambiarlos podría hacer una diferencia en el diagnóstico.
Y, dijo Goh, después de un diagnóstico vienen un nuevo conjunto de preguntas que los médicos deben responder, donde también podrían potencialmente usar la ayuda de la inteligencia artificial en el futuro.
“¿Cuáles son los pasos correctos de tratamiento a seguir?” dijo. “¿Cuáles son las pruebas y demás que se deberían ordenar que te ayudarían a guiar al paciente sobre qué hacer a continuación?”
(c) The Washington Post, 2024