Cómo la IA revolucionará el diagnóstico médico y la atención a los pacientes, según el científico Eric Topol

El cardiólogo e investigador en medicina digital estadounidense presentó los últimos papers científicos sobre los avances de la inteligencia artificial para el uso médico. Una simple radiografía podría dar diagnósticos hasta ahora impensados

Guardar
En el futuro los médicos podrían detectar con una radiografía de tórax los signos de diabetes (Getty Images)
En el futuro los médicos podrían detectar con una radiografía de tórax los signos de diabetes (Getty Images)

Dado que la inteligencia artificial (IA) médica es mi principal enfoque de investigación, trato de mantenerme al día con las últimas publicaciones e informes. Pero eso ha resultado cada vez más difícil en las últimas semanas, ya que estamos viendo una aceleración de la producción.

Voy a resumir aquí nuevos estudios de imágenes cardiopulmonares de aprendizaje profundo, un modelo transformador, también conocido como IA generativa o modelo de lenguaje grande (LLM) y algunos avances en escribas virtuales.

1. “Su radiografía de tórax indica que puede tener diabetes”

La radiografía es un método de diagnóstico sencillo y económico que actualmente no se utiliza para la detección de diabetes (Cuartoscuro)
La radiografía es un método de diagnóstico sencillo y económico que actualmente no se utiliza para la detección de diabetes (Cuartoscuro)

Ayis Pyrros [NdeR de la Universidad de Illinois, Chicago] y sus colegas publicaron un artículo importante para el entrenamiento de redes neuronales profundas de radiografías de tórax (CXR) para detectar diabetes tipo 2 (DT2), algo que no hubiéramos anticipado. Se usaron más de 270.000 CXR de más de 160.000 pacientes para desarrollar el modelo, y luego se evaluó prospectivamente en casi 10.000 pacientes.

El modelo se desempeñó bien independientemente de la raza o el origen étnico, que es un tema crítico que siempre debe tenerse en cuenta. Si bien la precisión general (reflejada por AUC 0,84) no fue muy alta (como 0,95 o más), es importante tener en cuenta que las CXR son las imágenes médicas más comunes obtenidas en el mundo. Si su uso puede extenderse a una capacidad imprevista para ayudar a detectar DT2, eso sería bienvenido.

Este es un ejemplo más de “ojos” de máquina entrenados con grandes entradas de datos para detectar cosas que los ojos humanos no pueden. ¿Cómo detectó el modelo el posible diagnóstico de diabetes tipo 2? Para crédito de los investigadores, la búsqueda de la explicabilidad condujo a encontrar algunas de las características que explicaban la detección de la IA, como la adiposidad central y la atenuación de las costillas y las clavículas. Aun así, la precisión del modelo fue algo mejor en personas con IMC (índice de masa muscular) menor a 25 (AUC 0,89) en comparación con aquellas con IMC mayor a 25 (AUC 0,84). Los autores llamaron a esto “detección oportunista de diabetes tipo 2″, lo cual es apropiado, ya que con frecuencia se pasa por alto el diagnóstico de diabetes.

2. “Su radiografía de tórax indica que su fracción de eyección puede ser baja y la presencia de una enfermedad de las válvulas”

Un modelo de inteligencia artificial podría estimar la fracción de eyección a partir de una radiografía de tórax
Un modelo de inteligencia artificial podría estimar la fracción de eyección a partir de una radiografía de tórax

Desde que tengo memoria, no hemos considerado la radiografía de tórax como una forma útil de estimar la función cardíaca de un paciente, reflejada por la fracción de eyección (menor o mayor del 40%). [NdeR: La fracción de eyección es la cantidad de sangre, expresada en un porcentaje, que se bombea de un ventrículo lleno con cada latido del corazón]. Esta noción fue desafiada por (Daiju) Ueda [NdeR de la Universidad de Osaka], y sus colegas en un nuevo artículo utilizando más de 22.000 CXR y ecocardiogramas emparejados de múltiples instituciones para entrenar un modelo, con validación externa (con un AUC de 0,87 para todos los hallazgos sobre fracción de eyección, enfermedad de las válvulas e insuficiencia cardíaca).

Al igual que el estudio diabetes a partir de CXR, no hubiera anticipado que esto fuera posible y considero el trabajo particularmente creativo e innovador. Es decir, dado que las CXR nuevamente son la imagen médica más común obtenida en el mundo, a un costo considerablemente menor que un ecocardiograma, el valor práctico de estos hallazgos es notable.

Para su crédito, estos investigadores también buscaron la explicabilidad con mapas de prominencia, como se muestra a continuación. Para la fracción de eyección y cada uno de los otros hallazgos de válvula/IVC (el resto se muestra en el material complementario), la forma de las sombras del corazón y las características del contorno proporcionaron parte de la explicación de cómo la CXR podría imputar los resultados del eco.

3. “Su electrocardiograma muestra que estás teniendo un ataque al corazón”

Una mayor replicación del estudio y su implementación podrían ser un paso fundamental hacia un diagnóstico más preciso y un tratamiento oportuno de los pacientes con infarto
Una mayor replicación del estudio y su implementación podrían ser un paso fundamental hacia un diagnóstico más preciso y un tratamiento oportuno de los pacientes con infarto

Si bien el ECG (electrocardiograma) es fundamental para diagnosticar un ataque cardíaco, muchos pacientes que acuden a un departamento de emergencia no tienen hallazgos de diagnóstico. Alrededor del 30% de los pacientes que se presentan, en realidad, tienen una arteria coronaria aguda ocluida (100% bloqueada) sin la característica elevación del segmento ST del ECG. De manera similar, la prueba inicial de troponina en sangre para evidencia de lesión miocárdica es negativa en aproximadamente 1 de cada 4 pacientes a los que posteriormente se les diagnostica un infarto de miocardio agudo.

Un nuevo estudio realizado por (Salah) Al-Zaiti [NdeR de la Universidad de Pittsburgh] y colegas abordó este problema, con el flujo de trabajo para el desarrollo de modelos de una puntuación de riesgo como se muestra a continuación, con evaluación prospectiva y validación externa en sistemas de salud independientes.

Es de destacar que 1 de cada 3 pacientes fue reclasificado correctamente por la puntuación de riesgo derivada de la IA “SMART”. Al igual que los otros 2 estudios anteriores, hubo esfuerzos deliberados por la explicabilidad, con el desentrañamiento de las 25 características más importantes que impulsaron la precisión del modelo, que superó tanto a los expertos clínicos como a los sistemas comerciales de interpretación de ECG.

Una afirmación adecuada en el texto: “Este es el primer estudio que utiliza métodos de aprendizaje automático y características novedosas de ECG para optimizar la detección de OMI [ataque cardíaco oclusivo, MI] en pacientes con dolor torácico agudo y STEMI [IM con elevación del ST] patrón negativo en su presentación electrocardiograma”.

Una mayor replicación de este informe y su implementación podrían ser un paso fundamental hacia un diagnóstico más preciso y un tratamiento oportuno de los pacientes con infarto.

4. Los modelos de lenguaje grande están respondiendo preguntas médicas cada vez más correctamente

Nuevos estudios mostraron cómo ha evolucionado la IA respondiendo con eficacia consultas médicas
Nuevos estudios mostraron cómo ha evolucionado la IA respondiendo con eficacia consultas médicas

En un nuevo informe de los investigadores de IA de Google, Karan Singhal y sus colegas, se evaluó la progresión de sus grandes modelos de lenguaje desde el Flan-PaLM hasta el Med-PaLM. Más allá de la capacidad de Med-PaLM para superar el umbral de aprobación para el Examen de licencia médica de EE. UU. (USMLE) como revisé anteriormente, se puede ver los incrementos sustanciales para la comprensión correcta, la recuperación correcta y la evidencia del razonamiento correcto de Flan-PaLM a Med-PaLM para 140 preguntas médicas evaluadas.

En general, un panel de médicos consideró que el 61,9 % de las respuestas largas de Flan-PaLM estaban alineadas con el consenso científico, en comparación con el 92,6 % de las respuestas de Med-PaLM; estos se acercaban a la paridad con las respuestas generadas por el médico (92,9%). Pero por incorrección, el panel b muestra la inferioridad de los modelos de IA para los médicos. Si bien no hubo evidencia de un mayor sesgo para los LLM, se desempeñaron peor por contenido inapropiado/incorrecto y probabilidad de posible daño.

Los autores reconocieron las limitaciones de la inferioridad de los médicos y concluyeron: “Nuestras evaluaciones en humanos revelan las limitaciones de los modelos actuales, lo que refuerza la importancia tanto de los marcos de evaluación como del desarrollo de métodos para crear LLM seguros y útiles para aplicaciones clínicas”. Lo que es digno de mención es que su modelo Med-PaLM2 superó con creces el rendimiento de lo que se publicó en el nuevo artículo de Nature sobre Med-PaLM, como es evidente en su preimpresión de Med-PALM2 de mayo de 2023 utilizando el salto de precisión de USMLE.

Esto sugiere que la velocidad de ajuste fino de los LLM supera con creces la de las publicaciones de revisión por pares (¡bueno, eso no es decir demasiado!) Y claramente vamos a ver mejoras considerables de estos LLM en los tiempos venideros. Hay una pugna intensa entre Google y Microsoft, junto con otros titanes de la tecnología y empresas “startup” con impresionantes LLM. Un artículo del WSJ de esta semana destacó el énfasis de Google en las aplicaciones de salud.

5. La inteligencia artificial eclipsa en el cuidado de la salud al papeleo

Los modelos de IA podrían ahorrar la parte burocrática que deben realizar los médicos permitiéndoles atender y dar más espacio a su contacto con el paciente (Getty)
Los modelos de IA podrían ahorrar la parte burocrática que deben realizar los médicos permitiéndoles atender y dar más espacio a su contacto con el paciente (Getty)

Un artículo de primera plana en el New York Times destacó el proceso de usar conversaciones durante las visitas a la clínica para producir notas, planes de tratamiento y facturación, lo que podría ahorrar mucho tiempo a los médicos.

Como Steve Lohr, el periodista, lo expresó muy bien: “El mejor uso de la IA generativa en el cuidado de la salud, dicen los médicos, es aliviar la pesada carga de documentación que les lleva horas al día y contribuye al agotamiento”. Lo que es particularmente bueno es que la nota sintética escrita puede cotejarse rápidamente con las palabras pronunciadas, lo que fomenta la verificabilidad y la confianza tanto para el médico como para el paciente.

Dice el artículo: “El software traduce cualquier terminología médica a un inglés sencillo con un nivel de lectura de cuarto grado. También proporciona un registro de la visita con “momentos médicos” codificados por colores para medicamentos, procedimientos y diagnósticos. El paciente puede hacer clic en una etiqueta de color y escuchar una parte de la conversación”. Reducir la documentación sería excelente, pero tales evaluaciones ahora son solo informes de los medios sin posibles publicaciones revisadas por pares. [Divulgación completa: una de las 4 empresas mencionadas en el artículo es Abridge, de la que soy asesor]. Cuando (y si) hay datos convincentes, esta aplicación de LLM puede ser la primera en implementarse en la clínica. Una ventaja adicional es la falta de necesidad de supervisión regulatoria, un tema importante que Bertalan Mesko y yo revisamos y publicamos recientemente esta semana.

Resumen

Para esta primera parte de los informes médicos recientes de IA, profundicé un poco en 3 modelos tradicionales de aprendizaje profundo, un artículo LLM de transformadores de hoy y el informe reciente de los medios que promete reducir la carga de la documentación clínica. Tenga en cuenta que todo esto es un “trabajo en progreso” y que ninguno de estos estudios está listo para su implementación.

El doctor Topol aclaró que estos nuevos sistemas de IA no pueden ser utilizados aún y se está avanzando en cada uno
El doctor Topol aclaró que estos nuevos sistemas de IA no pueden ser utilizados aún y se está avanzando en cada uno

No obstante, son bastante alentadores por algunas razones:

1) Los ojos de las máquinas nos sorprenden constantemente por lo que pueden ver que los humanos expertos no pueden (ver mi publicación anteriorsobre el increíble poder de los ojos mecánicos),

2) Cada uno de los nuevos estudios está tratando de llegar a la explicabilidad de sus modelos, lo cual es importante,

3) La capacidad de responder preguntas médicas, tanto para los médicos como para los pacientes, está mejorando claramente pero aún no en ningún momento para ser implementables de forma segura y clínica, y

4) los LLM sin ajuste fino para la información médica pueden resultar particularmente útiles para ayudar a los médicos a reducir sus funciones de administrador de datos y, como se mencionó en el último artículo, un médico , Michelle Thompson, declaró: “La IA me ha permitido, como médico, estar 100 por ciento presente para mis pacientes”. Esa fue la premisa de Deep Medicine (el libro que publiqué hace 4 años), así que espero que comencemos a ver el comienzo y la reconstrucción de la relación médico-paciente.

*Este artículo fue publicado en la plataforma Substack. El doctor Eric Topol es cardiólogo, genetista e investigador en medicina digital estadounidense. Es el fundador y director del Scripps Research Translational Institute, un centro de investigación en ciencias biomédicas básicas con sede en California. Profesor de medicina molecular y vicepresidente ejecutivo de Scripps Research. Ha publicado más de 1.200 artículos revisados por pares, con más de 320.000 citas, elegido miembro de la Academia Nacional de Medicina de EE.UU. Es uno de los 10 investigadores en medicina más citados. Su principal enfoque científico ha sido la medicina individualizada utilizando herramientas genómicas, digitales y de IA.

Seguir leyendo

Guardar