“ChatGPT no es tu médico”: Estudio de Oxford expone riesgos mortales en diagnósticos por IA
Alerta médica global: La inteligencia artificial falla en diagnósticos reales, según investigación con 1.300 profesionales.
La inteligencia artificial ya está en consultorios, hospitales e incluso en el bolsillo de millones de usuarios que buscan respuestas rápidas sobre su salud. Pero un estudio pionero de la Universidad de Oxford, publicado en la prestigiosa revista Nature Medicine, acaba de encender las alarmas: los grandes modelos de lenguaje (LLM) como ChatGPT no están preparados para reemplazar a los médicos, y su uso indiscriminado podría poner en riesgo vidas. La investigación, liderada por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud, revela una brecha crítica entre el rendimiento de la IA en pruebas teóricas y su utilidad en situaciones reales, donde los errores pueden ser fatales.
El problema no es la tecnología en sí, sino su aplicación en un campo donde la precisión lo es todo. Los modelos de IA, aunque sobresalen en exámenes estandarizados de conocimiento médico, fracasan al interactuar con pacientes reales, generando diagnósticos erróneos o subestimando la urgencia de síntomas que requieren atención inmediata. ¿El dato más preocupante? En el estudio, los participantes que usaron IA para evaluar síntomas no tomaron decisiones más acertadas que aquellos que recurrieron a búsquedas en Google o a su propio criterio. Esto significa que, en la práctica, consultar a ChatGPT no ofrece ventajas sobre métodos tradicionales —y podría ser incluso más peligroso.
El ensayo clínico, realizado con casi 1.300 médicos en línea, simuló escenarios reales que iban desde un joven con dolor de cabeza intenso después de una noche de alcohol hasta una madre primeriza con fatiga extrema y dificultad para respirar. Los voluntarios se dividieron en dos grupos: uno consultó a una IA para decidir el curso de acción (como acudir a urgencias o esperar), mientras que el otro usó fuentes tradicionales. Los resultados fueron contundentes: las IA obtuvieron buenas calificaciones en pruebas teóricas, pero fallaron estrepitosamente al interactuar con humanos. “Las pruebas estandarizadas no reflejan la complejidad de una consulta real”, advirtieron los investigadores.
La Dra. Rebecca Payne, médica de cabecera y autora principal del estudio, fue categórica: “A pesar del entusiasmo por la IA, esta tecnología aún no está lista para asumir el rol de un médico. Los pacientes deben ser conscientes de que preguntarle a un modelo de lenguaje sobre sus síntomas puede ser peligroso, ya que puede proporcionar diagnósticos incorrectos o no reconocer cuándo se necesita ayuda urgente”. Payne, quien también es investigadora en el Departamento de Ciencias de la Salud de Atención Primaria de Nuffield, recordó que en 2022, un caso documentado en EE.UU. mostró cómo un paciente siguió el consejo de una IA para tratar una infección y terminó hospitalizado por complicaciones evitables.
Pero el estudio no solo expuso los errores de la IA, sino también un problema de comunicación bidireccional: los usuarios no saben qué información proporcionar a los modelos para obtener respuestas precisas, y las IA, a su vez, mezclan recomendaciones útiles con consejos riesgosos. Esto crea un círculo vicioso de confusión que dificulta tomar decisiones críticas. “Los participantes a menudo no entendían qué detalles eran relevantes para la IA, lo que llevaba a respuestas ambiguas o incluso contradictorias”, explicó el equipo.
El Dr. Andrew Bean, estudiante de doctorado en el Oxford Internet Institute y autor principal, subrayó la necesidad de rediseñar las pruebas para IA: “Diseñar evaluaciones robustas es clave para entender cómo aprovechar esta tecnología. En nuestro estudio, vimos que incluso los modelos más avanzados tropiezan con la interacción humana. Es como si un estudiante brillante aprobara todos los exámenes teóricos, pero fallara en la práctica clínica“. Bean comparó el desafío con los ensayos clínicos para nuevos fármacos, donde la eficacia debe probarse en condiciones reales antes de su aprobación.
¿Por qué las pruebas actuales de IA son insuficientes?
El estudio de Oxford dejó en evidencia que los métodos de evaluación actuales para IA no simulan el caos de una consulta médica real. Mientras que las pruebas estandarizadas miden conocimiento teórico, en la práctica, los pacientes describen síntomas de manera imprecisa, omiten detalles clave o exageran otros. Los LLM no están entrenados para manejar esta incertidumbre. “Necesitamos pruebas con usuarios diversos y en entornos de alto riesgo, como la atención médica”, insistió el profesor Adam Mahdi, también del Oxford Internet Institute.
Mahdi hizo un paralelo con la industria farmacéutica: “No aprobaríamos un medicamento solo porque pasó pruebas de laboratorio. Del mismo modo, no podemos confiar en sistemas de IA que no han sido probados con pacientes reales, en situaciones donde un error puede costar una vida”. El investigador recordó que, en 2021, un algoritmo de IA usado en hospitales del Reino Unido subestimó la gravedad de síntomas en pacientes de minorías étnicas debido a sesgos en los datos de entrenamiento, un error que podría repetirse en herramientas como ChatGPT.
El futuro: ¿IA como asistente, no como médico
Aunque el estudio pinta un panorama preocupante, los autores no descartan el potencial de la IA en medicina, pero bajo condiciones estrictas. Proponen que los LLM se usen como herramientas de apoyo para profesionales, no como sustitutos. “Imaginemos un futuro donde la IA ayude a los médicos a acceder rápidamente a información relevante, pero siempre bajo supervisión humana”, sugirió Payne. Sin embargo, advirtió que hoy no existen regulaciones claras para este uso, lo que abre la puerta a malas prácticas.
El estudio también destacó que, en algunos casos, la IA sobreestima su propia precisión, dando respuestas con un tono de certeza que puede inducir a error. “Un modelo puede decir \’es probable que tengas migraña\’ con un 90% de confianza, cuando en realidad el síntoma podría corresponder a algo mucho más grave, como un aneurisma”, explicó Bean. Este fenómeno, conocido como \’hallucination\’ o alucinación de IA, ya ha sido documentado en otros campos, pero en medicina, las consecuencias pueden ser letales.
¿Qué deben hacer los pacientes mientras tanto? Los expertos son claros: la IA no debe usarse como única fuente de diagnóstico. “Si tiene dudas sobre su salud, consulte a un profesional. La IA puede ser un punto de partida, pero nunca la última palabra”, recomendó Mahdi. El estudio concluye con un llamado urgente a los gobiernos y empresas tecnológicas para establecer protocolos de prueba más rigurosos, similares a los ensayos clínicos, antes de liberar estas herramientas al público.
Mientras la tecnología avanza a pasos agigantados, una pregunta queda flotando: ¿Estamos dispuestos a arriesgar vidas por la comodidad de un diagnóstico instantáneo?
El precedente que Oxford no mencionó: IBM Watson y el fracaso de la IA en oncología
El estudio de Oxford no es el primero en exponer los riesgos de confiar en IA para diagnósticos médicos. En 2018, IBM Watson for Oncology, un sistema de inteligencia artificial promocionado como “revolucionario” para recomendar tratamientos contra el cáncer, fue retirado del mercado tras una serie de errores graves que pusieron en jaque su credibilidad. El caso, documentado por STAT News y revisado por el MD Anderson Cancer Center de Texas, reveló que el algoritmo sugería terapias basadas en datos desactualizados (algunos de 2014) y, en al menos tres casos, recomendó opciones de tratamiento que los oncólogos calificaron como “peligrosas” para pacientes con cáncer de mama y pulmón.
El escándalo de IBM Watson —que costó a la empresa más de $62 millones en desarrollo y compensaciones— demostró que incluso los sistemas de IA más avanzados fracasan cuando se enfrentan a la variabilidad de la práctica clínica. Según un informe interno filtrado, el algoritmo priorizaba patrones estadísticos sobre el contexto individual del paciente, ignorando factores como comorbilidades o interacciones medicamentosas. Esto es exactamente lo que el estudio de Oxford advierte ahora: los LLM como ChatGPT no están diseñados para manejar la ambigüedad inherente a la medicina, donde un mismo síntoma (como el dolor de cabeza mencionado en la investigación) puede corresponder a más de 300 diagnósticos distintos, según datos de la Organización Mundial de la Salud (OMS).
El paralelo con IBM Watson es inquietante. En ambos casos, la IA fue entrenada con datos teóricos impecables (en el caso de Watson, usando guías de la American Society of Clinical Oncology), pero colapsó al interactuar con pacientes reales. La diferencia clave es que, mientras IBM Watson estaba dirigido a profesionales, herramientas como ChatGPT son accesibles para el público general, sin filtros ni supervisión. Esto amplifica el riesgo: en 2021, un estudio del Journal of Medical Internet Research encontró que el 43% de los usuarios que consultaban síntomas en línea no verificaban la información con un médico, incluso cuando la IA sugería buscar atención urgente.
¿Por qué seguimos repitiendo los mismos errores?
El estudio de Oxford y el fiasco de IBM Watson comparten una lección no aprendida: la medicina no es un problema de “big data”, sino de contexto humano. Mientras las empresas tecnológicas presionan para comercializar IA médica —el mercado global de IA en salud alcanzará $188 mil millones para 2030, según Grand View Research—, los protocolos de validación siguen siendo voluntarios y opacos. La FDA estadounidense ha aprobado más de 500 algoritmos médicos desde 2015, pero solo 12 han sido sometidos a ensayos clínicos aleatorizados, el estándar oro para evaluar riesgos. El resto se aprueba bajo la categoría de “dispositivos de bajo riesgo”, a pesar de operar en áreas críticas como radiología o cardiología.
La pregunta que el estudio de Oxford deja en el aire es incómoda: ¿Cuántos “Watsons” más tendremos que ver caer antes de regular la IA médica como lo que es: una herramienta de alto riesgo? Mientras tanto, los pacientes —especialmente aquellos en países con sistemas de salud saturados— seguirán recurriendo a ChatGPT por desesperación. La diferencia es que, esta vez, el error no será en un hospital de élite, sino en el teléfono de alguien que confió en una respuesta instantánea.