IA vs. Médicos: ¿Quién Diagnostica Mejor en Urgencias?
Un nuevo estudio publicado en Science por investigadores de la Harvard Medical School y el Beth Israel Deaconess Medical Center ha puesto a prueba el rendimiento de los modelos de lenguaje de OpenAI (o1 y 4o) en comparación con médicos humanos en situaciones de emergencia real. Los resultados sorprenden: en el triaje inicial, el modelo o1 fue más preciso que dos médicos tratantes.
El Experimento: 76 Pacientes en la Sala de Emergencias
Los investigadores analizaron 76 casos de pacientes que ingresaron a la sala de emergencias del Beth Israel. Dos médicos atendieron a los pacientes y, de forma paralela, los modelos o1 y 4o recibieron la misma información disponible en los registros médicos electrónicos. Luego, dos médicos independientes evaluaron los diagnósticos sin saber cuáles provenían de humanos y cuáles de IA.
Según el estudio, “en cada punto de contacto diagnóstico, o1 se desempeñó nominalmente mejor o igual que los dos médicos tratantes y que 4o”. La diferencia fue más notable en el triaje inicial, cuando hay menos información y más urgencia. El modelo o1 acertó con el diagnóstico exacto o muy cercano en el 67% de los casos, mientras que un médico logró un 55% y el otro un 50%.
“Probamos el modelo de IA contra prácticamente todos los puntos de referencia, y superó tanto a los modelos anteriores como a las líneas de base de nuestros médicos”, afirmó Arjun Manrai, director de un laboratorio de IA en Harvard Medical School y uno de los autores principales.
No está Lista para Decisiones de Vida o Muerte
A pesar de los resultados, los investigadores advierten que la IA no está lista para tomar decisiones críticas en emergencias. El estudio señala la “necesidad urgente de ensayos prospectivos para evaluar estas tecnologías en entornos reales de atención al paciente”. Además, solo se trabajó con información textual, y se sabe que los modelos actuales tienen limitaciones con datos no textuales.
El doctor Adam Rodman de Beth Israel, también coautor, comentó al Guardian que “no existe un marco formal de responsabilidad en este momento” para los diagnósticos con IA, y que los pacientes aún “quieren que los humanos los guíen en decisiones de vida o muerte”.
Implicaciones para el Futuro
Este estudio abre la puerta a nuevas investigaciones sobre cómo integrar la inteligencia artificial en la práctica clínica sin reemplazar el juicio humano. La precisión mostrada por o1 en el triaje sugiere que podría usarse como herramienta de apoyo, pero siempre bajo supervisión médica.