Skip to main content

No toda IA de imagen nace igual cuando se trata de analizar una radiografia de torax. Un nuevo estudio publicado en la revista Radiology comparo siete algoritmos comerciales disponibles para deteccion de cancer de pulmon en rayos X de torax y encontro variacion significativa de desempeno. Los hallazgos, divulgados por The Imaging Wire el 21 de mayo, refuerzan que la eleccion del algoritmo no es un detalle operativo, sino una decision con impacto clinico y financiero directo.

Radiografia de torax interpretada con apoyo de IA para deteccion de cancer de pulmon
La radiografia de torax es el examen de imagen mas usado del mundo y el punto de partida de la mayoria de algoritmos comerciales de IA toracica.

Por que comparar algoritmos importa

La radiografia de torax es, por lejos, la modalidad mas utilizada en imagen medica. A menudo es el primer estudio que recibe un paciente y funciona como puerta de entrada para investigaciones mas avanzadas. Tambien tiene debilidades conocidas: superposicion de estructuras, baja sensibilidad para lesiones pequenas y dependencia de la tecnica. Por eso, varios desarrolladores apuestan a la IA para extraer mas valor del examen e identificar hallazgos que escapan al ojo humano.

El problema, hasta ahora, era que cada proveedor publicaba sus propios numeros, en poblaciones diferentes, con prevalencias artificiales o escenarios controlados. Para el gestor que debe elegir una solucion para una red de servicios, la comparacion es dificil. El grupo del Reino Unido organizo entonces una especie de competencia tecnica, descripta como AI bake-off: probar simultaneamente algoritmos comerciales sobre una misma base, con prevalencia de cancer de pulmon del mundo real.

El diseno del estudio

Los investigadores incluyeron radiografias de torax de aproximadamente 5.200 pacientes, con tasa de prevalencia de cancer de pulmon representativa de la practica clinica. Los algoritmos comparados provinieron de Annalise/Harrison.ai, Gleamer, Infervision, Milvue, Oxipit, Qure.ai y Rayscape. Los resultados de desempeno fueron anonimizados, evitando exposicion publica directa por marca, pero manteniendo el analisis tecnico comparativo.

La eleccion de las marcas es relevante porque cubre a buena parte de los actores ya disponibles para integracion en PACS y plataformas de visualizacion. En otras palabras, la competencia analizo soluciones que los radiologos pueden de hecho comprar e instalar, no prototipos academicos. Eso acerca el estudio a las decisiones practicas de gestores y directores clinicos.

Resultados que justifican atencion

La variacion entre algoritmos fue llamativa. La sensibilidad — capacidad de detectar pacientes con cancer — vario entre 21% y 78%. La especificidad — capacidad de evitar falsos positivos en quien no tiene la enfermedad — oscilo entre 59% y 98%. El valor predictivo positivo, quizas el numero mas incomodo, quedo entre 1,5% y 28%. Dicho de otra forma, en algunos sistemas solo 1 de cada 67 pacientes marcados por la IA tiene de verdad cancer.

Todos los algoritmos aumentaron el numero de falsos positivos en comparacion con los radiologos humanos, pero con variacion significativa. Un modelo genero apenas 10 falsos positivos mas que los medicos; otro genero mas de 2.000 falsos positivos adicionales. Cuando esos numeros se convierten en costo, considerando el uso de la IA para triaje de pacientes a tomografia complementaria, la diferencia es de 1.600 dolares contra 327.000 dolares en costos adicionales. Es una diferencia de casi 200 veces para la misma tarea clinica.

Que explica la diferencia

El factor mas probable es la composicion de los conjuntos de datos usados en el entrenamiento de cada modelo. Algoritmos entrenados en bases sesgadas hacia casos avanzados tienden a perder sensibilidad en hallazgos precoces; modelos entrenados en bases muy agresivas generan demasiados falsos positivos al intentar no perder ningun caso. Sin estandarizacion de benchmarks, es dificil que el cliente final mida esa diferencia antes de contratar.

Aspectos como protocolos de adquisicion, equipos de origen de las imagenes, demografia de los pacientes y estrategia de etiquetado por radiologos tambien influyen. Un algoritmo que rinde bien en un hospital del Reino Unido puede mostrar comportamiento muy diferente en otro pais sin revalidacion en la nueva poblacion.

Que cambia para gestores y radiologos

El mensaje practico es simple: comparar algoritmos de IA no es un lujo academico, es debida diligencia gerencial. Antes de cerrar contrato vale exigir pruebas en muestras locales y definir metricas de aceptacion para sensibilidad, especificidad y valor predictivo positivo. Como discutimos en la guia con las cinco preguntas que todo director de radiologia debe hacer antes de adoptar IA, saltarse la fase de validacion local suele salir mas caro que demorar la implantacion.

Otra leccion es que la IA generica rara vez sirve para todos los flujos. Soluciones hospitalarias de alto volumen pueden absorber mas falsos positivos a cambio de mayor sensibilidad; las redes ambulatorias con rastreo poblacional pueden priorizar especificidad. La discusion se aproxima a lo que ya exploramos en cobertura sobre IA en la deteccion de TEP por angio-TC y desempeno real-world, donde la confianza del servicio depende del encaje entre algoritmo y poblacion.

Implicaciones regulatorias y el futuro multi-algoritmo

La variabilidad documentada en el estudio abre discusion sobre lo que reguladores como la FDA, la EMA o las agencias latinoamericanas pueden exigir como condicion para autorizar uso clinico. Algunos autores defienden benchmarks publicos y auditorias periodicas; otros sostienen que esa variacion es una fuerza, no un defecto, y que el futuro del diagnostico pasa por ensembles, es decir, conjuntos de algoritmos con sesgos complementarios analizando el mismo examen.

En ese escenario, el radiologo deja de competir con la IA y pasa a coordinar distintas capas analiticas. El informe final integra lo que vio cada modelo, senala discordancias y contextualiza con la historia clinica. Es una evolucion del rol del especialista que vale la pena vigilar en los proximos meses, sobre todo en servicios que comienzan a estructurar sus estrategias de adopcion.

Fuente: The Imaging Wire