Nem toda IA de imagem nasce igual quando o assunto e analisar radiografia de torax. Um novo estudo publicado na revista Radiology comparou sete algoritmos comerciais disponiveis no mercado para deteccao de cancer de pulmao em raio-x de torax e encontrou variacao significativa de desempenho. Os achados, divulgados pela The Imaging Wire em 21 de maio, reforcam que escolha de algoritmo nao e detalhe operacional, e sim decisao de impacto clinico e financeiro direto.

Por que comparar algoritmos importa
A radiografia de torax e, de longe, a modalidade mais utilizada na imagem medica. E frequentemente o primeiro exame que um paciente recebe e funciona como porta de entrada para investigacoes mais avancadas. Tambem tem fragilidades conhecidas: superposicao de estruturas, baixa sensibilidade para lesoes pequenas, dependencia da tecnica. Por isso, varios desenvolvedores tem apostado em IA para extrair mais valor do exame e identificar achados que escapam ao olhar humano.
O problema, ate aqui, e que cada fornecedor publica seus proprios numeros, em populacoes diferentes, com prevalencias artificiais ou cenarios controlados. Para o gestor que precisa escolher uma solucao para uma rede de servicos, comparar nao e simples. O grupo do Reino Unido decidiu entao montar uma especie de competicao tecnica, no que descreve como AI bake-off: testar simultaneamente algoritmos comerciais em uma mesma base, com prevalencia de cancer de pulmao no mundo real.
O desenho do estudo
Os pesquisadores incluiram radiografias de torax de cerca de 5.200 pacientes, com taxa de prevalencia de cancer de pulmao representativa da pratica clinica. Os algoritmos comparados vieram de Annalise/Harrison.ai, Gleamer, Infervision, Milvue, Oxipit, Qure.ai e Rayscape. Os resultados de desempenho foram anonimizados, evitando exposicao publica direta entre marcas, mas mantendo as analises tecnicas comparativas.
A escolha das marcas e relevante porque cobre boa parte dos players ja disponiveis para integracao em PACS e plataformas de viewer. Em outras palavras, a competicao analisou solucoes que radiologistas de fato podem comprar e instalar, e nao prototipos acadêmicos. Isso aproxima o estudo das decisoes praticas de gestores e diretores tecnicos.
Resultados que justificam atencao
A variacao entre algoritmos foi notavel. A sensibilidade — capacidade de detectar pacientes com cancer — variou entre 21% e 78%. A especificidade — capacidade de evitar falsos positivos em quem nao tem a doenca — oscilou entre 59% e 98%. O valor preditivo positivo, talvez o numero mais incomodo, ficou entre 1,5% e 28%. Em outras palavras, em alguns sistemas, apenas 1 a cada 67 pacientes flagados pela IA realmente tem cancer.
Todos os algoritmos aumentaram o numero de falsos positivos em relacao aos radiologistas humanos, mas com variacao significativa. Um modelo gerou apenas 10 falsos positivos a mais que os medicos; outro gerou mais de 2.000 falsos positivos adicionais. Quando esses numeros sao convertidos em custo, considerando o uso da IA para triagem de pacientes para tomografia complementar, a diferenca e de 1.600 dolares contra 327.000 dolares em custos adicionais. E uma diferenca de quase 200 vezes para a mesma tarefa clinica.
O que explica a diferenca
O fator mais provavel e a composicao dos conjuntos de dados usados no treinamento de cada modelo. Algoritmos treinados em bases enviesadas para casos avancados tendem a perder sensibilidade em achados precoces; modelos treinados em bases muito agressivas geram falsos positivos demais ao tentar nao perder nenhum caso. Sem padronizacao de benchmarks, fica dificil para o cliente final medir essa diferenca antes da contratacao.
Aspectos como protocolos de aquisicao, equipamentos de origem das imagens, demografia dos pacientes e estrategia de rotulagem por radiologistas tambem influem. Em outros termos, um algoritmo que se sai bem em um hospital do Reino Unido pode ter performance bem diferente no Brasil sem revalidacao.
O que isso muda para gestores e radiologistas
O recado pratico do estudo e simples: comparar algoritmos de IA nao e capricho academico, e sim diligencia gerencial. Antes de fechar contrato, vale exigir testes em amostras locais e definir metricas de aceitacao para sensibilidade, especificidade e valor preditivo positivo. Como discutimos no guia das cinco perguntas que todo diretor de radiologia deve fazer antes de adotar IA, ignorar a fase de validacao local sai mais caro do que demorar para implantar a tecnologia.
Outra licao e que IA generica raramente serve para todos os fluxos. Solucoes hospitalares de alto volume podem absorver mais falsos positivos em troca de sensibilidade maior, ja redes ambulatoriais com triagem populacional podem priorizar especificidade. A discussao se aproxima do que ja exploramos em cobertura sobre IA na deteccao de TEP em angio-TC e desempenho real-world, onde a confianca do servico depende do encaixe entre algoritmo e populacao.
Implicacoes regulatorias e o futuro multi-algoritmo
A variabilidade documentada no estudo levanta a discussao sobre o que reguladores como a FDA, a ANVISA e o NHS podem exigir como condicao para autorizar uso clinico. Alguns autores defendem benchmarks publicos e auditorias periodicas; outros argumentam que essa variacao e uma forca, nao um defeito, e que o futuro do diagnostico passa por ensembles, ou seja, conjuntos de algoritmos com vieses complementares analisando o mesmo exame.
Nesse cenario, o radiologista deixa de competir com a IA e passa a coordenar diferentes camadas analiticas. O laudo final integra o que cada modelo viu, sinaliza divergencias e contextualiza com historia clinica. E uma evolucao do papel do especialista que vale a pena monitorar nos proximos meses, principalmente para servicos brasileiros que comecam a estruturar suas estrategias de adocao.
Fonte: The Imaging Wire




