Skip to main content

IA da Universidade de Buffalo Identifica Laudos de Radiologia Gerados por Algoritmos

Pesquisadores da Universidade Estadual de Buffalo (UB) desenvolveram um sistema baseado em inteligência artificial capaz de distinguir laudos radiológicos escritos por clínicos humanos daqueles gerados por IA — uma capacidade projetada para detectar falsificações de documentos médicos e fraudes em planos de saúde. O trabalho foi liderado pelo professor Nalini Ratha, do Departamento de Ciência da Computação e Engenharia da UB, em colaboração com os doutorandos Arjun Ramesh Kaushik e Tanvi Ranga. Os resultados foram apresentados no workshop GenAI4Health durante a Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS) em dezembro de 2025.

Sistema de IA da Universidade de Buffalo detecta laudos de radiologia gerados por algoritmos de linguagem
Pesquisadores da UB desenvolveram framework BERT-Mamba para detectar laudos sintéticos de radiologia

O Problema: IA Generativa e Fraudes em Documentação Médica

Com a popularização dos modelos de linguagem de grande escala (LLMs), tornou-se tecnicamente viável gerar laudos radiológicos sintéticos indistinguíveis — à primeira vista — dos produzidos por radiologistas experientes. Esse cenário abre uma porta preocupante para usos maliciosos: falsificação de históricos médicos, criação de evidências fictícias para suporte de sinistros fraudulentos em planos de saúde e até adulteração de prontuários eletrônicos em contextos legais ou securitários.

“Com a IA generativa se tornando cada vez mais capaz de produzir laudos radiológicos convincentes, há um risco maior de laudos fabricados serem usados para falsificar históricos médicos e dar suporte a sinistros fraudulentos”, afirmou Ratha. “Laudos radiológicos têm estrutura, vocabulário e normas estilísticas altamente especializados, tornando os detectores de propósito geral pouco confiáveis. Por isso, nosso objetivo foi construir um framework de detecção projetado especificamente para radiologia.”

Metodologia: Dataset e Arquitetura BERT-Mamba

Para desenvolver e validar o sistema, a equipe construiu um conjunto de dados contendo 14.000 pares de laudos de radiografia de tórax: um escrito por radiologistas e outro gerado por IA. Os laudos sintéticos foram produzidos de duas maneiras distintas: parafraseando laudos existentes usando LLMs, e gerando laudos diretamente a partir de radiografias usando modelos visão-linguagem (vision-language models). O dataset foca na seção de achados dos laudos — aquela que tipicamente contém observações clínicas detalhadas e terminologia especializada.

Usando esse conjunto de dados, a equipe construiu um framework de detecção baseado em uma arquitetura BERT-Mamba, projetada para separar os padrões estilísticos do conteúdo clínico. A hipótese central do trabalho é que modelos de linguagem frequentemente reproduzem a terminologia médica com fidelidade, mas diferem dos clínicos humanos no estilo de escrita — e essas diferenças, embora sutis, são detectáveis computacionalmente.

Resultados: Precisão de 92% a 100%

Em testes, o sistema alcançou coeficientes de correlação de Matthews (MCC) variando de 92% a 100% ao distinguir laudos escritos por humanos dos gerados por IA. Notavelmente, o modelo também identificou laudos sintéticos gerados por sistemas de IA que não haviam sido vistos durante o treinamento — demonstrando capacidade de generalização para além dos LLMs incluídos no conjunto de treinamento.

“Os sistemas de IA deixam impressões digitais estilísticas sutis — padrões de fraseado, pontuação e escolha de palavras que diferem da forma como os radiologistas naturalmente escrevem. Ao separar estilo de conteúdo e tratar o estilo como uma característica mensurável própria, nosso modelo conseguiu detectar esses padrões com precisão excepcional”, explicou Kaushik.

A observação de Ranga complementa: “O que encontramos é que LLMs tendem a escrever em linguagem polida e expansiva, enquanto os clínicos escrevem de forma concisa e direta.” Essa assimetria entre o estilo prolixo dos LLMs e a objetividade característica dos laudos radiológicos profissionais é o núcleo explorável pelo framework BERT-Mamba.

Implicações para a Segurança da Informação em Saúde

A relevância desta pesquisa transcende o contexto acadêmico. Em um ecossistema de saúde onde laudos digitais circulam entre prestadores, planos de saúde, reguladores e sistemas de PACS, a capacidade de autenticar a autoria humana de um documento médico pode se tornar um elemento-chave da infraestrutura de segurança da informação clínica. A IA aplicada à imagem médica já é amplamente discutida no contexto da detecção e do diagnóstico — mas sua aplicação na autenticidade documental abre um campo inteiramente novo.

No Brasil, onde o ambiente regulatório de saúde digital está em evolução acelerada — com a ANS, o CFM e o INCA publicando orientações sobre uso de IA em medicina — a detecção de laudos sintéticos pode se tornar relevante tanto para planos de saúde quanto para operadoras de saúde suplementar, especialmente em contextos de auditoria médica e perícia judicial. A integração de ferramentas de autenticação de laudos no fluxo de validação de sinistros poderia reduzir significativamente o custo de fraudes para o sistema.

Contexto Mais Amplo: IA Generativa em Radiologia

A pesquisa da UB surge em um momento em que a IA generativa está sendo testada em múltiplos contextos radiológicos — desde a geração automática de rascunhos de laudos (com revisão humana posterior) até o suporte à tomada de decisão clínica. Ferramentas como o GPT-4V, o Med-PaLM e soluções proprietárias de fabricantes como Nuance (Microsoft) já permitem a geração de texto estruturado a partir de imagens médicas ou de dictados de voz.

Ao mesmo tempo, a proliferação dessas ferramentas exige mecanismos de controle e rastreabilidade. Assim como os sistemas de PACS com IA integrada precisam garantir a cadeia de custódia da imagem, os sistemas de geração e transmissão de laudos precisarão, no futuro próximo, de mecanismos de verificação de autoria. A pesquisa da Universidade de Buffalo é um passo concreto nessa direção.

Próximos Passos da Pesquisa

Os pesquisadores planejam expandir o dataset para incluir categorias radiológicas adicionais além de radiografias de tórax, e testar o framework com uma gama mais ampla de modelos de IA — incluindo modelos que surgirão após a data de publicação do trabalho. O objetivo de longo prazo é disponibilizar o framework publicamente, permitindo que instituições de saúde, planos e reguladores integrem a verificação de autoria de laudos em seus próprios sistemas. Trata-se de uma contribuição que, se adotada em escala, pode fortalecer significativamente a integridade da documentação médica no ecossistema de saúde digital.

Fonte: DOTmed

Leave a Reply