Skip to main content

A incorporação de algoritmos de inteligência artificial (IA) no fluxo de trabalho de planejamento radioterápico representa uma das transformações mais profundas vivenciadas pela física médica nas últimas décadas. Durante mais de trinta anos, o motor de cálculo de dose foi sinônimo de física determinística ou estocástica: convoluções analíticas, transporte de partículas por equações de Boltzmann ou simulação Monte Carlo (MC). Esses métodos operam sobre modelos explícitos do transporte de radiação, com parâmetros derivados de dados de comissionamento e validados contra medições dosimétricas independentes. Agora emerge uma nova categoria de motores — modelos treinados a partir de dados — cujas capacidades e limitações não se encaixam naturalmente nos protocolos de garantia de qualidade (QA) desenvolvidos para algoritmos determinísticos.

O que se chama genericamente de “IA no cálculo de dose” engloba realidades tecnológicas bastante distintas: redes neurais que preveem distribuições de dose a partir de geometrias de estruturas, modelos de aprendizado por reforço para otimização de planos, e emuladores que reproduzem saídas de motores lentos — como MC — com latência de frações de segundo. Nenhum desses modelos transporta partículas. Eles aprendem correlações estatísticas entre entradas (imagens CT, contornos, feixes) e saídas (distribuições de dose) a partir de um conjunto de treinamento. A pergunta clinicamente relevante não é “IA ou Monte Carlo?” mas sim: em que condições um modelo substituto pode ser utilizado com confiança, e quais salvaguardas são necessárias para detectar quando ele falha silenciosamente?

AI dose surrogate model with clinical validation guardrails
Infográfico técnico do cluster de algoritmos de cálculo de dose.

Este artigo examina essas questões do ponto de vista de físicos médicos, dosimetristas e radio-oncologistas que precisam tomar decisões de adoção ou supervisão de ferramentas baseadas em IA. O texto diferencia descrição física do fenômeno, implementação comercial e evidência de validação publicada — três dimensões frequentemente confundidas em discussões sobre o tema. Não se pretende recomendar produtos específicos, mas fornecer um mapa conceitual para avaliação crítica dessas tecnologias.

O que significa usar IA como modelo substituto de dose

Um modelo substituto (surrogate model ou emulator) é um sistema computacional treinado para reproduzir o comportamento de outro sistema mais caro ou lento, aceitando as mesmas entradas e produzindo saídas aproximadas. No contexto de dose, o sistema “caro” é tipicamente um motor de MC de alta fidelidade ou um solver de equação de transporte linear de Boltzmann (LBTE), como o Acuros XB. O modelo substituto — geralmente uma rede neural convolucional profunda, frequentemente com arquitetura similar a U-Net — aprende, a partir de pares (entrada, saída de referência), um mapeamento que pode ser avaliado em milissegundos em vez de minutos ou horas.

É importante distinguir dois sub-casos que a literatura frequentemente conflate. No primeiro, a rede prevê a dose a partir de planos de tratamento já otimizados, funcionando como verificação rápida ou geração de plano inicial (knowledge-based planning). No segundo, a rede substitui diretamente o motor de cálculo dentro do TPS (treatment planning system), sendo invocada durante cada iteração da otimização. O segundo caso impõe requisitos muito mais severos de acurácia e robustez: um erro sistematicamente baixo em uma região crítica propagará para a otimização, produzindo planos com cobertura real inferior ao projetado, sem qualquer sinal de alerta ao usuário.

Há protótipos e produtos que usam aprendizado de máquina em etapas de planejamento e estimativa de dose, mas o intended use deve ser verificado na documentação de cada versão. A distinção entre “acelerado por IA” e “calculado por MC/LBTE com aceleração de hardware” é crucial. GPUMCD, por exemplo, é Monte Carlo em GPU, não uma rede neural.

A latência reduzida pode apoiar fluxos adaptativos e cálculos repetidos. O custo é transferir parte da garantia de desempenho para os dados, o domínio de validade e os controles de detecção de falha.

Diferença entre prever dose e transportar partículas

Transportar partículas, no sentido físico, significa resolver — de forma exata, aproximada ou estocástica — a equação de Boltzmann para o transporte de radiação, considerando seções de choque de interação dependentes do material atravessado, energia depositada localmente e espalhamentos secundários. O MC amostra trajetórias individuais de fótons, elétrons e partículas secundárias. O LBTE/Acuros XB resolve a equação em sua forma determinística sobre uma malha espacial. O Pencil Beam decompõe o feixe em lápis e aplica kernels de espalhamento calibrados em água, com correções empíricas para heterogeneidades. O AAA (Anisotropic Analytical Algorithm) utiliza convoluções de energia separadas para fótons primários, espalhamento lateral e elétrons contaminantes. Todos esses algoritmos têm parâmetros com significado físico direto e podem ser, ao menos em princípio, comissionados e validados contra medições em phantom independente.

Uma rede neural de previsão de dose não resolve nenhuma dessas equações. Ela aprende uma função — potencialmente de altíssima dimensionalidade — que mapeia a geometria do problema (morfologia CT em unidades Hounsfield, contornos de estruturas, configuração de feixes) para uma distribuição de dose, minimizando um funcional de perda sobre o conjunto de treinamento. O mapeamento aprendido é, por construção, uma interpolação sobre o manifold dos casos vistos durante o treinamento. Fora desse manifold — uma anatomia incomum, uma combinação de energias não representada, uma geometria de feixe atípica — a rede extrapolará de maneira imprevisível, sem garantia de coerência física.

Esta distinção tem implicações diretas para conceitos como dose to medium (Dm) e dose to water (Dw). Algoritmos como Acuros XB permitem escolher explicitamente qual grandeza é calculada, com consequências clínicas discutidas na literatura especialmente em interfaces osso-tecido e em protonterapia. Um modelo substituto treinado sobre saídas de Dm “aprende” implicitamente essa convenção, mas não a tornará explícita. Uma mudança de convenção no motor de referência durante retreinamento pode passar despercebida — um exemplo estrutural de falha silenciosa.

Outro aspecto relevante é a convergência incremental: em MC, mais histórias de partículas equivalem a menor incerteza estatística, e o usuário pode equilibrar tempo de cálculo e precisão de forma controlada. Em um modelo de ML, não existe mecanismo equivalente — a saída é determinística para uma dada entrada, e a incerteza do modelo é fixa, determinada pela fase de treinamento.

Dados de treinamento, viés e domínio de validade

O desempenho de qualquer modelo substituto é fundamentalmente limitado pela qualidade, quantidade e diversidade dos dados de treinamento. Para dose prediction, o conjunto de dados é geralmente formado por planos aprovados clinicamente em uma ou mais instituições, com as distribuições de dose calculadas pelo TPS institucional como rótulo (ground truth). Dois problemas estruturais emergem imediatamente.

Primeiro, o rótulo não é a dose real — é a dose calculada pelo algoritmo do TPS, com suas próprias incertezas e aproximações. Se o TPS usava Pencil Beam para casos de pulmão com heterogeneidades severas, e o modelo aprende a reproduzir Pencil Beam, não há ganho de acurácia física; há apenas aceleração de um método impreciso. Segundo, os dados de treinamento refletem os padrões e vieses do planejamento local: topologias de feixe preferidas, critérios de normalização, filosofias de margem. Um modelo treinado em um centro de altíssima especialização pode não generalizar para um centro com populações de pacientes, equipamentos ou práticas distintas.

A tabela abaixo resume as fontes de viés mais relevantes em conjuntos de dados de treinamento para modelos de dose:

Fonte de viés Descrição Impacto clínico potencial
Viés de seleção de casos Casos atípicos ou difíceis excluídos da aprovação clínica Modelo subestima complexidade; falha em cenários difíceis
Viés do algoritmo de referência Ground truth gerado por motor com limitações conhecidas (ex.: PB em pulmão) Preserva erros sistemáticos do motor original
Viés institucional Padrões de planejamento de um único centro Baixa generalização para outras instituições
Viés de seleção anatômica Sub-representação de anatomias raras ou pós-cirúrgicas Falha silenciosa em casos fora da distribuição
Viés temporal Mudanças em protocolos, acessórios ou equipamentos ao longo da coleta Inconsistência nos rótulos de treinamento

O conceito de domínio de validade — o espaço de entradas sobre o qual o modelo pode ser considerado confiável — é análogo ao escopo de commissioning de um motor físico, mas muito mais difícil de delimitar. Para um TPS convencional, o commissioning define explicitamente as energias, tamanhos de campo, geometrias de phantom e tecidos para os quais o motor foi validado. Para um modelo de ML, esse espaço é definido implicitamente pela distribuição dos dados de treinamento, e não existe protocolo padronizado para caracterizá-lo formalmente.

Generalização para máquinas, energias e anatomias

Um dos desafios mais práticos para adoção clínica é a transferibilidade de modelos entre aceleradores lineares, energias de feixe e populações de pacientes. Um modelo treinado em dados de um acelerador específico com 6 MV FFF não tem, a priori, nenhuma garantia de comportamento correto em uma plataforma diferente, em 10 MV, ou em feixes com filtro físico. Diferenças na forma do espectro energético, na contaminação eletrônica, no tamanho da fonte virtual e nos perfis de feixe resultam em distribuições de dose qualitativamente distintas em regiões de build-up, penumbra e heterogeneidades.

A literatura descreve abordagens de transfer learning e domain adaptation para reduzir o custo de re-treinamento ao migrar para uma nova máquina, mas a evidência de validação para uso clínico ainda é limitada e majoritariamente proveniente de grupos acadêmicos. Implementações comerciais devem ser avaliadas quanto ao escopo exato de máquinas e energias para as quais o modelo foi validado pelo fabricante — informação que deve constar na documentação técnica do sistema, não em material de marketing.

A dimensão anatômica é igualmente crítica. Modelos treinados predominantemente em casos de próstata tendem a ter desempenho superior nessa localização e inferior em cabeça e pescoço, onde a proximidade de OARs críticos e a variabilidade anatômica são maiores. A tabela a seguir sintetiza a relação entre complexidade do caso e risco de extrapolação:

Categoria de caso Complexidade relativa Risco de extrapolação do modelo
Próstata convencional (7 campos IMRT) Baixa Baixo, se representado no treino
Cabeça e pescoço (VMAT) Alta Moderado a alto
Pulmão com heterogeneidades severas Alta Alto — especialmente Dm/Dw e penumbra
Pós-cirúrgico com próteses metálicas Muito alta Alto — artefatos CT fora da distribuição
Pediátrico Média-alta Alto — anatomia sub-representada na maioria dos conjuntos
Re-irradiação Alta Alto — dose acumulada não modelada no treinamento

Anatomias pós-cirúrgicas, presença de implantes metálicos com artefatos CT e casos pediátricos representam cenários de alto risco de extrapolação que merecem protocolos específicos de escalonamento para verificação por motor físico independente.

Incerteza, detecção de outliers e falhas silenciosas

Uma limitação dos motores determinísticos clássicos (AAA, Acuros XB, Pencil Beam) é que eles produzem um único valor de dose por voxel, sem estimativa de incerteza associada ao próprio modelo — apenas às medições do commissioning. Paradoxalmente, métodos de aprendizado de máquina oferecem ferramentas para estimar incerteza preditiva: Monte Carlo Dropout, deep ensembles, conformal prediction e modelos probabilísticos como redes neurais bayesianas. Quando implementadas, essas técnicas permitem que o modelo indique regiões de maior incerteza — um sinal diagnóstico valioso que motores determinísticos não fornecem.

O problema é que essas técnicas raramente estão disponíveis em implementações comerciais e ainda carecem de validação clínica robusta. O risco oposto — e clinicamente mais perigoso — é o de falha silenciosa: o modelo produz uma distribuição de dose plausível em aparência (passando em verificações simples de DVH e isodose) mas sistematicamente errada em regiões específicas, sem qualquer indicador de alerta. Exemplos documentados incluem erros em regiões de alta heterogeneidade (interfaces ar-tecido, pulmão), build-up superficial e campos pequenos — exatamente as regiões onde algoritmos mais simples como Pencil Beam também falham, mas por razões físicas bem compreendidas e auditáveis.

A detecção de outliers — identificar casos fora do domínio de validade antes de usar a previsão — é uma área de pesquisa ativa. Métricas como distância no espaço de características latentes, scores de anomalia baseados em autocodificadores, e comparação com distribuições de treinamento têm sido exploradas. Na ausência de ferramentas automáticas, a abordagem prática consiste em: (1) definir critérios explícitos de exclusão baseados nas características do conjunto de treinamento; (2) exigir verificação independente por motor físico para casos nas categorias de alto risco; e (3) implementar processos de reporte de discrepâncias como parte da rotina de QA.

Como comparar IA, Monte Carlo e solvers determinísticos

A comparação entre motores de cálculo deve ser estruturada em pelo menos três dimensões independentes: acurácia física, desempenho computacional e maturidade de validação clínica. Frequentemente, discussões sobre IA versus MC colapsam essas dimensões de forma inadequada, gerando afirmações que são verdadeiras em uma dimensão e enganosas nas demais.

O relatório AAPM TG-105 estabelece uma estrutura metodológica para commissioning de MC em radioterapia que permanece relevante como referência para qualquer motor de alta fidelidade. Os critérios de aceitação propostos — comparações gamma, análises DVH, cenários de teste específicos — podem e devem ser aplicados a modelos substitutos quando estes forem usados como motor primário de cálculo. A diferença fundamental é que, para MC, a convergência estatística pode ser aumentada com mais histórias de partículas; para um modelo de ML, não existe mecanismo equivalente de auto-refinamento no tempo de inferência.

A análise gamma é comum, mas isoladamente não demonstra equivalência clínica. A avaliação deve incluir DVHs, métricas por estrutura, mapas de erro, casos de pior desempenho e testes fora da distribuição, com critérios definidos antes da validação.

A literatura sobre física de prótons discute especificamente os desafios de validação onde as incertezas de alcance adicionam uma dimensão que algoritmos analíticos tratam de forma simplificada e MC aborda de forma mais completa. Modelos substitutos para prótons enfrentam o desafio adicional de modelar corretamente a região de Bragg peak e os efeitos de halo, altamente sensíveis à composição tissular — exatamente o tipo de variabilidade que pode não estar bem representada no conjunto de treinamento.

Validação clínica, governança e uso responsável

A validação clínica de um modelo substituto de dose vai além do commissioning técnico. Ela abrange o processo completo de introdução de uma nova tecnologia no cuidado ao paciente, incluindo avaliação de risco, treinamento de equipe, definição de escopo de uso e mecanismos de monitoramento contínuo. O conceito de gêmeos digitais em oncologia, discutido em revisões recentes, ilustra a ambição de modelos personalizados de resposta ao tratamento — mas também evidencia a distância entre a promessa tecnológica e a evidência clínica disponível para uso rotineiro.

Do ponto de vista regulatório, a classificação e as responsabilidades dependem da jurisdição, do intended use e da configuração comercial. Retreinamento local, integração própria ou uso fora do escopo podem alterar as obrigações aplicáveis. A instituição deve envolver qualidade, assuntos regulatórios e segurança antes do uso assistencial.

A governança interna deve estabelecer, minimamente:

  • Protocolo de commissioning com critérios de aceitação pré-definidos e não ajustáveis post hoc;
  • Definição documentada do escopo clínico de uso (sítios anatômicos, técnicas, energias, faixas etárias);
  • Processo de escalonamento para casos que excedam o escopo, com verificação por motor independente;
  • Auditorias periódicas comparando saídas do modelo substituto com cálculos independentes em uma amostra de casos clínicos reais;
  • Processo de reporte e investigação de discrepâncias, integrado ao sistema de gestão de qualidade da instituição.

A questão ética subjacente é que o planejamento radioterápico envolve decisões com consequências para o paciente. Ganho de velocidade só é clinicamente útil quando incerteza, domínio de validade, supervisão e responsabilidade estão definidos.

Perguntas frequentes

Um modelo de IA com alta taxa de concordância gamma em relação ao MC pode ser considerado equivalente ao MC para uso clínico?

Não necessariamente. Alta concordância gamma no conjunto de validação demonstra desempenho médio sobre os casos testados, mas não garante comportamento correto fora do domínio de treinamento. A equivalência clínica requer validação sobre casos representativos de toda a variedade de situações em que o modelo será usado, incluindo casos de borda e cenários adversos — não apenas os casos típicos. Além disso, o MC tem mecanismo de convergência incremental (mais histórias, menor incerteza estatística); o modelo de ML não. A comparação deve incluir análise de pior caso e métricas DVH por estrutura, não apenas a taxa gamma mediana.

Como diferenciar, na documentação de um TPS, se o motor usa IA real ou aceleração por GPU?

Buscar na documentação técnica os termos “machine learning”, “neural network”, “deep learning” ou “trained model”. Motores acelerados por GPU como GPUMCD são MC estocásticos em GPU; sua documentação descreverá amostras de partículas, seções de choque e convergência estatística. Um modelo de ML descreverá arquitetura de rede, dados de treinamento e métricas de validação. Em caso de ambiguidade, solicitar ao fabricante o Intended Use Statement e a documentação de validação clínica do motor específico — documentos que devem existir para qualquer dispositivo regulado.

Qual o impacto da distinção dose to medium / dose to water em modelos substitutos de dose?

O modelo aprende a reproduzir a convenção do motor que gerou os dados de treinamento (Dm ou Dw), mas raramente torna essa convenção explícita ao usuário. Se o motor de referência for Acuros XB configurado para Dw, o modelo produzirá Dw implicitamente; se configurado para Dm, produzirá Dm. Em anatomias com alta proporção de osso cortical ou interface ar-tecido, a diferença entre Dm e Dw pode ser clinicamente relevante. O usuário deve rastrear e documentar qual convenção o modelo reproduz, garantindo que os critérios de aceitação do plano sejam coerentes com ela.

É possível usar um modelo de dose baseado em IA treinado em outra instituição sem re-treinamento local?

A transferibilidade depende de população, equipamentos, energias e protocolos. Mesmo com treinamento multicêntrico, é necessário validar o desempenho no ambiente local com casos representativos e referências independentes adequadas. O escopo da validação deve corresponder ao intended use.

Quais são os cenários de maior risco de falha silenciosa em modelos substitutos de dose?

Os cenários de maior risco incluem campos pequenos, alta heterogeneidade, build-up superficial, anatomias pós-cirúrgicas, implantes e reirradiação. Nesses casos, o protocolo deve exigir controles adicionais proporcionais ao risco, incluindo comparação independente quando tecnicamente adequada.

Referências