Skip to main content

Validar dose predita por IA exige mais do que rodar uma concordância gamma em casos médios. A pergunta correta é: para qual uso pretendido, em qual população, com qual TPS, quais energias, quais estruturas e quais limites de falha o modelo será aceito?

Este checklist complementa o comparativo de MVision, RayStation e OptiPlan e o benchmark DoseRAD2026. O objetivo é transformar entusiasmo por IA em um processo auditável de física médica.

Guardrails de validação clínica para modelos de dose predita por IA
Infográfico original RT Medical Systems para o cluster de dose predita por IA.

1. Defina o intended use antes da métrica

Um mesmo modelo pode ser aceitável para pré-planejamento e inaceitável para aprovação automática. Documente se a saída será usada como estimativa visual, dose de referência para otimização, triagem de caso difícil, dose secundária, suporte adaptativo ou substituto operacional de um cálculo físico.

  • Entrada obrigatória: CT, MRI, sCT, estruturas, prescrição, geometria de feixe ou plano completo.
  • Saída permitida: dose por feixe, dose de plano, objetivos de otimização ou alerta.
  • Usuário autorizado: dosimetrista, físico, médico ou pipeline automatizado.
  • Ação permitida: informar, sugerir, automatizar ou bloquear aprovação.

2. Construa um conjunto local de validação

Treino multicêntrico não elimina validação local. A amostra deve cobrir protocolos reais, extremos anatômicos, implantes, próteses, ar, osso cortical, reirradiação, PTV próximo a OAR e mudanças de versão do TPS. Casos fáceis devem estar presentes, mas casos de borda são os que mais testam segurança.

Risco Exemplo Controle mínimo
Fora do domínio Anatomia pós-cirúrgica ou implante metálico Detector OOD e revisão física obrigatória
Erro físico localizado Interface ar-tecido, build-up, campo pequeno Métrica por região e comparação independente
Erro clínico invisível no gamma DVH de OAR piora com gamma aceitável D2%, Dmean, Vx e revisão por estrutura
Mudança de versão Novo modelo de MLC, TPS ou protocolo Revalidação de regressão antes de uso

3. Use métricas em camadas

Gamma é útil, mas insuficiente sozinho. Combine métricas voxel-a-voxel, DVH, erro por estrutura e avaliação de pior caso. Para modelos rápidos por feixe, inclua erro por segmento ou beamlet. Para planejamento completo, inclua métricas de prescrição, cobertura e OAR.

  • Gamma local 3D com critério rigoroso e limiar de dose documentado.
  • MAE em regiões de alta, média e baixa dose.
  • D98%, V95%, D2%, Dmean e métricas específicas por protocolo.
  • Erro em interfaces e materiais de alta densidade.
  • Tempo de inferência e taxa de falha por lote.

4. Trate OOD como requisito de segurança

Modelos de IA podem falhar de forma silenciosa. Um protocolo maduro deve declarar quando o modelo deve se recusar, sinalizar baixa confiança ou exigir revisão independente. Exemplos: anatomia fora do treinamento, contornos ausentes, nomes não padronizados, MRI degradada, isocentro atípico e prescrição incompatível.

5. Separe validação de publicação científica e validação clínica

Um benchmark como DoseRAD2026 mede performance sob regras controladas. A validação clínica precisa incluir integração DICOM, permissões, logs, rastreabilidade, atualização de modelo, cibersegurança, treinamento do usuário e plano de rollback.

6. Critérios de aceite sugeridos

Os números finais pertencem ao serviço e ao intended use. Ainda assim, o documento de validação deve declarar limites antes do teste final, não depois. Inclua critério de rejeição automática, critério de revisão por físico e critério de aprovação para uso assistivo.

  • Nenhum caso crítico com erro DVH clinicamente relevante sem alerta.
  • Desempenho estratificado por sítio, protocolo e complexidade.
  • Reprodutibilidade após atualização de TPS, modelo ou biblioteca.
  • Registro de falhas e revisão periódica em comitê técnico.

FAQ

Qual é o maior erro ao validar dose por IA?

Validar apenas a média. Um modelo pode ter bom resultado global e falhar exatamente nos casos raros que justificam controle físico mais rigoroso.

Posso aceitar o modelo se o gamma for alto?

Não automaticamente. Gamma deve ser combinado com DVH, avaliação por estrutura, erro em regiões críticas e análise de casos fora do domínio.

Quando revalidar?

Após atualização de TPS, modelo, protocolo, conjunto de estruturas, scanner, modalidade de imagem, energia, MLC ou população tratada.

Referências

  1. AAPM TG-218. https://www.aapm.org/pubs/reports/RPT_218.pdf
  2. FDA AI/ML-enabled Software as a Medical Device. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-software-medical-device
  3. DoseRAD2026 metrics and ranking. https://doserad2026.grand-challenge.org/metrics-and-ranking/
  4. RaySearch deep learning planning. https://www.raysearchlabs.com/media/publications/white-papers/deep-learning-planning/
  5. MVision Dose+. https://mvision.ai/dose/