Validar dose predita por IA exige mais do que rodar uma concordância gamma em casos médios. A pergunta correta é: para qual uso pretendido, em qual população, com qual TPS, quais energias, quais estruturas e quais limites de falha o modelo será aceito?
Este checklist complementa o comparativo de MVision, RayStation e OptiPlan e o benchmark DoseRAD2026. O objetivo é transformar entusiasmo por IA em um processo auditável de física médica.

1. Defina o intended use antes da métrica
Um mesmo modelo pode ser aceitável para pré-planejamento e inaceitável para aprovação automática. Documente se a saída será usada como estimativa visual, dose de referência para otimização, triagem de caso difícil, dose secundária, suporte adaptativo ou substituto operacional de um cálculo físico.
- Entrada obrigatória: CT, MRI, sCT, estruturas, prescrição, geometria de feixe ou plano completo.
- Saída permitida: dose por feixe, dose de plano, objetivos de otimização ou alerta.
- Usuário autorizado: dosimetrista, físico, médico ou pipeline automatizado.
- Ação permitida: informar, sugerir, automatizar ou bloquear aprovação.
2. Construa um conjunto local de validação
Treino multicêntrico não elimina validação local. A amostra deve cobrir protocolos reais, extremos anatômicos, implantes, próteses, ar, osso cortical, reirradiação, PTV próximo a OAR e mudanças de versão do TPS. Casos fáceis devem estar presentes, mas casos de borda são os que mais testam segurança.
| Risco | Exemplo | Controle mínimo |
|---|---|---|
| Fora do domínio | Anatomia pós-cirúrgica ou implante metálico | Detector OOD e revisão física obrigatória |
| Erro físico localizado | Interface ar-tecido, build-up, campo pequeno | Métrica por região e comparação independente |
| Erro clínico invisível no gamma | DVH de OAR piora com gamma aceitável | D2%, Dmean, Vx e revisão por estrutura |
| Mudança de versão | Novo modelo de MLC, TPS ou protocolo | Revalidação de regressão antes de uso |
3. Use métricas em camadas
Gamma é útil, mas insuficiente sozinho. Combine métricas voxel-a-voxel, DVH, erro por estrutura e avaliação de pior caso. Para modelos rápidos por feixe, inclua erro por segmento ou beamlet. Para planejamento completo, inclua métricas de prescrição, cobertura e OAR.
- Gamma local 3D com critério rigoroso e limiar de dose documentado.
- MAE em regiões de alta, média e baixa dose.
- D98%, V95%, D2%, Dmean e métricas específicas por protocolo.
- Erro em interfaces e materiais de alta densidade.
- Tempo de inferência e taxa de falha por lote.
4. Trate OOD como requisito de segurança
Modelos de IA podem falhar de forma silenciosa. Um protocolo maduro deve declarar quando o modelo deve se recusar, sinalizar baixa confiança ou exigir revisão independente. Exemplos: anatomia fora do treinamento, contornos ausentes, nomes não padronizados, MRI degradada, isocentro atípico e prescrição incompatível.
5. Separe validação de publicação científica e validação clínica
Um benchmark como DoseRAD2026 mede performance sob regras controladas. A validação clínica precisa incluir integração DICOM, permissões, logs, rastreabilidade, atualização de modelo, cibersegurança, treinamento do usuário e plano de rollback.
6. Critérios de aceite sugeridos
Os números finais pertencem ao serviço e ao intended use. Ainda assim, o documento de validação deve declarar limites antes do teste final, não depois. Inclua critério de rejeição automática, critério de revisão por físico e critério de aprovação para uso assistivo.
- Nenhum caso crítico com erro DVH clinicamente relevante sem alerta.
- Desempenho estratificado por sítio, protocolo e complexidade.
- Reprodutibilidade após atualização de TPS, modelo ou biblioteca.
- Registro de falhas e revisão periódica em comitê técnico.
FAQ
Qual é o maior erro ao validar dose por IA?
Validar apenas a média. Um modelo pode ter bom resultado global e falhar exatamente nos casos raros que justificam controle físico mais rigoroso.
Posso aceitar o modelo se o gamma for alto?
Não automaticamente. Gamma deve ser combinado com DVH, avaliação por estrutura, erro em regiões críticas e análise de casos fora do domínio.
Quando revalidar?
Após atualização de TPS, modelo, protocolo, conjunto de estruturas, scanner, modalidade de imagem, energia, MLC ou população tratada.
Referências
- AAPM TG-218. https://www.aapm.org/pubs/reports/RPT_218.pdf
- FDA AI/ML-enabled Software as a Medical Device. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-software-medical-device
- DoseRAD2026 metrics and ranking. https://doserad2026.grand-challenge.org/metrics-and-ranking/
- RaySearch deep learning planning. https://www.raysearchlabs.com/media/publications/white-papers/deep-learning-planning/
- MVision Dose+. https://mvision.ai/dose/




