Validar dosis predicha por IA exige más que ejecutar una concordancia gamma en casos promedio. La pregunta correcta es: ¿para qué uso previsto, población, TPS, energías, estructuras y límites de falla será aceptado el modelo?
Este checklist complementa la comparación de MVision, RayStation y OptiPlan y el benchmark DoseRAD2026. El objetivo es transformar el entusiasmo por IA en un proceso auditable de física médica.

1. Defina el uso previsto antes de la métrica
Un mismo modelo puede ser aceptable para preplanificación e inaceptable para aprobación automática. Documente si la salida se usará como estimación visual, dosis de referencia para optimización, triaje de caso difícil, dosis secundaria, soporte adaptativo o sustituto operativo de un cálculo físico.
- Entrada obligatoria: CT, MRI, sCT, estructuras, prescripción, geometría de haz o plan completo.
- Salida permitida: dosis por haz, dosis de plan, objetivos de optimización o alerta.
- Usuario autorizado: dosimetrista, físico, médico o pipeline automatizado.
- Acción permitida: informar, sugerir, automatizar o bloquear aprobación.
2. Construya una cohorte local de validación
El entrenamiento multicéntrico no elimina la validación local. La muestra debe cubrir protocolos reales, extremos anatómicos, implantes, prótesis, aire, hueso cortical, reirradiación, PTV próximo a OAR y cambios de versión del TPS. Los casos fáciles importan, pero los casos límite prueban seguridad.
| Riesgo | Ejemplo | Control mínimo |
|---|---|---|
| Fuera del dominio | Anatomía posquirúrgica o implante metálico | Detector OOD y revisión física obligatoria |
| Error físico localizado | Interfaz aire-tejido, build-up, campo pequeño | Métrica por región y comparación independiente |
| Error clínico oculto | DVH de OAR empeora con gamma aceptable | D2%, Dmean, Vx y revisión por estructura |
| Cambio de versión | Nuevo MLC, TPS o protocolo | Revalidación de regresión antes de uso |
3. Use métricas en capas
Gamma es útil, pero insuficiente sola. Combine métricas voxel a voxel, DVH, error por estructura y análisis de peor caso. Para modelos rápidos por haz, incluya error por segmento o beamlet. Para planificación completa, incluya prescripción, cobertura y OAR.
- Gamma local 3D con criterio riguroso y umbral de dosis documentado.
- MAE en regiones de alta, media y baja dosis.
- D98%, V95%, D2%, Dmean y métricas específicas por protocolo.
- Error en interfaces y materiales de alta densidad.
- Tiempo de inferencia y tasa de falla por lote.
4. Trate OOD como requisito de seguridad
Los modelos de IA pueden fallar silenciosamente. Un protocolo maduro debe declarar cuándo el modelo debe rechazar, alertar o exigir revisión independiente. Ejemplos: anatomía fuera del entrenamiento, contornos ausentes, nombres no estándar, MRI degradada, isocentro atípico y prescripción incompatible.
5. Separe validación científica y clínica
Un benchmark como DoseRAD2026 mide desempeño bajo reglas controladas. La validación clínica también debe incluir integración DICOM, permisos, logs, trazabilidad, actualización del modelo, ciberseguridad, entrenamiento del usuario y rollback.
6. Estructura sugerida de aceptación
Los umbrales finales pertenecen al servicio y al uso previsto. Aun así, la validación debe declarar límites antes del test final, no después. Incluya criterio de rechazo automático, revisión por físico y aprobación para uso asistivo.
- Ningún caso crítico con error DVH clínicamente relevante sin alerta.
- Desempeño estratificado por sitio, protocolo y complejidad.
- Reproducibilidad tras actualización de TPS, modelo o biblioteca.
- Registro de fallas y revisión periódica por comité técnico.
FAQ
¿Cuál es el mayor error al validar dosis por IA?
Validar solo el promedio. Un modelo puede verse bien globalmente y fallar exactamente en los casos raros que requieren mayor control físico.
¿Puedo aceptar el modelo si gamma es alto?
No automáticamente. Gamma debe combinarse con DVH, evaluación por estructura, error en regiones críticas y análisis fuera del dominio.
¿Cuándo revalidar?
Después de actualizaciones de TPS, modelo, protocolo, conjunto de estructuras, scanner, modalidad de imagen, energía, MLC o población tratada.
Referencias
- AAPM TG-218. https://www.aapm.org/pubs/reports/RPT_218.pdf
- FDA AI/ML-enabled Software as a Medical Device. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-software-medical-device
- Métricas y ranking DoseRAD2026. https://doserad2026.grand-challenge.org/metrics-and-ranking/
- RaySearch deep learning planning. https://www.raysearchlabs.com/media/publications/white-papers/deep-learning-planning/
- MVision Dose+. https://mvision.ai/dose/




