La incorporación de algoritmos de inteligencia artificial (IA) al flujo de trabajo de planificación de la radioterapia representa una de las transformaciones más profundas experimentadas por la física médica en las últimas décadas. Desde hace más de treinta años, el motor de cálculo de dosis es sinónimo de física determinista o estocástica: convoluciones analíticas, transporte de partículas mediante ecuaciones de Boltzmann o simulación Monte Carlo (MC). Estos métodos funcionan con modelos explícitos de transporte de radiación, con parámetros derivados de datos de puesta en servicio y validados con mediciones dosimétricas independientes. Ahora surge una nueva categoría de motores (modelos entrenados a partir de datos) cuyas capacidades y limitaciones no encajan naturalmente en los protocolos de garantía de calidad (QA) desarrollados para algoritmos deterministas.
Lo que genéricamente se llama «IA en el cálculo de dosis» abarca realidades tecnológicas muy diferentes: redes neuronales que predicen distribuciones de dosis basadas en geometrías estructurales, modelos de aprendizaje por refuerzo para la optimización de planes y emuladores que reproducen salidas de motores lentos, como MC, con fracciones de segundo de latencia. Ninguno de estos modelos transporta partículas. Aprenden correlaciones estadísticas entre entradas (imágenes CT, contornos, haces) y salidas (distribuciones de dosis) de un conjunto de entrenamiento. La pregunta clínicamente relevante no es «¿AI o Monte Carlo?» sino más bien: ¿bajo qué condiciones se puede utilizar con confianza un modelo sustituto y qué salvaguardas se necesitan para detectar cuándo falla silenciosamente?

Este artículo examina estas preguntas desde la perspectiva de físicos médicos, dosimetristas y oncólogos radioterapeutas que necesitan tomar decisiones de adopción o supervisión de herramientas basadas en IA. El texto diferencia la descripción física del fenómeno, la implementación comercial y la evidencia de validación publicada, tres dimensiones que a menudo se confunden en las discusiones sobre el tema. No pretende recomendar productos específicos, sino proporcionar un mapa conceptual para la evaluación crítica de estas tecnologías.
En este artículo
- 1. Qué significa utilizar la IA como modelo sustituto de dosis
- 2. Diferencia entre predecir dosis y transportar partículas
- 3. Datos de entrenamiento, sesgo y dominio de validez
- 4. Generalización a máquinas, energías y anatomías
- 5. Incertidumbre, detección de valores atípicos y fallas silenciosas
- 6. Cómo comparar la IA, Monte Carlo y los solucionadores deterministas
- 7. Validación clínica, gobernanza y uso responsable
- 8. Preguntas frecuentes
- 9. Referencias
Qué significa utilizar la IA como modelo sustituto de dosis
Un modelo sustituto (modelo sustituto o emulador) es un sistema computacional entrenado para reproducir el comportamiento de otro sistema más caro o más lento, aceptando las mismas entradas y produciendo salidas aproximadas. En el contexto de la dosis, el sistema «caro» suele ser un motor MC de alta fidelidad o un solucionador de ecuación de transporte lineal de Boltzmann (LBTE), como Acuros XB. El modelo sustituto, típicamente una red neuronal convolucional profunda, a menudo con una arquitectura similar a U-Net, aprende, a partir de pares de referencia (entrada, salida de referencia), un mapeo que se puede evaluar en milisegundos en lugar de minutos u horas.
Es importante distinguir dos subcasos con los que la literatura a menudo entra en conflicto. En el primero, la red predice la dosis en base a planes de tratamiento ya optimizados, funcionando como una verificación rápida o generación de un plan inicial (planificación basada en conocimiento). En el segundo, la red reemplaza directamente el motor de cálculo dentro de TPS (sistema de planificación de tratamiento), que se invoca durante cada iteración de optimización. El segundo caso impone requisitos mucho más severos en cuanto a precisión y robustez: un error sistemáticamente bajo en una región crítica se propagará a la optimización, produciendo planes con una cobertura real menor que la proyectada, sin ninguna señal de advertencia para el usuario.
Existen prototipos y productos que utilizan el aprendizaje automático en las etapas de planificación y estimación de dosis, pero se debe verificar el uso previsto en la documentación de cada versión. La distinción entre «acelerado por IA» y «calculado por MC/LBTE con aceleración de hardware» es crucial. GPUMCD, por ejemplo, es Monte Carlo en GPU, no en una red neuronal.
La latencia reducida puede admitir flujos adaptativos y cálculos repetidos. El costo es transferir parte de la garantía de desempeño a los controles de datos, dominio de validez y detección de fallas.
Diferencia entre predecir dosis y transportar partículas
Transportar partículas, en el sentido físico, significa resolver (de manera exacta, aproximada o estocástica) la ecuación de Boltzmann para el transporte de radiación, considerando secciones transversales de interacción que dependen del material atravesado, la energía depositada localmente y la dispersión secundaria. MC toma muestras de trayectorias individuales de fotones, electrones y partículas secundarias. LBTE/Acuros XB resuelve la ecuación en su forma determinista sobre una malla espacial. Pencil Beam descompone el haz en lápices y aplica núcleos de dispersión calibrados con agua, con correcciones empíricas para las faltas de homogeneidad. El AAA (Algoritmo analítico anisotrópico) utiliza convoluciones de energía separadas para fotones primarios, dispersión lateral y electrones contaminantes. Todos estos algoritmos tienen parámetros con significado físico directo y pueden, al menos en principio, ponerse en funcionamiento y validarse frente a mediciones fantasma independientes.
Una red neuronal de predicción de dosis no resuelve ninguna de estas ecuaciones. Aprende una función, potencialmente de muy alta dimensionalidad, que mapea la geometría del problema (morfología CT en unidades Hounsfield, contornos de la estructura, configuración del haz) a una distribución de dosis, minimizando una pérdida funcional en el conjunto de entrenamiento. El mapeo aprendido es, por construcción, una interpolación sobre la variedad de casos vistos durante el entrenamiento. Fuera de esta variedad (una anatomía inusual, una combinación de energías no representada, una geometría de haz atípica), la red extrapolará de una manera impredecible, sin garantía de coherencia física.
Esta distinción tiene implicaciones directas para conceptos como dose to medium (Dm) y dose to water (Dw). Algoritmos como Acuros XB le permiten elegir explícitamente qué cantidad se calcula, con consecuencias clínicas discutidas en la literatura, especialmente en las interfaces hueso-tejido y en la terapia de protones. Un modelo sustituto entrenado en resultados de Dm «aprende» implícitamente esta convención, pero no la hará explícita. Un cambio de convención en el motor de referencia durante el reentrenamiento puede pasar desapercibido: un ejemplo estructural de falla silenciosa.
Otro aspecto relevante es la convergencia incremental: en MC, más historias de partículas equivalen a una menor incertidumbre estadística, y el usuario puede equilibrar el tiempo de cálculo y la precisión de forma controlada. En un modelo de ML, no existe un mecanismo equivalente: la salida es determinista para una entrada determinada y la incertidumbre del modelo es fija, determinada por la fase de entrenamiento.
Datos de entrenamiento, sesgo y dominio de validez
El rendimiento de cualquier modelo sustituto está fundamentalmente limitado por la calidad, cantidad y diversidad de los datos de entrenamiento. Para la predicción de dosis, el conjunto de datos generalmente son planes clínicamente aprobados en una o más instituciones, con distribuciones de dosis calculadas por TPS institucional como etiqueta (verdad del terreno). Inmediatamente surgen dos problemas estructurales.
Primero, la etiqueta no es la dosis real: es la dosis calculada por el algoritmo TPS, con sus propias incertidumbres y aproximaciones. Si TPS usó Pencil Beam para casos pulmonares con heterogeneidades severas y el modelo aprende a reproducir Pencil Beam, no hay ganancia en precisión física; sólo hay aceleración de un método impreciso. En segundo lugar, los datos de entrenamiento reflejan patrones y sesgos de planificación local: topologías de haz preferidas, criterios de normalización, filosofías de márgenes. Un modelo formado en un centro altamente especializado puede no generalizarse a un centro con diferentes poblaciones de pacientes, equipos o prácticas.
La siguiente tabla resume las fuentes de sesgo más relevantes en los conjuntos de datos de entrenamiento para modelos de dosis:
| Fuente de sesgo | Descripción | Impacto clínico potencial |
|---|---|---|
| Sesgo de selección de casos | Casos atípicos o difíciles excluidos de la aprobación clínica | El modelo subestima la complejidad; fracaso en escenarios difíciles |
| Sesgo del algoritmo de referencia | Verdad fundamental generado por un motor con limitaciones conocidas (p. ej., PB en pulmón) | Preserva los errores sistemáticos del motor original |
| Sesgo institucional | Patrones de planificación de un solo centro | Baja generalización a otras instituciones |
| Sesgo de selección anatómico | Subrrepresentación de anatomías raras o posquirúrgicas | Fallo silencioso en casos fuera de la distribución |
| Sesgo de tiempo | Cambios en protocolos, accesorios o equipos a lo largo de la colección | Inconsistencia en las etiquetas de entrenamiento |
El concepto de dominio de validez (el espacio de entradas sobre el cual el modelo puede considerarse confiable) es análogo al alcance de la puesta en servicio de un motor físico, pero mucho más difícil de delimitar. Para un TPS convencional, la puesta en servicio define explícitamente las energías, los tamaños de campo, las geometrías fantasma y los tejidos para los que se ha validado el motor. Para un modelo ML, este espacio está definido implícitamente por la distribución de los datos de entrenamiento y no existe un protocolo estandarizado para caracterizarlo formalmente.
Generalización a máquinas, energías y anatomías
Uno de los desafíos más prácticos para la adopción clínica es la transferibilidad de modelos entre aceleradores lineales, energías de haz y poblaciones de pacientes. Un modelo entrenado con datos de un acelerador específico con 6 MV FFF no tiene, a priori, ninguna garantía de comportamiento correcto en una plataforma diferente, a 10 MV o en haces filtrados físicamente. Las diferencias en la forma del espectro de energía, la contaminación electrónica, el tamaño de la fuente virtual y los perfiles del haz dan como resultado distribuciones de dosis cualitativamente distintas en regiones de acumulación, penumbra e inhomogeneidades.
La literatura describe enfoques para transferir el aprendizaje y adaptación del dominio para reducir el costo de reentrenamiento al migrar a una nueva máquina, pero la evidencia de validación para uso clínico aún es limitada y proviene principalmente de grupos académicos. Las implementaciones comerciales deben evaluarse para el alcance exacto de las máquinas y energías para las cuales el modelo ha sido validado por el fabricante; información que debe aparecer en la documentación técnica del sistema, no en el material de marketing.
La dimensión anatómica es igualmente crítica. Los modelos entrenados predominantemente en casos de próstata tienden a funcionar mejor en esta ubicación y en la parte inferior de la cabeza y el cuello, donde la proximidad a los OAR críticos y la variabilidad anatómica son mayores. La siguiente tabla resume la relación entre la complejidad del caso y el riesgo de extrapolación:
| Categoría de caso | Complejidad relativa | Riesgo de extrapolación del modelo |
|---|---|---|
| Próstata convencional (7 campos IMRT) | Bajo | Bajo, si se representa en capacitación |
| Cabeza y cuello (VMAT) | Alto | Moderado a alto |
| Pulmón con heterogeneidades severas | Alto | Alto, especialmente Dm/Dw y luz tenue |
| Post-cirugía con prótesis metálicas | Muy alto | Alto — Artefactos de TC fuera de distribución |
| Pediátrico | Medio-alto | Alto — anatomía subrepresentada en la mayoría de los conjuntos |
| Reirradiación | Alto | Alta: dosis acumulada no modelada en el entrenamiento |
Las anatomías posquirúrgicas, la presencia de implantes metálicos con artefactos de TC y los casos pediátricos representan escenarios de extrapolación de alto riesgo que merecen protocolos de escalada específicos para su verificación por parte de un motor físico independiente.
Incertidumbre, detección de valores atípicos y fallas silenciosas
Una limitación de los motores deterministas clásicos (AAA, Acuros XB, Pencil Beam) es que producen un valor de dosis única por vóxel, sin ninguna estimación de incertidumbre asociada con el modelo en sí, solo las mediciones de puesta en servicio. Paradójicamente, los métodos de aprendizaje automático ofrecen herramientas para estimar la incertidumbre predictiva: Monte Carlo Abandono, conjuntos profundos, predicción conforme y modelos probabilísticos como las redes neuronales bayesianas. Cuando se implementan, estas técnicas permiten que el modelo indique regiones de mayor incertidumbre, una valiosa señal de diagnóstico que los motores deterministas no proporcionan.
El problema es que estas técnicas rara vez están disponibles en implementaciones comerciales y aún carecen de una validación clínica sólida. El riesgo opuesto, y clínicamente más peligroso, es el de falla silenciosa: el modelo produce una distribución de dosis que es plausible en apariencia (pasando simples DVH y controles de isodosis) pero sistemáticamente errónea en regiones específicas, sin ningún indicador de advertencia. Los ejemplos documentados incluyen errores en regiones de alta heterogeneidad (interfaces aire-tejido, pulmón), acumulaciones superficiales y campos pequeños, exactamente las regiones donde algoritmos más simples como Pencil Beam también fallan, pero por razones físicas bien entendidas y auditables.
La detección de valores atípicos (identificar casos fuera del dominio de validez antes de utilizar la predicción) es un área activa de investigación. Se han explorado métricas como la distancia en el espacio de características latentes, puntuaciones de anomalías basadas en codificadores automáticos y comparación con distribuciones de entrenamiento. En ausencia de herramientas automáticas, el enfoque práctico es: (1) definir criterios de exclusión explícitos basados en las características del conjunto de formación; (2) exigir verificación independiente mediante motor físico para casos en categorías de alto riesgo; e (3) implementar procesos de informes de discrepancias como parte del control de calidad de rutina.
Cómo comparar la IA, Monte Carlo y los solucionadores deterministas
La comparación entre motores de cálculo debe estructurarse en al menos tres dimensiones independientes: precisión física, rendimiento computacional y madurez de validación clínica. A menudo, las discusiones sobre IA versus MC colapsan inapropiadamente estas dimensiones, generando afirmaciones que son verdaderas en una dimensión y engañosas en las demás.
El informe AAPM TG-105 establece un marco metodológico para la puesta en servicio de MC en radioterapia que sigue siendo relevante como referencia para cualquier motor de alta fidelidad. Los criterios de aceptación propuestos (comparaciones gamma, análisis DVH, escenarios de prueba específicos) pueden y deben aplicarse a modelos sustitutos cuando se utilizan como motor de cálculo principal. La diferencia fundamental es que, para MC, la convergencia estadística se puede incrementar con más historias de partículas; para un modelo ML, no existe un mecanismo de autorrefinamiento equivalente en el momento de la inferencia.
El análisis gamma es común, pero por sí solo no demuestra equivalencia clínica. La evaluación debe incluir DVHs, métricas por marco, mapas de error, casos de peor rendimiento y pruebas fuera de distribución, con criterios definidos antes de la validación.
La literatura sobre física de protones analiza específicamente los desafíos de validación donde las incertidumbres de rango agregan una dimensión que los algoritmos analíticos abordan de manera simplificada y MC aborda de manera más completa. Los modelos sustitutos de protones enfrentan el desafío adicional de modelar correctamente la región del pico de Bragg y los efectos del halo, que son altamente sensibles a la composición del tejido, exactamente el tipo de variabilidad que puede no estar bien representada en el conjunto de entrenamiento.
Validación clínica, gobernanza y uso responsable
La validación clínica de un modelo de reemplazo de dosis va más allá de la puesta en servicio técnica. Cubre el proceso completo de introducción de una nueva tecnología en la atención al paciente, incluida la evaluación de riesgos, la formación del personal, la definición del ámbito de uso y los mecanismos de seguimiento continuo. El concepto de gemelos digitales en oncología, discutido en revisiones recientes, ilustra la ambición de modelos personalizados de respuesta al tratamiento, pero también resalta la brecha entre la promesa tecnológica y la evidencia clínica disponible para uso rutinario.
Desde una perspectiva regulatoria, la clasificación y las responsabilidades dependen de la jurisdicción, el uso previsto y la configuración comercial. La recapacitación en el sitio, la autointegración o el uso fuera del alcance pueden cambiar las obligaciones aplicables. La institución debe involucrar la calidad, los asuntos regulatorios y la seguridad antes de utilizar la atención médica.
La gobernanza interna debe establecer, como mínimo:
- Protocolo de puesta en servicio con criterios de aceptación predefinidos y no ajustables post hoc;
- Definición documentada del alcance clínico de uso (sitios anatómicos, técnicas, energías, grupos de edad);
- Proceso de escalamiento para casos que excedan el alcance, con verificación independiente del motor;
- Auditorías periódicas que comparan los resultados del modelo sustituto con cálculos independientes sobre una muestra de casos clínicos reales;
- Proceso de reporte e investigación de discrepancias, integrado al sistema de gestión de calidad de la institución.
La cuestión ética subyacente es que la planificación de la radioterapia implica decisiones con consecuencias para el paciente. Ganar velocidad sólo es clínicamente útil cuando se definen la incertidumbre, la validez del dominio, la supervisión y la responsabilidad.
Preguntas frecuentes
¿Puede un modelo de IA con una alta tasa de concordancia gamma con respecto a MC considerarse equivalente a MC para uso clínico?
No necesariamente. Un alto acuerdo gamma en el conjunto de validación demuestra un rendimiento promedio en los casos probados, pero no garantiza un comportamiento correcto fuera del dominio de entrenamiento. La equivalencia clínica requiere validación en casos representativos de toda la gama de situaciones en las que se utilizará el modelo, incluidos casos extremos y escenarios adversos, no solo los casos típicos. Además, MC tiene un mecanismo de convergencia incremental (más historias, menor incertidumbre estadística); el modelo ML no. La comparación debe incluir el análisis del peor de los casos y las métricas DVH por estructura, no solo la tasa mediana gamma.
¿Cómo diferenciar, en la documentación TPS, si el motor utiliza IA real o aceleración por GPU?
Busque en la documentación técnica los términos «aprendizaje automático», «red neuronal», «aprendizaje profundo» o «modelo entrenado». Los motores acelerados por GPU como GPUMCD son MC estocásticos en GPU; Su documentación describirá muestras de partículas, secciones transversales y convergencia estadística. Un modelo de ML describirá la arquitectura de la red, los datos de entrenamiento y las métricas de validación. En caso de ambigüedad, solicite al fabricante la Declaración de uso previsto y la documentación de validación clínica para el motor específico, documentos que deben existir para cualquier dispositivo regulado.
¿Cuál es el impacto de la distinción dose to medium / dose to water en los modelos de sustitución de dosis?
El modelo aprende a reproducir la convención del motor que generó los datos de entrenamiento (Dm o Dw), pero rara vez hace explícita esta convención para el usuario. Si el motor de referencia es Acuros XB establecido en Dw, el modelo generará Dw implícitamente; si se establece en Dm, generará Dm. En anatomías con una alta proporción de hueso cortical o interfaz aire-tejido, la diferencia entre Dm y Dw puede ser clínicamente relevante. El usuario debe rastrear y documentar qué convención reproduce el modelo, asegurándose de que los criterios de aceptación del plan sean consistentes con él.
¿Es posible utilizar un modelo de dosis basado en IA entrenado en otra institución sin volver a capacitarse localmente?
La transferibilidad depende de la población, los equipos, la energía y los protocolos. Incluso con formación multicéntrica, es necesario validar el desempeño en el entorno local con casos representativos y referencias independientes adecuadas. El alcance de la validación debe coincidir con el uso previsto.
¿Cuáles son los escenarios de mayor riesgo de falla silenciosa en los modelos de dosis sustitutas?
Los escenarios de mayor riesgo incluyen campos pequeños, alta heterogeneidad, acumulación superficial, anatomías posquirúrgicas, implantes y reirradiación. En estos casos, el protocolo debería exigir controles adicionales proporcionales al riesgo, incluida una comparación independiente cuando sea técnicamente apropiado.
Referencias
-
Grupo de trabajo 105 de AAPM. Problemas asociados con la implementación clínica de la planificación del tratamiento con haz externo de electrones y fotones basado en Monte Carlo. Informe AAPM 105. Disponible en: https://www.aapm.org/pubs/reports/RPT_105.pdf
-
Paganetti H, et al. Hoja de ruta: física y biología de la terapia de protones. Física en Medicina y Biología, 2021. Disponible en: https://pubmed.ncbi.nlm.nih.gov/33227715/
-
Elhalawani H, et al. Gemelos digitales en oncología clínica. Nature Medicine, 2022. Disponible en: https://pubmed.ncbi.nlm.nih.gov/35602761/
-
AAPM Task Group 218. Límites de tolerancia y metodologías para IMRT verificación de calidad basada en mediciones. Física Médica, 2018. Disponible en: https://www.aapm.org/pubs/reports/RPT_218.pdf
-
FDA. Inteligencia Artificial y Aprendizaje Automático en Software como Dispositivo Médico. Administración de Alimentos y Medicamentos de EE. UU. Disponible en: https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-software-medical-device
-
Vassiliev ON, et al. Viabilidad de un método de solución determinista multigrupo para cálculos de dosis de radioterapia tridimensional. Física en Medicina y Biología, 2010. Disponible en: https://pubmed.ncbi.nlm.nih.gov/20124709/
-
Zhu J, Liu X, Chen L. Un estudio preliminar de un algoritmo de cálculo de dosis de fotones utilizando una red neuronal convolucional. Física en Medicina y Biología, 2020. Disponible en: https://pubmed.ncbi.nlm.nih.gov/33063695/
-
Pastor-Serrano O, Perkó Z. Cálculo de dosis de protones basado en aprendizaje profundo de velocidad de milisegundos. Física en Medicina y Biología, 2022. Disponible en: https://pubmed.ncbi.nlm.nih.gov/35447605/




