分享

【文献快递】基于深度强化学习的伽玛刀放射外科治疗自动逆向治疗计划

 ICON伽玛刀 2022-03-22

Medical Physics杂志20222月25日在线发表美国Emory University的Yingzi Liu , Chenyang Shen , Tonghe Wang ,等撰写的《基于深度强化学习的伽玛刀放射外科治疗自动逆向治疗计划。 Automatic Inverse Treatment Planning of Gamma Knife Radiosurgery via Deep Reinforcement Learning(doi: 10.1002/mp.15576. )。

目的:

针对伽玛刀(GK)放射外科,通过求解一个通常包含多个目标的优化问题来确定大量的计划参数( to determine a large number of plan parameters via solving an optimization problem, which typically consists of multiple objectives),开发出几种逆向计划算法,。需要反复调整这些目标的优先级,为每个患者制定一个临床良好的计划The priorities among these objectives need to be repetitively adjusted to achieve a clinically good plan for each patient。本研究的目标是通过开发一种基于深度强化学习(DRL)的方法来模拟人类划人员的调整行为,从而实现自动和智能的优先级调整。

伽玛刀(GK)放射外科,在保留周围正常脑组织的情况下,选定的颅内靶区照射高适形的辐射剂量,是各种脑疾病,如脑肿瘤、动静脉畸形、前庭神经鞘瘤,和脑膜瘤的一种重要和安全的替代传统神经外科的治疗。治疗计划对于达到预期的剂量分布以保证治疗效果至关重要。

GK治疗计划由放射靶点组成,一个靶点(shot)指的是用来自约200个钴-60源的汇聚射线束在等中心上对靶区的治疗(to treat the target at an isocenter with a combination of converging gamma ray beams coming from ~200 cobalt-60 sources.)。 (瑞典斯德哥尔摩的Elekta Instrument AB 公司生产的)Perfexion和ICON型Leksell 伽玛刀(GK)是两种最新和目前常用的伽玛刀(GK)型号。在这两种型号伽玛刀中,钴-60源分布在8个独立的扇区,每个扇区都有4-,8-或16毫米可用准直期尺寸或可完全射线束阻挡(each sector has either 4-, 8-,or 16-mm available collimation size or complete beam blocking)。在治疗计划塑所需剂量分布的过程中,可以高度自由地选择靶点数、靶点等中心位置、准直和每个靶点的射线束开启时间(During the treatment planning to sculpt the desired dose distribution, there is a high degree of freedom of choosing the number of shots, location of shot isocenter, sector collimation, and beam-on time for each shot.)。使用手动顺向计划来放置靶点和调整那些计划参数是繁琐和耗时的(Using manual forward planning to place the shots and adjust those plan parameters is cumbersome and timeconsuming.)。

为了简化划过程,更好地利用GK计划的高自由度,针对GK放射外科开发了多种逆向计划算法,通过数学求解优化问题来确定划变量to determine the plan variables via mathematically solving an optimization problem)逆向计划的优化问题通常包含多个目标项,这些目标项被设计用于各种临床或实际考虑,如靶区覆盖范围、选择性、梯度指数、危及器官的剂量(OAR)和总射线束开启时间(target coverage, selectivity, gradient index, dose to organ at risks (OAR), and total beam-on time)。这些划目标的优先次序严重影响最终的划质量。虽然优化引擎可以解决给定优先级值集的优化问题,但由于个体解剖结构的变化,划人员在GK逆向计划过程中仍需要与优化求解器反复交互,调整每个特定患者的目标优先级,使其达到临床最优Although optimization engines can solve the optimization problem for a given set of priority values, due to individual anatomy variations, planners still need to repeatedly interact with the optimization solver and adjust the objective priorities for each specific patient during GK inverse planning to make it clinically optimal, which is similar to the inverse planning for linac-based radiotherapy.)。这类似于基于LINAC的放疗的逆向规划。这个优先级调优过程通常是一个反复试验的过程,非常耗时。

GK放射外科通常是一个为期一天的治疗过程,在此过程中,通常需要将立体定向框架安装在患者颅骨上,作为治疗计划的参考坐标和治疗交付的稳定装置。这就要求计划人员及时生成最优的计划。最终的划质量可能受到可用划时间的影响,同时也受到划人员经验和技能的主观影响。因此,迫切需要开发自动确定GK放射外科逆向计划优先级的方法,不仅可以提高GK计划的效率,还可以减少因计划人员间的差异而导致的计划质量大变化。

多年来,人们致力于自动化基于LINAC的放疗的优先级调整过程。常用的方法是在优先级固定的处理方案优化问题上增加一个优先级优化的外环,利用贪婪算法、启发式法、模糊推理发、统计方法对外环的优先级进行调整(A commonly used approach is to add an outer loop of priority optimization on top of the treatment plan optimization problem with a fixed set of priorities, and adjust thepriorities in the outer loop using greedy methods, heuristic methods, fuzzy inference,and statistical methods)。近年来,强化学习(reinforcement learning, RL)被引入放射治疗领域,从一个新的角度解决自动优先级调整问题,即通过端到端RL过程建立行为-价值函数,对专家人工计划者在逆向规划过程中的智能调整行为进行建模。该函数将中间计划的状态作为输入,并输出一个将未来回报最大化的调优操作,该调优操作通常与计划质量改进相关(This function takes the state of the intermediate plan as input, and outputs a tuning action that will maximize the future rewards, which is usually correlated with plan quality improvement)。最优动作值函数的形式通常是未知的。一个线性函数已经被用来近似最优的行动-价值函数来自动计划立体定向体放疗(SBRT)治疗胰腺癌。然而,当试图接近潜在的行动-价值函数为复杂的计划任务,这种线性近似可能会潜在地限制模型的灵活性。而深度神经网络具有较高的灵活性和逼近复杂函数的能力。通过使用深度神经网络参数化最优行为价值函数,并通过RL对网络进行训练,Shen等人成功地构建了基于深度强化学习(DRL)的虚拟规划器,用于高剂量率(HDR)近距离放射治疗(HDR) 和调强放疗(IMRT) 计划。受这些成功的启发,在本研究中,我们探讨了开发一种基于DRL的虚拟计划器的可行性,该虚拟计划器可与有经验的人类计划器用于GK放射外科,以提高临床效率,并减少由计划器间差异引起的计划质量差异。

我们选择前庭神经鞘瘤患者作为本初步研究的试验台,主要有两个原因。首先,前庭神经鞘瘤患者的GK计划通常具有相当复杂的几何形状,由于靶区形状不规则,且靠近脑干和耳蜗,因此通常需要大量的时间进行手动调整。其次,由于前庭神经鞘瘤患者相对较少,许多GK计划者可能对该肿瘤部位没有太多的计划经验,这可能导致计划者和医疗机构之间的计划质量差异较大。

方法:

利用深度卷积神经网络构建优先级调整策略网络built a priority-tuning policy network using deep convolutional neural networks输入是一个由多个计划指标组成的向量a vector composed of multiple plan metrics,我们医院使用这些指标进行GK计划评估。网络可以根据观察到的中等程度计划的质量quality of the intermediate plan,决定采取哪个调优操作determine which tuning action to take。我们使用端到端DRL框架来训练网络来近似最优的行为-价值函数 using an end-to-end DRL framework to approximate the optimal action-value function)。设计了一个评分函数来衡量计划质量A scoring function was designed to measure the plan quality,以计算调优操作所获得的回报(to calculate the received reward of a tuning action)

结果:

本研究选择前庭神经鞘瘤作为实验平台。培训用例、验证用例和测试用例的数目(The number of training, validation and testing cases分别为5、5和16。这三个数据集,最初的计划得到的平均得分相同的初始优先级设置分别为3.63±1.34,3.83±0.86,4.20±0.78,虽然由专家人工计划优先通过手工调优可以提高5.28±0.23,4.97±0.44,5.22±0.26。我们的网络以5.42±0.11,5.10±0.42、5.28±0.20的成绩取得了具有竞争力的成绩。

结论:

对于前庭神经鞘瘤病例,我们的网络可以生成与人工计划通过手动优先调优生成的GK计划质量相当或稍高的GK计划。该网络可作为计划辅助纳入临床工作流程,以提高GK计划效率,并有助于减少因计划人员之间的差异而引起的计划质量变化。

在本研究中,我们构建了一个基于DRL的优先级调优策略网络,自动调整规划目标之间的优先级,以实现GK逆向计划的自动化。本研究的动机是成功应用DRL来自动化HDR近距离放射治疗和调强放射治疗(IMRT)的计划优化。据我们所知,这是第一个通过DRL实现GK放射外科自动逆向划的研究。实验结果表明,我们的网络能够自动生成与人工优先级调优的专家人规划生成的GK计划质量相当或稍高的GK计划。

我们的研究证明了通过深度强化学习实现GK放射外科的自动化和智能治疗计划的潜在可行性。经过培训的优先级调整网络可以作为划辅助纳入临床工作流程,以提高GK划效率,并有助于减少因划人员之间的差异而引起的划质量变化。

我们也希望我们的方法能够帮助GK计划人员减少工作量,让他们有更多的时间去处理更具挑战性的案例。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章