祝鶴齡,楊波,祝起禛,梁永廣,楊景茹,王貝,王嘉欣,邱杰
中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院 放射治療科,北京 100730
隨著放射治療技術(shù)的進步,作為一種新型放療技術(shù),調(diào)強放射治療(Intensity Modulated Radiotherapy,IMRT)逐漸取代三維適形放射治療技術(shù)(Three Dimensional Conformal Radiation Therapy,3DCRT) 廣泛應(yīng)用于臨床。IMRT 通過借助限束設(shè)備對射束強度進行調(diào)節(jié),使放療靶區(qū)處的三維劑量分布具有更好的適形性,同時進一步規(guī)避周邊正常組織的照射。但是與3DCRT 相比,新型放射治療技術(shù)在達到更理想劑量分布的同時,無疑會使治療計劃的復(fù)雜程度上升[1]。治療計劃的復(fù)雜性通常被認為是治療計劃劑量計算和實際執(zhí)行時各種因素導(dǎo)致的劑量不確定性的量化估計,與形成治療計劃所涉及的各種參數(shù)相關(guān)[2]。為了保證臨床可接受的劑量分布,一定程度的計劃復(fù)雜性是可以接受的,但是過于復(fù)雜的治療計劃理論上會加劇治療計劃設(shè)計系統(tǒng)優(yōu)化得到的劑量分布和計劃實際執(zhí)行時劑量分布的偏差,從而在一定程度上影響放療計劃在臨床應(yīng)用中的穩(wěn)定性和可靠性[3]。因此在治療實施前,往往需要對患者計劃質(zhì)量保證(Patient Specific Quality Assurance,PSQA)進行檢驗,以確保用于執(zhí)行的放療計劃準(zhǔn)確可靠。
PSQA 是放射治療工作流程中必不可少的步驟,用于驗證可能受到劑量計算、數(shù)據(jù)傳輸、直線加速器輸送性能等因素影響的放療計劃在執(zhí)行過程中的可靠性[4-6]。一般是在放療計劃完成之后,利用計劃驗證系統(tǒng)將基于人體設(shè)計的治療計劃移植到測量模體上,生成相對應(yīng)的驗證計劃,隨后用醫(yī)用直線加速器采集實際投照到測量模體上的劑量信息,通過對比該驗證計劃的實際劑量分布和模擬得到的劑量結(jié)果,判斷二者的差異以評估治療計劃的優(yōu)劣。然而大量的驗證工作對工作量較大的放療中心來說是一個嚴峻的挑戰(zhàn),因此,研究計劃復(fù)雜度參數(shù)與PSQA 間的關(guān)系,尋找一種更為精密、自動化、低資源密度的PSQA 反饋方法尤為重要。
目前已有多項研究使用人工智能技術(shù)基于治療計劃的各項復(fù)雜度參數(shù)指標(biāo)對PSQA 結(jié)果進行預(yù)測分析。Valdes 等[7-8]使用泊松回歸和Lasso 正則化建立了一個線性模型,以基于治療計劃的復(fù)雜性參數(shù)預(yù)測計劃的伽馬通過率結(jié)果。Lam 等[9]使用了3 種基于梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)模型的算法來預(yù)測美國瓦里安公司的TrueBeam 和Trilogy 加速器的PSQA 驗證結(jié)果。Granville 等[10]使用支持向量機算法根據(jù)計劃復(fù)雜性指標(biāo)和加速器性能參數(shù)對不同類型的計劃進行分類。國內(nèi)有部分研究基于瑞典醫(yī)科達Infinity及Synergy 加速器對應(yīng)的放療計劃軟件進行了劑量驗證相關(guān)研究[11-12],然而基于國產(chǎn)加速器聯(lián)影URT-Linac 506c 的放療計劃復(fù)雜度在業(yè)界還未被研究。
本文探討基于URT-Linac 506c 的容積弧形調(diào)強放射治療(Volumetric Modulated Arc Therapy,VMAT)計劃的各項復(fù)雜度參數(shù)與PSQA 結(jié)果間的相關(guān)性,并基于復(fù)雜度指標(biāo)搭建機器學(xué)習(xí)模型,對PSQA 結(jié)果進行預(yù)測,對各項計劃復(fù)雜度在模型評估中的重要性進行分析。
隨機選取北京協(xié)和醫(yī)院放療科2022 年8 月至2023年4 月使用國產(chǎn)聯(lián)影URT-Linac 506c 加速器治療的VMAT 計劃中的150 例患者進行回顧性分析。計劃設(shè)計系統(tǒng)均使用聯(lián)影URT-Linac 506c 計劃系統(tǒng),劑量計算采用坍縮錐卷積疊加算法[13]。
患者治療前,將計劃移植于機載電子射野影像裝置(Electronic Portal Imaging Device,EPID)探測器,在聯(lián)影URT-Linac 506c 加速器上進行計劃驗證(以下簡稱EPID-pre)。對比EPID 采集的二維劑量和計劃系統(tǒng)移植劑量分布,基于聯(lián)影URT-Linac 506c 計劃系統(tǒng)分析計劃的伽馬通過率[14]。所有伽馬分析指標(biāo)均按照2 mm/2%的標(biāo)準(zhǔn)和10%的最大劑量閾值進行評價。
基于先前在瓦里安Halcyon、TrueBeam 加速器上的已有研究[15-16]和物理師的經(jīng)驗,本研究團隊提出了11 個不同的復(fù)雜度參數(shù)反映計劃復(fù)雜程度的不同層面。從URT-Linac 506c 計劃系統(tǒng)中導(dǎo)出DICOM 格式的治療計劃文件,使用Python 腳本計算11 個計劃復(fù)雜度參數(shù),包括波束孔徑的大小和不規(guī)則性、控制點開野面積和周長等與多葉準(zhǔn)直器(Multi Leaf Collimator,MLC)位置的相關(guān)參數(shù)和計劃跳數(shù)。VMAT 計劃機架每旋轉(zhuǎn)2°為一個控制點,先計算每個控制點的復(fù)雜度參數(shù),后根據(jù)各控制點跳數(shù)加權(quán)求和得到計劃的總復(fù)雜度。對于URTLinac 506c 加速器,僅在塢門打開范圍內(nèi)的有效MLC位置參與計算。9 類共11 個復(fù)雜度參數(shù)的具體定義和計算方式如下。
(1)平均子野面積變化率(Aperture Area Variability,AAV)[17]:每個控制點上的AAV 計算方法如公式(1)所示。
式中,posa為第a對MLC 葉片的位置坐標(biāo);A為MLC 葉片對的總數(shù)目;下標(biāo)leftbank 為左側(cè)鉛盒儲存的MLC;下標(biāo)rightbank 為右側(cè)鉛盒儲存的MLC。AAV 是將每個控制點的子野面積歸一化到所有子野疊加面積上后,基于控制點的跳數(shù)取加權(quán)平均,其取值范圍為0~1,值越小,計劃越復(fù)雜。
(2)平均子野面積(Beam Area,BA)[18]:BA 為每個控制點上MLC 打開子野面積的加權(quán)平均數(shù),計算方法如公式(2)所示。
式中,AAcp為第cp個控制點的子野面積;MUcp為該控制點的機器跳數(shù);MUall為計劃總跳數(shù)。子野面積越小,計劃越復(fù)雜。
(3)周長/面積比(Circumference Area,CA)[19]:CA 為每個控制點上MLC 葉片形成的子野周長與面積的比值,再基于控制點的跳數(shù)取加權(quán)平均。CA 越大,計劃越復(fù)雜。
(4) 平均葉片序列變化率(Leaf Sequence Variability,LSV)[17]:LSV 為在每個控制點上,相鄰MLC 之間的位置差異相對于該控制點中的最大位置變化,計算方法如公式(3)所示。
式中,posa為第a對MLC 葉片的位置坐標(biāo);posmax為該控制點中MLC 的最大位置差;A為MLC 葉片對的總數(shù)目;下標(biāo)leftbank 為左側(cè)鉛盒儲存的MLC;下標(biāo)rightbank 為右側(cè)鉛盒儲存的MLC。LSV 越小,子野形狀越不規(guī)則,計劃越復(fù)雜。
(5)平均不對稱距離(Mean Asymmetry Distance,MAD)[20]:MAD 為每個開放的葉片對中心與中心光束軸間距離的平均值。
(6)調(diào)制復(fù)雜度分數(shù)(Modulation Complex Score,MCS)[17]:MCS 為相鄰控制點間的LSV 和AAV 平均值的乘積。
(7)聯(lián)合子野面積(Union Aperture Areas,UAA)[18]:UAA 為各控制點所有孔徑疊加得到的最大孔徑面積。
(8)小孔徑分數(shù)(Small Aperture Score,SAS)[20]:SAS 為孔徑距離小于X 的MLC 對 占總有效葉片對的比例。本研究中計算了X=5、10、15 mm 情況下的SAS參數(shù)值(SAS5、SAS10、SAS15)。SAS 越大,計劃中用于調(diào)制的小孔徑數(shù)量越多,計劃越復(fù)雜。
(9)計劃跳數(shù)(Monitor Unit,MU)[18]。
計算各復(fù)雜度參數(shù)與EPID-pre 的通過率間的皮爾遜線性相關(guān)系數(shù),分析二者的線性相關(guān)程度,同時通過2 種不同的決策樹模型,即GBDT 模型[21]和隨機森林(Random Forest,RF)模型[22],學(xué)習(xí)復(fù)雜性參數(shù)和EPIDpre 通過率之間的深層關(guān)系,并給出預(yù)測結(jié)果。本研究中的所有統(tǒng)計數(shù)據(jù)均采用Python 3.8 軟件進行分析,并使用基于Python 的sciki-learn 工具包搭建機器學(xué)習(xí)模型。
11 個相關(guān)的復(fù)雜度參數(shù)與計劃PSQA 通過率間的對應(yīng)關(guān)系如圖1 所示。其中SAS、CA 與伽馬通過率間表現(xiàn)出了較明顯的負相關(guān),LSV 與伽馬通過率則表現(xiàn)出較明顯的正相關(guān)。理論上,計劃越復(fù)雜,SAS 和CA 越高,而LSV 越低,伽馬通過率通常越低,故該結(jié)論與上述各復(fù)雜度參數(shù)的定義相符,但復(fù)雜度參數(shù)與計劃復(fù)雜程度、伽馬通過率間的關(guān)系復(fù)雜,并不一定嚴格符合線性關(guān)系。
本研究搭建了2 種基于決策樹結(jié)構(gòu)的機器學(xué)習(xí)模型以進一步研究復(fù)雜度參數(shù)與計劃伽馬通過率之間的關(guān)系,即GBDT 模型和RF 模型。研究使用的150 例數(shù)據(jù)被隨機分成訓(xùn)練集和測試集。在訓(xùn)練集中,共105 例(70%)計劃數(shù)據(jù)被用于訓(xùn)練模型的搭建和模型性能的探索。為了避免決策樹結(jié)構(gòu)的過度擬合,首先對模型調(diào)參階段進行了10 倍交叉驗證[23],以優(yōu)化模型的超參數(shù),包括估計器的數(shù)量、葉節(jié)點所需的最小樣本數(shù)量和每個決策樹的最大深度等。在測試集中,額外45 例(30%)獨立測試計劃被用于進一步評估不同模型的性能。根據(jù)各數(shù)據(jù)集在各個通過率區(qū)間的分布可知,基于通過率的樣本通常是非常不平衡的,僅有約5%的樣本具有相對較低的通過率測量值,導(dǎo)致常規(guī)機器學(xué)習(xí)模型對低通過率區(qū)間的樣本預(yù)測誤差相對較大,見表1。

表1 數(shù)據(jù)的伽馬通過率在各區(qū)間分布[n(%)]
為了解決這一問題,在模型訓(xùn)練階段,根據(jù)每個寬度為1%的伽馬通過率區(qū)間中的樣本數(shù)量,對樣本賦予不同的權(quán)重,即小樣本區(qū)間的每個訓(xùn)練樣本擁有更大的權(quán)重,使得最終每個區(qū)間樣本的總權(quán)重數(shù)相同。根據(jù)測試集在未更改權(quán)重和更改權(quán)重后的GBDT 模型和RF 模型中的平均預(yù)測誤差可以看出,盡管總的誤差有小幅度提高,但低通過率區(qū)間的誤差顯著降低了,見表2。

表2 不同伽馬通過率區(qū)間下測試集數(shù)據(jù)的平均預(yù)測誤差(%)
為了研究基于聯(lián)影URT-Linac 506c 加速器MLC 葉片計算的不同復(fù)雜性度量對計劃實際通過率的貢獻,本研究進一步進行了基于模型的特征重要性分析。研究采用特征重要性排列序的方法[24],通過隨機打亂某個感興趣復(fù)雜度參數(shù)的值觀測模型預(yù)測結(jié)果的變化,通過模型預(yù)測誤差的升高評估該特征變量的重要性。理論上,被打亂的特征越重要,模型預(yù)測誤差就越大。在GBDT 模型和RF 模型中各復(fù)雜度參數(shù)的重要性如圖2 所示,重要性數(shù)值越接近1 表示該復(fù)雜度參數(shù)越重要。在2 個模型中,用于預(yù)測的特征重要性不完全相同,但SAS、CA、MAD 等復(fù)雜度參數(shù)在2 個模型中均較為重要。

圖2 各復(fù)雜度參數(shù)在機器學(xué)習(xí)模型中的重要程度排序圖
多項研究表明,機器學(xué)習(xí)模型對PSQA 結(jié)果的預(yù)測有一定幫助,然而不同加速器MLC 葉片結(jié)構(gòu)、長度、鉛/塢門大小和機械運動模式會有一定差別。本文分析了國產(chǎn)加速器聯(lián)影URT-Linac 506c 的計劃復(fù)雜度參數(shù)與PSQA 的通過率間的關(guān)系,并為該加速器配備了2 種基于不同決策樹算法的PSQA 預(yù)測模型。該模型使物理師專注于預(yù)測伽馬通過率(Gamma Passing Rate,GPR)較低的一小部分治療計劃,減少了物理師的工作量,優(yōu)化了物理師的工作流程,使得PSQA 過程更加高效。
本研究提出了11 個不同的復(fù)雜度參數(shù)以反映計劃復(fù)雜程度的不同層面,及其與計劃執(zhí)行準(zhǔn)確性、可靠性間的聯(lián)系。一直以來,計劃的復(fù)雜程度被認為與劑量遞送的準(zhǔn)確性相關(guān),一個高度復(fù)雜的調(diào)強計劃可能導(dǎo)致治療交付中更大的劑量不確定和不準(zhǔn)確[25],所以許多早期的研究試圖找到一種或幾種量化指標(biāo)來描述和評估計劃的復(fù)雜程度,并在這些復(fù)雜程度和實際QA 結(jié)果之間建立直接的數(shù)學(xué)關(guān)系。例如,McNiven 等[26]在2010 年結(jié)合各種參數(shù)開發(fā)了MCS;Masi 等[27]和Agnew 等[28]研究了MCS 和GPR 之間的相關(guān)性。但是復(fù)雜度的量化本身是一個較為困難的問題,單個數(shù)學(xué)公式的度量可能并不全面,就如同本文分析了11 個參數(shù)指標(biāo)與通過率結(jié)果之間的關(guān)系并非線性的。因此,隨著計算機技術(shù)的發(fā)展,基于多參數(shù)的、集成學(xué)習(xí)的決策樹模型可以較好地應(yīng)用到該項研究中。
基于機器學(xué)習(xí)模型,通過計劃復(fù)雜度參數(shù)的特征重要性研究表明,在聯(lián)影URT-Linac 506c 加速器的MLC中,SAS、CA、MAD 等參數(shù)在模型預(yù)測中表現(xiàn)得較為重要。SAS 為小孔徑參數(shù),用于概括每對MLC 開出的孔徑中小孔徑數(shù)量的占比,小孔徑數(shù)量越多,射野調(diào)制越復(fù)雜。CA 為每個控制點上MLC 構(gòu)造的子野周長與面積的比值,描述了射束射野形狀的不規(guī)則性,周長越大、面積越小的情況下,CA 越大,計劃復(fù)雜程度越高。MAD 為MLC 葉片對的平均不對稱距離,表征了MLC葉片對開出的孔徑偏離射束中心軸的程度。結(jié)果表明,這些對模型有較大貢獻的復(fù)雜度參數(shù)與常規(guī)的認知相符合:更復(fù)雜的計劃通常涉及更小、更不規(guī)則的光束孔徑和更大的光束強度調(diào)制。
在調(diào)強放射治療時代,MLC 在波束的形成和調(diào)制方面發(fā)揮著至關(guān)重要的作用,可幫助計劃實現(xiàn)可接受的劑量分布,影響治療的質(zhì)量和效率。一般來說,一個理想的MLC 應(yīng)該具有以下特點:精確的葉片定位精度、小半影和更快的葉片運動速度[29-31]。基于該加速器的在線自適應(yīng)平臺也已在本中心投入臨床使用,更高效、更精簡的PSQA 模式對于在線的適應(yīng)放射治療顯得更為重要。因此,基于復(fù)雜度參數(shù)研究的PSQA預(yù)測模型和在線計劃結(jié)合將是提高工作效率和優(yōu)化工作流程的有用工具。
本研究基于國產(chǎn)加速器聯(lián)影URT-Linac 506c,進行了放療計劃復(fù)雜度與PSQA 結(jié)果間的相關(guān)性研究。結(jié)果表明,復(fù)雜度參數(shù)與計劃PSQA 結(jié)果間存在較強相關(guān)性,而基于決策樹算法的機器學(xué)習(xí)模型可對PSQA 伽馬通過率預(yù)測起到一定作用,幫助放療物理師更好地識別PSQA 測量失敗的患者計劃,為進一步研究和改進計劃提供參考。