馬秀瑞 張建英 李婷婷 張玉潔 肖 寒 孫 菁 吳泇俁 嵇衛星
(復旦大學附屬中山醫院放療科 上海 200032)
放射治療的重要目標是提高腫瘤控制率,同時降低正常組織的不良反應發生率。要達到這一目標,靶區和正常器官的準確勾畫是整個治療過程的關鍵一環。但是,由于個人的主觀辨識能力不同和軟件勾畫精度不同,靶區與正常器官的勾畫結果往往差異較大[1-2]。為了保證勾畫結果的一致性,目前臨床上主要使用基于圖譜庫(Atlas)[3-4]和基于深度學習的自動勾畫方法。基于圖譜庫(Atlas)的自動勾畫方法在臨床上使用已有一段時間,該方法的精度受到建模數據和配準方式的影響,普適性較差。基于深度學習的自動勾畫方法使自動勾畫精度到達了一個新的水平,已有部分產品逐步投入臨床,如AccuContour[5]、DeepViewer[5]、AI Contour[6]等。在 相 關 的 產 品 和文獻中,一般采用自動與人工勾畫的幾何差異,如戴斯相似系數(Dice similarity coefficient,DSC)、豪斯多夫距離(Hausdorff distance,HD)等,來評估自動勾畫結果。例如,據Sahiner等[7]統計顯示,在部分研究中,肺、肝、脾、腎的DSC可以達到0.94~0.97,胰腺、膀胱、前列腺的DSC為0.71~0.87,部分靶區的DSC在0.6~0.9,不同器官和靶區的自動勾畫準確性差異較大。
僅帶有幾何評估參數的自動勾畫技術是否可以直接用于臨床,臨床關注的問題是自動與人工勾畫導致的劑量差異有多大,是否會對治療及預后產生影響。Zhu等[8]研究了自動與人工勾畫在食管癌中的劑量差異,兩種勾畫方式導致的危及器官的劑量差異<1 Gy或1%,在臨床上可以接受;該研究中,肺、心臟、脊髓以及脊髓PRV的DSC分別為0.97、0.93、0.84和0.92,但是二者之間的關系作者并未進一步分析。那么,一個好的幾何參數是否意味著劑量差異很小?這是決定該自動勾畫技術能否用于臨床的關鍵。本研究采用自動及人工兩種方式勾畫同一器官,研究這兩種勾畫方式的DSC與對應的劑量參數差異之間的關系,分析基于深度學習的自動勾畫技術應用于臨床的可靠性。
數據收集本研究已通過復旦大學附屬中山醫院醫學倫理委員會審核(批件號:B2021-546),所有患者均已簽署知情同意書。研究中使用的數據來自2019年3月至2021年3月在復旦大學附屬中山醫院放療科進行過上腹部調強放療的43例患者。患者年齡37~87歲,其中男性32人,女性11人;肝癌13例,膽囊癌2例,胃癌4例,胰腺癌18例,后腹膜6例;放射治療計劃單次劑量在175~200 cGy,次數25~28次。所有患者的CT圖像均采用仰臥位-頭先進(head first supine,HFS)的方式,由西門子模擬定 位 設 備(CT Siemens Somato,德 國Siemens Healthcare公司)進行采集。每層圖像重建分辨率為512×512,層厚為3 mm。將這些患者的CT圖像和治療計劃文件以DICOM格式從原始治療計劃系統(Monaco,瑞典Elekta AB公司)中導出,并利用開源軟件dicompyler[9]對這些文件進行姓名和治療號匿名化處理。
器官的人工和自動勾畫參考文獻用DSC評估自動勾畫的結果[7],本研究也采用該評價參數。DSC介于0到1,數值越大代表自動勾畫的效果越好。本研究選擇胃和十二指腸兩個器官進行分析研究。胃和十二指腸的人工勾畫由經驗豐富的劑量師參照RTOG指南[10]重新勾畫,并由主管醫師審核確認。胃的勾畫范圍:賁門(靠近心臟)、胃底、胃體、胃竇和幽門;十二指腸的勾畫范圍:上部、降部、水平部和升部。AccuContour系 統[5]是由廈門Manteia公司開發的一種基于深度學習的自動勾畫軟件。該系統可對患者CT圖像中頭頸部、胸部、上腹部和下腹部的多種器官和靶區(鼻咽癌、食管癌、直腸癌等)進行自動勾畫。本研究基于AccuContour系統對43例患者進行胃和十二指腸進行自動勾畫,排除胃或十二指腸切除者,共得到40例胃部和38例十二指腸的勾畫結果,通過DSC進行體積間的相關性分析。
劑量參數處理分析文獻發現,胃和十二指腸相關不良反應的評價參數較多,常見的有V25、V35、最大劑量等[11-13]。其中V25、V35分別是指劑量體積直方圖曲線(dose volume histogram,DVH)上25 Gy及以上劑量和35 Gy及以上劑量對應的百分體積。因此,本研究設定的劑量參數包括DVH參數、最大劑量和平均劑量,其中DVH參數是指從DVH曲線上得到的參數,包括V5到V50,以5Gy遞增。這些參數反映了臨床常用的劑量限值類型,可以代表串行和并行兩類器官。其中ΔVx(x代表不同的劑量),ΔDmax以及ΔDmean的計算公式如下:

如公式(1)到(3)所示,auto和manual分別表示自動及人工勾畫。本研究認為同一個患者的胃和十二指腸勾畫結果是兩個獨立樣本,因為器官的自動勾畫由對應的模型來完成,一個器官的勾畫結果并不會影響另外一個器官。對差異為0的結果,人工檢查自動和人工勾畫的結果,若二者都為0,則刪除該數據。為了減少數據量對統計結果的影響,本研究對數據進行了分組。分組原則是以DSC的0.01為遞進步長,如果該區間內的數據量≥10個,則以該區間為一組,不做進一步處理,否則按照臨近原則,將該組數據與下一組數據進行合并,直至組內樣本量≥10個,不同數據對應DSC的加權平均值為這一組數據的DSC。
統計學處理采用SPSS 21.0軟件對體積與DSC間的關系進行Spearman相關分析。因為每組DSC對應的劑量學數據為偏態分布,所以在分析時采用中位數及四分位距表示每組數據的分布。
自動與人工勾畫結果比較同一個患者部分層面胃和十二指腸的勾畫差異如圖1所示。其中1A、1B、1C分別代表胃和十二指腸在橫斷面、矢狀面和冠狀面的勾畫結果。深藍色和紅色代表胃的人工和自動勾畫結果,天藍色和洋紅色代表十二指腸的人工和自動勾畫結果。胃的自動勾畫結果要優于十二指腸的自動勾畫結果。在很多地方,即使有明顯的灰度差異,十二指腸的自動勾畫模型仍然不能完美地勾畫出所有的體積。本研究進一步分析了自動與人工勾畫結果體積之間的關系,圖2A和2B分別代表胃和十二指腸的結果。就體積而言,胃的自動與人工勾畫結果相關性較高,而十二指腸的體積相關性較差。對數據進行線性擬合,胃的R2達到0.9491,斜率為1.0812,接近1,說明二者勾畫結果一致性較高。十二指腸體積的R2為0.452,斜率為0.7476,二者的一致性較差。

圖1 胃與十二指腸自動勾畫的結果Fig 1 Results of automatic delineation for stomach and duodenum

圖2 自動勾畫與人工勾畫體積之間的關系Fig 2 Volume relationship between auto and manual contoured structures
DSC與不同類型劑量限值的關系分析ΔVx、ΔDmean以 及ΔDmax與DSC之間的關系如圖3~5所示。針對胃和十二指腸兩種器官,ΔVx和DSC之間呈現出類似的規律(圖3A、3B)。將兩個器官的數據融合在一起,并進行分組,統計每組數據的中位數及四分位距(圖3D)。隨著DSC增大,ΔVx的四分位距縮小明顯,而且中位數越來越趨近于0。以散點圖的方式將DSC>0.85的部分放大顯示(圖3C),當DSC>0.95以后,ΔVx都能到達5%以下,且大部分低于3%。

圖3 胃和十二指腸ΔVx與DSC間的關系Fig 3 Relationship betweenΔVx and DSC in stomach and duodenum
針對胃和十二指腸兩種器官,ΔDmean和DSC之間呈現出類似的規律(圖4A、4B)。利用與圖3D一樣的方法處理兩個器官的數據,ΔDmean的四分位距隨著DSC增大而明顯縮小,中位數也同樣越來越趨近于0(圖4D)。以散點圖的方式將DSC>0.85的部分放大顯示(圖4C),當DSC>0.95以后,ΔDmean降到2 Gy以下,且大部分低于1 Gy。

圖4 胃和十二指腸ΔDmean與DSC的關系Fig 4 Relationship betweenΔDmean and DSC in stomach and duodenum
ΔDmax與DSC之間的關系如圖5所示。對于ΔDmax,并未發現如上兩種劑量限值類似的規律,即人工與自動勾畫結果的劑量差異會隨著DSC的增大而減小。在胃的某個勾畫結果中,在DSC高達0.975時,最大劑量的差異仍然達到-20.93 Gy。

圖5 胃和十二指腸ΔDmax與DSC的關系Fig 5 Relationship betweenΔDmax and DSC in stomach and duodenum
在基于深度學習的自動勾畫研究中,用DSC來評估兩個輪廓之間相似程度是被普遍采用的方法。一般認為DSC>0.7表示自動和人工勾畫效果好,是可以接受的結果[14],符合臨床使用的要求。在分析幾何評估參數與劑量差異關系的文獻[15]中,二者的相關性往往較差,即較高的DSC與較低的劑量差異不相關。與以往研究不同的是,在本研究中,對于平均劑量以及DVH參數,劑量差異將會隨著DSC的增加而減小。但是DSC>0.7并不能達到臨床接受的標準,在本研究中DSC應該高于0.95。如果某個器官為并行器官,即以平均劑量以及DVH參數作為劑量評估參數,而且該器官的自動勾畫結果DSC大于0.95,那么將該器官的自動勾畫結果用于臨床將較為安全。Kaderka等[16]研究發現,即使DSC很小,有時候其劑量學參數也符合臨床要求。本研究也發現了類似現象,即使DSC很低,仍有很多劑量參數差異集中在0附近。
另外,在本次研究中最大劑量差異并不會隨著DSC增大而減小,這表明DSC并不是適合預測最大劑量的幾何參數。但是,無論是哪種幾何評估參數,器官所有位置的勾畫誤差都會同等地影響最后的幾何評估參數,而放療中的劑量分布是有方向的,越接近靶區劑量越大,因此不同劑量場處,相同的幾何誤差也會導致不同的劑量差異。所以,即使是同一個危及器官,針對不同病種訓練不同的勾畫模型,并在臨床使用前評估該模型的幾何評估參數以及對應的劑量差異,將有更為重要的臨床意義,也是我們下一步工作的重點。
目前,針對一些小體積器官,如小腸、胰腺、血管等,因為圖像占比小、形狀變化大等原因,其勾畫精度仍難以令人滿意[7]。本研究的結果也體現了這一點,比較胃和十二指腸的自動勾畫結果,以DSC來衡量,十二指腸要低于胃。由于通用的神經網絡架構[17]在描述小體積目標時不夠精確,因此研究性能更優的、針對小體積器官的自動勾畫網絡對臨床實踐有著重要意義。
病例的增多會增加結論的可靠性,但是在我們科的臨床實踐中上腹部的病例并非主流,我們搜索了相關的病例,符合倫理標準的如本文中所示。為此,本研究特意選擇胃和十二指腸兩個形態上差異極大的器官進行分析,我們認為在兩類器官上都體現出來的結論具有一定的普遍性。本研究的另一個局限性是所有數據均來自單一中心,在人工勾畫時可能存在一定主觀偏差,因此也期待其他中心進行類似研究,以得到更加普遍的結論。
綜上所述,本研究比較了胃和十二指腸自動勾畫的DSC與各類型劑量差異的關系,發現DVH參數和平均劑量差異隨著DSC增加而減小,最大劑量差異與DSC無關。從安全性考慮,即使較好的DSC也不能保證所有類型的劑量差異都符合臨床要求。因此,將基于深度學習的自動勾畫技術安全地用于放療,除了需要DSC以外,對應器官勾畫模型導致的劑量參數差異也是必須考慮的參數。
作者貢獻聲明馬秀瑞資料收集,數據處理,統計分析,論文撰寫。張建英研究設計,資料收集,論文修改。李婷婷,張玉潔,肖寒,孫菁,吳泇俁資料收集,論文修改。嵇衛星研究設計,數據處理,統計分析,論文修改。
利益沖突聲明所有作者均聲明不存在利益沖突。