王 娟,唐麗麗,于明川,那曼麗,張 濱
(北京大學首鋼醫院影像科,北京 100144)
肺癌是癌癥相關死亡的主要原因[1]。2012年全球約有159萬人死于肺癌[2]。據我國國家癌癥中心統計,2014年我國肺癌發病率和死亡率均居惡性腫瘤首位,其中新發病例約78.1萬,死亡病例約62.6萬[3]。約75%肺癌患者就診時已是局部晚期或出現遠處轉移[4],患者平均5年生存率僅約18%[5]。
肺癌篩查有利于早期檢測腫瘤,提高總體治愈率,同時能在更小范圍內手術切除病變[6]。美國國家肺癌篩查試驗(National Lung Screening Trial, NLST)研究[7]表明,相比單視角的X線胸片,接受低劑量CT篩查的群體肺癌死亡率下降20%。目前低劑量CT逐漸成為各國篩查肺癌的主要手段,但由于篩查人群巨大而缺乏有經驗的影像學醫師,使得普及肺癌篩查面臨巨大挑戰[8]。
近年來,以深度學習(deep learning, DL)為內核的人工智能方法在計算機視覺任務方面取得了突破性進展,并逐漸滲透到醫學影像分析的各個領域[9]。研究[10-11]表明,DL模型已在低劑量CT肺結節檢測中展現出較高的精度,臨床應用潛力巨大。然而這類檢測模型并非完美,預測結果仍會出現偏差。本研究旨在探討DL模型對不同大小肺結節的檢出效果。
1.1 一般資料 回顧性分析2019年3—5月于我院接受胸部CT平掃的344例肺結節患者,男218例,女126例,年齡25~68歲,平均(45.6±19.3)歲。排除圖像質量差、存在彌漫性病變及多發結節(10個及以上)患者。
1.2 儀器與方法
1.2.1 CT檢查 采用Toshiba Aquilion One(重建卷積核包括FC03/FC13/FC51)、Philips Ingenuity Core 128(重建卷積核包括B/YA/YB)多排螺旋CT。囑患者仰臥,掃描范圍自肺尖至肺底。掃描參數:固定管電壓120 kV,管電流為自動毫安,層厚1 mm,矩陣512×512,圖像分辨率0.782 mm×0.782 mm。
1.2.2 肺結節診斷及結節大小計算 由1名具有5~10年工作經驗的影像科醫師標注所有CT圖像中的肺結節,并逐層勾勒肺結節輪廓;由另1名高年資(工作10~15年)影像科醫師對上述初標結果進行審核,并將復審結果作為醫師最終臨床診斷結果。
由計算機根據醫師的邊緣勾勒自動計算得到肺結節大小。計算流程:①于軸位圖像上找到肺結節最大層面(面積最大);②在最大層面上測量結節最長徑(距離最遠的2個輪廓點之間的距離)和最短徑(結節內垂直于長徑的最長距離);③以最長徑和最短徑的平均值作為結節大小,精確到小數點后2位,單位為mm。
1.2.3 DL模型(以下稱模型)檢測肺結節 將CT資料傳至深睿醫療研發的Dr.Wise肺結節輔助診斷系統,以深度卷積神經網絡為基礎,配合特征金字塔和圖像金字塔,融合全局結構和局部細節信息,自動檢測結節大小。
1.3 統計學分析 采用Scipy統計分析軟件。以χ2檢驗比較模型對不同大小肺結節的檢出率(相對于醫師診斷結果)。P<0.05為差異有統計學意義。
344份CT圖像中,醫師共診斷710個0~30 mm肺結節,其中0~4 mm者93個(93/710,13.10%),0~5 mm者264個(264/710,37.18%),0~6 mm者425個(425/710,59.86%),5~10 mm者389個(389/710,54.79%),>10~20 mm者56個(56/710,7.89%),>20~30 mm者1個(1/710,0.14%)。根據結節密度,其中536個(536/710,75.49%)為實性結節,54個(54/710,7.61%)為純磨玻璃結節,10個(10/710,1.41%)部分實性結節,110個(110/710,15.49%)為鈣化結節。
DL檢測模型共檢出2 495個候選肺結節,相對于醫師診斷結果,模型診斷真陽性675個(圖1~3),模型對結節的檢出率為95.07%(675/710),陽性預測值為27.05%(675/2 495)。模型對不同大小肺結節的檢出率如下:0~4 mm者82.80%(77/93),0~5 mm者90.15%(238/264),0~6 mm者92.94%(395/425),5~10 mm者97.94%(381/389),10~20 mm者98.21%(55/56),20~30 mm組100%(1/1)。模型對0~4 mm、0~5 mm、0~6 mm、5~10 mm、10~20 mm、20~30 mm肺結節的檢出率差異無統計學意義(χ2=21.72,P>0.05)。
為進一步確認模型中假陽性結節的具體分布,上述2名醫師重新針對這些假陽性結節進行逐一復審。假陽性結節中,50.38%(917/1 820)為醫師最初漏診者(圖4),32.53%(592/1 820)為血管斷面,其余為局灶性胸膜增厚(164個)、斑片(73個)、條索(55個)、黏液栓(13個)、肺實變(4個)和腫塊(2個)等,平均每例醫師漏診肺結節2.67個(917/344),血管斷面的平均假陽性數為1.72個(593/344)。

圖1 患者男,87歲,模型檢出28 mm×27 mm部分實性結節(箭),為真陽性結節 圖2 患者女,57歲,模型檢出8 mm×7 mm磨玻璃結節(箭),為真陽性結節 圖3 患者女,51歲,模型檢出12 mm×12 mm實性結節(箭),為真陽性結節 圖4 患者男,53歲,模型檢出2 mm×2 mm實性結節(箭),為假陰性結節(醫師未檢出)
基于DL的肺結節檢測模型預測精度高,低劑量CT對于0~30 mm肺結節的檢出敏感度達到95.07%。本研究發現檢測模型的預測精度不受肺結節大小的影響,證實了DL檢測模型在肺結節檢測中的一致性。在中華醫學會肺癌臨床診療指南2018版[3]中,以5 mm作為陽性肺結節的分界值;在2005版Fleishner指南[12]中,將4 mm作為肺結節隨訪的分界線,在其2013版[13]中,將此分界線提高到5 mm,在2017版[14]中進一步將其提高到6 mm。本研究結果表明,臨床上不管使用哪種診斷標準,基于DL的肺結節檢測方法均表現出良好的泛化性能。
除肺結節大小以外,影響檢測模型效果的因素還有很多。既往計算機輔助診斷研究觀察圖像采集參數對于類似肺結節檢測模型的影響,證實DL對肺結節檢出效果的一致性良好。Den Harder等[15]前瞻性納入25例肺結節隨訪患者,分別進行4種劑量(45%、60%、75%和100%的標準管電流)CT掃描,并以3種方式(FBP、iDose4及IMR3)進行重建,發現3種重建方式下計算機輔助診斷對于4 mm以上肺結節的檢出率幾乎相當,但假陽性率方面,最低劑量下的FBP優于iDose4和IMR3。Takahashi等[16]前瞻性觀察55例肺結節患者,分別進行常規劑量(120 kV)及低劑量(100 kV)CT掃描,結果顯示計算機輔助診斷在常規劑量下獲得的結節檢出敏感度為76%,低劑量下敏感度為71%。
進一步分析本研究中模型檢出的假陽性肺結節,其中50.38%(917/1 820)為醫師初次診斷漏檢的肺結節,提示醫師和輔助診斷系統可互相補充、各取所長;臨床工作中,判斷腫瘤肺轉移時,檢出微小轉移灶對診斷及治療均具有重要意義,此時輔助診斷系統能夠高效幫助醫師減少漏診微小轉移灶;但另一方面,引入DL可能增加過度診斷的概率。DL系統會額外發現很多被醫師漏掉的肺結節,普通篩查人群中這些肺結節大多為良性,即使是惡性肺結節,未獲發現也不影響患者終生發病率和死亡率[17],故過度診斷是DL肺結節檢測模型實現大規模臨床應用前亟待解決的問題。本研究中醫師漏診的大多是5 mm以下微小肺結節,對此中華醫學會指南[3]建議處理的方式是長期隨訪,可能對患者造成較大心理負擔,以至于采取不必要的激進治療方案。此外,人工智能方法檢出的過多肺結節也可能增加醫師的工作量。
本研究的局限性:樣本量相對不足,未能定量評估其他因素(機型/重建算法等)以及醫師標注誤差對于結果的影響,有待進一步完善。