楊建利,朱德江,邵嘉俊,劉秀玲
1.河北大學 電子信息工程學院,河北 保定 071002
2.河北省數字醫療工程重點實驗室,河北 保定 071002
肺癌是所有癌癥中死亡率最高的,肺癌的早期診斷和治療是預防死亡的關鍵。早期肺癌表現為肺結節。肺結節的準確檢測和分類對于實現早期診斷和精確治療至關重要[1-4]。計算機斷層掃描(computed tomography,CT)是臨床應用中最常用的診斷工具[5-6],肺結節的良、惡性界限難以區分,且放射科醫生的診斷存在主觀性,使得肺癌初期的精確診斷變得非常困難。深度學習已經成功地應用于包括醫學圖像分析在內的許多研究領域。與放射科醫師相比,這項技術可以自動從醫學圖像中提取深層次的特征,并且能夠發現有效的隱藏特征幫助人們自動進行肺結節的良性和惡性分類。
Xie等[7]將紋理和形狀特征與深度卷積神經網絡提取的特征相融合,以更好地表征肺結節。通過特征融合的方式,準確率和靈敏度分別達到了89.53%和84.19%。與人工選擇的特征相比,深度神經網絡自動提取的特征效果更好。Filho等[8]提出了兩個拓撲指標,即基本分類權重和標準化分類權重之和,來描述肺結節的紋理特征,并使用卷積神經網絡對這些特征進行分類。該方法使用50 580個肺結節進行驗證并取得了92.63%的準確度和90.70%的靈敏度。徐久強等[9]針對數據集中肺結節良惡性樣本數量不平衡的問題設計了生成對抗網絡,實現肺結節良惡性準確分類。吳世洋等[10]先提取肺實質影響,利用深度神經網絡提取結節特征,結合羅杰斯特分類器進行良惡性分類決策。Shen等[11]設計了多尺度卷積神經網絡,可從交替堆疊層中提取特征來捕獲結節的異質性。Shen等[12]還提出了多裁剪卷積神經網絡,通過使用最大池化操作提取特征圖中不同區域的特征,使結節語義屬性得到有效的表征。Lei等[13]使用U-net網絡結構來分別提取特征并對比分類結果,并將特征可視化來證明特征的有效性和可解釋性。
上述研究僅關注肺結節二維特征,因此不能完全描述肺結節的整體特征。Xie等[14]后續提出了一種基于知識協同的深度神經網絡來區分良性和惡性肺結節。從肺結節立體信息中截取不同視覺下的結節圖像,并通過微調ResNet-50模型來學習每個視圖中的特征。隨后,這些來自不同視圖的特征被融合以分類出良性和惡性肺結節,分類結果達到了91.60%的準確度和86.52%的靈敏度。
此外,從結節的立體特性考慮,引入了3D卷積神經網絡[15-18],以便于提取肺結節的詳細特征,為肺結節的良性和惡性分類提供了更符合實際的診斷結果。Jiang等[19]提出了用于提取結節細節特征的3D雙路徑卷積神經網絡,并通過在網絡中添加注意力機制來定位特征關鍵區域。其肺結節分類的準確率為90.24%,靈敏度為92.04%。為了解決關于肺結節的3D特征數據量的局限,Hussein等[20]應用遷移學習提取三維肺結節的判別特征,并引入多任務學習進行分類。
雖然基于深度學習的特征提取在肺結節分類中得到有效應用,但是深度學習網絡的黑盒特性使得提取的特征無法具體解釋。為了解決這個問題,Lei等[13]通過從包含結節的立體數據中分別選擇四組不同切片數的立體數據作為初始特征,使用U-net網絡結構來分別提取特征并對比分類結果,還加入特征可視化技術來證明其特征的有效性和可解釋性。該方法的驗證結果達到了99.13%的高精度,證明了深度神經網絡提取的精細特征能夠取得更好的效果。
雖然許多2D和3D深度學習網絡已經被用于肺結節分類中,但特征提取過程中不可避免地丟失一些細節信息,從而影響肺結節分類效果。為了盡可能保留微小結節的有用信息,本文提出了一種深度三維多尺度交叉融合網絡來挖掘肺結節的深層特征,提高肺結節分類算法的準確性。
本文中使用的肺結節影像數據來自圖像數據庫聯合會圖像收集(lung image database consortium image collection,LIDC-IDRI)[21],它包含1 018例肺部掃描數據。每例數據都由四名放射科專家醫生獨立注釋,包括肺結節的位置、惡性程度和鈣化程度等特征描述信息。其中結節惡行程度分為1~5級。平均惡性度為3的被視作不確定結節,平均惡性程度低于3的視為良性,平均惡性度高于3的為惡性。最后,得到了509個良性和635個惡性肺結節。為了消除肺部掃描切片厚度和像素距離差異的影響,在這三個軸向上使用樣條插值重新采樣到1 mm3/體素。隨后,切片數據取[-1 200,600]之間的霍恩斯菲爾德值并標準化。在LIDC-IDRI數據集內,肺結節直徑從2 mm到38 mm不等。因此,根據結節的位置構建了以結節為中心的48×48×48的三維體數據。本文通過旋轉120°、240°和翻轉數據來增強數據,使得數據量擴充了三倍防止訓練出現過擬合現象。

圖1 三維多尺度交叉融合卷積神經網絡圖Fig.1 Flow chart of 3D multi-scale cross fusion convolution neural network
本文構建深度三維多尺度交叉融合深度卷積神經網絡用于肺結節的良惡性分類,其結構如圖1所示。圖中立方體上方符號@前后數字描述了特征圖的大小和通道數。對角向下箭頭表示下采樣操作,對角向上箭頭表示上采樣操作,多箭頭相交表示交叉融合其方式是加法融合,DBi是密集網絡模塊[22]。網絡輸入是以結節為中心從病例數據中截取大小為48×48×48的3D肺結節。網絡輸出的是結節惡性(M)和良性(B)的概率。
網絡縱向由邊長為24、12、6三種尺度特征層組成,網絡橫向通過多次密集連接模塊和交叉融合兩個關鍵操作提取特征。利用密集網絡提取特征前后文信息,利用交叉融合獲得上下文信息。以24@128特征圖為例:首先將該特征圖下采樣與12@256特征圖做加法融合得到新特征。然后12@256特征圖通過上采樣后與24@128特征圖做加法融合得到新特征。再分別輸入密集連接模塊中繼續卷積提取特征,分別得到通道數為256和512的特征圖。特征交叉融合同時增強深層語義信息和淺層內容信息相互的表達能力。類似此過程,最后得到三種尺度有效特征組(24@256,12@512,6@768),分別將經全連接層后,使用softmax分類器進行分類,按投票方式得到分類最終結果。
網絡中密集連接模塊如圖2所示。立方體表示結節三維特征。Lj由卷積核為1×1×1和3×3×3組成。在密集連接過程中,每層特征可以被描述為所有先前特征的融合,圖中可表示為Nj=(L0,L1,…,Lj),其每層特征通道數Nj的計算如式(1)所示:

其中,N0是密集模塊中初始特征輸入的數量,k是特征通道增率,n是密集模塊中的卷積層數。

圖2 密集模塊(DB)結構Fig.2 Dense block(DB)architecture
密集連接操作的優點是增強了特征前后文信息的傳遞和多尺度特征間的轉移,深度三維多尺度交叉融合卷積神經網絡各個密集模塊的具體參數設置如表1所示。

表1 各密集模塊中的參數設置Table 1 Parameter setting of DB
在本文訓練模型中所用到的其他參數具體設置如表2所示。優化器使用小批量隨機梯度下降算法,最小批量為32,動量為0.9,訓練次數為100。初始學習率設為0.000 1,第50次后降為0.000 01。

表2 網絡訓練參數設置Table 2 Network training parameter setting
為了更好地評估分類結果,定義了四個常見的評估指標:準確性(Ac)、特異性(Spe)、敏感性(Se)和接收者操作特性曲線(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)。Ac、Spe、Se的計算公式如式(2)、(3)、(4)所示:

其中,TP為正確結節的個數,TN是未識別結節個數,FP是假陽性個數,FN是假陰性個數。本文的實驗結果是通過取五次五折交叉驗證的平均值來評價模型的好壞。
肺結節的分類與其形態特征和背景環境密切相關。在特征學習中豐富的背景信息對肺結節分類是否有重要作用,目前尚不清楚。為了驗證,使用了三種方法來截取以結節為中心的體數據。第一種方法根據肺結節的大小裁剪得到體數據,背景信息擴充了10像素,并使用水的值(CT值為0)填充將其擴展到48×48×48,名為Nod_p;第二種方法通過以肺結節中心位置來截取得到三維數據48×48×48,名為Nod_d;第三種方式通過Nod_p和Nod_d像素相加融合得到結節灰度增強的數據,名為Nod_f。分別使用上述三種類型的輸入數據來訓練網絡,結果如表3所示。Nod_p組的分類效果最好,Nod_f組次之,Nod_d最差。Nod_d組的特異性明顯低于Nod_f組和Nod_p組,其主要原因是引入肺結節周圍豐富的背景信息后湮滅肺結節本身的特征,致使假陽性比例上升,而通過Nod_p和Nod_d的融合后,能有效地凸顯肺結節特征,降低背景信息影響,顯著降低假陽性。Nod_p組在四項指標中皆是最優的,證明了豐富背景信息帶來的影響和該網絡能集中關注到結節主要特征。

表3 不同輸入體積結節的分類結果Table 3 Classification results of nodules with different input volumes %
深度三維多尺度交叉融合卷積神經網絡是一個多尺度特征融合的框架,它既有效地保留了肺結節詳細的內容信息且又具有高級的抽象信息,網絡學習過程中同時利用這兩種信息來做分類決策。實驗中,同時設計了三種網絡結構來提取肺結節的最優特征。第一個網絡是深度三維多尺度交叉融合深度卷積神經網絡(DMFN_db)如圖1所示;第二個網絡是通過將圖1中的密集模塊更改為殘差模塊[23]而形成的(DMFN_res);第三個網絡是在圖1網絡結構基礎上去掉多尺度間的融合(DMN_db)。分別利用這三種網絡結構的肺結節分類結果見表4,相應的ROC曲線見圖3。從圖和表中數據可以看出,DMFN_db在四項指標上皆優于DMN_db,表明網絡中的多尺度融合對提升分類效果明顯。DMFN_res雖然在敏感性上高于DMFN_db,但在其他三個指標上皆不如DMFN_db,特別是在特異性上差距明顯,表明密集連接的卷積模塊比殘差卷積模塊更能準確地提取肺結節的關鍵特征,能有效減少假陽性。DMN_db和DMFN_res的分類結果類似,也側面說明了卷積的密集連接和多尺度的交叉融合能有效提取肺結節的關鍵特征,對提升肺結節的良惡性分類結果均有較大作用。

表4 不同網絡結構的分類結果Table 4 Classification results of different network structures %

圖3 三種網絡結構的ROC曲線Fig.3 ROC curves of three network structures
Xie等[7,14]使用肺結節的2D和2D多視角圖像作為數據輸入,通過融合形狀特征、灰度共生矩陣紋理特征和使用基于多視角知識協同卷積神經網絡提取的深度特征,從2D角度實現了良惡性肺結節圖像的高精度分類。然而,2D分類模型需要特殊的2D切片作為輸入,這限制了算法在臨床應用中的適應性和準確性。針對三維肺結節良惡性分類,Shen等[15]提出了一種深度層次語義卷積神經網絡,網絡從肺結節數據中提取低層語義特征來預測紋理、鈣化、球形度、檢測難度、邊緣等低層特征,再結合高層語義信息預測良惡性。在訓練過程中這些低層次的標簽會因醫生而異,正如該文中棄用了分葉征和毛刺征標簽,因為文獻[24]指出該數據集中存在不確定子集與這兩個特征標注出現不一致的現象。在實際中準確地標注這些低層次的特征標簽也需要耗費大量人力物力。Jiang等[19]提出帶注意力的三維雙路徑網絡,引入了注意力機制以闡明靈敏度和誤報率之間的最佳權衡,達到90.24%的準確率。考慮到三維肺結節的訓練數據有限,Hussein等[20]引入遷移學習來利用其他數據模型參數學習肺結節特征和多任務學習對肺結節分類,準確率達到91.26%,但其他指標未提及。與其他三維分類方法相比,本文方法不僅具有相當的準確率和較高的靈敏度,而且可直接從原始肺部CT影像中截取肺結節三維數據即可得到分類結果,無需其他復雜的特征預處理過程,如表5。
本文提出深度三維多尺度交叉融合卷積神經網絡用于良性和惡性肺結節分類。網絡可以自動提取肺結節的三維多尺度特征,數據輸入方式還加快了網絡三維卷積的計算速度。為了解決特征提取過程中細節信息損失的問題,對不同尺度的特征進行交叉融合。因此,獲得了三維肺結節的完整特征表示,通過Softmax多分類器對判別特征進行硬投票決策,實現了具有兼顧靈敏性和特異性的高精度分類。本文算法采用三維數據處理方式,卷積過程中會增加計算量,限制算法的應用。同時算法需要大量的標簽數據。后期可引入弱監督算法,減低對數據標注的依賴。同時引入遷移學習選用合適的模型進行參數初始化,加快網絡的訓練速度和優化預測結果。

表5 方法與其他方法的比較Table 5 Comparison of method with other methods %