馮妍妍,魏德健,倪 偉
1.山東中醫藥大學 智能與信息工程學院,濟南250355
2.肥城市人民醫院 信息管理科,山東 肥城271600
2020 年全球新增癌癥病例1 930 萬例,新增癌癥致死病例1 000 萬例。其中,肺癌仍然是全球相關癌癥死亡的主要原因[1]。在我國,2020年肺癌位居癌癥發病率第二,死亡率首位[2]。研究表明,診斷滯后是導致高死亡率的主要原因。早期診斷肺癌的首要手段是采用多種篩查方法鑒別肺結節,并對其進行良惡性分類。放射科醫生對肺結節分類是一個非常繁瑣耗時的過程,極易出現漏診或誤診。因此,醫生需要計算機輔助來提高診斷效率,降低診斷成本。
近年來,隨著計算機斷層掃描(CT)成像技術[3]的不斷發展,深度學習在CT 肺結節診斷中的表現引起了學者們的極大關注[4]。傳統的模式識別方法不易提取特征,需要放射科醫生做大量的研究工作,而深度學習可以通過修改超參數對提取的紋理、形態等特征進行選擇與組合,使用最優組合來提高肺結節的分類精度與診斷速度。因此,深度學習在計算機輔助診斷相關研究領域中的重要性日益增加。對于肺結節診斷,文獻[5-11]是近期發表的幾篇優秀的綜述,但是都未對肺結節分類的深度學習方法進行系統地概述。為了給肺結節輔助診斷相關研究領域的未來工作提供參考,本文主要從數據集介紹、肺結節良惡性分類和惡性等級分類的深度學習方法三個方面進行介紹,總結了2019—2021 年在肺結節分類中提出的深度學習算法及其應用效果,指出目前存在的問題,并對未來發展趨勢進行展望。
肺部數據庫是計算機輔助診斷肺結節的重要組成部分。為了對肺結節診斷的深度學習方法進行總結與比較,本章介紹了近幾年肺結節輔助診斷相關工作中較常用的數據集。
The Lung Image Database Consortium(LIDC-IDRI)[12]
是最權威的公共肺癌篩查數據庫之一。LIDC-IDRI 數據集共包含來自1 010名患者的1 018個胸部螺旋CT掃描,圖像數據以DICOM 格式存儲,像素值大小為512×512,圖像厚度范圍為0.5~5 mm。LIDC-IDRI 數據集的每個案例都由數百張圖像和一個可擴展標記語言(extensible markup language,XML)的文件組成。XML文件記錄了4位經驗豐富的放射科醫生注釋的結果,包含了已識別的肺病變詳細信息。專家將檢測到的肺病變按形態特征分為三類,即結節(直徑≥3 mm)、微結節(直徑<3 mm)和非結節,并將標注后的結節分為四個類別,包括未知、良性、原發性肺癌和轉移性病變。由于該數據集為研究者提供了一個準確評估計算機輔助診斷性能的機會,因此被廣泛使用。
Lung Nodule Analysis 2016(LUNA16)[13]數據集是數據集LIDC-IDRI 的一個子集,共包含888 張胸部CT圖像。放射科醫生在肺結節CT掃描中共做了36 378個注釋,至少由1、2、3 或4 名放射科醫生注釋的結節個數分別為2 290、1 602、1 186和777。LUNA16選取放射科醫生(至少4 名放射科醫生中的3 名)注釋的1 186 個結節作為參考標準中的陽性樣本,即算法應該檢測到的病變。在當前研究領域,該數據集的使用也越來越廣泛。
National Lung Screening Trial(NLST)[14]美國國家篩查試驗數據庫于2009年收集,由低劑量CT圖像和胸片構成,旨在確定相對于傳統胸部X 線攝影篩查,通過低劑量螺旋CT 篩查肺癌能否降低高危人群的肺癌死亡率。該數據集提供超過75 000 張CT 篩查的圖像和1 200張肺癌患者的病理圖像,包括參與者篩查結果、診斷程序、是否患有肺癌和死亡率的數據。
Data Science Bowl 2017(DSB)[15]數據庫來源于Kaggle 組織的大型競賽,該數據集由2 101 例患者胸腔的軸向CT 掃描組成,每個樣本包含100 到400 張CT 圖像,圖像數據以DICOM格式存儲,且包含掃描的具體參數及切片厚度等詳細信息。DSB 數據集雖然提供了患者的CT 掃描圖像以及癌癥狀態,但是沒有提供肺結節的位置和大小。目前,該數據集還未公開使用。
Japanese Society of Radiology Technology(JSRT)[16]
數據庫是日本放射技術學會發布的標準公共數字圖像數據庫。JSRT數據庫由3位放射科醫生標注結節,包含從14 個醫療中心選擇的247 張CT 圖像,其中154 張有結節,93 張無結節。每張CT 圖像大小為2 048×2 048,灰度像素為4 096,肺結節直徑為5~40 mm。所有肺部CT均由放射科醫生根據患者的年齡、診斷結果、結節坐標進行標記。當肺圖像數據不足時,JSRT 數據集上的肺成像模型可以提供有效、嚴格的計算機輔助診斷。
Danish Lung Cancer Screening Trial(DLCST)[17]
丹麥肺癌篩查試驗數據庫包括來自718 名患者的1 152個結節,其中不包括良性鈣化的結節。DLCST 數據庫共由2位經驗豐富的放射科醫生對肺癌高風險患者CT進行評估,并通過手動測量的方法將尺寸小于3 mm 的結節設定為評估陽性結果的下限。目前,該數據集已公開使用。
Ali-Tianchi contest dataset(Ali Tianchi)[18]由阿里云、英特爾等聯合舉辦的天池醫療大賽提供,包括1 600名患者的2 000例CT掃描。結節由3位放射科醫生標記,信息標記形式與LUNA16相同。所有CT的最大切片厚度限制為2 mm。結節尺寸分布為:50%的結節在5~10 mm,其他的在10~30 mm。文件以mhd 格式保存。該數據集基于中國患者的樣本,有助于進一步驗證擬議系統在當地臨床研究中的性能。
LUNGx[19]挑戰賽是由SPIE、AAPM 和NCI 等聯合贊助的肺結節分類科學挑戰賽。該比賽的目的是對肺結節樣本進行良惡性分類。CT 圖像分為兩個階段,校準階段的CT 掃描10 次,每5 次顯示一個良性結節或一個惡性結節,測試階段數據集包含來自60個CT的73個結節。該數據集目前已公開使用。表1 總結了肺結節輔助診斷常用數據集。

表1 肺結節輔助診斷常用數據集Table 1 Common datasets for auxiliary diagnosis of pulmonary nodules
基于計算機輔助診斷(CAD)系統對肺結節良惡性分類是早期診斷肺癌的關鍵步驟。肺結節判斷良惡性的特征指標包括大小、形狀、鈣化程度等。圖1是文獻[20]提出的良惡性結節原始圖像。本章從無監督學習、有監督學習、遷移學習三個方面介紹結節良惡性分類中常用的深度學習方法,主要有棧式去噪自編碼器(stacked denoising autoencoder,SDAE)、深度置信網絡(deep belief network,DBN)、生成對抗網絡(generative adversarial network,GAN)、卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)和遷移學習。其中SDAE、DBN和GAN屬于無監督學習,CNN 和RNN 屬于有監督學習。本章將從以上深度學習方法來分析最新的研究成果以及在肺結節分類中的應用情況。

圖1 良惡性結節原始圖像Fig.1 Original image of benign and malignant nodule
自動編碼器(AE)屬于無監督學習,其訓練過程不需要大量標記數據。在此基礎上,去噪自動編碼器(DAE)為防止過擬合對輸入層數據加入噪音,提供了強大的噪聲消除功能。雖然增強了模型的魯棒性,但是DAE 的全連接層會引入大量的網絡參數。SDAE 是由多個DAE 堆疊而成的深度架構,增強了網絡的泛化性能。Lu 等人[21]選擇3 層SDAE 網絡對肺結節進行良惡性分類,在一定程度上改善了分類效果。羅嘉瀅等人[22]提出一種基于多特征的廣義深度自編碼網絡,能夠全面地提取肺結節特征,并選擇特征融合策略進行分類,分類準確率達94.72%。
由上述分析可知,雖然該網絡模型參數量大,訓練困難,但是模型訓練不需要大量的標注樣本,緩解了標記數據缺乏的問題,仍有一定的研究價值。
DBN 是概念上的兩層神經網絡,包括多層受限玻爾茲曼機(RBM)和多層感知(MLP)。每一層都有神經元序列、輸入層和隱藏層。DBN 模型中隱藏層及各層節點的數量直接影響結節的分類精度,需要設置實驗對其數量進行研究。
張華麗等人[23]提出了一種基于DBN的肺結節良惡性分類網絡模型。該模型是由輸入層、4個RBM和輸出層堆疊而成的網絡結構,如圖2所示。在DBN網絡結構中,輸入層為RBM1 的可見層,相鄰兩層單元節點以全連接的方式相互關聯,每層的單元節點沒有連接,最后通過Softmax層對結節特征進行分類。模型使用LUNA16的部分樣本和合作醫院提供的肺部CT 圖像進行訓練,分類準確率為89.39%。在此基礎上,張婷等人[24]提出了一種改進的DBN網絡模型。一般的預訓練與微調方法會使模型中的隱藏單元表現得比較相似,這將對網絡分類性能產生負面影響。針對此問題,文獻[24]將極限學習機[25](extreme learning machine,ELM)的優點應用于DBN 模型訓練中,ELM 學習速度快,泛化性能好,與通常所用的反向微調參數、遞歸貪婪等學習框架相比,可以有效地改善DBN的分類性能。

圖2 DBN網絡結構圖Fig.2 DBN network structure diagram
由上述分析可知,DBN模型的輸入要求一維向量,需要從壓縮后的CT 圖像提取特征信息,并拉伸成一維向量送入DBN模型中進行良惡性分類。雖然分類精度不高,且輸入數據具有平移不變性,但是改進的DBN在一定程度上改善了原始DBN 的分類性能,仍有一定的研究價值。
生成對抗網絡(GAN)由兩個神經網絡構成,一個生成器,一個鑒別器,二者相互博弈,最終達到納什平衡。由于結節種類多樣且分布不均勻,原始GAN 網絡對肺結節分類時會存在穩定性不足的問題[26]。研究者針對此問題,對原始GAN進行改進,提出多鑒別器生成對抗網絡(MDGAN)和深度卷積生成對抗網絡(DCGAN)。
Kuang 等人[27]使用無監督學習識別肺結節,提出了一種多鑒別器生成對抗網絡(MDGAN)。該研究方法主要分為三個步驟:首先,建立一個用無標記良性肺結節圖像訓練的生成模型;其次,采用編碼器建立原始圖像的空間映射;最后,計算GAN鑒別器特征損失對肺結節進行評估。模型訓練使用數據集LIDC-IDRI的1 375個結節,實驗結果顯示良惡性分類準確率為95.32%。李莉等人[28]針對穩定性不足的問題,提出了一種改進的深度卷積生成對抗網絡(DCGAN),運用半監督FCM聚類方法對原始結節圖像信息進行特征提取和量化,引入加權損失函數最大限度增加了模型識別精確度。
由上述分析可知,生成對抗網絡的生成模型用以學習真實樣本的潛在分布,判別模型用以鑒別樣本是否為生成數據。大量研究通過對原始GAN 進行改進,提高網絡模型的圖像生成能力和判別能力,解決穩定性不足的問題。但是在改進的GAN 網絡中,生成樣本與原始樣本仍有較大的差距,需要大量的時間進行訓練,引入半監督FCM 方法幫助生成更高質量的樣本數據,降低網絡復雜度。GAN 模型訓練不需要大量的標記數據。但是,上述文獻主要針對孤立性肺結節的良惡性判斷,對于背景復雜的結節或者粘連性結節的識別與分類仍需要進一步研究。
對于無監督學習,有監督學習是一種目的明確的訓練方式,更多研究者傾向于使用有監督學習的方法對肺結節進行良惡性分類。卷積神經網絡(CNN)的基本結構由輸入層、卷積層、池化層、全連接層、輸出層五部分組成。本節介紹的卷積神經網絡有二維卷積神經網絡(two dimension convolutional neural network,2D-CNN)和三維卷積神經網絡(three dimension convolutional neural network,3D-CNN)。
2.4.1 2D-CNN
2D-CNN的含義包括兩個方面,CNN的卷積核為二維卷積核或者是CNN 的輸入為二維切片圖像。雖然2D-CNN框架會損失結節的立體信息,但有些方法利用相鄰切片之間的關系仍能保留結節的三維信息。
Hua 等人[29]在2015 年首次將2D-CNN 應用于肺結節分類中,實驗結果表明分類效果優于傳統的分類方法。但是肺結節體積微小,放射異質性[30]可能導致一些結節不可見。為了解決此問題,文獻[31]將領域知識納入肺結節良惡性分類,提出了一個基于多視圖知識的卷積神經網絡模型(MV-KBC),實現了端到端的訓練方式。在此基礎上,Zuo 等人[32]使用知識轉移[33]方法轉移和重構了一個多分辨率二維卷積神經網絡(2D-CNN)。知識轉移可以將知識從源模型轉移到目標領域,即在目標領域保留源模型的主要結構。該網絡模型可以將肺結節候選區域映射為不同分辨率和尺度的特征,因此可以成功識別一些由放射學異質性引起的不太明顯的結節。在數據集LUNA16與生成樣本集上進行測評,準確度為97.33%,結果表明分類效果優于大多數的分類方法,但是仍無法獲取切片之間的上下文信息。
一個完整的肺結節通常分布在多個切片上,2DCNN方法在獲取切片之間的上下文信息時很有限。為此,Lei 等人[34]嘗試將肺結節的體積圖像采集到二維網絡(2D-CNN)中,以簡化處理。通過引入軟激活映射(SAM)方法分析細粒度肺結節形狀和邊緣特征,使用編碼-解碼結構提取特征。該模型僅使用了440個參數,與三維模型相比,降低了模型復雜度。但是肺結節形狀和大小復雜多樣,卷積神經網絡由于內核較小無法檢測到全局特征,而特征金字塔網絡(FPN)可以在不同層次上建立特征之間的關系,包含局部特征和全局上下文[35]。受對象檢測中特征金字塔網絡的啟發,文獻[4]提出了一種用于細粒度分類任務的網絡,通過建立特征層次之間的關系來預測惡性結節的概率。
由上述分析可知,由于醫學圖像大部分為三維圖像,故2D-CNN 的改進工作主要圍繞如何使用2D 卷積核獲取3D空間信息展開,可以適當減少3D網絡分類的計算成本。在2D-CNN結構中,上述文獻提出的主要改進包括:(1)引入知識轉移方法,成功識別一些由放射性異質引起的不太明顯的結節;(2)納入領域知識,融合多視圖子模型,實現端到端的訓練方式;(3)開發軟激活映射方法(SAM)分析細粒度結節特征,降低模型復雜度;(4)建立不同層次特征之間的關系獲取特征最優表示。2D-CNN主要采用二維切片的方法進行分類,不能有效利用CT 圖像三維信息,但是具有網絡結構簡單和計算時間短等優點。基于2D-CNN 的結節良惡性分類方法結果比較如表2所示。

表2 基于2D-CNN的肺結節分類方法結果比較Table 2 Comparison of results of lung nodule classification methods based on 2D-CNN
2.4.2 3D-CNN
相比2D-CNN,3D-CNN 使用三維卷積核。相比二維圖像,三維圖像包含更多的潛在特征信息,有助于提高分類精度并做出正確的診斷結果。本小節通過對文獻的整理與歸納,進一步細分為兩類:單路徑CNN和多路徑CNN。
(1)單路徑
單路徑CNN 的核心思想是各網絡串行連接,即將上一個網絡的輸出作為下一個網絡的輸入。
文獻[39]提出了一種基于結節級別的3D-CNN 算法,研究了數據擴充技術和網絡訓練代價函數的修改,用以解決數據中良性和惡性樣本不平衡的問題。該文獻的貢獻是對3D CNN結構進行綜合評估,主要評估了三種不同輸入大小和層數的3D CNN架構,研究結果表明輸入大小為32×32×32像素、2塊卷積層和2塊池化層效果最好。在數據集LIDC-IDRI測試中準確度為91.88%。在3D-CNN 的基礎上,文獻[40]使用密集連接結構與擴張卷積提取多尺度特征,文獻[41]使用深度學習導向策略(HONORS)過濾引導金字塔網絡(F-GPN),不僅能夠提取局部、全局特征,還能獲取結節之間的復雜關系。但是結節之間的尺度相差較大,且不同結節的分辨率不同。文獻[42]針對多尺度結構問題,將局部-全局神經網絡融合來預測結節的惡性程度。該方法使用殘差卷積和非局部卷積提取局部、全局特征。研究所提出的方法AUC為0.956 2,結果表明局部-全局神經網絡有助于增強多尺度特征的提取能力。針對肺結節分辨率不同的問題,文獻[20]提出一種基于三維各向異性卷積的分類網絡,將標準三維卷積拆分為1×1×k和k×k×1 兩種各向異性卷積,緩解了圖像分辨率不同對肺結節分類的影響。文獻[43]采用插值方法解決分辨率不同的問題,但是該方法會導致分辨率降低。
由上述分析可知,單路徑3D-CNN能夠充分地提取結節的特征信息。在3D-CNN基礎上,上述文獻提出的改進工作主要包括:①改進網絡訓練代價函數及數據擴充技術,解決數據不平衡的問題;②改進密集塊結構,優化特征提取;③引入擴張卷積,增加內核大小,提取潛在的有效特征;④引入導向策略,提取局部、全局特征及結節之間的復雜關系。雖然這些改進方案在一定程度上改善了分類效果,但是3D卷積核相比2D卷積核會增加網絡的復雜度及訓練時間,在一定程度上增加了計算成本。
(2)雙路徑
雙路徑網絡(dual path network,DPN)首次提出是在2017 年ILSVRC 物體檢測競賽中,通過High Order RNN(HORNN)框架將ResNet 和DenseNet 進行了融合[44]。在DPN 基礎上,研究者提出的雙路徑CNN 核心思想包括兩個方面:①多網絡結構并行,各網絡分工不同;②多分類器并行,各分類器分類效果不同。
受雙路徑網絡(DPN)在物體識別和結節分類中成功的啟發,Jiang等人[45]提出了一種基于注意機制的肺結節三維雙向特征級融合網絡。引入空間注意學習機制解決了肺結節在整個3D 空間中表達不均勻的問題,進一步平衡了真陽性率(TPR)與假陽性率(FPR)。但對于邊緣條件復雜的肺結節,多尺度結構、多分辨率和殘差連接問題并未得到有效的解決,對肺結節的分類效果并不是很理想。為了解決此問題,文獻[46-47]在雙路徑CNN中嵌入擠壓、激發(SE)單元,用以提取上下文特征和空間特征。文獻[47]還引入RAN 模塊保證獲取特征的完整性,過濾冗余特征。模型在數據集LIDC上測評,F1-score 達到了91.0%,表明了雙路徑CNN 在獲取結節特征方面具有很大的優勢。Polat 等人[48]構建了混合3D-CNN,網絡結構如圖3 所示。該網絡結構雙路徑形式體現在分類層。全連接層的輸出被分別輸入到基于Softmax和基于RBF的SVM分類器。但是與文獻[49-50]相比,混合的兩種CNN結構不同,分別是3D-AlexNet和3D-GoogleNet,增強了特征表達能力。但是,所提出的方法主要用于肺部孤立結節(SPNS)的良惡性分類。針對粘連性的肺結節,文獻[51]提出的雙路徑模型同時處理結節目標和上下文圖像。這兩種路徑代表不同的深度特征提取策略,即監督模型與無監督模型。該網絡模型將提取的結節內部特征與背景屬性結合起來訓練,成功識別肺結節的復雜特征,為獲取更多的特征信息提供了方向。但是,異質性與復雜性使得可以評估的粘連性結節數量太小。因此,需要更加重視收集新數據。同時,也可以在可視化和解釋性技術上做更多的努力,使模型更加透明,從而更容易應用于臨床實踐。

圖3 3D-CNN網絡結構圖Fig.3 3D-CNN network structure diagram
上述文獻表明了雙路徑3D-CNN 在獲取結節特征方面的巨大優勢。在此基礎上,Zhao等人[52]引入多任務學習的方法,構建了一個新的雙路徑CNN 模型。該模型結合了多流卷積神經網絡結構、殘差網絡結構和多任務學習網絡結構,因此稱之為多流多任務網絡(MSMTCNN),網絡結構如圖4 所示。由三部分組成:①兩個不同尺度的三維圖像塊(S1 和S2)作為模型的輸入,使用多流CNN實現初始特征提取;②將融合的三維特征映射輸入微調后的三維殘差網絡(ResNet-22)提取深度特征;③多任務學習與肺結節的屬性分類相結合,網絡結構包括9個全連接層,第一個全連接層FC0用于區分肺結節良惡性。其余8個全連接層分別對應8個屬性分類。多尺度特征融合使網絡關注結節背景信息,提高了網絡的泛化能力,多任務學習將不同屬性的分級融合到分類任務中,提高網絡的分類性能。盡管多任務學習可以發現不同任務之間的內部關系,但是手動調整多任務損失函數的權重組合顯然是不明智的。與2D-CNN 相比,雖然獲得了更好的分類性能,但也存在著網絡結構復雜和計算成本高的缺點。

圖4 3D-MSMT-CNN網絡結構圖Fig.4 3D-MSMT-CNN network structure diagram
由上述分析可知,雙路徑CNN 的改進主要采用多網絡結構的形式,各網絡分工不同,能夠獲取結節的局部、全局特征等信息,并將其與屬性等信息進行融合,增強了肺結節的特征表達能力,從而有效地提高網絡的分類性能。在卷積神經網絡的基礎上,上述文獻做出的主要改進包括:①引入擠壓、激發模塊,模型在特征提取過程中自動集中于結節所在區域,并篩選重要通道;②引入剩余注意網絡,過濾冗余特征;③引入空間注意機制,解決了結節在整個3D空間中表達不均勻的問題,且增強肺結節預測的穩健性;④引入殘差卷積、多任務學習提高分類精度。雖然這些改進方案在一定程度上改善了分類效果,但是多個網絡的集成會導致計算復雜和訓練時間長等問題。
綜上所述,基于CNN 的方法是肺結節良惡性分類中最常用的方法,也是目前深度學習中應用最廣泛的方法。與傳統的SDAE、DBN 方法相比,CNN 具有較強的特征提取能力,但仍存在以下問題需要解決:①數據集中CT 圖像分辨率不同,影響分類精度;②網絡模型的可解釋性差;③粘連性結節、背景復雜的結節分類效果并不理想,且該類結節數量太小,不能進行更全面的評估;④模型的泛化能力低,對于多任務學習分類效果并不理想;⑤網絡模型在訓練過程中容易出現過擬合現象,目標函數優化困難。基于3D-CNN的結節良惡性分類方法結果比較如表3所示,基于CNN肺結節良惡性分類方法的改進及模型分類效果如表4所示。

表3 基于3D-CNN的肺結節分類方法結果比較Table 3 Comparison of results of lung nodule classification methods based on 3D-CNN

表4 基于CNN分類方法的改進及模型分類效果Table 4 Main improvement of CNN-based classification method and model classification effect
循環神經網絡(recurrent neural network,RNN)主要用于解決序列數據問題。與CNN 相比,RNN 神經元的輸入包括輸入層與上一時刻神經元的共同輸出。由于肺結節的良惡性會隨著時間發生改變,尤其對于惡性結節需要隨訪觀察,因此使用RNN 實現肺結節在不同時間點的分類。
為了評估肺結節在不同時間點(通常間隔一年進行三次掃描)的表現,文獻[37]提出了一種用于單時間點肺結節良惡性分類的卷積循環網絡(CNN-RNN,CRN),RNN通過順序處理數據來隱式地編碼二維切片的三維信息,將特征序列壓縮簡化,但仍可以保留結節良惡性分類的語義特征。但是CRN模型只考慮了單時間點結節分類,未涉及到多時間點的研究。文獻[38]針對多時間點研究的問題,對CRN模型進行改進,將遞歸模塊替換為切片注意機制,不局限于遞歸模塊的順序處理機制,對肺結節進行單時間點和多時間點分類,以探索時間信息對結節惡性程度預測的價值。實驗結果表明,多時間點分類與單時間點相比,幾乎每個性能的指標都有所提高。在此基礎上,Ni等人[53]提出一種改進型RNN,網絡結構如圖5 所示。該網絡包含三個輕量卷積層和三個池化層,移除全連接層,直接與LSTM 連接。該網絡采用三個大小不同的卷積核提取結節特征以減少噪聲對訓練網絡的影響。LSTM 用以學習結節特征之間的相關信息。該混合網絡模型的參數量明顯減少,實現了小樣本訓練的靈活性。

圖5 基于改進型RNN的網絡結構圖Fig.5 Network structure diagram based on improved RNN
由上述分析可知,RNN模型可對序列內容建模,對肺結節進行不同時間點的分類研究,但是RNN不具備特征學習能力且易出現梯度消失與梯度爆炸的問題。改進型RNN雖然解決了該問題,但仍需要較長的訓練時間。
遷移學習是指在解決特定任務時學習模型所產生的存儲知識可應用于解決不同任務的一種方法。在醫學領域,缺乏可靠標記的大規模數據集,為了緩解卷積神經網絡由于醫學圖像數量少而導致的模型訓練困難,遷移學習是一種穩健且可取的策略。
Wang等人[54]使用inception-v3遷移學習模型自動提取肺部圖像數據特征,使用不同的分類器(Softmax、Logistic、SVM)對是否存在肺結節進行分類,并與深度卷積神經網絡模型的分類效果進行比較。研究選擇JSRT數據集,靈敏性和特異性分別為95.41%和80.09%,該模型的特異性和敏感性之間存在較大差距,仍需要進一步的研究。Huang等人[55]使用遷移學習區分暫時性和持續性肺結節,Apostolopoulos 等人[56]主要針對孤立性肺結節進行早期診斷,證明了遷移學習是提取胸部CT圖像代表性成像標志物的有效策略,解決了誤報率高、訓練時間長等問題。
由上述分析可知,遷移學習緩解了卷積神經網絡由于醫學圖像數量少而導致的模型訓練困難,極其適用于小數據集分類任務。
肺結節的分類任務有兩種:(1)將樣本分為良性或惡性;(2)對肺結節的惡性等級分類。圖6是文獻[58]提出的五個等級的結節原始圖像。目前對結節的良惡性分類已經取得了較好的分類效果,應用于良惡性分類的深度學習技術越來越多的被應用于惡性等級分類中,如深度卷積生成對抗網絡(deep convolutional generative adversarial networks,DCGAN)、多尺度卷積神經網絡(multi-scale convolutional neural networks,MCNN)、U型網絡(U-Net)和集成學習。本章將探討以上深度學習方法在肺結節惡性等級分類中的最新應用成果。

圖6 五等級結節原始圖像Fig.6 Original image of five-grade nodules
徐久強等人[65]首次使用深度卷積生成對抗網絡(DCGAN)對肺結節惡性等級進行分類。LIDC-IDRI數據庫中將肺結節惡性等級分為5 級:(1)良性;(2)疑似良性;(3)未知;(4)疑似惡性;(5)惡性[66]。研究選擇該數據集和合作醫院的11 954 個肺結節CT 圖像,其中選擇等級1~5 的結節個數分別為570、2 119、2 914、2 532和3 819個。改進的DCGAN模型具有較強能力的判別模型和良好分類能力的生成模型,等級分類準確率達70.89%。但是在圖像生成過程中,輸入的均勻分布會增加圖像生成的難度,影響模型的分類性能。
Wang 等人[58]提出一個3D 多尺度卷積神經網絡(MCNN)對肺結節進行等級分類。惡性程度等級標準與文獻[66]相同。與原始DenseNet相比,該研究在每個DenseNet末尾使用全局池化層,不僅減少了參數量還緩解了過擬合問題。結果表明,對于五個等級的識別準確率分別達到了73.1%、38.3%、88.9%、49.4%、87.4%,其準確度比原始3D DenseNet 提高了6 個百分點。但是一些小結節由于體積小無法提取特征信息,即使采用多尺度的方法,2級和4級的分類精度仍然很低。
U-Net基本原理是采用編碼-解碼結構和跳躍連接,實現少量圖像的端到端訓練[67]。由于惡性結節的存在并不一定意味著癌癥,因此需要對結節的惡性等級分類,即根據病例預測患癌概率(病例1:兩個大腫瘤,患癌概率高;病例2:幾個中等大小的結節且具有顯著的癌癥特征,患癌概率中等;病例3:假陰性病例,均無明顯結節,患癌概率低;病例4:假陽性病例,均有可疑結節,患癌概率不確定;病例5:幾個小結節,無患癌概率)。Liao等人[68]提出的改進型U-Net 由兩個模塊組成,一個用于識別可疑結節,另一個根據輸出結果選擇結節,并將其與噪聲等相結合,評估受試者患癌概率。在實驗中,通過改變閾值預測患癌概率(如果預測概率高于閾值,則分類為癌癥)。閾值設置為0.5時,訓練集和測試集的準確率分別為85.96%和81.42%。閾值設置為1 時,訓練集和測試集的分類準確率分別為73.73%和69.76%。
Xiao 等人[69]使用集成學習對肺結節進行惡性等級分類。通過加權投票規則預測等級,即根據分類精度對分類器分配不同的權重,獲得一個綜合分類器對結節惡性特征進行評分,最后進行等級分類。研究選擇LIDC數據集的1 018張具有臨床信息的CT圖像,醫生使用特定數字對結節的惡性等級進行量化,并根據數據集的定義將量化范圍設置為1~5。該研究對多類結節的分類準確率達93.1%。
綜上所述,準確評估肺結節的惡性等級對評估患癌概率很重要。雖然上述文獻所提出的網絡模型成功地完成了結節的等級分類,但分類精度仍然很低。因此,肺結節惡性等級分類的深度學習方法仍需進一步研究。
深度學習在肺結節輔助診斷中的應用已成為醫學圖像處理領域的研究熱點。本文對各深度學習模型的主要思想、性能優缺點和分類任務進行了系統概述。為了使讀者對肺結節分類的深度學習方法有深刻的理解,本章進行了對比分析,如表5所示。

表5 基于深度學習的肺結節分類方法總結Table 5 Summary of deep learning-based classification of pulmonary nodules
本文闡釋了深度學習方法在肺結節良惡性分類及惡性等級分類中的應用。對于肺結節良惡性分類,深度學習方法已經取得了較優的分類效果。從無監督學習、有監督學習和遷移學習三大方面對神經網絡模型及其應用效果進行了總結。對于肺結節惡性等級分類,深度學習算法的分類性能仍有待提升。在肺結節輔助診斷領域的研究難點總結如下:(1)肺結節標注樣本的缺乏,易導致網絡模型訓練困難等問題;(2)不同掃描儀存在不同的成像方式,導致數據集中圖像特征的異質性;(3)網絡模型的泛化性能還有待提升;(4)構建神經網絡模型的可解釋性較差;(5)深度學習對肺結節惡性等級分類的準確率有待進一步提高;(6)基于深度學習的診斷方法未能大范圍應用于臨床實踐。
在未來研究中,對肺結節良惡性分類及惡性等級分類做出以下展望:(1)開發基于少量樣本的神經網絡結構算法,解決數據不足問題;(2)研究掃描儀設置的影響,如重建技術和參數等,減少醫療掃描儀的放射異質性和肺結節多樣性;(3)嘗試學習多模態數據之間的關系,如電子病歷、CT 圖像等,提高輔助診斷系統的可解釋性;(4)進一步探索肺結節多時間點分類的深度學習方法,提高診斷準確率及診斷過程的合理性;(5)將計算機輔助診斷系統與醫院現有的信息系統進行集成,將其充分應用到臨床實踐中;(6)深度學習輔助診斷系統在進行肺結節分類的同時,也可以加入其他疾病的檢測,提升模型的泛化能力,提高臨床決策支持系統的通用性。
深度學習應用于肺結節的良惡性分類效果顯著,有希望解決肺結節良惡性及惡性等級的精確分類。但是,目前仍存在上述總結的一些問題:如圖像數據缺乏、未能大范圍應用于臨床實踐等。研究解決這些問題,是未來肺結節良惡性分類的重要方向。