蔣佳旺,陳艷,王佳慶
淮安市第二人民醫(yī)院 設(shè)備科,江蘇 淮安 223002
顱內(nèi)腫瘤又稱腦腫瘤、顱腦腫瘤,是指發(fā)生于顱腔內(nèi)的神經(jīng)系統(tǒng)腫瘤,包括起源于神經(jīng)上皮、外周神經(jīng)、腦膜和生殖細胞的腫瘤,淋巴和造血組織腫瘤等[1-3]。研究表明顱腦腫瘤占全身腫瘤的5%左右,其中占兒童腫瘤的70%,且呈現(xiàn)逐年急劇上升的趨勢,由于顱腦腫瘤膨脹的浸潤性生長,迫使腦腫瘤壓迫腦組織,導致中樞神經(jīng)受損,臨床表現(xiàn)主要為頭痛,嘔吐,視乳頭水腫、視力減退,頭昏、可發(fā)癲癇,甚至昏迷危及生命[4]。
腦瘤的診斷主要依賴于臨床癥狀、體征、神經(jīng)系統(tǒng)檢查、眼底檢查、頭顱X 線攝片的陽性結(jié)果,采用頭顱CT檢查或磁共振成像進行復檢,CT 檢查具有分辨率高,并易于顯示顱內(nèi)腫瘤含有的鈣斑、骨骼、脂肪和液體,CT可同時顯示腦室、腦池、硬腦膜和顱骨,利于了解腫瘤與毗鄰的解剖關(guān)系等優(yōu)點,是目前診斷顱腦腫瘤的常見手段。根據(jù)影像學診斷,通常視顱腦腫瘤惡性程度可將腫瘤分為O 級、I 級、II 級、III 級以及IV 級五類分型[5-7]。高效、準確地檢出顱腦腫瘤,提高顱腦腫瘤分型速度和準確率,不僅有助于本病的早期發(fā)現(xiàn),同時可綜合判斷,制定有效的治療措施。本文旨在使用顱腦腫瘤CT 層掃圖像,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和遷移學習(Transfer Learning,TL)的方法對顱腦腫瘤不同分型進行自主學習、自動分型,以更好的滿足臨床需求。
CNN 是一種深度前饋人工神經(jīng)網(wǎng)絡(luò),其實質(zhì)是一種多層感知器,是一個具有多層的神經(jīng)網(wǎng)絡(luò),而且這些層次之間具有明顯的先后關(guān)系,是由輸入層、隱含層、輸出層組成。CNN 的特點在于隱藏層分為卷積層和池化層[8]。近年來,隨著計算機運算速度的快速提高,CNN 取得了突破性的進展,現(xiàn)在,CNN 已經(jīng)成為眾多科學領(lǐng)域的研究熱點之一,現(xiàn)已被廣泛應用于語音識別、人臉識別、圖像分割、醫(yī)學圖像處理等模式分類領(lǐng)域[9-10],CNN 結(jié)構(gòu)圖如圖1 所示。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
卷積層的主要作用是特征的提取,把輸入的圖像經(jīng)過多個卷積核的卷積計算,可以得到多個卷積特征圖,圖像特征更多關(guān)注圖像局部特征,因此卷積核大小一般小于輸入圖像大小[11]。當輸入圖像大小為Wi×Hi×Di(長×寬×通道數(shù)),指定卷積核數(shù)量K、卷積核大小F、步長S以及邊界填充P后,經(jīng)卷積后可得到特征圖像Wo×Ho×Do,見公式(1)。

在CNN 中,卷積與卷積之間一般都會存在一個池化層,其作用主要為降維、擴大感知野、實現(xiàn)平移、旋轉(zhuǎn)和尺度不變性,池化操作和卷積操作十分相似,也使用卷積算法實現(xiàn),目前使用比較多的池化操作主要有最大池化以及平均池化[12]。
TL 是指一種學習對另一種學習的影響,或習得的經(jīng)驗對完成其他活動的影響,近年來得到持續(xù)的關(guān)注,被認為是機器學習的后續(xù)研究方向。在傳統(tǒng)的圖像分類學習中,為了保證訓練后的網(wǎng)絡(luò)具備較高的識別率,常規(guī)處理方式是網(wǎng)絡(luò)使用獨立同分布的訓練集和測試集,此外可增加訓練集圖像數(shù)量,然而在實際應用中,同時滿足上述兩者的卻很難做到[13-15]。
CNN 模型參數(shù)訓練需要大規(guī)模的訓練集進行訓練,然而,對于醫(yī)院而言,對腦腫瘤診斷而言,缺少大規(guī)模的標記樣本,因此,腦腫瘤模式識別需要采用TL 的方法進行處理。TL 是將一個已經(jīng)訓練好的模型參數(shù)遷移到另一個新的神經(jīng)網(wǎng)絡(luò)模型中,并使用遷移來的參數(shù)輔助新的神經(jīng)網(wǎng)絡(luò)模型進行訓練。目前所用的TL 可分為三部分:同構(gòu)空間基于實例的TL,同構(gòu)空間下基于特征的TL 與異構(gòu)空間下的TL[16]。
Caffe 框架是深度學習的主要框架之一,是一種基于C 語言編寫的開源框架,并提供面向命令行,同時設(shè)有Python 和Matlab 接口。Caffe 是通過Layer 來完成所有運算的,當Caffe 定義多層Layer 網(wǎng)絡(luò)模型時,網(wǎng)絡(luò)模型從Data Layer 開始、以Loss Layer 結(jié)束[17]。
深度CNN 需要大量的數(shù)據(jù)樣本對網(wǎng)絡(luò)進行訓練,來優(yōu)化各節(jié)點參數(shù),以完成模式識別的精確分類,為了使的學習的特征具有代表性和魯棒性,大量的訓練樣本是模型優(yōu)劣關(guān)鍵因素,而TL 得到廣泛的應用得益于龐大的ImageNet 數(shù)據(jù)庫的支持,該數(shù)據(jù)庫于2009 年在網(wǎng)上公布。因為它規(guī)模足夠大(包括120 萬張圖片),有助于訓練普適模型,現(xiàn)在已經(jīng)被廣泛的訓練集。
對CNN 而言,通過卷積核不斷的對圖像進行卷積運算,逐層對圖像特征進行學習和提取,并將低層圖像特征通過不斷卷積核池化轉(zhuǎn)變成高層表達,隨著CNN卷積層數(shù)的增加,會導致圖像特征過度學習、過度擬合現(xiàn)象的產(chǎn)生。因此,本文使用Caffe 框架搭建CNN,使用ImageNet 圖像大數(shù)據(jù)集對網(wǎng)絡(luò)進行預訓練,訓練過程中可以將預訓練模型當做特征提取裝置來使用,具體的做法是,將輸出層去掉,然后將剩下的整個網(wǎng)絡(luò)當做一個固定的特征提取機,從而應用到新的數(shù)據(jù)集中。使用ImageNet 預訓練的模型可從Caffe Model Zoo 網(wǎng)站下載、修改和使用。接著,基于不同的數(shù)據(jù)集進行訓練、驗證和測試。這是一個微調(diào)的過程。最后,我們將網(wǎng)絡(luò)參數(shù)設(shè)置為迭代次數(shù)104,動量因子為0.9,衰減參數(shù)為0.0005,初始的學習率為0.001,其它參數(shù)保持不變。得到CNN 網(wǎng)絡(luò)參數(shù)和權(quán)重后將模型遷移至我院采集的腦腫瘤CT 序列圖像數(shù)據(jù)訓練集進行進一步訓練,并及時修正模型權(quán)重和偏執(zhí)值。最后使用訓練后的模型對腦腫瘤CT 序列圖像數(shù)據(jù)測試集進行測試。模型搭建過程見圖2 所示。

圖2 模型搭建結(jié)構(gòu)圖
本文采用的實驗數(shù)據(jù)均來自淮安市第二人民醫(yī)院影像科提供的720 幅顱腦CT 層掃圖像,其中O 級、I 級、II 級、III 級、IV 級患者各144 例,圖像大小均為1360×1024,均為RGB 三通道圖像。本文使用小波變換對各顱腦腫瘤CT 層掃圖像去除噪聲,對感興趣區(qū)域進行預處理,主要包括四步:① 手動標注感興趣區(qū)域,并計算其最小外接矩形;② 使用OTSU 對圖型進行二值化,最大連通區(qū)域予以保留,并進行一次開運算、一次閉運算和孔洞填充;③ 使用圖像對比度方法利用指定的窗口的均值像素強度值來計算圖像中每個像素的對比度對顱腦腫瘤區(qū)域進行增強,提高顱腦腫瘤區(qū)域顯著性;④ 對圖像進行擴增,基于顱腦疾病對體位(旋轉(zhuǎn))的不敏感假設(shè),經(jīng)過步長18o進行20 次旋轉(zhuǎn)變換,對數(shù)據(jù)集進行增廣處理,得到14400 例CT 圖像。
隨機將預處理后的顱腦CT 圖像按照7:1.5:1.5 分為訓練集,測試集和驗證集,即10 080 例CT 圖像進行訓練,2160 例CT 圖像進行測試,2160 例CT 圖像進行驗證,在數(shù)據(jù)增強之前,訓練圖像、測試圖像和驗證圖像均獨立分開,彼此沒有重疊。為了驗證實驗結(jié)果的有效性,本文安排了八組深度的學習模型:CNN 模型,包括FCNN、CNN、AlexNet、VGGNet 以及GoogLeNet 使用顱腦CT 圖型進行實驗,隨機初始化網(wǎng)絡(luò)參數(shù);CNN+TL 模型:包括使用AlexNet、VGGNet 和GoogLeNet 模型在已標記的數(shù)據(jù)集ImageNet 上進行訓練,然后使用顱腦CT 圖像進行微調(diào)、優(yōu)化網(wǎng)絡(luò),最后使用有優(yōu)化后的網(wǎng)絡(luò)模型進行測試,網(wǎng)絡(luò)的性能評估采用靈敏度、特異性以及準確率進行評定。
本文使用靈敏度(Se)、特異性(Sp)、準確率(Acc)作為評價指標,不同于二分類評價指標,定義靈敏度、特異性、準確率見公式(2)。

其中max為顱腦腫瘤分類總數(shù),TP(True Positive)為真比例,真實類別為正例,預測類別為正例;FP(False Positive)為假正例,真實類別為負例,預測類別為正例;FN(False Negative)為假負例,真實類別為正例,預測類別為負例;TN(True Negative)為真負例,真實類別為負例,預測類別為負例。
本文使用Caffe 框架,Tesla V00 GPU 上訓練,訓練時間約為5 h,實驗結(jié)果如圖3 和圖4 所示。結(jié)果顯示,在不使用TL 的情況下,AlexNet-TL 模型、VGGNet-TL 模型、GoogleNet-TL 模型在靈敏度、特異性以及準確率上均顯著高于隨機初始化網(wǎng)絡(luò)參數(shù)的FCNN 模型、CNN 模型、AlexNet 模型、VGGNet 模型以及GoogleNet 模型。在數(shù)據(jù)集ImageNet 訓練后的GooleNet-TL 模型顱腦癌癥識別準確率達93.4%,AlexNet-TL 以及VGGNet-TL 模型識別準確率為86.9%和90.2%;未使用TL 的FCNN 模型、CNN 模型、AlexNet 模型、VGGNet 模型以及GoogleNet模型模式識別率分別為70.2%、76.5%、82.7%、80.9%以及82.5%。

圖3 不同模型識別顱腦癌癥結(jié)果對照圖
GoogleNet-TL 網(wǎng)絡(luò)訓練損失曲線以及驗證曲線,見圖4。橫坐標為GoogleNet-TL 模型的訓練迭代次數(shù),主縱坐標為訓練過程中損失值,次縱坐標為驗證過程中的準確率,當GoogleNet-TL 模型迭代4100 后訓練Loss 收斂,訓練過程中的顱腦驗證集驗證準確率達96.5%。

圖4 GoogleNet-TL遷移學習網(wǎng)絡(luò)訓練損失曲線以及驗證曲線
腫瘤的良惡性以及具體分類的金標準診斷依據(jù)通常為“病理檢查”,該診斷為后驗性診斷方法,即在手術(shù)之后,切下的腫瘤組織送至病理科加以顯微鏡檢查,根據(jù)腫瘤細胞形態(tài)做出最終的“確診”,未經(jīng)手術(shù)的患者,對腫瘤的診斷,通常借助于CT 或者MRI 對腫瘤進行初步“臨床診斷”,準確的“臨床診斷”和分類不僅有助于顱腦癌癥的早期發(fā)現(xiàn),可為顱腦腫瘤病情的綜合判斷,同時也有利于制定有效的治療措施。然而,“臨床診斷”通常受限于臨床醫(yī)生的經(jīng)驗[18]。
醫(yī)學圖像模式識別,圖像分割等一直是醫(yī)學影像學研究的重點和難點,常規(guī)的醫(yī)學圖像模式識別,通常需要提取圖像特征集,但醫(yī)學圖像質(zhì)量不僅受限于患者年齡、性別、身高、體重,同時還受病灶組織形狀、位置,大小等方面的影響,因此常規(guī)圖像處理方法很難完整的提取圖像的特征,這也是醫(yī)學圖像模式識別準確率經(jīng)久不高的原因之一[19]。隨著計算機技術(shù)、大數(shù)據(jù)技術(shù)、云計算技術(shù)的不斷發(fā)展,大規(guī)模數(shù)據(jù)運算、深度學習逐漸應用于各個領(lǐng)域,聯(lián)合TL的CNN通過深度卷積獲取醫(yī)學圖像“深度特征集”,聯(lián)合TL 的CNN 現(xiàn)已被應用于醫(yī)學圖像分類,疾病診斷,必然是未來智慧醫(yī)療發(fā)展的主要載體[20]。本文通過對顱腦腫瘤CT 圖像進行降噪、增廣等預處理,并構(gòu)建了八組深度的學習模型,其中五組為隨機初始化網(wǎng)絡(luò)參數(shù)的CNN,三組為經(jīng)過ImageNet 訓練的CNN 模型,實驗結(jié)果表明,引入TL 的各種模型顱腦腫瘤模式識別準確率、特異性和靈敏度性能均得到顯著性的提高,GoogleNet-TL 準確度達93.4%,圖像識別度得到較大的提升。
然而,在進行機器學習輔助診斷的研究過程中,我們發(fā)現(xiàn)了一些值得注意的地方:醫(yī)學圖像的采集和診斷實質(zhì)上是分開進行的,在人工智能、機器學習輔助診斷系統(tǒng)構(gòu)建過程中,規(guī)范和建立醫(yī)學圖像質(zhì)量評估系統(tǒng)有助于提升醫(yī)學圖像診斷系統(tǒng)的整體效能;目標分割是醫(yī)學領(lǐng)域中一個重要課題,如何使用分割算法代替手動勾畫已經(jīng)成為機器學習輔助診斷的難點和重點;交叉驗證是關(guān)鍵,在課題組研究過程中采集的圖像具有單一性,即單型號設(shè)備采集的CT 圖像,在研究過程中往往會經(jīng)過人工剔除問題圖像、病灶形狀等問題圖像,而選擇“優(yōu)質(zhì)圖像”進行處理,對于跨設(shè)備、跨數(shù)據(jù)集以及算法移植將會帶來不可預知的困難。當然,聯(lián)合TL 的深度CNN 一直不斷在更新和改進中,針對目前飛速發(fā)展的醫(yī)學影像學,機器學習輔助診斷系統(tǒng)的研究仍需多學習、多中心協(xié)作,以獲取大樣本的醫(yī)學影像數(shù)據(jù)能夠使得深度學習模型距離臨床應用更近一步。