田煒,雷志超,王楚正
(中南林業科技大學 計算機與信息工程學院,長沙 410000)
當前,癌癥已經成為致死率最高的疾病,其中肝癌的致死率位于前列[1]。肝癌主要分為肝細胞癌(Hepatocellular Carcinoma,HCC)、局灶性結節性增生(Focal Nodular Hyperplasia,FNH)、血管瘤(Hemangioma,HEM)、囊腫(Cyst)等類型。癌癥的早期診斷和治療是降低癌癥死亡率的主要措施,傳統的肝癌診斷方法基于臨床醫生對患者計算機斷層掃描(Computed Tomography,CT)影像的觀察和判斷[2],該方法不但要求醫生有豐富的經驗和專業知識,而且需要很長的診斷時間。肝臟病灶是指肝臟疾病(包括肝癌)集中的部位或是綜合病癥、感染的主要部位。近年來,計算機輔助診斷(Computer-Aided Diagnosis,CAD)系統在肝臟局灶性病變(Focal Liver Lesions,FLLs)分類的早期準確診斷中發揮著重要作用[3],多期相CT 影像已應用于CAD。多期相CT 影像根據造影劑注射時間不同分為3 個期相,包括注射造影劑之前進行檢查以獲得平掃期(Non-contrast Enhanced,NC),注射后階段包括動脈(Arterial,ART)期(造影劑注射后30~40 s),門靜脈(Portal Venous,PV)期(造影劑注射后70~80 s)[4-5]。
對肝臟病灶分類的研究,早期僅利用單期相CT 影像數據[6-8],忽略了多期相掃描傳達的時序信息,分類準確率較低。因此,亟需將多期相CT 影像應用到FLLs的檢測和分類研究中,這對于提高檢測或診斷的準確率至關重要[9]。傳統方法主要是以提取傳統特征為主的特征提取器和線性或非線性分類器。這些特征包括形態學特征,位置特征,灰度調整、生長速度和紋理特征的低級特征,或者基于視覺詞袋(Bag of Visual Word,BoVW)模型提取的中級特征[7-8,10]。文獻[11]提出基于Bi-gram BoSTW 模型的淺層多特征融合的方法,結合N-gram 和BoVW 模型進行肝臟病灶分類研究。由于利用手工提取的淺層特征難以建立和多期相數據集間的直接聯系,因此傳統方法難以達到較高的分類性能,分類器魯棒性差,分類過程復雜且耗費時間。
自HE等[12]提出殘差神經網絡(Residual Neural Network,ResNet)以來,許多學者將深度學習相關理論逐漸應用到肝臟病灶的檢測和分類中[13-15]。文獻[16]提出一種基于多尺度patch 的分類框架檢測肝臟局灶性病變。YASAKA等[17]提出一種卷積神經網絡(Convolutional Neural Network,CNN)結構,對CT 影像中的肝腫瘤進行分類,其模型具有3個通道,對應NC、ART和PV共3個期相。LIANG等[18]提出融合全局和局部信息的CNN 網絡結構用于FLLs 分類。這些方法應用多期相CT 影像提取比單期相影像更豐富的特征信息,并且利用深度學習方法的優勢,能夠快速得到更高準確率的分類結果。然而,這些方法均使用早期融合的方法,難以解決多期相肝臟病灶CT 影像結構變化較大、病灶尺寸差異大等情況,不能提取更豐富的特征信息。同時,肝臟病灶分類還存在精準標注樣本少、標注難、分類準確率不高、現有特征表達方式依然難以直接指導臨床應用等問題。
本文提出一種多期相注意力融合網絡(Multi-phase Attention Fusion Network,MAFNet)進行多期相CT 影像肝臟病灶分類。使用單期相分支和采用中期融合方式的融合分支構建網絡模型,利用多期相注意力模塊(Multi-phase Attention Module,MAM)表達不同期相影像的時序增強模式,從而提高分類結果準確率。
為充分表示多期相肝臟CT 影像時序增強模式,本文使用3 個期相的肝臟腫瘤CT 影像作為數據源進行研究,這些數據源分為Cyst、FNH、HCC、HEM共4 個類型,如圖1 所示。

圖1 4 個典型肝臟病變在3 個期相時的影像Fig.1 Images of four typical liver lesions in three phases
為提高肝臟病灶CT分類的準確率,特征融合方法在表達單期相影像特征時,不能忽略多期相影像間增強模式。通常,融合大致分為早期融合(Early fusion)[19-21]、后期融合(Late fusion)和中期融合(Intermediate fusion)[22]3 種類型。早期融合首先將多期相圖像通過多通道的方式融合到深度網絡中,學習融合特征表示,然后對網絡進行訓練,也稱為輸入級融合。這種融合可以最大限度地保留原始圖像信息,學習圖像特征。后期融合也稱為決策級融合,指的是對每個網絡的輸出進行融合,得到最終的結果。后期融合旨在從不同的期相中獨立地獲取更豐富的信息。應用早期融合和后期融合策略進行多期相肝臟病灶CT 影像分類的流程如圖2 所示。

圖2 兩種融合表達策略流程Fig.2 Procedures of two fusion expression strategies
多期相肝臟病灶CT 影像數據特異性以及早期融合和后期融合兩種融合策略在表達特征方面都有不同程度的不足。如圖2 所示,早期融合僅是輸入級融合策略,難以解決不同采樣率或不同框架下數據間的異步性問題,導致模型性能下降。在后期融合中,由于每種期相的輸出相互獨立,這種決策模型忽略了同一患者不同期相之間的增強模式信息。由于不同患者病灶的外觀形態和結構在一定程度上與注射造影劑時間有關,有的病灶只能在某個特定期相影像中檢測出來,導致單一的肝臟腫瘤影像忽略多期相影像中的信息。針對早期融合和后期融合的不足,難以將圖像的低層特征和高層特征融合,分類性能差,本文采用中期融合策略,通過將每個期相的圖像作為單個輸入來訓練單個深度網絡,每個特征在網絡層進行融合,并將結果反饋給決策層,得到最終結果。
為更好地表達多期相CT 影像中的時間序列增強模式,本文提出了多期相注意力融合網絡(Multiphase Attention Fusion Network,MAFNet)。
如圖3 所示,本文提出的網絡為多分支架構,由3 個單期相分支(NC、ART、PV)和融合分支構成。在單期相分支中,本文部署了3 個完整的ResNet50,用來分別提取NC、ART 和PV 3 個期相的特征,這3 個分支可以保持NC、ART 和PV 3 個單期相的圖像特征。融合分支用來融合從單期相分支的特征映射中提取出來的圖像特征。

圖3 多期相注意力融合網絡結構Fig.3 Structure of multi-phase attention fusion network
針對多期相肝臟腫瘤圖像特性,在融合分支中,本文采用中期融合的方式,3個單期相分支(NC、ART、PV)在網絡的每個模塊階段提供一組特征映射,如Conv、Layer1等。然后特征映射由多期相注意力模塊重新組織。特征映射經過Conv后,進一步逐元素地相加作為融合分支的輸入,其他元素則添加到融合分支的輸出中。特征映射經過Conv后,進一步逐元素地相加作為融合分支的輸入,其他元素則添加到融合分支的輸出中。通過這種方式,本文的網絡架構可以提取、重組和融合低層和高層特征,既能提取單期相圖像內部之間的特征信息,也能關注多期相圖像之間的時序增強模式。
如圖3所示,本文設計了一組注意力模塊[23],即MAM模塊。本文的MAM 基于通道注意力[24],使網絡聚焦于信息更豐富的區域。如圖4 所示,利用MAM 對通道之間的相互依賴關系進行建模,選擇性地增強包含有用信息的特征并抑制無用特征,并通過網絡的全局損失函數,自適應地重新調整通道之間的特征相應強度,使有效的特征圖具有較大的權重,而無效或效果較小的特征圖具有較小的權重。
圖4所示為多期相注意力模塊。在圖4中,首先,將各通道的全局空間特征作為該通道的表示,形成一個通道描述符,對于特征映射U=[u1,u2,…uc]∈RC×H×W,其中uk∈RH×W為第k個通道上的特征映射。使用全局平均池化,得到輸出Z∈RC×1×1,其中C代表通道數,H和W分別表示特征圖的高度和寬度。Z(Z∈RC)的第k個元素可由式(1)求得:


圖4 多期相注意力模塊Fig.4 Multi-phase attention module
然后,由一個1×1 卷積層重新組織Z,使卷積層的通道數與Z相同。這是由于1×1 卷積層能夠挖掘通道之間的相關性,有助于通道之間相應的權重分布。本文使用Sigmoid激活函數將權值向量M<∈RC×1×1的值限制在0~1 之間,表達式如式(2)所示:

其中:δ代表Sigmoid 激活函數;φ代表1×1 卷積。
將特征映射U和權值向量M進行外積,原始特征映射U被轉換為新的特征映射X~,其中包含更多有效信息,表達式如式(3)所示:

其中:?代表外積。
本文提出的多期相肝臟病灶特征融合體系結構如圖3 所示。圖3 中部署了3 個完整的ResNet50 用來分別提取NC、ART 和PV 特征,這3 個分支用來保持NC、ART 和PV 3 個單期相的圖像特征。然后,利用融合分支從單期相分支的特征映射中提取圖像特征進行融合。
圖3 中網絡模型的具體設計如表1 所示。本文設計的網絡結構為多分支結構,其基礎網絡均采用ResNet50。在單期相分支中Conv 階段包含1 個深度為64,步長為2 的7×7 卷積核的卷積層、1 個批量標準化(Batch Normalization,BN)、1 個修正線性單元(Rectified Linear Unit,ReLU)和最大池化層。Layer1 一共有3組,每一組包含3 個卷積層。類似地,Layer2、Layer3 和Layer4 表示不同的卷積層集合。融合分支在ResNet50 基礎上,刪除單期相分支中的Conv 階段,保留了4 個layer 階段,然后使用了1 個全局平均池化(Global Average Pooling,GAP)。GAP 能夠降低特征映射空間位置信息的損失,并且減少了參數的計算量,防止發生過擬合。最后使用1 個完全連接層(Fully Connected Layers,FC)對提取的高級特征進行分類,最終輸出值(0,1,2,3)分別對應4 種肝臟病灶的種類。

表1 單期相分支與融合分支的網絡結構 Table 1 Network structure of single phase branch and conversed branch
本文設計了一種多期相損失函數,結合如上所述的多期相特征融合結構。多期相損失函數使用的是交叉熵[25]。

本文使用某醫院內部的MPCT-FLLs 數據庫[26-27],將實驗數據分為訓練集、驗證集和測試集。肝臟腫瘤包括3 個期相(即NC、ART 和PV)和4 種類型(即Cyst、FNH、HCC 和HEM),如圖1 所示。為了消除隨機性的影響,本文按照文獻[18]中的方式進行兩次數據劃分操作,形成兩組數據集,如表2所示。每個多期相CT 影像被調整為112×112 像素。為避免過擬合問題,本文采用數據增強的方法,包括高斯噪聲[28]、翻轉和隨機旋轉。

表2 數據集樣本數 Table 2 Sample number of datasets
本文使用測試集的平均準確率和標準差來評估本文模型的性能。準確率A定義如式(5)所示:

其中:TTP為正確的分類樣本個數;T為相應數據集的所有樣本個數。
實驗使用Intel i7-10700 CPU、16 GB DDR4 RAM和Nvidia GeForce GTX 2080 Super(8 GB)GPU 配置 的服務器,使用Pytorch 實現網絡架構。實驗使用隨機梯度下降優化器(Stochastic Gradient Descent Optimizer,SGD)[29]優化參數,其中初始學習率設置為0.000 1,每100 次后衰減0.8,動量設置為0.9,設置500 個epoch,batch size 為16。
3.3.1 基礎網絡的確定
為確定更適合本文數據集的基礎網絡,本文通過實驗對比了當前主要的AlexNet[30]、VGG[31]、Inception[32]、ResNet[11]等網絡的分類結果。由于VGG 在本實驗中出現過擬合現象,不能收斂,故分別利用AlexNet、ResNet和Inception 基礎網絡,采用早期融合、后期融合和中期融合這3 種融合策略,探討更適合多期相病灶圖像數據集的基礎網絡。
圖5所示為AlexNet、ResNet 和Inception網絡的早期、后期和中期融合的分類結果。從圖5 可以看出,AlexNet 和Inception 網絡中期融合的平均準確率分別為80.34%和87.44%,高于早期融合和后期融合。由圖5 可知,使用任意融合策略的ResNet 網絡的平均準確率均高于AlexNet 網絡,使用后期融合和中期融合策略的ResNet 網絡的平均準確率也高于使用后期融合和中期融合策略的Inception 網絡。相較于其他網絡結構,使用中期融合策略的ResNet 網絡的平均準確率達到最高,為88.75%。因此,本文選用ResNet 作為基礎網絡。

圖5 不同基礎網絡的實驗結果對比Fig.5 Comparison of experimental results of different basic networks
3.3.2 消融實驗
為驗證本文提出的多期相注意力融合網絡的有效性,使用肝臟腫瘤圖像數據集在不同網絡模型上進行實驗。實驗主要分為2 大部分:
1)單期相實驗:Single phase-NC、Single phase-ART 和Single phase-PV。
2)多期相實驗:Model-1(使用早期融合,將3 個期相的數據融合為RGB 三通道的數據,如圖2(a)所示)、Model-2(使用后期融合,3 個期相的數據通過單獨的網絡模型后,在輸出時進行融合,如圖2(b)所示)、Model-3(使用中期融合,3 個期相的數據在網絡的每個階段進行融合)和本文MAFNet 網絡模型(如圖3 所示)。不同網絡模型的詳細配置如表3 所示,其中“√”表示使用該配置,“×”表示不使用該配置。

表3 單期相模型和多期相模型的詳細配置 Table 3 Detailed configuration of single phase model and multi-phase model
本文首先使用單期相(NC、ART、PV)數據進行實驗。單期相模型分別使用不同單期相肝臟腫瘤圖像進行實驗,實驗均采用ResNet50 作為基礎網絡。結果如表4所示,NC、ART 和PV 的準確率分別為67.42%、79.75%和81.93%。實驗結果進一步證實,由于單期相數據包含較少的信息,而且不同患者肝臟腫瘤的外觀形態和結構在一定程度上與注射造影劑時間有關,有的肝臟腫瘤只能在某個特定階段期相影像中檢測出來,僅利用單一的肝臟腫瘤影像容易忽略多期相CT 影像中時間序列包含的增強信息,導致分類性能差。該實驗說明不同期相的肝臟病灶特征存在明顯的差異。

表4 消融實驗的結果對比 Table 4 Comparison of results of ablation experiment %
然后,使用相同的數據源,將本文模型MAFNet與3 個多期相模型(Model-1、Model-2 和Model-3)進行消融研究。Model-1、Model-2 的具體結構如圖2所示。2 個測試集共4 個類的準確率和平均準確率如表4 所示,其中分類準確率的結果用平均值和偏差表示。由表4 可知,與單期相模型相比,多期相影像模型的準確率均有所提高,這是由于多期相CT 影像含有比單期相影像更豐富的信息,能夠提取更多有用特征,有助于得到更高準確率的分類結果。此外,由于多期相網絡模型能夠關注期相之間的時序信息,因此能取得更好的分類效果。
第2 部分實驗對比了早期融合、后期融合和中期融合的效果,結果如表4 所示。實驗結果表明,使用中期融合策略的Model-3 的分類效果優于Model-1 和Model-2。這進一步表明,由于中期融合的網絡模型能夠提取、重組和融合低層和高層特征,因此中期融合的策略能更好地提取肝臟腫瘤圖像所蘊含的信息。與Model-3 相比,使用MAM 模塊的MAFNet 模型準確率提高了2.24 個百分點,這證明了MAM 模塊可以增強包含有用信息的特征,從而更好地提取肝臟病灶特征。
3.3.3 與其他方法的對比
本文通過實驗將本文方法與其他方法進行比較,實驗結果如表5 所示,其中分類準確率用平均值和偏差表示。從表5 中可以看出,本文方法優于其他方法,平均準確率達到90.99%,并且在囊腫、局灶性結節性增生和肝細胞癌的分類任務上均取得較好的結果。這進一步表明,本文方法能夠表示多期相影像間的增強模式,可以提取、重組和融合低層和高層特征。

表5 不同方法的實驗結果對比 Table 5 Comparison of experimental results of different methods %
傳統CNN 網絡在提取多期影像特征時容易忽略多期相影像時序增強模式,導致肝臟病灶分類準確率有待提高。提出一種基于多期相注意力融合網絡的肝臟病灶CT 影像分類網絡MAFNet,使用單期相分支和融合分支構成的多分支結構構建模型,從而高效提取不同期相的時序增強模式。在融合分支中采用中期融合的方法,充分提取圖像的不同層次的特征。利用MAM模塊,根據圖像包含的信息量,有選擇地從單期相分支中收集特征,并使用這些加權特征對融合分支進行補充。實驗結果表明,本文網絡可以解決NC、ART 和PV這3 個期相影像包含的信息量不等、上下文分布不均等問題,能充分利用多期相肝臟CT 影像的時序特征,有效捕捉同一患者不同期相的信息。下一步將考慮影響每個類別分類結果的可變因素,完善網絡結構,以提高分類準確率。