林 海,喬 雅,龐宏林,高靖哲,李雄飛
(1.吉林大學 軟件學院;2.吉林大學計算機科學與技術學院,吉林 長春 130012)
近年來,隨著深度神經網絡的出現及快速發展,特征提取能力越來越強,基于深度學習的放射學應運而生。卷積神經網絡(Convolutional Neural Network,CNN)由于其在大規模圖像處理上的穩定性能,在組織病理學圖像分析領域引起了廣泛關注[1]。Song 等[2]使用ImageNet 上預訓練的VGG-VD 模型提取圖像本地特征,并使用FV(Fisher Vector)編碼表示圖像特征;Murthy 等[3]將預先提取的VGG 功能注入(連接)到半監督CNN的中間層,使CNN 聚焦于圖像中心;Li 等[4]使用改進的CNN 分割腫瘤,代替常規放射學方法對分割的圖像特征進行計算,獲得編碼為FV 向量的高質量MRI 特征;Lao 等[5]先將醫學圖像進行分割,再通過轉移學習方法,使用預訓練的CNN 提取圖像的幾何、強度、紋理及其他深層特征。然而,隨著深度的增加,存在CNN 輸入及梯度消失問題,ResNet 通過身份連接將信號躍層輸出,有效解決了該問題。但是ResNet 每層都有權重,導致參數量大,且研究表明許多層的貢獻非常小[6-7]。
為增強特征提取能力,降低腦腫瘤錯誤分類的概率,本文設計的模型基于Huang 等[8]提出的DenseNet 將所有層直接相連,每一層都從前幾層獲得額外的輸入,可直接訪問來自損耗函數與原始輸入信號的梯度,減緩了梯度消失并加強了特征傳播。同時,DenseNet 層特征圖數量固定,狹窄的DenseNet 層只向網絡的“集體知識”中添加一小部分特征圖,并保持剩余特征圖不變,鼓勵了特征重用,減少了網絡參數。
醫學上存在許多腦部成像診斷方法,最常見的是放射學方法,通過對高通量圖像特征進行定量分析,從醫學圖像中獲得預測信息。常見的放射學醫學圖像有計算機斷層掃描(CT)、磁共振成像(MRI)、正電子發射計算機斷層掃描(FDG-PET)等,針對這些醫學圖像的放射學研究與分析已十分普遍。如Vallières 等[9]采用放療模型評估軟組織肉瘤(STS),建立聯合PET 與MRI 紋理的模型,通過復合紋理很好地識別侵襲性腫瘤,并提供了良好的轉移評估指標;Aerts 等[10]使用一種基于計算機斷層掃描(CT)數據的放射學方法解碼肺癌與頭頸癌的腫瘤表型。
PET 與MRI 具有不同的優缺點。MRI 圖像是一種能夠呈現人體解剖信息的結構型圖像,空間分辨率高,包含豐富的軟組織結構信息,但缺乏反映人體新陳代謝功能的顏色信息;PET 雖然可提供反映人體不同組織新陳代謝情況的顏色信息,但在分辨率和結構信息上有明顯缺點。
通過影像融合技術可將PET 與MRI 圖像各自的優勢進行有效結合。Chen 等[11]使用IHS 對PET 圖像進行分解,由Gabor 濾波器對數變換組成的LogGabor 變換分解MRI 與PET 圖像的強度分量,獲得高頻子帶和低頻子帶,高頻子帶的融合伴隨著最大選擇,低頻子帶的融合伴隨著一種基于能見度測量與加權平均準則兩級融合的新方法;Haddadpour 等[12]提出一種將該IHS 與二維希爾伯特變換相結合的融合方法,在合并高頻與低頻子帶時引入雙向經驗模態分解(BEMD),并通過經驗模態分解進行擴展;Yan 等[13]使用基于稀疏表示(SR)的融合方法,求出PET 與MRI 圖像各自的稀疏表示系數,然后將二者的稀疏系數采用某種融合規則進行融合,再利用融合稀疏系數及用于重構的過完備字典重構出最終的融合圖像;Li 等[14]使用基于多分辨率分析(Multi-Resolution Analysis,MRA)的方法將PET 與MRI 圖像進行多尺度分解(分解成系數和變換基),根據某種融合規則對分解后的系數進行融合,最后對融合后的系數與變換基進行反變換;Arash 等[15]使用基于光譜與空間的自適應濾波PET-MRI 圖像融合方法,設計自適應濾波器組件以優化融合圖像的相對平均光譜誤差;Easley 等[16]提出非下采樣剪切波變換(Non-Subsampled Shearlet Transform,NSST),利用非下采樣金字塔濾波器(NSPF)對圖像進行多尺度分解,然后通過剪切波濾波器(SF)對圖像進行多方向分解,得到低頻與高頻子帶,融合后的圖像效果好、顏色失真小,且結構信息豐富。因此,本文采用基于NSST的自適應融合方法。
考慮到融合算法需要具有對應的PET 與MRI 圖像,本文采用已在基于腦放射學的分類研究中廣泛使用的哈佛大學全腦圖譜數據集和TCIA。將數據集分為3 部分,分別用于訓練、驗證與測試模型。實驗結果表明,自適應NSST融合方法有效減少了顏色失真,相比于單一PET 圖像,融合后的圖像在保留PET 圖像顏色信息的同時,具有MRI 圖像明顯的空間結構信息。融合后的圖像將更有助于臨床對疾病的診斷與治療,且分類準確率達到97.6%和98.2%,取得了較好的分類效果。
密集卷積網絡由多個密集塊組成,每個密集塊中含有多個卷積層,每個卷積層的輸入由前面所有卷積層的輸出與原始輸入拼接而成,即:
每個密集塊結構如圖1 所示。每層由BN -ReLU -Conv(1× 1)和BN -ReLU -Conv(3 × 3)組成,其中每個卷積層之前是批歸一化[17]與修正線性單元[18]的組合。1×1卷積層作為瓶頸層,用于減少輸入特征圖數量,提升運算效率;3×3 卷積層使用1 個像素的全零填充,保證在一個密集塊中特征圖大小固定,每個密集塊輸出k 個數量固定的特征圖。DenseNet 密集連接的方式類似于ResNet 殘差連接,但不同的是,當前層的輸入不是前層輸入的簡單相加,而是特征圖拼接,以促進層與層之間的信息流動及特征重用。
Fig.1 Dense block structure圖1 密集塊結構
本文在密集卷積網絡中提取多尺度特征圖的構想是受到尺度空間(scale space)思想的啟發,其最早由Iijima[17]于1962 年提出。為獲得多尺度的信息表示序列,設計了多個連續變化的尺度參數,之后將從序列中提取到的主輪廓作為一種特征向量,用于對不同分辨率圖像的特征提取、邊緣檢測等。文獻[18]提出一種多尺度卷積網絡(MCNN),為捕獲結節異質性,設計交替堆疊的層以提取判別特征,并利用多尺度結節補丁充分量化結節特征;文獻[19]利用雙樹復數小波變換(DTCWT)從結構MRI 數據中提取不同空間尺度上的信息,根據多尺度信息區分樣例是否患有多發性硬化癥。多尺度特征提取如今已廣泛應用于基于神經影像數據的神經系統疾病診斷研究中。
SMSDNet 中應用了多尺度特征提取,本文使用下采樣方法,在4 個密集塊之間加上平均池化層對特征圖尺度進行變換。網絡中前兩個密集塊輸出的特征圖具有較大尺寸,感受野較小,包含圖像粗粒度信息;后兩個密集塊經過多層池化操作后,輸出的特征圖包含豐富的細節信息。本文對特征圖進行跨層融合,對上層尺度大的特征圖進行卷積操作,將其大小調整為與下層特征圖尺度一致后,將兩者相加。不同尺度特征圖的結合有效提升了特征提取效果及分類精度。
自注意力機制(Self-Attention)已廣泛應用于循環神經網絡(RNN)與長短期記憶(LSTM),用來完成具有順序關系或前后具有因果關系的決策任務[20-22]。在此基礎上,文獻[23]、[24]在transformer 框架(編碼器—解碼器)中加入注意力機制,通過考慮文本當前詞與上下文的關系來學習文本表達方式,相比于RNN,其對長期依賴關系有著更強的捕捉能力。深度玻爾茲曼機(DBM)在訓練階段使用重構過程,以包含自上而下的注意力。自上而下的注意力機制還被廣泛應用于圖像分類。與本文工作類似,Wang 等[25]設計一種軟注意力結構,將自下而上與自上而下的前饋結構作為注意力模塊的一部分,并在特征上添加軟權重;Yuan 等[26]提出一種混合通道感知注意力(wise-attention)與時序注意力(time-attention)的自注意力機制深度學習框架HybridAtt,其中通道感知注意力層用來推斷PSG 通道的重要性,時序注意力用來捕捉不同時間戳之間的動態相關性。
SMSDNet 為適應DenseNet 密集連接的性質,其自注意機制有所不同:①每個密集塊單獨注入自注意機制,塊間不引入時序注意力機制,因為DenseNet 提取特征是一個順序處理流程,不存在時間上的關聯性;②每層都計算特征圖像素矩陣W 和索引矩陣Q,通過卷積、矩陣相乘與全局池化為每個輸出分配貢獻權重;③為減少計算量與模型復雜度,之前的研究[27-28]設定了權重閾值,低于該閾值的層不作為后面某一層的輸入。本文工作為保證密集塊中卷積層結構的固定,對每個輸入都按照權重系數進行拼接,不作刪除。
非下采樣是基于頻域的,非下采樣剪切波變換(NSST)[16]是在非下采樣輪廓波變換(NSCT)[29]基礎上提出的。NSCT的核心是輪廓波變換(Contourlet)[30],也稱為塔型方向濾波器組(Pyramidal Directional Filter Bank,PDFB),但在拉普拉斯金字塔和方向濾波器組(DFB)中,輪廓波變換存在上采樣與下采樣操作,不具有平移不變性。NSCT 中將拉普拉斯金字塔替換為非下采樣金字塔結構(NSP)以保留多尺度屬性,并將方向濾波器組替換為非下采樣方向濾波器(NSDFB)組。NSCT 從源圖像中獲取更多信息,其不僅具有小波變換的多分辨率和時頻局部特征,而且具有多方向性和各向異性,但是NSCT 計算時間復雜度高、計算效率低。NSST 在此基礎上進行改進,通過將圖像分解為不同比例的有向子帶以彌補采樣步驟中信息丟失的缺陷,同時可準確獲得圖像的多角度信息。其能獲得比小波變換(Wavelet)與輪廓波變換更稀疏的表達結果,工作效率更高,且融合后的圖像不會產生偽像。圖2 描述了NSST 低頻與高頻子帶分解流程。
Fig.2 NSST low frequency and high frequency subband decomposition flow圖2 NSST 低頻與高頻子帶分解流程
本文在NSST 基礎上提出一個融合算法框架,對于PET和MRI 圖像,首先使用NSST 進行高頻與低頻子帶分解,然后分別設計低頻系數與高頻系數融合策略。與文獻[31]的融合策略不同,本文的低頻系數不采用簡單的加權平均與基于最大值的策略,因為這些策略會損失圖像能量,融合后圖像的整體亮度及對比度差。本文采用基于稀疏表示(SR)的融合規則,可完整保留低頻子帶中的輪廓信息。如今對于高頻子帶融合規則的研究已十分廣泛,包括脈沖耦合神經網絡(PCNN)[32]、區域能量、稀疏表示等。與本文工作類似,文獻[33]設計一種基于感興趣信息(IOI)的融合方法,將圖像分為感興趣和非感興趣部分,分別采用空間頻率算法(SF)與取平均的方法進行融合;文獻[34]對CT 與MRI 圖像進行融合時,根據結構相似度SSIM(structure similarity)的不同,將高頻子帶分為低相似與高相似子帶圖像,對低相似子帶系數與高相似子帶系數都采用視覺敏感度系數VSC(Visual Sensitivity Coefficient)策略。為進一步提升融合效果,其分別在低相似子帶系數與高相似子帶系數融合中結合了梯度能量和區域能量。本文方法與文獻[35]的方法類似,從源圖像中提取權重圖,再通過NSST 分解出高頻權重系數。由于權重圖為網絡多次迭代訓練后的輸出,因此采用Adam 優化器進行反向傳播,從而很好地擬合PET 與MRI 對融合圖像的貢獻度。但與文獻[35]不同的是,本文設計了不同的權重圖提取方法:①考慮到隨著網絡深度的增加,損失的權重圖信息也越多,為減小權重圖信息深度比的下降幅度,采用殘差網絡(ResNet)對PET 與MRI的貢獻權重進行分配,該方法相比于CNN 之外的其他方法具有絕對優勢;②PET 與MRI 各自維持權重圖及高頻權重系數,融合計算公式為兩者高頻系數加權和。
之后本文設計一個分類模型,考慮到融合后的圖像具有豐富的特征信息,而密集連接在提取不同層次圖像的紋理信息方面已取得了較多成果,因此本文采用DenseNet 對PET-MRI 進行特征提取。自注意力機制常被用來考慮當前位置與全局信息的關系,其符合DenseNet 輸入拼接的性質,因此本文嘗試將該機制應用于本文的分類模型。與傳統只使用單尺度圖像進行特征提取的方法相比,多尺度的特征圖能夠結合圖像的高級和低級紋理特征。由于PETMRI 圖像中包含PET 豐富的顏色特征(低級紋理)以及MRI的結構特征(高級紋理),因此多尺度特征圖可更好地描述融合圖像。最后本文試圖恢復一些丟失的細節信息,通過上采樣操作結合局部特征信息進行重構,可很好地勝任這項工作。同時設計后處理模塊,通過亞像素卷積層上采樣特征圖,經過全連接層與softmax 分類器得到最終結果。
(1)采用殘差網絡(ResNet)對PET 與MRI 圖像{IP,IM}進行權重系數提取,得到權重系數矩陣{WIP,WIM}及特征矩陣{FIP,FIM}。
(2)利用NSST 對PET 圖像與MRI 特征矩陣{FIP,FIM}進行分解,分別獲得PET 圖像的低頻子帶和高頻子帶,以及MRI 圖像的低頻子帶和高頻子帶利 用NSST 對權重系數矩陣{WIP,WIM}進行分解,得到PET 與MRI 各自的高頻與低頻權重系數矩陣
(4)對于低頻子帶融合,本文利用稀疏表示(SR)對低頻子帶進行融合,融合過程分為4 個階段:聯合字典構建、稀疏編碼、稀疏系數融合、系數重構,最終得到融合結果。
圖3 描述了本文的融合算法框架。
Fig.3 Fusion algorithm framework圖3 本文融合算法框架
本文設計一個二通道殘差網絡,分別對PET 與MRI 提取權重系數矩陣和特征矩陣,如圖4 所示。
網絡第一層存在4 個分支,其中兩個分支使用單一的卷積層以提取PET 與MRI的特征矩陣{FIP},FIM,剩下兩個分支類似于自動編碼器,采用對稱網絡結構,以一層最大池化層和3 × 3 卷積層(該卷積層不改變通道數量)為中心,左右兩邊分別使用三層卷積層提取PET 與MRI的權重系數矩陣{WIP,WIM}。為提高權重分配的準確性,本文在層與層之間引入殘差連接。具體方法如下:
(1)特征圖提取。將圖片初始大小調整為256 × 256 ×3,3 個通道分別代表HSV 顏色空間。先將圖像經過一個卷積核大小為3 × 64 × 3 × 3的卷積層,采用1 個像素的全零填充,保證圖片寬度與高度不變。為保證特征矩陣和權重矩陣尺寸與通道數的一致性,方便后續高頻子帶融合時進行權重分配,接下來對權重圖進行步長為2、卷積核大小為64 × 128 × 3 × 3的卷積操作,最終得到PET 與MRI 各自的特征圖{FIP,FIM}。
Fig.4 Residual network for weight coefficient extraction圖4 用于權重系數提取的殘差網絡
(2)權重系數矩陣提取。卷積層采用標準的BN-ReLU-Conv結構,濾波器權重形成一個O×I×W×H的四維張量,分別代表輸入通道數、輸出通道數以及卷積核寬度與高度。為了在每次卷積操作后方便處理圖像,采用1 個像素的全零填充,并設置W=H=3,則第k層卷積層卷積核大小為3 × 3 × 2k+2× 2k+3,且經過每次卷積后圖像尺寸固定,權重圖以兩倍速率擴充,第k層輸出后可得到2k+3個權重圖。卷積操作計算過程如下:
為突出圖像區域峰值,降低之后權重矩陣計算的復雜度,在三層卷積層之后對圖像進行下采樣,采用步長為2的2 × 2 最大池化層來縮小圖像,突出圖像區域權重中的最大值。最后網絡分別輸出權重提取后的結果{WIP,WIM}。
(3)殘差連接優化。不添加殘差連接時,第l層輸出Fl=Wl,輸入只經過簡單的激活與卷積操作。考慮到隨著層數增加,權重提取效果可能會變差,本文添加了兩種殘差連接:
當輸入與輸出維度相同時,在卷積輸出結果上添加原始權重圖的恒等映射。計算第l層卷積層輸出Fl的公式如下:
其中,Wl是純卷積操作第l層輸出的權重圖,Kl是第l卷積層的3 × 3 卷積核,δ是ReLU 激活函數,可用于非線性變換。
本文設計的網絡中,由于經過每個3 × 3 卷積層之后通道數量發生了改變,因此在作恒等映射時需要作一個線性變換。此時,計算第l層卷積層輸出Fl的公式如下:
其中,Ds是1×1 卷積,用來將Wl-2權重圖的通道數轉換為與Wl通道數一致。
上文從殘差網絡中提取到特征矩陣{FIP,FIM}與權重矩陣{WIP,WIM},接下來使用NSST 對特征矩陣進行分解,得到對應的高頻子帶,之后對權重矩陣進行分解,得到高頻權重系數矩陣相比于其他高頻融合方法,如基于感興趣信息(IOI)的方法[33],通過局部極值算法(LES)和剪切濾波器(SF)簡單區分MRI 與PET-FDG的感興趣及非感興趣部分,且感興趣部分融合時僅根據局部能量進行取舍,非感興趣部分采用簡單的取平均方法進行融合,兩者都不是按照比例進行融合。本文方法在殘差網絡中經過了epoch=20 次迭代訓練,得到的高頻權重系數矩陣已能很好地反映融合圖像中PET 與MRI 特征矩陣各像素點的權重比例。本文高頻子帶融合計算公式如下:
低頻子帶包含了大量能量信息,但其稀疏性較差,因此本文采用稀疏表示(SR)提高其稀疏度,并提升融合效果。如圖5 所示,基于稀疏表示的融合算法分為以下9 個步驟:
(1)設源圖像(PET 與MRI)大小為M × N,利用大小為n×n的滑動窗口對PET 與MRI低頻子圖IPL和IML進行分塊,以(i,j)為中心得到分塊c 表示提取的第c(c=1,2,…n × n) 個圖像塊。基于稀疏表示的低頻子帶融合流程如圖5 所示。
Fig.5 Low-frequency subband fusion process based on sparse representation圖5 基于稀疏表示的低頻子帶融合流程
(3)將每個圖像塊轉換成列向量形式V1c和V2c,各自組合構建局部字典
(4)考慮到源圖像的能量信息,計算局部字典的均值矩陣
(6)使用聯合字典對向量V1c、V2c分別進行稀疏 編碼,得到各自的稀疏系數
(7)利用L1 范數最大規則對進行融合,得到稀疏表示系數,與Kang 等[37]提出的融合方法不同,本文使用的計算公式如下:
(8)稀疏重建時使用聯合字典與稀疏表示系數,記重建后的向量為,其計算公式如下:
(9)最后將每個列向量V fc重新變換成塊Pfc,其對應融合圖像IFL的位置為(i,j)。
反復執行步驟(1)-(9),總共處理低頻子帶的M×N對像素點。
基于自注意機制的多尺度DenseNet 分類模型SMSDNet 在融合PET-MRI 圖像基礎上進行特征提取與神經膠質瘤分類。該模型具體架構如圖6 所示。
Fig.6 SMSDNet model architecture圖6 SMSDNet 模型架構
該模型分為4 個模塊:
式中:為0-1變量,k=1時,一定需要對刀,則時,若k子批量與k-1子批量在機床Mm加工的工序Ojils、所選刀具集相同時,機床Mm加工第k子批量前不需要對刀,即否則
(1)顏色空間轉換模塊。RGB 顏色模型適用于顯示器等發光體顯示,所有顏色信息由不同亮度的三基色混合而成。HSV 模型是針對用戶觀感的一種顏色模型,H 通道代表色彩,S 代表深淺,V 代表明暗,相比于RGB 模型,其在圖像分割中作用較大。在RGB 模型中通過3 個通道表現出的圖像比真實圖像更亮,而在HSV 中僅用一個明暗分量V 即能表現亮度。此外,HSV 可直接表現圖像之間色調與顏色的深淺差異。通過以下公式將RGB 轉換成HSV:
(2)基于自注意力機制的密集卷積網絡模塊。考慮到DenseNet 密集連接的性質,每層的輸入是前層所有輸入的拼接,且在每個密集塊中設計5 層密集層作為特征提取器。采用自注意機制對每層輸入的各組成部分進行權重分配,得到各自的貢獻比例。
(3)多尺度特征圖信息融合模塊。融合圖像初始輸入尺寸為256×256×3,在經過每個密集網絡塊后,圖像寬高不變。文獻[36]、[37]的研究表明,圖像多尺度信息能夠提升特征提取效果。在每個密集網絡塊之后引入轉換層,其由一層1×1的Conv 和一層最大池化層組成。最大池化層將密集塊輸出圖像尺寸的寬與高變為原來的1/2,且保持通道數不變。SMSDNet 中有4 個密集網絡塊,對應輸出4 個寬度與高度不同、通道數為16的特征圖,記為Fl1、Fl2、Fl3、Fl4。其中前兩層密集塊輸出的Fl1、Fl2尺寸較大,感受野范圍也較大,具有融合圖像的粗粒度信息,后兩層輸出的Fl3、Fl4多次經過最大池化層后,圖像尺寸變為32×32 和16×16,且因經過了多次特征提取,細節信息比較豐富。基于以上事實,本文對4 個輸出的特征圖先進行一次跨層融合,再對結果進行融合,得到包含多尺度信息的特征圖。
(4)后處理模塊。融合圖像從輸入到輸出經過4 層最大池化層,這些下采樣操作丟失了圖像大量細節信息。為盡可能恢復融合圖像的低級特征(如顏色特征、形狀特征等),后處理模塊以多尺度信息特征圖與最后一個密集塊輸出的特征圖為輸入,通過上采樣與same 卷積操作以恢復一些細節信息。最后將輸出的特征圖經過2 個神經元的全連接層與softmax 分類器,得到圖像屬于神經膠質瘤的概率。
SMSDNet 中每個密集塊有5 層密集層,每層密集層的輸入是前層所有輸入的拼接。考慮到連接的前后關系,引入自注意力機制,該機制的核心是為前層每一個輸出進行權重分配后再進行拼接。自注意力機制的密集塊如圖7 所示。
Fig.7 Self-attention dense block圖7 自注意力機制的密集塊
自注意機制分成以下3 個步驟:
(1)每個輸入對應一張特征圖Fl(l=0,1,…,4),尺寸大小為n×n。對于每層計算兩個矩陣,分別為鍵矩陣Wl與查詢矩陣Ql,初始化時Fl=Wl=Ql。計算第l層密集層的輸入時,將第l-1 層的查詢矩陣Ql與前面所有層(包括自己)的鍵矩陣Wl分別作矩陣乘法運算,得到權重矩陣Kl。
(2)由于每個權重矩陣Kl的尺寸為n×n,為進一步提煉權重系數,使用全局池化層對Kl作進一步處理。每個Kl共享一個池化矩陣Pn×n,計算Kl中每個像素點的加權和。經過全局池化操作后,每層都會得到一個反映權重的數值,之后使用softmax 將這些值約束到[0,1]范圍內,得到權重系數wl。
(3)文獻[38]、[39]的研究與本文研究類似,也是計算權重比例并設置權重閾值。當權重低于該閾值時,不作為輸入的一部分以減少參數數量。但以上方法有一個缺點,每層輸入由前層的部分輸出而非全部輸出組成,因而模型是不固定的,每層密集層卷積使用的卷積核通道數量會有很大變化。同時基于權重系數低的層經過權重分配后特征貢獻將會很少的事實,對于權重系數低的前層輸出不作刪除。第l層密集層的輸入計算公式如下:
這里將原始輸入作為第0 層。
在SMSDNet 中,為獲得圖像的多尺度信息,在密集塊輸出后加上變換層。SMSDNet 中多尺度特征圖提取與融合過程如圖8 所示。
每個過渡層使用2×2×2的最大池化層對特征圖尺寸進行變換,li層得到的特征圖為Fli(i=1,2,3,4),具體尺寸如表1 所示。
Table 1 Size of the feature map output for each transform layer表1 每個變換層輸出的特征圖尺寸
(1)跨層融合。對Fl1、Fl3進行二次卷積操作,其中Fl1、Fl3都使用1×1×16×64的卷積核。由于尺寸大小不一致,將Fl1卷積核的步長設置為2。1×1 卷積核在深度學習中已得到廣泛應用,如GoogleNet[40-41]中的Inception、ResNet[6]中的殘差模塊等,其優點是使用最少的參數拓寬通道數量,可在卷積層之后配合激活函數很好地實現network in network 結構。原來融合后的16 個通道特征圖經過跨通道信息交互實現了通道變換,相當于卷積操作只在channel 維度上進行變換,W 和H 上具有共享的滑動窗口。經過一次卷積后,Fl1尺寸大小為64×64×64,因此對Fl1的 尺寸進行調整。使用步長為2、1×1×64×64 卷積層代替平均/最大池化層,在將圖像尺寸調整為32×32的同時,不改變通道數且盡可能減小圖像提取的細節損失。最后將結果矩陣的像素點相加,得到融合后的結果F′l13,尺寸為32×32×64。Fl2與Fl4的融合步驟類似,最終得到融合結果Fl24,尺寸為16×16×64。
Fig.8 Multi-scale feature map extraction and fusion process in SMSDNet圖8 SMSDNet 中多尺度特征圖提取與融合過程
(2)二次融合。將得到的融合結果F′l13與Fl24進行融合,為使F′l13與Fl24的尺寸大小一致,與跨層融合方法類似,本文使用步長為2、1×1×64×64 卷積層對特征圖Fl13進行卷積操作。但與跨層融合操作不同,考慮到之后會通過后處理操作對后層密集塊輸出Fl4再一次進行特征提取,因此在二次融合中降低Fl24的貢獻比例。本文使用參數優化器對貢獻比例進行微調,具體數據在實驗部分展示。最終的二次融合計算公式如下:
其中,每個權重與特征矩陣中的每個元素作乘積操作。
為了結合密集塊前部提取到的低級紋理特征(顏色特征、形狀特征)與后部提取到的高級紋理特征,同時恢復因轉換層下采樣操作而丟失的細節信息,在全連接層之前加入后處理模塊。具體模塊框架如圖9 所示。
Fig.9 Post processing module framework圖9 后處理模塊框架
在后處理模塊中,首先將第4 層密集塊輸出Fl4與上文得到的多尺度特征圖FMS作為輸入,由于兩者通道數不一致,因此使用1×1×16×64的卷積核對Fl4進行升維,得到通道數為64的特征圖。對于FMS使用1×1×64×64的卷積核,以保持通道數固定。之后對得到的結果作矩陣加法運算,得到融合后的結果FP1,尺寸為16×16×64。接下來進行卷積后上采樣操作,常見的對圖像進行上采樣線性插值的方法有最近鄰插值[42]、雙線性插值[43]、雙三次插值等。近年來基于深度學習的上采樣方法得到了廣泛研究,如Tian等[44]提出Dupsampling,通過卷積學習亞像素(sub-pixel),并通過重組以獲得更大的圖像。但與線性插值相比,該方法因為通道數改變,對于不同放大倍數的圖像需要訓練不同網絡,且不容易連續進行放大。Wang 等[45]提出CAPAFE,其中核預測模塊可生成用于重組計算的核上權重,之后在內容感知重組模塊中將權重通道變形為一個kxk的矩陣。將該矩陣與原本輸入特征圖上的對應點一一進行匹配,并與以其為中心的kxk區域作卷積計算。本步驟中的上采樣處理流程則是借鑒文獻[46]提出的Pixel Shuffle,如圖10 所示。
Fig.10 Upsampling process in postprocessor module圖10 后處理模塊中上采樣處理流程
將FP1低分辨率圖像經過兩層卷積,卷積核分別為3×3×64×128 和3×3×128×256,且每次卷積采用1 像素的全0填充固定圖像大小,兩次卷積操作后得到與原圖像尺寸相同的特征圖FP2,尺寸為16×16×256;之后經過一層亞像素卷積層,該層采用reshape 方法將H×W×r2(r=16)的特征圖轉換成rH×rW的輸出圖,得到輸出特征圖FPET-MRI;最后將FPET-MRI放到2 個神經元的全連接層和softmax 分類器中,得到分類概率[P1,P2],且P1+P2=1。
本文實驗部分的源代碼可通過https://github.com/colinLH/SMSDNet 獲取。
本文在兩個基準數據集上驗證SMSDNet的有效性。
(1)TCIA。因為需要同一患者的PET 與MRI 放射學圖像,挑選出其中一個數據集ACRIN-FMISO-Brain(ACRIN 6684),數據集中包含45組尺寸為256×256的PET 和MRI圖像。由于圖像數據量較小,本文采用標準的數據增強方案,即對每張PET 與MRI 圖像進行鏡像與移位操作,最終得到135 組數據。訓練集與測試集分別包含110 張和25 張圖像,本文選擇20 張訓練圖像作為驗證集。在圖像預處理方面,將PET 與MRI 分別在統計參量圖(SPM)中進行頭動校正、配準與歸一化處理。其中包含兩個樣本種類:正常人群和神經膠質母細胞瘤患者。
(2)哈佛大學全腦圖譜數據集(ANNILB)。該數據集中包含各種彩色腦部放射圖像,尺寸為256×256。先從Normal Anatomy in 3-D with MRI/PET中選擇120張PET與MRI 橫截面圖像作為正常數據集,再從Neoplastic Disease Glioma 中選擇40 張PET-FDG 與MRI 圖像作為患病數據集。訓練集與測試集分別包含130 張和30 張圖像,本文選擇30 張訓練圖像作為驗證集。在圖像預處理方面,由于每個病例中含有多張切片,無法找到具體患病位置的切片,因此將mhd 格式的源數據通過二值化與形態學濾波的膨脹及閉運算等操作,生成腦部圖像。由于圖像不是RGB 三通道的,將圖像更改為24 色位圖bmp 格式的圖像。
實驗配置如下:平臺為MATLAB2018a,操作系統為Windows10,硬件配置為Intel i7 8750 2.20GHz 8GB RAM。
首先將本文設計的方法與拉普拉斯變換(LP)[47]、曲線波變換(CVT)[48]、NSCT-PCNN[49]、NSST-PAPCNN[50]、ShearLab3D[51]5 種先進的融合方法進行比較。LP 是較為經典的融合算法,在醫學圖像融合方面具有較好效果;CVT變換是基于傅里葉變換與小波變換的一種改進,能夠很好地表達圖像邊緣信息,在恢復邊緣結構與減小局部范圍噪聲方面取得了良好效果;NSCT-PCNN 將輪廓波與脈沖耦合神經網絡相結合,能夠從復雜背景中提取出有效信息;NSST-PAPCNN 則是最近提出的一種杰出的基于MST的融合策略。其次,本文使用互信息(MI)、信息熵(IE)、邊緣強度(EI)、空間頻率(SF)、平均梯度(AG)、平均結構相似度(MSSIM)共6 個指標評價融合效果。
(1)互信息(MI)。衡量兩組數據之間的相關性,MI 越大,像素灰度越豐富,且灰度分布越均勻。
其中,P、M、F分別代表原始PET 圖像、原始MRI 圖像以及融合后的圖像。hP,M(i,j)是P與M歸一化聯合灰度直方圖,hP(i)和hF(j)是邊緣直方圖,l是灰度數量,JEP,F是PET與融合圖像之間的聯合熵,IE是單幅圖的信息熵。
(2)信息熵(IE)。反映圖像中信息的豐富度,IE 越大,圖像包含的平均信息量則越大。
其中,f(i,j)是圖像像素灰度與圖像鄰域灰度均值組成的特征組,N為圖像尺度。
(3)邊緣強度(EI)。反映邊緣點梯度的幅值,EI 越大,圖像包含的邊緣信息越豐富。最終融合圖像的邊緣強度計算公式如下:
其中,?xf(i,j)和?yf(i,j)是圖像第i行第j列x、y方向的一階差,這里定義融合圖像F的邊緣強度是每個像素點邊緣強度和的平均值。
(4)空間頻率(SF)。反映圖像灰度變換率,SF 越大,圖像越清晰。
其中,RF、CF分別為圖像的行頻率和列頻率,f(i,j)是每個像素點的值。
(5)平均梯度(AG)。反映圖像比較細節的能力,AG 值越大,圖像層次越多,且圖像越清晰。反之,圖像越模糊。
其中,Gx、Gy分別代表使用Sobel梯度算子求得x與y方向的圖像梯度。
(6)平均結構相似度(MSSIM)。反映源圖像與融合后圖像結構上的相似度,MSSIM 越大,融合后圖像的結構信息與源圖像越相似。
其中,μP、σP、σPF分別是圖像均值、標準差與關聯性,C1、C2是常數。
圖11、圖12 是采用本文方法融合后的PET-MRI 圖像與LP、CVT、NSCT-PCNN、NSST-PAPCNN、ShearLab3D 融合結果的對比。前3 種方法使用PET 與MRI 灰度解剖圖像,后3 種方法使用PET RGB 三通道的彩色功能圖像與MRI 灰度解剖圖像進行融合,融合圖像屬于RGB 顏色空間。結果表明,LP 與NSCT-PCNN 融合后色彩與亮度缺失較多,且清晰度不及CVT,原因可能是NCST-PCNN 低頻與高頻融合規則皆采用PCNN,相比于CVT 低頻規則采用取平均值、高頻規則采用取區域能量的方法,可能丟失圖像部分灰度。但PCNN 處理圖像后可有效抽取背景信號,其因數中包含了橫向及縱向梯度等許多信息,因此EI 值較高。相較于NSST-PAPCNN 與ShearLab3D的融合圖像,本文方法雖然圖像灰度的豐富度沒有顯著提高,但是整體結構層次更多,清晰度有一定程度提升。
Fig.11 Fusion images using LP,CVT and NSCT-PCNN圖11 使用LP、CVT、NSCT-PCNN 得到的融合圖像
Fig.12 Fusion images using NSST-PAPCNN,ShearLab3D and the proposed SP-ResNet圖12 使用NSST-PAPCNN、ShearLab3D 及本文SP-ResNet 得到的融合圖像
圖13 是本文方法與其他5 種融合方法在6 個評價指標上的對比。CVT 相較于傳統的LP 與PCNN 融合方法,其MI數值較大,包含了豐富的圖像信息。但在其他指標上,前4種融合算法差異不大。文獻[51]提出的ShearLab3D 與本文提出的融合算法在EI、SF 和AG 指標上有大幅提升。雖然本文提出的算法在空間頻率(SF)上不及ShearLab3D,但在其他指標上都有小幅提升。其中,在平均梯度(AG)和邊緣強度(EI)上,本文算法相較于ShearLab3D 分別提升了0.177 8 與1.368 6,包含了更豐富的邊緣信息,且融合圖像更清晰,可提升后續神經膠質瘤判別的準確度。各種融合方法6 個評價指標值的比較如表2 所示。
本文使用隨機梯度下降(SGD)方法進行網絡訓練。在TCIA 數據集上,設置批量大小為64 進行100 個epoch的訓練。設置初始學習率為0.01。在訓練epoch 達到50%和75%時,將學習率調整為1/10。在ANNILB 數據集上,同樣設置批量大小為64,并進行2 000 個epoch的訓練。設置4個不同的學習率λ,分別為1、0.1、0.01 和0.001,觀察模型的損失變化趨勢。本文借鑒Huang 等[8]訓練DenseNet-161 時選擇的方法,使用10-4的權重系數與0.9的Nesterov 動量。不同的是,SMSDNet 密集網絡中只有29 層,因此本文不使用dropout 丟棄部分卷積層,以保證模型結構的固定性。為防止過擬合,只進行一次SMSDNet 訓練與測試誤差評估。同時在ResNet-152[6]、ResNet-200[53]、Wide ResNet[52]、ResNet-101[54]、Network in Network[55]、All-CNN[56]及DenseNet-161[8]上評估分類的誤差率,并與SMSDNet 進行比較實驗。
(1)精度。在TCIA 與ANNLLIB的所有數據集上,SMSDNet的分類錯誤率都低于其他分類網絡。在TCIA 上的錯誤率為5.07%,在ANNLIB 上的錯誤率為4.39%,明顯低于各種深度的基本ResNet 架構,但Wide ResNet 分類錯誤率反而小幅上升。在TCIA 上,本文結果相較于CNN 和Network in Network 有顯著提高,錯誤率分別降低了40% 和45%左右。表3 顯示了本文實驗結果在TCIA ANNLIB 數據集上的錯誤率,其中采用增長率為48%的DenseNet-161,Wide ResNet 不采用DropOut 和pre-activation。結果表明,隨著ResNet 網絡層次的增加,錯誤率并沒有明顯降低,且200 層的ResNet 錯誤率仍低于161 層的DenseNet,性能也沒有顯著提高,很可能是因為本文工作局限于簡單的圖像二分類。
Fig.13 The value of each metrics for six fusion methods圖13 6 種融合方法各個評價指標值
Table 2 Comparison of six metrics for six fusion methods表2 6種融合方法的6 種評價指標比較
Table 3 Error rate of TCIA ANNLIB dataset表3 TCIA ANNLIB 數據集錯誤率
(2)訓練效率。SMSDNet 相比于基本的ResNet 架構與DenseNet,深度只有36 層,且效果更優。因為本文沒有使用Dropout,且增加了自注意力機制,引入了索引矩陣,所以參數量偏大。本文網絡不適合增加深度,但相比于其他網絡,SMSDNet 僅使用較少的卷積層即大幅提升了分類準確率,因此也沒必要過分增加深度。相比于DenseNet,本文參數量降低了27%,但測試誤差接近,且有小幅提升。為減少模型參數,通過增加池化層數量來減少參數的方法已被廣泛應用于DenseNet。本文在密集塊之間引入瓶頸層,每層瓶頸層中僅有一層最大池化層,因此本文參數量仍無法顯著減少,這也是本文模型的缺點。但是SMSDNet 計算效率高,較低的深度即可達到較好的分類效果。
SMSDNet 模型在ANNLIB 上的訓練損失如圖14 所示,其中橫坐標表示訓練epoch,λ 表示學習率。對TCIA、ANNLIB 分別用數量為25 與30 個樣本的測試集進行評估,得到正確與錯誤分類的樣本數。兩個數據集上測試集的混淆矩陣如圖15 所示(彩圖掃OSID 碼可見)。
Fig.14 Training loss of SMSDNet model on ANNLIB圖14 SMSDNet 模型在ANNLIB 上訓練損失
Fig.15 Confusion matrix for neuroglioma dichotomization on TCIA and ANNLIB圖15 TCIA 與ANNLIB 上神經膠質瘤二分類混淆矩陣
對于每個數據集,根據以下公式計算召回率、精確率及F1分數:
在TCIA 與TEBA的測試集上,本文定義健康的樣本為正樣本,患有神經膠質瘤的樣本為負樣本,得到回歸率分別為0.941 和0.947。其中,各自誤判為負樣本的僅有一例,表明SMSDNet 很好地判斷出了健康樣本,精確率分別為0.889 和0.947。但其在單獨的健康樣本中精確率較低,猜測可能是測試樣本基數小的緣故,對整體樣本進行8 次5折交叉驗證,得到平均精確率分別為0.952 和0.983,驗證了之前的猜想。為綜合考慮回歸率和精確率兩個指標,實驗同時計算了F1分數。其F1分數分別為0.978 和0.965,表明SMSDNet 對于小樣本數據也有很高的訓練精度。此外,SMSDNet 只有36 層密集卷積層,由于密集連接的性質,隨著層數的增加,效果不會變差,因此推斷SMSDNet 在數據量更大與密集網絡層數更深的情況下,分類精度將進一步提升。
本文首先提出基于NSST的圖像融合方法,其中低頻子帶采用稀疏表示的方法進行融合,高頻子帶采用殘差連接網絡對PET 與MRI 分解出的高頻部分進行權重分配后再進行融合。低頻融合方法充分結合了NSST的平移不變性,可避免偽吉布斯現象出現,且SR 能更好地表示圖像非線性邊緣和曲面。高頻融合方法通過神經網絡得到權重系數,相比于其他融合方法具有絕對優勢,融合后的圖像結合了PET 圖像的色彩豐富度及MRI 圖像的結構信息。之后提出基于DenseNet的帶有自注意力機制與多尺度變化機制的分類框架SMSDNet,針對病理樣本分類任務取得了優異的成績,相比最新模型的平均準確率提升了4.7%,可準確判斷出患有神經膠質瘤的樣本,具有臨床輔助診斷的應用價值。