王珊珊 朱威 周萍萍 李開艷



摘?要:為了解決肝硬化病理圖像分類準確率低的問題,基于復合卷積神經網絡提出了一種更準確的對肝硬化病理圖像分類的深度學習模型EMobileNet.EMobileNet是在EfficientNetV2網絡的基礎上,插入可分離自注意力模塊MobileViTv2,并引入四階龍格-庫塔殘差塊調整MBViTconv模塊間的連接方式.肝硬化病理圖像數據集由華中科技大學同濟醫學院附屬同濟醫院提供,實驗采用十折交叉驗證法對線陣和凸陣圖像分別進行訓練并分類.對所提出模型進行消融實驗并與多種經典網絡效果進行對比,結果顯示EMobileNet模型在三分類任務上達到了97.89%的總體準確率,顯著提高了檢測性能,可以取得較高精度的肝硬化病理圖像分類效果.
關鍵詞:肝硬化;EMobileNet;可分離自注意力;MobileViTv2;四階龍格-庫塔殘差塊
中圖分類號:TP391.4
文獻標志碼: A
文章編號:2096-398X(2023)04-0173-07
Abstract:To solve the problem of low classification accuracy of cirrhotic pathological images,this paper proposes a more accurate deep learning model EMobileNet for the classification of cirrhotic pathological images based on a composite convolutional neural network.EMobileNet refers to EfficientNetV2 network with the insertion of the separable self-attention module MobileViTv2,and the introduction of fourth-order Runge-Kutta residual block to adjust the connectivity between MBViTConv modules.The liver cirrhosis pathology image dataset was provided by Tongji Medical College,Huazhong University of Science and Technology,and the experiments were conducted using the ten-fold cross-validation method to train and classify the convex and line array images respectively.The proposed model was subjected to ablation experiments and compared with the effects of various classical networks,and the results showed that EMobileNet achieved an overall accuracy of 97.89% on the triple classification task,significantly improving the detection performance and enabling a higher accuracy in the classification of cirrhotic pathology images.
Key words:cirrhosis; EMobileNet; separable self-attention; MobileViTv2; fourth-order Runge-Kutta residual block
0?引言
肝臟是以代謝功能為主的重要器官之一,擔負著極其重要的功能,如有機營養物質的代謝合成,代謝毒素的無毒轉化,間接參與造血等等.全世界每年約有200萬人死于肝病,100萬人死于肝硬化并發癥,100萬人死于病毒性肝炎和肝細胞癌[1].近年來,全球肝硬化患者數量不斷增加,僅中國就有超過700萬肝硬化患者.肝硬化一旦惡化,就應盡早重視,否則會導致身體多方面的并發癥[2].
對肝硬化病理圖像的準確分類,對輔助醫師診斷有重大意義.利用機器學習相關算法對醫學病理圖像的識別,主要有淺層次結構模型[3]和深度學習模型[4]兩類研究方法.
在淺層次結構模型方面,Xiong等[5]使用Lloyd算法、LBP算子和灰度共生矩陣紋理特征來處理肝硬化圖像,并通過支持向量機對肝硬化磁共振圖像進行分類.在肝硬化ROI區域達到了97.83%的分類準確率,對肝硬化圖像的分類準確率高達99.5%.Akash等[6]使用改進的區域生長分割技術、邏輯回歸和支持向量機對肝硬化圖像和肝細胞癌圖像進行分類,對肝硬化和肝細胞癌的預測準確率分別達到86.9%和80%.Raghesh等[7]采用多級分形特征和多域小波紋理特征對肝臟超聲圖像進行特征提取,利用粒子群優化提取最佳特征、選擇最合適的分類器及參數實現分類,多級分形特征集減少了50%,總體準確率為91%.
在肝臟病理圖像研究領域,基于深度學習的識別方法也得到了一定的應用.Huang等[8]介紹了一種基于PCANet和DenseNet的輕量級混合神經網絡,用于肝硬化圖像分類,最終效果達到89.7%.Chowdhury等[9]采用EfficientNet網絡檢測COVID-19,結合硬集成和軟集成策略提高分類性能,總體準確率達到96.07%.但是由于醫學病理圖像的特殊性,部分卷積神經網絡讀取圖像特征信息的能力受限,且隨神經網絡深度的增加,分類精度提升并不明顯.
為了進一步提升肝硬化病理圖像分類精度,本文提出了一種基于復合卷積神經網絡的深度學習模型EMobileNet.它利用EfficientNetV2系列網絡模型,在引入MobileViTv2模塊的基礎上,通過四階龍格-庫塔殘差塊調整連接方式,提升網絡提取肝硬化病理圖像特征信息的能力,進一步提高網絡分類精度.實驗采用線陣和凸陣數據集進行訓練.實驗結果表明,本文所提出的EMobileNet模型能有效提高檢測精度,達到了較好的分類效果.
1?相關工作
1.1?EfficientNetV2
EfficientNetV2由移動翻轉瓶頸卷積結構(MBConv)和融合移動翻轉瓶頸卷積結構(Fused-MBConv)模塊組成.MBConv由兩個1×1標準卷積塊、SE注意力機制模塊、深度可分離卷積塊組成.其中,深度可分離卷積塊大大減小了模型的參數量.Fused-MBConv采用3×3的標準卷積塊替換了MBConv中的3×3深度可分離卷積塊和1×1標準卷積塊.相較于MBConv,Fused-MBConv雖然參數量更多,但是具有更強的特征提取能力和圖形推理速度.通過神經架構搜索方法(NAS)得到了Fused-MBConv和MBConv的最佳組合,從而充分發揮兩種模塊的優勢,實現精度、模型參數量以及推理速度的平衡.Fused-MBConv和MBConv組合下的EfficientNetV2結構參數如表1所示.Conv表示卷積層;Fused-MBConv和MBConv的尾部數字1、4和6均為倍率因子,即輸入特征層通道數擴充的倍數;k為卷積核大小;SE為通道注意力機制模塊;Pooling為池化層;FC為全連接層.
影響深度學習分類算法精度的主要因素有網絡的寬度、深度和圖像分辨率等[10].只調整主要因素中的某個參數,增益很快會達到瓶頸,導致網絡性能很難有明顯提升.為了解決這個問題,EfficientNetV2網絡使用了一種簡單高效的復合縮放方法[11],該方法通過復合系數統一調整網絡的寬度、深度和圖像分辨率,調整原則如下:
式(1)~(5)中:d為網絡深度;w為網絡寬度;r為圖像分辨率;α、β、γ為網格搜索得到常數;為人為指定的復合系數,用來分配可用于模型復合縮放的資源.通常取復合系數為1,α=1.2,β=1.1,γ=1.15.
相較于現有的許多分類網絡,EfficientNetV2網絡不僅具有更小的模型參數量,并且在多項分類任務中表現出更加優異的準確率和效率,因此本文以EfficientNetV2作為主體網絡.
1.2?MobileViTv2
MobileViT是采用CNN(Convolutional Neural Network)和Transformer的混合架構模型,在一定程度上緩解了Transformer模型參數過大的問題.MobileViTv2結合了可分離自注意力(Separable Self-attention)和MobileViT的優勢,能以更高效的網絡結構充分提取圖像的全局信息[12].通過引入可分離自注意力機制,運用獨立的線性計算和逐元素乘積運算編碼全局信息,緩解占用資源多的問題.它的參數與許多輕量化神經網絡相比也較少,性能更穩定.
可分離自注意力機制的主要思想是計算與潛在標記有關的全局特征分數.特征分數被用來對另外輸入的標記進行重新加權計算,并產生一個新的全局向量,該向量對全局信息進行編碼.由于可分離自注意力機制相對于潛在標記進行的是線性運算,因此可以有效降低復雜度.
在可分離自注意力模塊內,對于輸入的特征 (m*n),使用三個分支進行處理,處理過程如圖1所示.
在圖1中,分支1使用權重為W1的線性層將輸入特征 (m*n)中的每個n維向量上的特征一一映射,再經過Sigmoid函數激活后生成m維的全局特征分數CS;分支2使用權重為W2的線性層將輸入特征X(m*n)線性映射到n維空間,然后與分支1生成的m維向量進行逐元素乘積運算,加權計算后得到全局向量CV;分支3使用權重為W3的線性層將輸入特征X(m*n)線性映射到n維空間,然后使用ReLU函數進行激活,跟CV再進行逐元素乘積運算,得到的特征向量再經過一個線性層,最終生成新的(m′*n′)輸出特征,即為可分離自注意力特征圖.
圖2為圖1中分支1和分支2的交互計算示意圖.由圖1可知,全局特征分數CS用于計算全局向量CV.由圖2可知,分支1通過內積計算潛在特征信息L和輸入特征X之間的距離,得到一個m維向量,這個m維向量進行softmax操作后得出全局特征分數CS.分支2上經過權重為W2∈Rn*n的線性層,再通過與CS逐元素乘積運算并求和得到全局變量CV.CV的計算公式如下:
式(6)中:CS(i)表示分支1上經過了Softmax層的全局特征分數,CS∈Rm.X2(i)表示分支2上經過了權重為W2∈Rn*n線性層的特征向量,X2∈Rm*n.全局向量CV∈Rn.
全局向量CV對輸入特征中所有信息進行編碼.CV編碼的全局信息可以與輸入特征中的信息共享.在CV的基礎上,再將分支3中輸入特征X線性映射在n維空間的特征信息,經過ReLU激活函數得到X3∈Rm*n.通過CV中的全局信息與X3逐元素乘積運算得到Xo.然后,將所得輸出傳遞至權重為Wo的線性層,產生最終輸出Y∈Rm′*n′.可分離自注意力整體公式可定義為:
式(7)中:σ表示Sigmoid函數,X表示輸入特征,W1、W2和W3表示三個線性層對應的權重,*表示逐元素乘積運算,ReLU表示修正線性單元激活函數,Wo表示最終輸出前線性層對應的權重.
圖3為加入了可分離自注意力的MobileViTv2模塊示意圖,MobileViTv2模塊主要由深度卷積層(DWConv),逐點卷積層(PWConv)和可分離自注意力模塊等組成.本文所提到的MobileViTv2模塊,B值均取1.
1.3?四階龍格-庫塔方案
與神經網絡子模塊的設計一樣,子模塊間的堆疊策略對提升神經網絡整體性能同樣重要[13].在資源成本和網絡參數相同的情況下,采用不同的堆疊策略,卷積神經網絡可以有更好的表現[14].基于此,本文為EfficientNetV2提出了一種四階龍格-庫塔殘差連接方案.低階殘差連接方案如圖4(a)所示,低階殘差塊僅僅將每個權重塊與權重塊分隔開,輸入在經過多個權重層后,淺層信息占比不足,提取圖像淺層特征信息效率低.如圖4(b)所示,四階龍格-庫塔殘差塊將圖像特征的映射分為兩部分,一部分映射來自前一個權重塊內部的特征信息傳遞,另一部分是原始輸入特征x直接映射到對應權重塊得到的特征信息.用高階殘差塊將輸入特征直接映射到其他權重塊,有效保證了圖像原始特征的傳遞,使淺層網絡上特征信息得到更好地提取,緩解網絡層數太深導致的過擬合現象.
四階龍格-庫塔殘差塊由四個權重模塊組成,每個權重模塊及整體的輸出表示如下:
(8)式(8)中:k1,k2,k3,k4代表四個權重模塊的輸出,Nin為四階龍格-庫塔殘差塊的輸入,F為權重層函數.
單個四階龍格-庫塔由八層權重層構成,在經過八層權重層后,輸出如下表示:
式(9)中:Nout為四階龍格-庫塔殘差塊的輸出.
2?改進后的EMobileNet
用可分離自注意力MobileViTv2模塊替換MBConv中的SE注意力機制模塊,命名為MBViTConv模塊.Fused-MBConv模塊和改進后的MBViTConv如圖5所示.同時將各個MBViTConv層中的每第一個、第二個和第三個MBViTConv模塊用四階龍格-庫塔殘差塊連接,每四個MBViTConv模塊連接成一個四階MBViTConv模塊,分別為RK4=1、RK4=2和RK4=3.將EfficienNetV2中引入四階龍格-庫塔殘差塊的模型命名為EMobileNet,其中EMobileNet-2為引入了RK4=2的模型.改進后EMobileNet-2整體網絡結構圖如圖6所示.
EMobileNet-2整體網絡由Fused-MBConv模塊、MBViTConv模塊、卷積層、池化層和全連接層構成.圖6虛線框內的MBViTConv(RK4=2)可用左側模塊連接結構代替.與EfficientNetV2相比,EMobileNet-2整體網絡將引入了可分離自注意力機制的MobileViTv2模塊替換掉了SE模塊,SE模塊更多關注圖像通道上的特征信息,而醫學圖像作為灰度圖像中常見的單通道圖像,在通道上的特征信息只是一部分.由于可分離自注意力機制能更有效把握圖像的全局信息,降低了過多關注圖像通道上的特征信息可能導致分類準確率低的風險,使得醫學圖像的全局特征信息能得到更全面的提取.通過四階龍格-庫塔殘差塊改變MBViTConv層中的堆疊方式,使得網絡可以充分利用圖像的淺層特征與深層特征,從而緩解層數深的神經網絡在訓練過程中精度很快飽和的問題,提升EMobileNet網絡的擬合能力.
3?實驗結果與分析
3.1?數據集以及數據處理
肝硬化圖像分為早期、中期和晚期肝硬化(0型、1型和2型).在采集肝硬化超聲圖像時,對同一批患者用線陣探頭和凸陣探頭采集兩組肝硬化圖像數據.超聲機的型號是GE LOGIQ E9,兩組肝硬化圖像數據集如圖7所示.實驗采集的肝硬化數據集包含61名患者的B超圖像,線陣數據集中有0型147張,1型108張,2型68張;凸陣數據集中有0型124張,1型110張,2型80張.圖像中的ROI區域(圖中綠色框內的部分)由華中科技大學同濟醫學院經驗豐富的醫生圈出,并給出了病理檢查結果的分類.將線陣和凸陣圖像的ROI區域再隨機裁剪成64*64的小圖,使用模型訓練時,總共有圖片7 110張,其中0型2 390張,1型2 430張,2型2 290張.
3.2?評價指標
本文實驗使用準確率(Acc),精確率(Pre),召回率(Rec)和F1-Score作為模型性能指標量化神經網絡分類性能.各指標可用公式表示如下:
式(10)中:TP表示預測正確的正類樣本數量,TN表示預測正確的負類樣本數量,FP表示預測錯誤的正類樣本數量,FN表示預測錯誤的負類樣本數量.
式(11)、(12)中:i和j的取值為0,1,2.Prei表示第i類的準確率,Reci表示第i類的召回率,TPi表示預測正確的第i類樣本數量,Eij和Eji表示真實標簽為第i類但被錯誤預測為第j類的樣本數量.
3.3?實驗結果
本文所有實驗均采用PyTorch開源庫作為深度學習框架,CPU為Intel(R) Core(TM) i7-11800H,GPU使用的是NVIDIA GeForce GTX 3060 6GB.
將肝硬化線陣和凸陣超聲圖像數據集按照8∶1∶1的比例隨機劃分成訓練集、驗證集和測試集.實驗重復300次,批大小設置為8,初始學習率設置為0.01,每經過十個epoch,學習率乘以0.9.為避免圖像尺寸對模型效率的影響,實驗采用漸進學習策略,在早期訓練過程中使用較小的圖像尺寸,使得網絡快速學習圖像淺層特征信息,在后續的訓練過程中逐漸增大圖像尺寸,保證網絡學習圖像較為復雜的特征信息.在訓練過程中對數據集進行十折交叉驗證,各網絡分類對比實驗結果如表2所示.在表2中,AlexNet[15]、VGG11[16]、GoogLeNet[17]、ResNet50[18]和EfficientNet[19]、EfficientNetV2經典網絡作為對比實驗的參照.VGG-ResNet是VGG11和ResNet50融合后的深度學習模型.
EMobileNet表示插入可分離自注意力機制MobileViTv2同時引入四階龍格-庫塔殘差塊的模型.其中,EMobileNet-1、EMobileNet-2和EMobileNet-3分別表示引入了RK4=1、RK4=2和RK4=3的深度學習模型.EMobileNet-1、EMobileNet-2和EMobileNet-3這三種模型作為消融實驗的參照如表3所示.
從表2可以看出,本文提出的EMobileNet模型,對于肝硬化病理圖像三分類,達到最高96.78%的分類準確率,與其他幾種經典的深度卷積神經網絡如AlexNet、VGG11、GoogLeNet和ResNet50相比達到較高水平,說明EMobileNet模型整體分類性能較好.從表3可以看出,引入了四階龍格-庫塔殘差塊的效果較初始EMobileNet仍有一定提高,其中EMobileNet-2分類準確率最高達到97.75%,精確率達到97.78%,召回率達到97.75%,F1-Score達到了0.977 5.EMobileNet-2在肝硬化病理圖像測試集進行分類,實驗結果如表4所示,三分類混淆矩陣如圖8所示.
從測試集結果和三分類混淆矩陣可以看出,組合了MobileViTv2后的EMobileNet具有更好的穩定性和泛化能力.同時,四階龍格-庫塔殘差塊與低階殘差塊相比也具有一定的優勢,它可以彌補低階網絡模型的過擬合問題,能有效提升分類精度.
本文提出的EMobileNet-2在線陣和凸陣肝硬化病理圖像數據集上測試時,取得了較好的分類效果.其中,0型、1型和2型肝硬化病理圖像分類的F1-Score值都達到了0.97以上,檢測2型肝硬化時精確度最高,為99.56%,檢測1型肝硬化時召回率最高,達到了98.73%.各項指標均達到較高水平,表明所提出模型在肝硬化病理圖像上有較大應用潛力.
4?結論
本文提出了一種基于復合卷積神經網絡的EMobileNet模型,它可以有效地檢測肝硬化病理圖像病變程度.在EfficientNetV2網絡的基礎上,首先引入可分離自注意力MobileViTv2模塊,保證了網絡的圖像特征提取能力;其次利用四階龍格-庫塔調整殘差連接方式,提高了模型的特征信息獲取能力;最后對肝硬化線陣和凸陣數據集分別應用本文模型訓練,結合二者結果后得到最終的分類結果.實驗結果表明,所提出的EMobileNet模型達到了很好的分類效果,為肝硬化智能診斷分類提供了新思路,在相關醫學圖像的影像學分析領域內有較高的參考價值.
參考文獻
[1] Cao W,Chen H D,Yu Y W,et al.Changing profiles of cancer burden worldwide and in China:A secondary analysis of the global cancer statistics 2020[J].Chinese Medical Journal,2021,134(7):783-791
[2] Cao G Y,Jing W Z,Liu J,et al.Countdown on hepatitis B elimination by 2030:The global burden of liver disease related to hepatitis B and association with socioeconomic status.[J].Hepatology International,2022,16(6):1 282-1 296.
[3] Obermeyer Z,Emanuel E J.Predicting the future-big data,machine learning,and clinical medicine[J].The New England Journal of Medicine,2016,375(13):1 216-1 219.
[4] Robert S,Bettina K B,Ambrus T,et al.Diagnosis of focal liver lesions with deep learning-based multi-channel analysis of hepatocyte-specific contrast-enhanced magnetic resonance imaging[J].World Journal of Gastroenterology,2021,27(35):5 978-5 988.
[5] Xiong C M,Han M,Zhao Y,et al.Diagnostic method of liver cirrhosis based on MR image texture feature extraction and classification algorithm[J].Journal of Medical Systems,2020,44:1-8.
[6] Akash N,Esha B K,Manish A,et al.Computer-aided diagnosis of cirrhosis and hepatocellular carcinoma using multi-phase abdomen CT[J].International Journal of Computer Assisted Radiology and Surgery,2019,14(8):1 341-1 352.
[7] Raghesh K K,Sudhakar R,Mohaideen A K K.Particle swarm optimization-based liver disorder ultrasound image classification using multi-level and multi-domain features[J].International Journal of Imaging Systems and Technology,2021,31(3):1 366-1 385.
[8] Huang Z W,Zhu X X,Ding M Y,et al.Medical image classification using a light-weighted hybrid neural network based on PCANet and DenseNet[J].IEEE Access,2020,8:24 697-24 712.
[9] Chowdhury N K,Kabir M A,Rahman M M,et al.ECOVNet:A highly effective ensemble based deep learning model for detecting COVID-19[J].PeerJ Computer Science,2021,7:e511.
[10] 劉金香,班?偉,陳?宇,等.融合多維度CNN的高光譜遙感圖像分類算法[J].中國激光,2021,48(16):159-169.
[11] Tan M X,Le Q V.Efficientnetv2:Smaller models and faster training[C]//Proceedings of the International Conference on Machine Learning.Online:ACM,2021:10 096-10 106.
[12] Quan Y,Li Z X,Zhang C L,et al.Object detection model based on scene-level region proposal self-attention[C]//International Conference on Pattern Recognition.Online:IEEE Computer Society,2021:954-961.
[13] 汪?豪,吉邦寧,何?剛,等.一種提高直腸癌診斷精度的基于U型網絡和殘差塊的電子計算機斷層掃描圖像分割算法[J].生物醫學工程學雜志,2022,39(1):166-174,184.
[14] Luo Z B,Sun Z T,Zhou W L,et al.Rethinking ResNets:Improved stacking strategies with high-order schemes for image classification[J].Complex & Intelligent Systems,2022,8(4): 3 395-3 407.
[15] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[16] Zhang X,Zou J,He K,et al.Accelerating very deep convolutional networks for classification and detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,38(10):1 943-1 955.
[17] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE Computer Society,2015:1-9.
[18] He K M,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE Computer Society,2016:770-778.
[19] Tan M,Le Q V.Efficientnet:Rethinking model scaling for convolutional neural networks[C]//Proceedings of the International Conference on Machine Learning.Long Beach:ACM,2019:6 105-6 114.
【責任編輯:陳?佳】
基金項目:國家重點研發計劃項目(2018YFC0116100);湖北省重點研發計劃項目(2020BAB114);湖北省教育廳科學研究計劃重點項目(D20211402)
作者簡介:王珊珊(1982—),女,湖北鐘祥人,副教授,研究方向:圖像處理、深度學習