本文引用格式:,.一種改進 ResNet34模型的乳腺圖像識別方法[J].自動化與信息工程,2025,46(3):30-36. WANG Jinjun, CAI Yanguang. An improved ResNet34 model for mammographic image recognition method[J]. Automation amp; Information Engineering,2025,46(3):30-36.
關鍵詞:乳腺圖像識別;ResNet34;平行注意力殘差塊;科爾莫戈洛夫-阿諾爾德網絡中圖分類號:TP391.41; TP183 文獻標志碼:A 文章編號:1674-2605(2025)03-0005-07DOI: 10.12475/aie.20250305 開放獲取
An Improved ResNet34 Model for Mammographic Image Recognition Method
WANG Jinjun1CAI Yanguang1,2 (l.College of Automation, Guangdong University of Technology, Guangzhou 510o06, China 2.School of Artificial Intelligence, Guangzhou Institute of Science and Technology, Guangzhou 510540, China)
Abstract: To enhance the recognition accuracy of mammographic images,an improved ResNet34 model for mammographic image recogitionmethodis proposed.BuildingupontheResNet34model,thismethod introducesaparalelatentonresidualblock (PARB)moduletostrengeniterchaeloelationsimammoapicimags,furthrextractingcricalfatureifotioto improveecogitaccacy.Aditalyiteacesterditioalultilepecetro(M)ithomogor-oldetorks (KAN) toreduce model parameters and increaserecognition speedExperimentalresults demonstratethat the improved ResNet34 model achieves enhancements of 4.0% 0.6% 8.0% ,and 4.7% in accuracy, precision, recall,and F1-Score respectively compared to the original ResNet34 model, indicating superior recognition performance for mammographic images.
Keywords: mammographic image recognition; ResNet34; paralll atentionresidualblock; Kolmogorov-Arnold networks
0 引言
乳腺癌是女性常見的惡性腫瘤之一,其發病率逐年增加[1]。數字乳腺X射線影像因具有設備成本低、檢查速度快、圖像分辨率高、放射劑量低等特點,被廣泛應用于臨床診斷[2]。然而,數字乳腺X射線影像質量參差不齊,不僅影響醫生診斷,還可能增加誤診風險[3]。隨著深度學習技術在醫學圖像分析領域的廣泛應用,如何快速、準確地識別不完整乳腺圖像已成為研究熱點,其不僅為醫生診斷提供了重要參考,還推動了醫學圖像技術的發展。
近年來,利用深度學習技術識別不完整圖像受到學術界的廣泛關注。文獻[4]提出一種基于場效應的雙線性深度網絡,用于評估不完整圖像中的缺失特征;但模型參數較多,訓練時間較長,不適用于實時性要求高的場景。文獻[5]基于低秩矩陣的恢復思想,提出一種不完整人臉圖像識別深度學習算法,通過矩陣恢復不完整的人臉圖像;但當圖像損壞較嚴重時,識別準確率有所下降。文獻[6提出一種基于自注意力機制的不完整圖像精細化識別模型,通過互增強操作,利用生成對抗網絡特征來加強不完整圖像的特征信息,實現不完整圖像的快速識別;但模型計算較復雜,需要消耗大量的資源,導致硬件成本增加。文獻[7]提出一種基于殘差網絡和擠壓激勵層的深度學習分類網絡模型,可定位并識別不完整的頭頸部磁共振圖像;但其識別準確率僅有 78.8% 。文獻[8]提出一種基于分塊統計的模板匹配算法,用于對完整和不完整目標的準確定位;但無法有效識別經過縮放或旋轉的圖像。
為了快速、準確地識別不完整乳腺圖像,以提高醫學圖像評估的準確率[],本文提出一種改進ResNet34模型的乳腺圖像識別方法。該方法在ResNet34模型[0]的基礎上,引入了平行注意力殘差塊(parallelat-tentionresidualblock,PARB)模塊,并利用科爾莫戈洛夫-阿諾爾德網絡(Kolmogorov-Amold networks,KAN)替代傳統的多層感知器(multilayerperceptron,MLP),以提高乳腺圖像的識別準確率,降低醫生誤診率,提升工作效率。
1相關內容
1.1壓縮和激勵模塊
壓縮和激勵(squeeze and excitation,SE)模塊[1]是一種通道注意力模塊,能對輸入特征圖進行通道特征加強,以提高卷積神經網絡的表征能力,其結構如圖1所示。

SE模塊的操作流程如下:1)對輸入特征圖 X 進行卷積操作,產生新的特征圖 U 2)對新的特征圖 U 進行壓縮操作,提取通道間的全局特征信息,生成一個通道權重向量;3)對通道權重向量進行激勵操作,確定每個通道的相對重要性;4)利用通道權重來調整新的特征圖 U ,通過元素乘法得到SE模塊的輸出 E 。
1.2S2注意力機制模塊
S2 注意力機制是一種改進的注意力機制[12],主要用于增強序列建模中不同位置之間的關聯性[13-15]。其通過優化注意力計算方式,能夠更有效地捕捉序列中長距離的依賴關系,從而提升模型對序列數據的建模能力。S2注意力機制模塊通過層次化的金字塔結構特性,可捕獲更精細的視覺特征,提高模型的識別精度。S2注意力機制模塊的結構如圖2所示。

S2注意力機制模塊的操作流程如下:
1)對輸入特征圖 X 進行特征映射,產生新的特征圖 U 2)展開新的特征圖 U ,并將其切分成3個部分(特征圖 B 、特征圖 T 和特征圖 R );3)將特征圖 B ! T 分別進行不同的空間位移操作,得到特征圖
:特征圖 R 保持不變;4)融合特征圖
,得到S2注意力機制模塊的輸出 S (204號
1.3 PARB模塊
PARB模塊融合了SE模塊和S2注意力機制模塊的特點,加強了不同位置間的關聯性,可進一步提取通道間的重要特征信息,其結構如圖3所示。

PARB模塊的操作流程如下:
1)利用SE模塊和S2注意力機制模塊分別對輸入特征圖 X 進行特征權重提取,其中,SE模塊通過卷積、SE操作獲取通道的重要特征信息,生成SE模塊特征 E;S2 注意力機制模塊通過對輸入特征圖 X 進行特征映射、切分、位移和融合操作,加強對輸入特征圖不同位置的關聯性,生成S2注意力特征 S
2)將SE 模塊特征 E 與 S2注意力特征 S 相加,得到新的特征 P 3)對 P 進行 1×1 卷積操作,生成卷積特征 x1 ,即為調整輸入特征圖的輸入通道數;4)將卷積特征 x1 與輸入特征圖 X 進行殘差相加,生成PARB 模塊輸出y。
1.4 KAN
在深度學習中,傳統的MLP存在參數眾多、調參過程復雜、學習效率較低等問題。本文利用KAN[16]替代MLP[17]。KAN結合了MLP和樣條曲線的優點,通過Kolmogorov-Amold表示定理,將輸入的高維函數轉換為低維函數進行分析。KAN結構如圖4所示。
KAN的操作流程如下:
1)將前層(如平均池化層)的輸出圖像特征作為KAN的輸入;2)利用多個非線性激活函數,對輸入的每個特征維度進行處理,生成多組基函數結果;3)通過可學習的雙線性權重,將第一層激活后的基函數結果兩兩加權組合,生成中間交互特征;4)先對中間交互特征應用激活函數,再經過線性層加權求和,得到KAN的輸出結果。

1.5 改進的ResNet34模型
本文以ResNet34模型為基礎,在卷積層后引入PARB模塊,以增強乳腺圖像通道間的特征聯系,進一步獲取乳腺圖像的重要特征信息,提高了模型的識別準確率;利用KAN替代MLP,減少模型參數,提升模型的識別速度。改進的ResNet34模型結構如圖5所示。
改進的ResNet34模型操作流程如下:
1)利用1個 7×7 的卷積層1初步提取乳腺圖像特征;2) 通過批量歸一化層和激活函數解決模型計算過程中的梯度消失和梯度爆炸問題;3)通過最大池化層進一步提取乳腺圖像特征并減少計算量;
4)經過卷積層2,提取乳腺圖像的深層特征;
5)利用PARB模塊,加強乳腺圖像的深層特征,并進一步增強乳腺圖像不同通道間的聯系;
6) 重復步驟4)、5)3次;
性交互與輕量化聚合,提升特征判別能力,減少模型參數,并輸出乳腺圖像的識別結果。
2 實驗
2.1 實驗環境
本文方法采用PyTorch框架實現,編程語言為Python,處理器為14 vCPU Intel(R)Xeon(R) Gold 6330CPU@2.00GHz ,內存為 60GB ,顯卡為RTX3090。

2.2 實驗數據集
以乳腺X射線篩查數字數據庫(digitaldatabasefor screeningmammography,DDSM) [18]為基礎制作實驗數據集。首先,從DDSM中選取325幅乳腺圖像;然后,通過數據增強方法(旋轉、對稱變換、平移等)對乳腺圖像進行數據擴充;接著,依據乳腺X射線圖像質量標準[19]裁剪符合實驗要求的乳腺圖像,并請專業醫生對處理后的乳腺圖像進行主觀評價,評價結果包括545幅完整乳腺圖像(乳腺部位無缺陷,輪廓清晰完整,滿足診斷要求)和508幅不完整乳腺圖像(乳腺輪廓不完整,不滿足診斷要求),如圖6所示;最后,為減少實驗數據不均衡帶來的誤差,隨機選取完整和不完整乳腺圖像各500幅組成實驗數據集。將實驗數據集的1000幅乳腺圖像按 8:2 的比例劃分為訓練集和測試集。

7)通過平均池化層降低網絡層數、防止過擬合,并增強乳腺圖像的局部特征信息;
8)利用KAN對乳腺圖像的深層特征進行雙線
2.3 參數設置
為提高改進的ResNet34模型性能,經反復訓練,最終確定本文實驗的參數如表1所示。


2.4 評價指標
本文采用準確率(accuracy)、精確率(precision)、召回率(recall)、F1-score為模型的評價指標。在混淆矩陣[20]中,TP表示將正樣本預測為正樣本的圖像數量,FP表示將負樣本預測為正樣本的圖像數量,FN表示將正樣本預測為負樣本的圖像數量,TN表示將負樣本預測為負樣本的圖像數量。
2.4.1 準確率
準確率是指被正確分類的圖像數量占總樣本圖像數量的比例,計算公式為

2.4.2 精確率
精確率是指在預測為正樣本的圖像數量中,被正確分類的圖像數量比例,計算公式為

2.4.3 召回率
召回率是指在真實為正樣本的圖像數量中,被正確分類的圖像數量比例,計算公式為

2.4.4 F1-Score
F1-Score是指精確率和召回率的調和均值,計算公式為
2.5 實驗結果與分析
為驗證改進的ResNet34模型的有效性,將其與ResNet34模型進行對比實驗,其損失曲線、準確率曲線如圖7所示。

由圖7可知,雖然ResNet34和改進的ResNet34模型均趨于收斂狀態,但改進的ResNet34模型的準確率明顯高于ResNet34模型,說明改進方法有效地提高了模型的識別能力。
2.6 消融實驗
為了直觀地了解各模塊對改進的ResNet34模型性能的影響,將ResNet34、ResNet34+PARB、Res-
和改進的ResNet34模型進行消融實驗。根據實驗最優模型結果得到的混淆矩陣如圖8所示。



根據混淆矩陣計算得到的評價指標如表2所示。

由表2可知,改進的ResNet34模型比ResNet34模型的準確率、精確率、召回率和F1-Score分別提升了 4.0% 、 0.6% 、 8.0% 和 4.7% ,表明改進的ResNet34模型具有更好的識別效果。
3結論
為了快速、準確地識別不完整的乳腺圖像,提高醫生的工作效率,本文提出一種改進ResNet34模型的乳腺圖像識別方法。該方法通過引入PARB模塊,獲取通道間的重要特征信息,提高了模型的識別性能;利用KAN替代MLP,減少了模型參數,提高模型的識別速度。通過實驗結果可知,改進的ResNet34模型具有更好的識別效果,其準確率、精確率、召回率和F1-Score均有提升。在未來的研究中,將進一步探究更高效、更準確的圖像識別技術,使其能夠更準確地識別乳腺圖像。
? Theauthor(s) 2024.This isan openaccessarticle under the CC BY-NC-ND 4.0 License (https://creativecommons.org/licenses/ by-nc-nd/4.0/)
參考文獻
[1]劉佩芳,鮑潤賢.乳腺X線檢查用于乳腺癌篩查有效性的 爭論[J].中華放射學雜志,2014,48(10):797-799.
[2] AKIN O, BRENNAN S B,DERSHAW D D, et al. Advances in oncologic imaging:Update on 5 common cancers[J]. CA:A Cancer Joumal for Clinicians,2012,62(6):364-393.
[3]梁永剛,付麗媛,鐘群,等.全數字化乳腺X射線攝影系統質量 控制檢測方法探討[J].醫療衛生裝備,2020,41(5):61-64.
[4] ZHONGSH,LIUY,HUAK A.Field effect deep networks for imagerecognitionwith incomplete data[J].ACM Transactions on Multimedia Computing, Communications, and Applications, 2016,12(4):1-22.
[5] ZHAO J, LV Y, ZHOU Z, et al. A novel deep leaming algorithm for incomplete face recognition: Low-rank-recovery network[J].NeuralNetworks,2017,94:115-124.
[6]孫浩強.面向復雜場景的不完整車輛圖像精細化識別研究 [D].合肥:安徽大學,2022.
[7]易音巧.基于深度學習的醫學影像質量評估[D].上海:華東師 范大學,2021.
[8] 鄧澤峰,熊有倫,黃小鵬.適應不完整目標的快速模板匹配[J]. 光電工程,2010,37(5):7-11.
[9] MANSSONL G.Methods for the evaluation of image quality: Areview[J].RadiationProtectionDosimetry,20oo,90(1-2):89- 99.
[10] HE K,ZHANGX,RENS,etal.Deep residual learning for image recognition[C] Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[11] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C] Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7132-7141.
[12] YU T,LI X, CAI Y, et al. S^2-MLPv2: Improved spatial-shift MLParchitecture for vision[J].arXiv Preprint arXiv:2108. 01072,2021.
[13]崔海朋,姜英昌.基于注意力機制的海上小目標重識別方法 [J].機電工程技術,2022,51(7):100-103.
[14] SHAW P, USZKOREIT J, VASWANI A. Self-attention with relative position representations[J].arXiv Preprint arXiv:1803. 02155,2018.
[15]黃輝,吳建強,肖豪,等.基于注意力機制的接線端子文本檢 測與識別[J].機電工程技術,2023,52(6):202-206.
[16] LIU Z, WANG Y, VAIDYA S, et al. KAN: Kolmogorovarnold networks[J]. arXiv Preprint arXiv:2404.19756,2024.
[17] TAUD H, MAS JF. Multilayer perceptron (MLP)[M] Geomatic Approaches forModelingLand Change Scenarios,2018: 451-455.
[18] LEE R S,GIMENEZ F, HOOGI A, et al. A curated mammography data set for use in computer-aided detection and diagnosis research[J]. Scientific Data, 2017,4(1):1-9.
[19]陳燕.全視野數字化乳腺攝影質量控制與影像質量評價分 析[J].青海醫藥雜志,2019,49(4):65-66.
[20] TOWNSEND JT.Theoretical analysis of an alphabetic confusion matrix[J].Perceptionamp; Psychophysics, 1971,9(1): 40-50.
作者簡介:
王錦俊,男,1999年生,在讀碩士研究生,主要研究方向:控制與優化。E-mail: wangjinjun320@163.com蔡延光,男,1963年生,博士研究生,教授,主要研究方向:網絡控制與優化、組合優化、智能優化、智能交通系統等。E-mail: caiyg99@163.com