





摘 "要: 研究基于輕量級卷積神經網絡的多視覺特征圖像分割方法,以適應資源受限環境并滿足實時性需求。在Linknet網絡基礎上設計輕量級多視覺特征圖像分割模型,以原始多視覺特征圖像為編碼器輸入,經過初步特征提取后,多尺度特征提取模塊利用不同尺度卷積核學習其顏色、紋理等特征,通道注意力模塊采用壓縮?激勵塊對不同尺度特征作重定向,利用引入深度可分離卷積的特征提取模塊A學習更抽象的特征表示,解碼器利用特征提取模塊B、反卷積層和標準卷積層對編碼器提取的特征表示作轉換處理,生成包含語義信息的特征圖。通過雙向特征金字塔網絡融合編解碼器輸出特征,利用Sigmoid函數獲得多視覺特征圖像分割結果。實驗結果表明:該方法訓練損失僅為0.08;可實現多視覺特征圖像的精準分割,MIoU、[F1]?score指標分別為0.912 8、0.906 8;分割模型參數量、計算量、存儲空間分別為6.14 MB、1.52 GMac、0.146 GB,滿足輕量級要求。
關鍵詞: 輕量級; 多視覺特征; 圖像分割; 通道注意力; 反卷積; 雙向特征金字塔
中圖分類號: TN911.73?34; TP391.41 " " " " " " " 文獻標識碼: A " " " " " " " " "文章編號: 1004?373X(2024)15?0060?05
Research on multi?visual feature image segmentation
based on lightweight convolutional neural networks
CHEN Pan, WANG Shaodong
(Inner Mongolia Normal University, Hohhot 010010, China)
Abstract: A multi?visual feature image segmentation method based on lightweight convolutional neural networks (CNNs) is studied to adapt to resource?constrained environments and meet the requirement of real?time performance. A lightweight multi?visual feature image segmentation model is designed based on the Linknet. The original multi?visual feature images are taken as encoder inputs. After preliminary feature extraction, the convolution kernels with different scales are used to learn the color, texture and other features in the multi?scale feature extraction module. In the channel attention module, squeeze?and?excitation block (SE block) is used to redirect the features with different scales. The feature extraction module A, which introduces depthwise separable convolution, is used to learn more abstract feature representations. The decoder uses feature extraction module B, deconvolution layer and standard convolution layer to transform the feature representations extracted by the encoder to generate feature maps containing semantic information. The bidirectional feature pyramid network is used to fuse the encoder and decoder to output features. The Sigmoid function is used to obtain multi?visual feature image segmentation results. The experimental results show that the training loss of the method studied is only 0.08, the method can achieve accurate segmentation of multi?visual feature images with MIoU (mean intersection over union) and [F1]?score of 0.912 8 and 0.906 8, respectively, and the parameter quantity, computational complexity and storage space of the segmentation model are 6.14 MB, 1.52 GMac and 0.146 GB, respectively, so the method meets the lightweight requirements.
Keywords: lightweight; multi?visual feature; image segmentation; channel attention; deconvolution; bidirectional feature pyramid
0 "引 "言
圖像中蘊含著顏色、紋理等多種不同視覺特征,這些特征共同構成了人們對圖像的整體認知[1?3]。在圖像處理領域,圖像分割是一項至關重要的任務[4?5],利用多視覺特征進行圖像分割,可以更準確地識別圖像不同區域,更好地保留和突出感興趣目標特征,同時抑制或去除背景噪聲和干擾。多視覺特征圖像分割不僅可以提高分割的準確性和魯棒性,還可以提供更豐富、更具體的圖像信息,實現更高級別的圖像理解和應用[6]。
文獻[7]通過對圖像進行顯著性檢驗,定位圖像目標,利用與目標具有最大對比度的位圖增強目標與背景之間的差異,設計自適應符號函數以動態調整邊緣檢測算子LoG能量項的權重,以影響分割模型對圖像邊緣的敏感程度,從而提高圖像分割效果。該方法不僅對目標先驗知識具有高度依賴性,而且對先驗信息的獲取也帶來額外的計算資源和時間,提高圖像分割的復雜度;文獻[8]在對圖像進行高斯濾波和拉普拉斯濾波的基礎上,利用2D卷積神經網絡對各模態圖像進行分割后,通過加權平均法實現分割結果的融合。卷積神經網絡對圖像全局特征和上下文信息的理解相對較弱,難以實現多視覺特征的精準學習;文獻[9]設計了基于U?Net的圖像分割模型,利用其獨特的U形結構和跳躍連接,有效完成圖像多尺度特征的提取與融合。該方法因平等對待輸入圖像中的每一個部分,使模型不具備區分干擾信息的能力,最終導致圖像分割邊界模糊,區分度不高;文獻[10]設計了一種基于3D卷積神經網絡的分割模型,該方法的分割模型結構相對復雜,訓練過程中需要更多的時間和計算資源,無法實現在有限資源設備上的部署。
因此,本文研究基于輕量級卷積神經網絡的多視覺特征圖像分割方法,在保證圖像分割精度和效率的同時,降低計算資源需求,以適用實時性要求高或資源受限的應用場景。
1 "多視覺特征圖像分割
1.1 "多視覺特征圖像分割模型架構
本文構建的基于輕量級卷積神經網絡的多視覺特征圖像分割模型在Linknet網絡基礎上進行改進,采用編碼器?解碼器結構進行設計,編碼器通過對原始多視覺特征圖像進行逐層深入處理,以捕獲顏色、形狀、紋理等低層次特征以及高級、抽象特征。解碼器的作用是將編碼器提取的特征表示轉換回與原始圖像類似的空間域,生成包含語義信息的特征圖。解碼器通常包含上采樣層、轉置卷積層等,這些層逐步恢復特征圖的尺寸,直至達到與原始圖像相似的分辨率。在這個過程中,解碼器不僅重建了圖像的空間結構,還強調了與多視覺特征相關的關鍵語義信息。模型基本結構如圖1所示。
原始多視覺特征圖像樣本輸入到分割模型后,先進入具有16個7×7卷積核的卷積層中,以2步長處理其輸入,完成初步特征提取后,輸入到多尺度特征提取模塊中,通過3×3、5×5、7×7、9×9不同尺度卷積核分別處理初步特征圖,以獲得圖像顏色、紋理等多尺度特征,引入最大池化層對其作下采樣處理,可有效降低數據冗余度和計算量。在該模塊之后設計通道注意力模塊,通過為每個特征通道賦予不同的權重,以增強對分割有益的特征,同時削弱或忽略那些無關緊要的特征。將其處理結果依次輸入到6個特征提取模塊A中,獲得更加豐富和有效的特征表示。為了實現分割模型特征提取能力與參數量、計算量之間的平衡,A模塊采用三層結構設計,圖2為其結構圖,上下兩層設計為標準卷積層,卷積核尺寸分別為1×1、3×3,中間層為深度可分離卷積層,分割模型通過5次下采樣達到減小特征圖尺寸、降低計算復雜度等目的,使分割模型能夠學習更抽象的特征表示。解碼器網絡由特征提取模塊B、反卷積層和一個3×3標準卷積層構成,通過對編碼器輸出特征圖執行上采樣操作,使分割圖像與原始圖像具有相同尺寸。在特征提取模塊B中,上層卷積層卷積核尺寸為3×3,其作用是降低通道數,以減少模型計算量;中間為反卷積層,負責將特征圖進行上采樣,以恢復其空間分辨率。通過反卷積操作,特征圖的尺寸得以逐步增大,直至接近或達到原始圖像的尺寸。下層3×3卷積層則用于進一步提取和整合特征,以生成更加精細的輸出結果。這一層可以在保持特征圖尺寸不變的同時,增強特征的表達能力,使得最終的輸出結果更加準確和清晰。圖3為特征提取模塊B的結構圖。利用雙向特征金字塔網絡處理編、解碼器處理后的特征圖,然后通過Sigmoid函數獲得多視覺特征圖像分割結果。
1.2 "通道注意力模塊
在卷積神經網絡中,卷積層的核心作用是采用共享卷積核機制對其輸入圖像的局部感受野進行特征提取。這種局部操作使得網絡能夠學習到多視覺特征圖像的空間層次結構,并且在不同的通道上融合信息[11?12]。然而,這種融合通常是“無差別”的,即所有通道的信息都被平等地處理,沒有考慮到不同通道之間可能存在的依賴關系或重要性差異[13]。壓縮?激勵塊(Squeeze?and?Excitation Block, SE Block)的核心思想是通過學習每個通道的重要性,使得網絡能夠自適應地增強有利于圖像分割的重要特征,而對無關緊要的特征予以忽視。因此,本文利用壓縮?激勵塊對多視覺特征圖像的不同尺度特征進行重定向處理,以獲得更好的分割效果。
SE Block通過壓縮、激勵過程幫助分割模型學習并強調對分割任務最重要的特征。壓縮操作通過全局平均池化手段使每個通道的描述符中都包含了全局空間信息。設定用[X∈RH×W×C]表示SE Block的輸入特征圖,該特征圖中包含[C]個通道,特征圖高度、寬度分別表示為[H]、[W]。通過式(1)描述全局平均池化操作。
[yc=H×W-1i=1Hj=1Wxci,j, " "c∈1,C] (1)
式中:[xc]為輸入[X]的第[c]通道特征圖,[X]經過壓縮后,可得到用[Y∈R1×1×C]表示的輸出結果,[yc]為其在第[c]通道上的特征圖。激勵操作依據[Y]學習每個通道的重要性權重,該過程在兩個全連接層里完成,即將[Y]輸入到全連接層1中進行處理后,其通道數則為[Cr],[r]為縮放因子,在完成ReLU激活處理后,可通過全連接層2使其通道數再變為[C],再利用Sigmoid函數處理后,即可完成通道權重集合[S∈R1×1×C]的確定,各權重取值區間滿足[0,1]條件,公式描述為:
[S=σFδFY;θ1;θ2] (2)
式中:[F]為全連接處理;[δ]、[σ]分別為ReLU、Sigmoid激活函數;[θ1]、[θ2]分別為卷積參數。權重系數的高低與特征圖重要度成正比,計算其與[X]每個通道的乘積,即可完成輸入圖像多尺度特征的重定向,即達到增強有用特征,忽視無價值特征的目的。
1.3 "基于雙向特征金字塔網絡的特征融合
為實現多視覺特征圖像的高精度分割,本文將雙向特征金字塔網絡(DBiFPN)引入到分割模型中,對編解碼網絡獲取的特征作融合處理,避免損失多視覺圖像特征信息。該網絡通過卷積、空洞卷積操作增強對不同尺度特征圖的學習能力;采用雙向跨尺度連接機制使分割模型捕獲多視覺特征圖像更豐富的上下文信息,提高特征表達的準確性和完整性。在多尺度特征融合時,通過將不同尺度特征圖調整到相同尺寸確保其能夠在同一空間進行融合;采用權重調整機制靈活處理不同尺度的特征信息,避免簡單拼接帶來的信息損失。
DBiFPN網絡的輸入分別為[P1_in]、[P2_in]、[P3_in],經過處理后,可獲得通過式(3)~式(5)描述的輸出:
[P1_out=DConvw11?DConvP1_in+w12?RP2_tdw11+w12+ε1] (3)
[P2_out=DConvw21?DConvP2_in+w22?P2_td+w23?RP1_outw21+w22+w23+ε1] (4)
[P3_out=Convw31?ConvP3_in+w32?RP2_outw31+w32+ε1] (5)
式中:[DConv]、[Conv]分別為空洞、標準卷積操作;[R]為采樣處理;[wij]為權重參數;常數[ε1]的作用是避免分母等于0。
2 "實驗分析
從互聯網圖片庫中收集多視覺特征圖像,構建實驗數據集,圖像數量共計2 000幅,分辨率均為480×340,將其中20幅作為測試圖像,余下部分均為訓練圖像。在Pytorch框架下開展圖像分割實驗,實驗硬件選用具有強大計算能力和高效顯存帶寬的GeForce RTX 40 SUPER系列GPU,顯存可達8 GB,選用的處理器為英特爾最新一代頂級多核心CPU——Intel Core i9?10900K。利用Adam優化算法調整分割模型參數,設定學習率初值為10-3,用于計算梯度的一階矩估計的衰減率為0.91,用于計算梯度的二階矩估計的衰減率為0.998,批次規模為32,通過Dice損失函數對分割模型的訓練效果進行評價。將本文方法應用到多視覺特征圖像分割中,分析其分割性能。
分割模型性能決定了多視覺特征圖像分割效果,以基于CNN的分割方法、基于U?Net的分割方法作為對比,通過對不同方法下分割模型的Dice損失進行差異分析,驗證本文方法的分割效果,實驗結果如圖4所示。
分析圖4可知:不斷對分割模型進行深入訓練,模型的訓練損失呈不斷下降變化趨勢,基于CNN的分割方法訓練損失曲線存在明顯震蕩,且訓練損失最大;與之相比,基于U?Net的分割方法可取得較好的分割效果,訓練損失曲線相對較為平緩,波動幅度較小,損失值較低,該方法在訓練過程中更加穩定,能夠更好地平衡訓練與泛化之間的關系;本文方法能夠更快地完成分割模型的訓練,訓練損失曲線平滑,損失值僅為0.08,為三種方法中最低,實驗結果驗證了本文方法在多視覺特征圖像分割任務中的有效性和穩定性。
以平均交并比(MIoU)、[F1]?score為分割模型性能的評價指標,不同方法的對比結果如表1所示。
分析表1得出,本文方法在多視覺特征圖像分割任務上展現出了顯著優勢。相比基于CNN的分割方法、基于U?Net的分割方法,本文方法MIoU指標分別上升了17.43%、9.35%,[F1]?score指標分別上升了26.22%、9.99%。這說明本文方法在分割過程中能夠更準確地識別并分割出目標區域,減少了誤分割和漏分割的情況。
以參數量、計算量、存儲空間容量作為分割模型執行效率的評價指標,其值越小,執行效率越突出。實驗結果如表2所示。
分析表2得出,本文方法在運行效率方面表現出更加突出的優勢。相比基于CNN的分割方法、基于U?Net的分割方法,本文方法參數量下降82.16%、65.34%;計算量下降了97.63%、95.69%;存儲空間減少了72.34%、61.97%。這意味著本文方法在保持高分割性能的同時,極大地減少了模型復雜度,減輕了計算負擔,降低了模型部署的硬件要求,使得模型更加輕量級,更易于在有限資源設備中部署和應用。
以測試圖像數據集中的任意一幅多視覺特征圖像為例,應用本文方法對其進行分割,分割結果如圖5b)所示。
分析圖5可知,原始多視覺特征圖像包含豐富的色彩、紋理、形狀等細節信息,這為圖像分割帶來了挑戰,也提供了更多的分割線索。本文方法通過對原始多視覺特征圖像進行深入學習,實現了圖像不同區域的有效區分,分割邊緣清晰、原始圖像中的關鍵信息得以最大化保留。實驗結果表明,本文方法在多視覺特征圖像分割任務中表現出了卓越的性能,具有廣闊的應用前景。
3 "結 "論
本文提出基于輕量級卷積神經網絡的多視覺特征圖像分割方法,通過優化網絡結構、減少參數量和計算復雜度,成功構建了一個輕量且性能優越的分割模型。實驗結果表明,該模型在保持較高分割精度的同時,顯著降低了存儲和計算需求,使得在資源受限的設備上也能實現實時、快速的圖像分割。此外,本文充分利用了圖像的色彩、紋理和形狀等多視覺特征,有效提升了分割的準確性和魯棒性。通過與其他方法的對比,本文方法在多個評價指標上均表現出色,顯示出其在實際應用中的潛力和優勢。
注:本文通訊作者為王紹東。
參考文獻
[1] 李莉,彭娜,王巍.基于輕量級卷積神經網絡的遙感圖像檢測模型[J].計算機工程與設計,2023,44(5):1511?1518.
[2] 胡伏原,萬新軍,沈鳴飛,等.深度卷積神經網絡圖像實例分割方法研究進展[J].計算機科學,2022,49(5):10?24.
[3] 何曉云,許江淳,陳文緒.基于改進U?Net網絡的眼底血管圖像分割研究[J].電子測量與儀器學報,2021,35(10):202?208.
[4] 袁單飛,陳慈發,董方敏.基于多尺度分割的圖像識別殘差網絡研究[J].計算機工程,2022,48(5):258?262.
[5] 耿磊,史瑞資,劉彥北,等.基于多重感受野UNet的儀表圖像分割方法[J].計算機工程與設計,2022,43(3):771?777.
[6] 李鑫,張紅英,劉漢玉.融合多尺度和邊界優化的圖像語義分割網絡[J].計算機工程與應用,2022,58(21):250?257.
[7] 何亞茹,葛洪偉.視覺顯著區域和主動輪廓結合的圖像分割算法[J].計算機科學與探索,2022,16(5):1155?1168.
[8] 李孟歆,李美玲,裴文龍,等.基于CNN和局部信息的腦血管圖像分割方法[J].計算機仿真,2021,38(5):344?347.
[9] WANG R S, LEI T, CUI R X, et al. Medical image segmentation using deep learning: A survey [J]. IET image processing, 2022, 16(5): 1243?1267.
[10] 宮浩棟,王育堅,韓靜園.基于3D卷積神經網絡的腦腫瘤圖像分割[J].光學技術,2022,48(4):472?477.
[11] 馮曉,李丹丹,王文君,等.基于輕量級卷積神經網絡和遷移學習的小麥葉部病害圖像識別[J].河南農業科學,2021,50(4):174?180.
[12] 霍光,林大為,劉元寧,等.基于輕量級卷積神經網絡的小樣本虹膜圖像分割[J].吉林大學學報(理學版),2023,61(3):583?591.
[13] 黃揚林,胡凱,郭建強,等.基于多尺度特征融合和雙重注意力機制的肝臟CT圖像分割[J].計算機科學,2022,49(z2):549?557.
作者簡介:陳 "攀(1983—),男,內蒙古包頭人,碩士研究生,講師,研究方向為文化旅游產品、可持續設計。
王紹東(1988—),男,內蒙古包頭人,博士研究生,研究方向為參數化產品形態學。