










摘要現(xiàn)有遙感圖像目標(biāo)檢測算法存在參數(shù)量大、檢測速度慢和難以部署于移動設(shè)備的問題,為此,本文提出了一種無錨框的輕量級遙感圖像目標(biāo)檢測算法.首先設(shè)計了DWS-Sandglass輕量化模塊以降低模型體積,并改進模型激活函數(shù),以確保檢測精度.然后引入無參數(shù)注意力模塊SimAM,使網(wǎng)絡(luò)能夠?qū)W⒂诟匾奶卣餍畔ⅲ詈髮o錨框算法的冗余通道進行剪枝操作以減少模型參數(shù)量,并通過微調(diào)回升精度.在HRSC2016數(shù)據(jù)集上的實驗結(jié)果表明,與當(dāng)前主流的無錨框檢測算法相比,該算法在檢測精度相當(dāng)?shù)那闆r下檢測速度更快、模型體積更小,更適合在移動設(shè)備部署.關(guān)鍵詞計算機應(yīng)用;遙感目標(biāo)檢測;輕量級;模型剪枝
中圖分類號TP391.4
文獻標(biāo)志碼A
0引言
航天遙感技術(shù)的飛速發(fā)展使高質(zhì)量的遙感圖像逐步增多.因此,遙感圖像目標(biāo)檢測技術(shù)已成為計算機視覺領(lǐng)域的重要研究方向.傳統(tǒng)目標(biāo)檢測方法通常可分為3步:1)通過區(qū)域選擇器以遍歷的方式選出候選區(qū)域;2)利用HOG[1]、Haar[2]等特征提取器進行特征提取;3)使用AdaBoost[3]、支持向量機[4]等分類器對提取到的特征進行分類.但該類方法通過窮舉候選框來得到感興趣區(qū)域,不僅時間復(fù)雜度高,而且會產(chǎn)生大量窗口冗余.此外,手工設(shè)計的特征提取器泛化能力不足以應(yīng)對遙感圖像中的復(fù)雜場景和多類目標(biāo)檢測任務(wù).
得益于硬件和算力的發(fā)展,基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測算法逐漸代替?zhèn)鹘y(tǒng)方法成為了主流.與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法因其出色的特征表達和學(xué)習(xí)能力促進了遙感圖像目標(biāo)檢測的發(fā)展.目前,基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測已經(jīng)在各個領(lǐng)域有廣泛的應(yīng)用[5],為土地監(jiān)測[6]、資源調(diào)查[7]、海洋測繪[8]等領(lǐng)域提供了新的解決方案.然而,傳統(tǒng)的基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測方法往往追求精度的提升,一般不考慮模型的復(fù)雜性和算法的計算速度.但在實際遙感應(yīng)用場景中不僅要考慮檢測的準(zhǔn)確性,還要考慮工程應(yīng)用中的運行效率和部署難度.隨著卷積神經(jīng)網(wǎng)絡(luò)在可移動設(shè)備上的應(yīng)用需求不斷增加,輕量級網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計得到了極大的發(fā)展[9].
SqueezeNet[10]的提出開辟了輕量化卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展道路.SqueezeNet通過使用1×1卷積減少參數(shù)量來縮小特征圖,此外,它減少了3×3卷積的輸入通道數(shù)量,以進一步降低參數(shù)量.同時,為了保證輸出的準(zhǔn)確性,在網(wǎng)絡(luò)的后期使用池化操作,使卷積層具有更大的特征圖.而更大的特征圖可以容納更多的信息,從而可以提高分類的準(zhǔn)確性.盡管SqueezeNet在網(wǎng)絡(luò)參數(shù)量上具有優(yōu)勢,但該網(wǎng)絡(luò)的模型計算量相對較高,在速度方面和其他輕量級卷積神經(jīng)網(wǎng)絡(luò)模型相比較慢.
MobileNetv1[11]使用深度可分離卷積大大減少了參數(shù)量和計算量,并在此基礎(chǔ)上使用兩個超參數(shù)以進一步減少模型體積.在MobileNetv1整體網(wǎng)絡(luò)中,大部分的參數(shù)和計算量都被1×1卷積所占據(jù),所以,該方法的速度取決于1×1卷積.這也為后來的MobileNetv2[12]提供了一個改進方向,即著重減少網(wǎng)絡(luò)中1×1卷積的比例.bileNetv3[13]將SENet[14]注意力機制引入MobileNetv2中,并重新設(shè)計了尾部.華為諾亞提出了GhostNet[15],此網(wǎng)絡(luò)通過恒等映射和線性變換的方式減少了模型的參數(shù)量.Li等[16]提出kernel-wise的剪枝方法,通過移除特定卷積核,在對網(wǎng)絡(luò)性能影響較小的前提下使模型尺寸得到相當(dāng)大的壓縮.在卷積核剪枝的基礎(chǔ)上,Liu等[17]對剪枝方法進行了進一步細化,提出了基于卷積核通道即所謂的 channel-wise 的通道剪枝算法,通過聯(lián)合BN層γ參數(shù)訓(xùn)練的方法,進一步壓縮模型體積,減少網(wǎng)絡(luò)參數(shù)量.但是這些方法都需要啟發(fā)式調(diào)整參數(shù)量.
基于以上分析,本文提出了一種無錨框的輕量級遙感圖像目標(biāo)檢測算法.此算法基于無錨的YOLOx模型,減少了需要啟發(fā)式調(diào)整的設(shè)計參數(shù)量.在此基礎(chǔ)上設(shè)計了DWS-Sandglass輕量化模塊以降低模型體積,并通過改進模型激活函數(shù)以提高檢測精度.同時引入無參數(shù)注意力模塊SimAM,使網(wǎng)絡(luò)能夠?qū)W⒂诟匾奶卣餍畔ⅲ詈螅瑢δP椭械娜哂嗤ǖ肋M行剪枝操作以減少模型參數(shù)量.
1本文所提方法
針對現(xiàn)有模型運行速度慢、體積大,難以在移動端部署的問題,本文提出一種基于無錨框的輕量級遙感圖像目標(biāo)檢測算法,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.該算法以無錨框檢測模型YOLOx為基礎(chǔ)框架.在Backbone中,通過卷積和所提出的輕量化模塊DWS-Sandglass提取遙感圖像目標(biāo)的淺層紋理特征和深層語義特征,并將3組不同尺度的特征圖(C3~C5)輸入到特征融合模塊FPN中.SimAM注意力機制的引入使網(wǎng)絡(luò)能夠在保持模型參數(shù)量和復(fù)雜度的情況下專注于主干網(wǎng)絡(luò)提取的重要特征信息.最后對模型中冗余通道進行剪枝操作進一步壓縮模型體積,并通過微調(diào)回升模型精度.
1.1DWS-Sandglass模塊設(shè)計
逆殘差模塊中的逆殘差學(xué)習(xí)和線性瓶頸層的設(shè)計使其取得了良好的效果,但這樣的設(shè)計存在一些問題,逆殘差模塊中采用的先升維后降維的結(jié)構(gòu)容易削弱梯度的跨層傳播能力,造成特征從高維空間壓縮到低維空間時信息的丟失.為此,MobileNeXt中提出了一種新的沙漏瓶頸模塊Sandglass,它運用了兩次深度卷積這樣的輕量級單元來編碼更多的空間信息,可以將更多的信息從底層傳遞到頂層.另外,還設(shè)計了一個更寬的網(wǎng)絡(luò)結(jié)構(gòu)緩解梯度混淆的問題.具體實現(xiàn)方法是采用沙漏形的網(wǎng)絡(luò)結(jié)構(gòu),從通道維度上執(zhí)行先降采樣后升采樣的操作,沙漏瓶頸模塊結(jié)構(gòu)如圖2所示.
Sandglass模塊的運算復(fù)雜度SG和參數(shù)量SP的計算公式分別如式(1)和式(2)所示:
SG=H×W×(Cin×3×3+Cin×CinT×
CinT×Cout+Cout×3×3),(1)
SP=Cin×3×3+Cin×CinT+CinT×Cout+Cout×3×3.(2)
式(1)和式(2)中的H和W分別表示輸入特征圖和輸出特征圖的高和寬,T表示Sandglass模塊的縮放系數(shù),Cin和Cout分別表示輸入特征圖和輸出特征圖的通道數(shù).
輕量級骨干網(wǎng)絡(luò)MobileNeXt雖然可以減少網(wǎng)絡(luò)中的計算量和參數(shù)數(shù)量,但其特征提取能力不足.本文在Sandglass的基礎(chǔ)上提出DWS-Sandglass模塊,如圖3所示.
首先,利用第1個步長為2的3×3深度可分離卷積實現(xiàn)下采樣操作,然后,為了減少特征提取過程中的信息丟失,將2個逐點卷積的步長設(shè)置為1.為了提高網(wǎng)絡(luò)的泛化性與準(zhǔn)確性,此模塊用Mish激活函數(shù)替換ReLU激活函數(shù),Mish激活函數(shù)對負值容許度高的特點容易使神經(jīng)網(wǎng)絡(luò)中包含更好的信息.另外,為了增強殘差單元中梯度跨層傳播的能力,在DWS-Sandglass模塊中額外構(gòu)建了跨層交互路徑.
1.2改進的激活函數(shù)
基線模型中使用的激活函數(shù)是SiLU,它是Sigmoid函數(shù)的改進版本,具有無上界、下界、平滑和非單調(diào)的特點.非單調(diào)激活函數(shù)可以與其他激活函數(shù)區(qū)分開來.其作用可以表示為
y(x)=x1+e-x.(3)
ELiSH激活函數(shù)采用了交叉算子的思想,能夠更好地改善信息流,避免梯度消失的問題.在正數(shù)部分,它與SiLU激活函數(shù)具有相同的性質(zhì),而在負數(shù)部分,它可以看作是Sigmoid函數(shù)與ELU函數(shù)的乘積.其作用可以表示為
y(x)=x1+e-x,x≥0;ex-11+e-x,xlt;0.(4)
ELiSH分片混合激活函數(shù)結(jié)合了SiLU、ELU和Sigmoid函數(shù),它可以同時繼承3個激活函數(shù)的基因,對深度神經(jīng)網(wǎng)絡(luò)有更好的分類效果.因此,在本文算法中,使用ELiSH激活函數(shù)替換SiLU激活函數(shù),以實現(xiàn)更好的檢測效果.
1.3無參注意力模塊
近年來,注意力機制受到了廣泛的關(guān)注,越來越多的研究者將注意力機制引入到網(wǎng)絡(luò)中以提高檢測結(jié)果的準(zhǔn)確性,傳統(tǒng)的注意力機制分為通道注意力機制和空間注意力機制.但是,通道注意機制是針對不同的通道而區(qū)分的,空間注意機制是針對不同的位置而區(qū)分的,而人腦中的兩種注意往往是協(xié)同工作的.基于上述內(nèi)容,Yang等[18]提出一種無參數(shù)的三維注意機制SimAM,并設(shè)計了一種能量函數(shù)來計算權(quán)重以評估每個神經(jīng)元的重要性.此外,大多數(shù)算子是根據(jù)定義的能量函數(shù)的解來選擇的,因此原始網(wǎng)絡(luò)的結(jié)構(gòu)不會被改變.SimAM注意力機制如圖4所示.
不同于常見的通道注意力和空間注意力機制,SimAM的核心思想是為每個通道和空間位置上的每個像素生成對應(yīng)的權(quán)重,從而可以同時完成通道和空間之間關(guān)聯(lián)信息的學(xué)習(xí).因此,在算法中引入了三維注意力機制,對網(wǎng)絡(luò)模型的神經(jīng)元進行建模,并為最具區(qū)分力的神經(jīng)元分配更高的權(quán)重,以進一步提高細粒度圖像分類的性能[19].SimAM通過定義線性可分性的能量函數(shù)對每個網(wǎng)絡(luò)中的每個神經(jīng)元進行評估.其中,目標(biāo)神經(jīng)元的能量函數(shù)如下所示:
e*t=4(2+λ)(t-)2+22+2λ.(5)
式中,t為目標(biāo)神經(jīng)元,λ為超參數(shù),μ和σ2分別是除t以外所有神經(jīng)元的平均值和方差.基于單個通道中所有像素遵循相同的分布的假設(shè),可以計算該通道內(nèi)所有神經(jīng)元的平均值和方差,避免重復(fù)計算每個位置的平均值和方差,降低計算成本.平均值和方差計算公式分別如式(6)和式(7)所示:
=1M∑Mi=1xi,(6)
2=1M∑Mi=1(xi-)2.(7)
式中,M表示整體神經(jīng)元數(shù)量,xi
表示第i個神經(jīng)元的參數(shù).
e*t 能量越低,神經(jīng)元與整體區(qū)域神經(jīng)元的區(qū)分度就越高,神經(jīng)元的重要程度也越高.因此,神經(jīng)元的重要性可以通過1/e*t得到.SimAM模塊最終優(yōu)化為=sigmoid1E⊙X.(8)
式中,X為輸入特征,⊙為哈達瑪積運算,E為每個通道上的能量函數(shù),sigmoid函數(shù)用于限制E中可能出現(xiàn)的過大值,而輸出結(jié)果表示增強后的特征.
在圖像特征識別中,通道和空間位置特征非常重要.為了有效和全面地評估信道和空間位置特征的重要性,本文將無參數(shù)注意力模塊SimAM引入到Y(jié)OLOx中.在不添加模型參數(shù)的情況下,它通過能量函數(shù)評估主干提取的特征.換句話說,SimAM注意力模塊可以找到非常重要的神經(jīng)元.改進后的模型可以發(fā)現(xiàn)重要特征,抑制無關(guān)特征的干擾,提高模型的目標(biāo)定位能力和網(wǎng)絡(luò)的特征表達能力.
1.4結(jié)構(gòu)化剪枝
為獲得能部署在移動設(shè)備上的小體積模型,可以在訓(xùn)練過程中刪減網(wǎng)絡(luò)模型中的重復(fù)參數(shù)和連接,這個過程為剪枝操作,是壓縮模型的主要方法之一.剪枝可以分為結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝兩種.與非結(jié)構(gòu)化剪枝相比,結(jié)構(gòu)化剪枝最明顯的特點是它產(chǎn)生的稀疏矩陣是有規(guī)則的,剪枝后網(wǎng)絡(luò)加速所需的運算量更少[20].因此,本文采用結(jié)構(gòu)化剪枝策略裁剪網(wǎng)絡(luò)中的不重要通道.
在卷積神經(jīng)網(wǎng)絡(luò)中,BN層可以抑制內(nèi)部協(xié)變量偏移,基于BN層的縮放因子對網(wǎng)絡(luò)進行剪枝的優(yōu)點在于其可以在不引入其他卷積層和參數(shù)量的前提下提升剪枝效率.BN層具有提升訓(xùn)練速度和網(wǎng)絡(luò)泛化能力的作用,BN層進行的變換為=zin-μBσ2B+ε,zout=γZ+β.(9)
訓(xùn)練過程中可學(xué)習(xí)的縮放因子用γ來表示,而平移參數(shù)用β表示.選擇BN層的縮放因子γ作為指標(biāo)有兩個原因:一是結(jié)構(gòu)化剪枝可以減少參數(shù)量和浮點運算量,二是通道級剪枝方案具有一定的靈活性,可以適用于大多數(shù)卷積神經(jīng)網(wǎng)絡(luò).式(9)中:B批次所輸入數(shù)據(jù)的標(biāo)準(zhǔn)差為σΒ,均值為μΒ;為防止出現(xiàn)分母為0的情況,在其中加入極小值參數(shù)ε;而BN層的輸入與輸出分別用zin和zout表示.一般來說,γ較大的通道被認為對網(wǎng)絡(luò)更重要,應(yīng)避免被裁剪.BN層輸出的激活值大多數(shù)不接近0并且呈正態(tài)分布,這對稀疏化訓(xùn)練不利.因此,為約束通道重要性量化指標(biāo)γ的值,引入了L1正則約束,改進后的損失函數(shù)為
L=Lbaseline+λ∑γ∈Γg(γ).(10)
式中:基礎(chǔ)模型的損失函數(shù)為Lbaseline;λ是用于平衡損失項的懲罰因子;L1正則約束項為∑γ∈Γg(γ),其中g(shù)(γ)=|γ|.
在訓(xùn)練過程中,首先采用稀疏訓(xùn)練對網(wǎng)絡(luò)進行預(yù)訓(xùn)練,然后根據(jù)BN層縮放因子γ的絕對值開發(fā)了一種裁剪通道的算法.最后,設(shè)定一個較小的學(xué)習(xí)率來微調(diào)裁剪后的網(wǎng)絡(luò).經(jīng)稀疏化訓(xùn)練后,BN層的縮放因子γ通常接近零.因此可以通過適當(dāng)?shù)募糁Ρ壤齺韯h除不重要的通道.剪枝過程如圖5所示.
2實驗結(jié)果與分析
2.1實驗環(huán)境及評價指標(biāo)
實驗環(huán)境:操作系統(tǒng)CentOS7,顯卡NVIDIA Tesla V100S-PCIE-32 GB,處理器Intel (R) Xeon(R) Gold 6226R CPU @ 2.90 GHz.
評價指標(biāo):本文中評價檢測模型精度的指標(biāo)為AP,用以衡量遙感圖像目標(biāo)的檢測效果;使用Param來測量模型體積的大小;采用FPS衡量檢測器的檢測速度.實驗使用所提出方法的標(biāo)準(zhǔn)模型進行訓(xùn)練,此過程分為凍結(jié)訓(xùn)練和解凍訓(xùn)練.其中,凍結(jié)訓(xùn)練中學(xué)習(xí)率設(shè)為0.001,迭代次數(shù)設(shè)置為50.
在凍結(jié)訓(xùn)練過程中,基本模型主干部分的網(wǎng)絡(luò)層被凍結(jié).在解凍訓(xùn)練期間將學(xué)習(xí)率設(shè)置為0.000 1,迭代次數(shù)設(shè)置為150,批量大小設(shè)置為8,在此過程中,取消了對模型參數(shù)的限制,能夠使網(wǎng)絡(luò)朝著更適合遙感圖像目標(biāo)檢測應(yīng)用場景的方向?qū)W習(xí).在稀疏訓(xùn)練中,基準(zhǔn)模型的權(quán)重參數(shù)被設(shè)置為初始權(quán)重,懲罰系數(shù)為0.001、批量大小為8、學(xué)習(xí)率為0.000 1.根據(jù)比例系數(shù)的分布,使用60%的剪枝率來避免嚴(yán)重的精度損失.為了提高實驗數(shù)據(jù)的穩(wěn)定性和可信度,平衡隨機性帶來的影響,本文在5次實驗結(jié)果中取平均值.
2.2實驗數(shù)據(jù)集
本實驗采用的 HRSC2016 數(shù)據(jù)集由西北工業(yè)大學(xué)于2016年發(fā)布,是光學(xué)遙感船只圖像數(shù)據(jù)集,它包括近岸船只和海上船只,數(shù)據(jù)集中所有圖像來自6個著名港口.該數(shù)據(jù)集中的圖像尺寸范圍在300×300~1 500×900之間,一共有1 061幅圖像,其中,用于訓(xùn)練、驗證和測試的圖像分別為436幅、181幅和444幅.使用訓(xùn)練集和驗證集進行訓(xùn)練,使用測試集進行測試.
2.3消融實驗
為了促使模型關(guān)注重要特征,抑制無關(guān)特征的干擾,提高模型的目標(biāo)定位能力和網(wǎng)絡(luò)的特征表達能力,本文在特征融合部分引入了注意力機制指導(dǎo)模型訓(xùn)練.并且,驗證了多種注意力模塊對模型整體性能的影響.實驗結(jié)果如表1所示.其中:CBAM的添加使模型精度達到最好,但同時也帶來了較多的額外參數(shù)量;SimAM模塊精度僅略微低于CBAM,同時SimAM通過能量函數(shù)評估特征的方式也使得該模塊不會帶來過多參數(shù)量.因此,最終選取SimAM引導(dǎo)模型訓(xùn)練.
為了探究不同激活函數(shù)對模型精度的影響,本文選取ReLU、SiLU和ELiSH進行實驗,結(jié)果如表2所示.實驗結(jié)果表明,ELiSH可以有效平衡線性和非線性特征的融合,提供更好的梯度傳播和模型泛化能力,同時具備高效計算和穩(wěn)定性.
為了驗證各個模塊對最終實驗結(jié)果的影響,實驗中以Param、AP和FPS作為評價標(biāo)準(zhǔn),通過消融實驗評估不同模塊對整體模型性能的影響.消融實驗結(jié)果如表3所示.
通過在基準(zhǔn)模型中添加DWS-Sandglass模塊,模型體積和檢測精度都實現(xiàn)了小幅下降,檢測速度得到了提升.接著加入SimAM注意力模塊,檢測精度得到提高,但模型的參數(shù)量增加了0.27 MB.改進激活函數(shù)后,實現(xiàn)了88.04%的最佳檢測精度.綜上,相較于基準(zhǔn)模型,改進后的算法具有更低的參數(shù)量和更高的檢測精度.
最后,通過模型剪枝對最終模型進行壓縮.在模型剪枝過程中,剪枝率是一個重要的超參數(shù),它決定了保留在模型中的參數(shù)比例,較高的剪枝率可以顯著減小模型大小和提高推理速度,但可能會導(dǎo)致性能下降.因此,為了探究剪枝率對模型性能的影響,本文測試了剪枝率為50%、60%、70%、80%情況下的模型參數(shù)和精度.修剪和微調(diào)的檢測結(jié)果如表4所示.實驗數(shù)據(jù)表明,隨著修剪比例的增加,雖然參數(shù)數(shù)量會顯著減少,但mAP也會降低.同時,在微調(diào)后,精度也會在一定程度上回升.綜合比較和分析,本文最終將剪枝率設(shè)定為60%.經(jīng)過剪枝處理后,模型的體積顯著減少,且由于微調(diào)策略,檢測精度僅略微下降.
2.4對比實驗
為了滿足不同場景的需求,通過調(diào)整網(wǎng)絡(luò)的深度和寬度,導(dǎo)出了兩個不同規(guī)模的模型,即本文方法-L和本文方法-S.為了對兩種方法進行充分評估,驗證其對遙感圖像目標(biāo)的檢測能力,將兩種方法與當(dāng)前主流無錨框檢測算法進行了對比實驗分析,對比算法主要包括CornerNet、CenterNet、VarifocalNet等方法,實驗結(jié)果如表5所示.結(jié)果表明,與其他遙感圖像目標(biāo)檢測算法相比,本文方法在模型體積和檢測速度方面均具有顯著優(yōu)勢,滿足了遙感圖像目標(biāo)準(zhǔn)確度和實時檢測的要求.
為進一步說明本文所提算法的有效性,將對比方法中Param和FPS的值進行了直觀展示,如圖6所示.可以直觀看出,本文方法-S實現(xiàn)了更低的模型參數(shù)量及更快的檢測速度.其中:CornerNet使用的主干網(wǎng)絡(luò)為Hourglass-104,其參數(shù)量過大,嚴(yán)重影響了網(wǎng)絡(luò)的檢測速度;CenterNet雖然在CornerNet中添加了中心點預(yù)測,大大降低了錯誤檢測的概率.然而,其主干網(wǎng)絡(luò)使用RestNet-18,特征提取能力不強,檢測效果也不理想;VarifocalNet、BBAVectors、SASM和FCOS 4種方法均使用ResNet-50作為主干網(wǎng)絡(luò),取得了不錯的檢測效果,但沒有達到最優(yōu)效果;YOLOx-L雖然取得了最優(yōu)的檢測精度,但檢測速度不高,模型體積也高達45.21 MB;本文方法-L的平均精度與YOLOx-L相當(dāng),其在檢測速度上也具有明顯的優(yōu)勢,模型體積壓縮了39%;本文方法-S的檢測精度雖然只有82.74%,但基本可以實現(xiàn)遙感場景下目標(biāo)的準(zhǔn)確檢測.且其模型體積達到最小體積,便于移動端部署,檢測速度最佳,更適合實際應(yīng)用.
在HRSC2016數(shù)據(jù)集上的部分檢測可視化結(jié)果如圖7所示,可以看出本文所提算法可以精準(zhǔn)檢測到遙感目標(biāo).
綜上所述,本文所提算法在模型參數(shù)量和檢測速度方面都實現(xiàn)了最優(yōu)結(jié)果,雖然檢測精度沒有達到最佳值,但并不影響最終檢測效果.
3結(jié)論
為了保證模型的檢測速度與檢測精度,本文引入無錨框的檢測算法,并在主干網(wǎng)絡(luò)中引入輕量化模塊DWS-Sandglass降低模型的體積,改進激活函數(shù)實現(xiàn)更好檢測精度.在此基礎(chǔ)上,為了獲得體積更小的檢測模型,使用剪枝策略裁剪模型中的冗余通道.并添加無參數(shù)注意力模塊SimAM,在不帶來過多計算量和參數(shù)量的前提下評估主干提取的特征,提高網(wǎng)絡(luò)的特征表達能力.最后,通過模型剪枝縮減模型體積,并通過微調(diào)回升精度.在HRSC2016數(shù)據(jù)集上的實驗結(jié)果表明,本文所提算法在確保檢測精度的前提下具有檢測速度快、模型體積小的特點,更適合部署于移動設(shè)備.
參考文獻
References
[1]王李祺,張成,侯宇超,等.基于深度學(xué)習(xí)特征融合的遙感圖像場景分類應(yīng)用[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2023,15(3):346-356
WANG Liqi,ZHANG Cheng,HOU Yuchao,et al.Remote sensing image scene classification based on deep learning feature fusion[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2023,15(3):346-356
[2]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR05).June 20-25,2005,San Diego,CA,USA.IEEE,2005:886-893
[3]Lienhart R,Maydt J.An extended set of Haar-like features for rapid object detection[C]//Proceedings of International Conference on Image Processing.September 22-25,2002,Rochester,NY,USA.IEEE,2002.DOI:10.1109/icip.2002.1038171
[4]Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.December 8-14,2001,Kauai,HI,USA.IEEE,2003.DOI:10.1109/CVPR.2001.990517
[5]張兵.光學(xué)遙感信息技術(shù)與應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2018,10(1):1-5
ZHANG Bing.A survey of developments on optical remote sensing information technology and applications[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2018,10(1):1-5
[6]黎江,許明慧,張羽.基于Mask R-CNN的遙感影像土地分割與輪廓提取[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2021,13(1):116-123
LI Jiang,XU Minghui,ZHANG Yu.Land segmentation and contour extraction of remote sensing image based on Mask R-CNN[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(1):116-123
[7]張雪紅,吳雨陽,王永俊,等.基于熱紅外和夜間燈光遙感的GDP空間化研究:以福建省為例[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2021,13(6):720-729
ZHANG Xuehong,WU Yuyang,WANG Yongjun,et al.GDP spatialization based on thermal infrared and night light remote sensing:a case study in Fujian province[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(6):720-729
[8]董超,劉晶紅,徐芳,等.光學(xué)遙感圖像艦船目標(biāo)快速檢測方法[J].吉林大學(xué)學(xué)報(工學(xué)版),2019,49(4):1369-1376
DONG Chao,LIU Jinghong,XU Fang,et al.Fast ship detection in optical remote sensing images[J].Journal of Jilin University (Engineering and Technology Edition),2019,49(4):1369-1376
[9]Wu C P,Wen W,Afzal T,et al.A compact DNN:approaching GoogLeNet-level accuracy of classification and domain adaptation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:761-770
[10]Iandola F N,Han S,Moskewicz M W,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and lt;0.5 MB model size[J].arXiv e-print,2016,arXiv:1602.07360
[11]Howard A G,Zhu M L,Chen B,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[J].arXiv e-print,2017,arXiv:1704.04861
[12]Sandler M,Howard A,Zhu M L,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:4510-4520
[13]Howard A,Sandler M,Chen B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27 -November 2,2019,Seoul,Korea (South).IEEE,2020:1314-1324
[14]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141
[15]Han K,Wang Y H,Tian Q,et al.GhostNet:more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:1577-1586
[16]Li H,Kadav A,Durdanovic I,et al.Pruning filters for efficient ConvNets[J].arXiv e-print,2016,arXiv:1608.08710
[17]Liu Z,Li J G,Shen Z Q,et al.Learning efficient convolutional networks through network slimming[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2755-2763
[18]Yang L X,Zhang R Y,Li L D,et al.SimAM:a simple,parameter-free attention module for convolutional neural networks[C]//38th International Conference on Machine Learning,2021:11863-11874
[19]劉麗偉,侯德彪,侯阿臨,等.基于SimAM-YOLOv4的自動駕駛目標(biāo)檢測算法[J].長春工業(yè)大學(xué)學(xué)報,2022,43(3):244-250
LIU Liwei,HOU Debiao,HOU Alin,et al.Automatic driving target detection algorithm based on SimAM-YOLOv4[J].Journal of Changchun University of Technology,2022,43(3):244-250
[20]Yu N G,Qiu S,Hu X L,et al.Accelerating convolutional neural networks by group-wise 2D-filter pruning[C]//2017 International Joint Conference on Neural Networks (IJCNN).May 14-19,2017,Anchorage,AK,USA.IEEE,2017:2502-2509
[21]Law H,Deng J.CornerNet:detecting objects as paired keypoints[J].International Journal of Computer Vision,2020,128(3):642-656
[22]Duan K W,Bai S,Xie L X,et al.CenterNet:keypoint triplets for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019,Seoul,Korea (South).IEEE,2020:6568-6577
[23]Ge Z,Liu S T,Wang F,et al.YOLOX:exceeding YOLO series in 2021[J].arXiv e-print,2021,arXiv:2107.08430
[24]Zhang H Y,Wang Y,Dayoub F,et al.VarifocalNet:an IoU-aware dense object detector[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:8510-8519
[25]Yi J R,Wu P X,Liu B,et al.Oriented object detection in aerial images with box boundary-aware vectors[C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV).January 3-8,2021,Waikoloa,HI,USA.IEEE,2021:2149-2158
[26]Hou L P,Lu K,Xue J A,et al.Shape-adaptive selection and measurement for oriented object detection[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(1):923-932
[27]Tian Z,Shen C H,Chen H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019,Seoul,Korea (South).IEEE,2020:9626-9635
Lightweight remote sensing image target detection without anchor frame
ZHANG Yunzuo1,2WU Cunyu1GUO Wei1ZHAO Ning3
1School of Information Science and Technology,Shijiazhuang Tiedao University,Shijiazhuang 050043,China
2Hebei Key Laboratory of Electromagnetic Environmental Effects and Information Processing,Shijiazhuang Tiedao University,Shijiazhuang 050043,China
3School of Management,Shijiazhuang Tiedao University,Shijiazhuang 050043,China
AbstractThe existing remote sensing image object detection algorithms have been frustrated by large parameter quantities,slow detection speed and inability to deploy on mobile devices.Here,we propose a lightweight remote sensing image object detection algorithm without anchor frames.First,a DWS-Sandglass lightweight module is designed to reduce the model volume,and the activation function of the model is improved to ensure detection accuracy.Then,a parameter free attention module SimAM is introduced to enable the network to focus on more important feature information.Finally,the redundant channels of the anchor frame free algorithm are pruned to reduce the number of model parameters,and the accuracy is improved by fine tuning.The experimental results on HRSC2016 dataset show that compared with current mainstream detection algorithms free of anchor frame,the proposed algorithm has faster detection speed and smaller model size,making it more suitable for deployment on mobile devices with comparable detection accuracy.
Key wordscomputer applications;remote sensing target detection;lightweight;model pruning