張善文,齊國紅,徐新華
(鄭州西亞斯學(xué)院電子信息工程學(xué)院, 鄭州 451150)
基于遙感圖像(RSI)的飛機(jī)自動檢測在動態(tài)監(jiān)測和軍事監(jiān)視中具有很高的應(yīng)用價值,但由于飛機(jī)圖像在RSI中所占比例相對較小,且飛機(jī)圖像的個數(shù)、大小、姿態(tài)、陰影、光照和背景等多變,使得遙感圖像飛機(jī)檢測成為一項具有挑戰(zhàn)性的課題。
隨著遙感技術(shù)、成像平臺、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,涌現(xiàn)出了一些基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的RSI飛機(jī)檢測方法,且取得了顯著檢測準(zhǔn)確率。Zhang等[1]構(gòu)建了一種基于CNN的有效飛機(jī)檢測框架,用于檢測超大復(fù)雜場景中的多尺度目標(biāo),能夠快速、準(zhǔn)確地生成數(shù)量適中的目標(biāo)候選對象,用于檢測多尺度飛機(jī)。Zhong等[2]利用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、DCNN和有限的訓(xùn)練樣本,提出了一種端到端的飛機(jī)檢測方法。Li等[3]提出了基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的RSI飛機(jī)檢測,實現(xiàn)了飛機(jī)的自動識別與定位。Yan等[4]設(shè)計了一種基于中心建議區(qū)域和不變特征的飛機(jī)檢測方法。從RSI中提取建議區(qū)域,然后提取不變性特征訓(xùn)練集成學(xué)習(xí)分類器,利用訓(xùn)練好的分類器從RSI中檢測識別飛機(jī)。Fu等[5]提出了一種特征融合算法,用于多尺度飛機(jī)檢測特征表示,取得了較高的檢測準(zhǔn)確率。蘭旭婷等[6]提出了一種基于注意力與特征融合的RSI飛機(jī)目標(biāo)檢測方法。該方法結(jié)合了注意力模塊和特征融合模塊,對RSI飛機(jī)檢測,取得了較高的檢測精度和速度。
U-Net是一種比較簡單的、廣泛應(yīng)用的圖像語義分割模型,在圖像分割方面表現(xiàn)出了顯著的性能[7]。張翠軍等[8]提出了一種基于改進(jìn)U-Net的RSI建筑物分割方法,對建筑物進(jìn)行檢測。楊丹等[9]在U-Net中融合Inception模塊,提出了一種多尺度卷積核U-Net(MSU-Net)并應(yīng)用于視網(wǎng)膜血管分割任務(wù),在視網(wǎng)膜血管分割中取得了較高的準(zhǔn)確率。Tarasiewicz等[10]提出了一個輕量級U-Net(LWU-Net)并應(yīng)用于多模態(tài)磁共振腦腫瘤圖像分割中,得到了精確的腦腫瘤輪廓。Xiong等[11]針對工業(yè)部件缺陷圖像的背景噪聲大、環(huán)境不可預(yù)測、缺陷形狀大小不一等因素導(dǎo)致缺陷檢測準(zhǔn)確率降低問題,提出了一種多尺度特征融合注意力U-Net (AU-Net),該模型將注意力U-Net與多尺度特征融合模塊相結(jié)合,有效檢測噪聲低質(zhì)量圖像中的缺陷。Yuan等[12]提出了一種改進(jìn)的AU-Net,能夠就深度豐富的語義信息和淺層細(xì)節(jié)信息相融合,進(jìn)行大尺寸差異的磁共振血管造影動脈瘤圖像進(jìn)行自適應(yīng)精確分割。
針對RSI飛機(jī)檢測難題,在MSU-Net,LWU-Net和AU-Net啟發(fā)下,構(gòu)建一種輕量級多尺度注意力U-Net (LWMSAU-Net),并應(yīng)用于RSI飛機(jī)檢測任務(wù)。
U-Net是一種全卷積U型對稱網(wǎng)絡(luò),由相互對稱的編碼過程、解碼過程和連接過程組成,其基本架構(gòu)如圖1(a)所示。傳統(tǒng)U-Net對于每個鄰域需要運(yùn)行一次,且對于鄰域重疊部分需要重復(fù)運(yùn)算,其運(yùn)算效率較低。針對RSI和包含的飛機(jī)圖像的復(fù)雜性,在MSU-Net,LWU-Net和AU-Net的基礎(chǔ)上,利用多尺度卷積、模型輕量化、殘差連接、注意力機(jī)制等優(yōu)點,從U-Net的模型參數(shù)個數(shù)、編碼、解碼和連接方式多個角度,對模型進(jìn)行改進(jìn),構(gòu)建一個輕量級多尺度注意力U-Net (LWMSAU-Net),其基本架構(gòu)如圖1(b)所示。殘差連接能夠避免提到消失問題,在U-Net編碼和解碼部分,提高網(wǎng)絡(luò)的性能。得到編碼模塊和解碼模塊如圖1(c)和圖1(d)所示。

圖1 U-Net和LWMSAU-Net結(jié)構(gòu)
在圖1(b)中,LWMSAU-Net的編碼過程有4個模塊,每個模塊包含3個卷積和1個最大池化操作,每次池化下采樣后,特征圖的個數(shù)乘以2,其維數(shù)變小;解碼過程有4個模塊,在每個模塊操作前,反褶積將特征圖的維數(shù)乘以2,特征圖的數(shù)量減半,再與左邊對稱的編碼過程的特征圖相結(jié)合。由于編碼特征圖與解碼特征圖的維數(shù)不同,所以需要通過裁剪操作使得對應(yīng)的特征圖的維數(shù)相同,便于特征圖融合;連接過程采用跳躍連接方式,將U-Net得到的淺層和深層的特征進(jìn)行融合;最后采用SoftMax分類器進(jìn)行像素級分類。
模塊中由3種不同尺度特征的卷積核進(jìn)行特征提取:1×1、3×3和5×5,并在卷積后使用3×3最大池化層進(jìn)行眼底視網(wǎng)膜血管特征信息融合。經(jīng)過池化層融合后的特征信息輸入到1×1卷積層進(jìn)行尺度壓縮,解決了不同尺度信息提取過程中網(wǎng)絡(luò)參數(shù)和特征量冗余的問題。
在編碼和解碼部分使用一個殘差注意力門連接加強(qiáng)特征重用,將編碼中提取的低級特征和解碼中高級語義特征進(jìn)行整合,提高模型的檢測性能,從而得到更多不同尺度飛機(jī)圖像的細(xì)節(jié),其結(jié)構(gòu)如圖1(e)所示。
底層卷積特征能夠保留飛機(jī)的細(xì)節(jié)信息,為了最大限度地提取不同尺度大小的飛機(jī)圖像特征,將多尺度卷積模塊Inception引入U-Net編碼部分,如圖1(f)所示。其主要過程為:將多個不同的淺層和深層網(wǎng)絡(luò)特征級聯(lián),并對不同的卷積層賦予不同的權(quán)重,通過模型訓(xùn)練自動學(xué)習(xí)殘差注意力模塊中的參數(shù),使得殘差注意力模塊能夠同時關(guān)注多個編碼得到的特征,使模型更好地關(guān)注飛機(jī)的局部特征。在每一個注意力門結(jié)構(gòu)中,從解碼器的前一層提取的特征被用作門控特征,由此調(diào)整并行的殘差輸出xi的權(quán)重;再將經(jīng)過權(quán)重調(diào)整后的xi與G進(jìn)行拼接整合;注意力門函數(shù)可表示為:
αi=fatt(αi,G;θatt)
(1)
式中:fatt通過一組參數(shù)θatt定義xi與G的運(yùn)算。運(yùn)算包含使用通道方向1×1卷積的線性變換以及利用激活函數(shù)Relu和Sigmoid的非線性變換。注意力門操作不改變輸入xi的維數(shù),所以可以靈活地用于各種U-Net結(jié)構(gòu)中。
模型性能可以通過計算檢測的飛機(jī)圖像與標(biāo)注的飛機(jī)圖像之間的差異估計,利用交叉熵值來評定網(wǎng)絡(luò)的訓(xùn)練效果,當(dāng)交叉熵值越小,表明網(wǎng)絡(luò)的訓(xùn)練效果越好。在LWMSAU-Net的訓(xùn)練過程中,計算標(biāo)注的飛機(jī)圖像與檢測的飛機(jī)圖像的每個像素點的交叉熵,然后取平均值,再利用平均像素交叉熵?fù)p失函數(shù)評估評定LWMSAU-Net的訓(xùn)練效果,平均交叉熵?fù)p失可表示為:

(2)
式中:p(x)和q(x)分別為標(biāo)注圖像和檢測圖像的像素分類向量;N為圖像的總像素數(shù);X為輸入圖像的特征向量;x為輸入圖像每個像素的特征向量。
得到損失值后,再利用反向傳播算法將損失值回傳到網(wǎng)絡(luò)的每個卷積層,對卷積層的權(quán)重參數(shù)進(jìn)行更新,進(jìn)行多次迭代直到損失值穩(wěn)定時訓(xùn)練結(jié)束。
采用公開RSI數(shù)據(jù)集EORSSD(https://github. com/rmcong/EORSSD-dataset)中的包含飛機(jī)圖像的RSI子集進(jìn)行實驗,驗證所提出的飛機(jī)檢測方法LWMSAU-Net。該子集包含258幅飛機(jī)RSI圖像,不同圖像包含一個或多個小尺寸、不同位置和角度、不同分辨率和背景的飛機(jī)。由于原始飛機(jī)RSI的分辨率不同,從973像素×760像素到242像素×239像素,為了模型方便訓(xùn)練,將每張圖像的大小調(diào)整為128像素×128像素。利用圖像數(shù)據(jù)集擴(kuò)展方法將每幅圖像擴(kuò)展為10幅圖像,得到共包含2 580幅飛機(jī)RSI數(shù)據(jù)集。在擴(kuò)展數(shù)據(jù)集中每幅圖像都包含飛機(jī),以保證所提出檢測方法可對飛機(jī)自動檢測。在該數(shù)據(jù)集上按照5折交差驗證法進(jìn)行實驗,并與U-Net,MSU-Net,LWU-Net和AU-Net方法進(jìn)行比較。迭代次數(shù)設(shè)為3 000,學(xué)習(xí)率為0.01,批大小為32,Adam為模型優(yōu)化算法。所有實驗的軟件配置為PyCharm,Keras,TensorFlow,Python;硬件配置為64位操作系統(tǒng)Win10,Intel(R)CoreTM i7-9700KCPU@3.6 GHz,64.0 GB內(nèi)存,NVIDIA GeForce GTX1070Ti。
檢測準(zhǔn)確率表示正確分類的飛機(jī)像素占真實飛機(jī)像素的比值P:
(3)
式中:TP為經(jīng)過網(wǎng)絡(luò)得到的飛機(jī)檢測結(jié)果與原始飛機(jī)區(qū)域的重合部分;FP為分割結(jié)果中不屬于飛機(jī)區(qū)域的部分。
圖2為基于LWMSAU-Net和經(jīng)典U-Net的飛機(jī)檢測方法在訓(xùn)練集上關(guān)于迭代次數(shù)的損失值。

圖2 LWMSAU-Net和經(jīng)典U-Net的損失值
從圖2看出,隨著迭代次數(shù)增加,2個模型的損失值在1 000次之前下降很快,當(dāng)次數(shù)不斷增加時損失值趨于穩(wěn)定;經(jīng)典U-Net的損失值變化曲線波動較大;當(dāng)?shù)螖?shù)大于2 500次時兩個模型都基本收斂,表明模型達(dá)到了較好的訓(xùn)練效果。為了公平起見,下面實驗中,選擇所有訓(xùn)練好的模型都為迭代次數(shù)為3 000次時的模型,由此在測試集上進(jìn)行飛機(jī)檢測。
圖3(c)~圖3(g)為基于U-Net,MSU-Net,LWU-Net,AU-Net和LWMSAU-Net的檢測方法對一幅簡單RSI的飛機(jī)分割圖像。為了充分展現(xiàn)U-Net的優(yōu)勢,將LWMSAU-Net與傳統(tǒng)的3種圖像分割算法進(jìn)行比較: K-均值聚類算法(KMC)、改進(jìn)的均值聚類算法(MKMC)和模糊C-均值聚類算法 (FCM)分割結(jié)果如圖3(h)~圖3(j)所示。

圖3 基于飛機(jī)分割結(jié)果
從圖3可以看出:5種U-Net及其改進(jìn)模型都能實現(xiàn)飛機(jī)圖像的準(zhǔn)確定位和完整分割;LWMSAU-Net的分割效果最好,增強(qiáng)了對細(xì)節(jié)部分的分割效果,分割圖像最接近標(biāo)注圖像;U-Net的分割效果比較差,飛機(jī)輪廓模糊,與標(biāo)注圖像差異最大;MSU-Net和AU-Net的分割效果優(yōu)于LWU-Net;MSU-Net的分割效果優(yōu)于AU-Net。基于U-Net系列的圖像分割方法明顯優(yōu)于傳統(tǒng)的圖像分割方法的主要原因是:5種基于U-Net類的圖像分割方法能夠?qū)⒍鄬泳幋a部分的低級特征和對應(yīng)的解碼中高級語義特征進(jìn)行充分融合,再通過分類器Softmax進(jìn)行像素級分類,可得到完整的飛機(jī)圖像。
為了表明所提出模型LWMSAU-Net的魯棒性,分別使用5種U-Net類方法對5幅復(fù)雜RSI進(jìn)行魯棒性對比實驗。復(fù)雜圖像指RSI的背景且包含的飛機(jī)圖像模糊、飛機(jī)較小,如圖4(a)所示,分割效果如圖4(b)~圖4(f)所示。

圖4 由5種U-Net類方法分割的飛機(jī)圖像
由圖4可以看出:5種U-Net類方法均能夠?qū)?幅復(fù)雜背景下多個模糊的飛機(jī)圖像分割出來,但LWMSAU-Net幾乎不受環(huán)境的影響,穩(wěn)定性較高,能夠有效的分割出飛機(jī)區(qū)域,分割的飛機(jī)圖像與標(biāo)注圖像最相似;U-Net的分割結(jié)果最差,能夠定位飛機(jī),但分割的飛機(jī)圖像的邊緣比較模糊;LWU-Net丟失小目標(biāo),不能對較小飛機(jī)圖像進(jìn)行分割;MSU-Net和AU-Net能夠分割出完整的飛機(jī),但分割的飛機(jī)圖像有明顯的噪聲。
在2 580幅的擴(kuò)展數(shù)據(jù)集上利用5折交差驗證方法進(jìn)行實驗。表1為5種U-Net類方法的飛機(jī)分割結(jié)果。

表1 5種U-Net類方法的飛機(jī)檢測的平均準(zhǔn)確率和 模型的訓(xùn)練時間
由圖3和圖4可以看出:5種U-Net類方法明顯比3種傳統(tǒng)方法好。由表1可以看出:提出的LWMSAU-Net優(yōu)于其他4種U-Net類方法,準(zhǔn)確率達(dá)94.22%,其次是MSU-Net,其檢測性能較好,準(zhǔn)確率為92.13%,主要原因是MSU-Net 和LWMSAU-Net均具有多尺度特征提取能力,能夠同時對不同尺度的飛機(jī)圖像進(jìn)行分割;SCNN和M-FCN不適合提取多尺度飛機(jī)檢測;LWU-Net和LWMSAU-Net的訓(xùn)練時間較少,其原因是他們的模型為輕量級、層數(shù)少、訓(xùn)練參數(shù)少;LWMSAU-Net的訓(xùn)練時間最少的原因是,它利用了多尺度卷積模塊和殘差連接模塊,加速了模型收斂。
針對傳統(tǒng)的飛機(jī)檢測方法對背景復(fù)雜且包含不同尺度飛機(jī)的檢測效果不理想問題,構(gòu)建了一種輕量級多尺度注意力U-Net模型(LWMSAU-Net)。該模型充分利用了輕量級、多尺度卷積、殘差連接、注意力和U-Net的優(yōu)勢,通過多尺度U-Net提取不同尺度特征圖,再通過殘差級聯(lián),將編碼特征與對應(yīng)的解碼特征相融合,從而增加飛機(jī)檢測的細(xì)節(jié)信息,提高對較小飛機(jī)的檢測準(zhǔn)確率。在公開的飛機(jī)遙感圖像集上進(jìn)行實驗驗證,結(jié)果表明:LWMSAU-Net能夠有效分割遙感圖像的飛機(jī),準(zhǔn)確率為94.22%。未來工作為對遙感圖像的密集飛機(jī)目標(biāo)檢測進(jìn)行深入研究,設(shè)計參數(shù)優(yōu)化方案,進(jìn)一步提升本模型的魯棒性和泛化能力。