蔡 鍔 鄧春華
(武漢科技大學計算機科學與技術學院 湖北 武漢 430065)(智能信息處理與實時工業系統湖北省重點實驗室 湖北 武漢 430065)
隨著科學技術的發展,無人機已經開始滲透到越來越多的領域,尤其是農業、醫療、拍攝等,為人們的生活帶來了極大的便利[1-3]。近年來,諸如無人機等低空飛行器已經成為許多玩家的玩具,但是絕大多數飛行器都沒有民航管理部門的適航許可,飛行器玩家也沒有相關部門頒發的駕駛執照。無人機使用不當會帶來嚴重危害[4-6]。例如,無人機未經許可闖入公共及敏感區域、意外墜落、影響客機正常起降、碰撞高層建筑等。同時,開始出現利用無人機販毒、運違禁物品走私等新的犯罪形態,給公共安全帶來了新的問題。因此,對黑飛無人機進行監管勢在必行。
當通過人工巡邏對無人機監視時,人工觀察的視野容易受到樹木和建筑的遮擋,并且人工追蹤也容易受到地面建筑和道路的限制,效率低下[7]。因此,開發巡邏飛行器進行反無人機技術應運而生。通常,巡邏飛行器覆蓋的區域相對較大,而民用無人機個體相對較小,從巡邏飛行器上拍攝的圖片中,無人機目標一般比較小。由于巡邏飛行器和無人機都在三維空間中直線運動,巡邏飛行器拍攝到的圖片容易產生運動模糊。因此,恢復運動模糊圖像中的無人機小目標是反無人機技術亟待解決的問題。本文的任務是通過深度學習在運動模糊圖像中恢復無人機小目標。
運動模糊圖像可以看作模糊核與清晰圖像卷積的結果[8]。傳統的去運動模糊方法有快速傅里葉變換法、維也納濾波器法、Lucy-Richardson濾波法等[9-11]。傳統方法一般會利用圖像先驗信息或者對模糊過程作出假設,求出模糊核,然后對模糊圖像進行反卷積操作,估算出清晰圖像。但這些傳統方法的數學模型和求解方法比較復雜,算法效率低,魯棒性不強,不能適應不同的數據集或不同因素造成的模糊。因此,傳統方法不適合高速運動模糊圖像中小目標的恢復。
近些年來,卷積神經網絡(CNN)[12]在計算機視覺領域越來越流行。Su等[13]將CNN引入到圖像模糊復原領域中,提出一種DeBlurNet。DeBlurNet的效果遠遠超出了傳統方法,但對高速運動模糊圖像不能有效地進行復原。Goodfellow等提出了生成對抗網絡(GAN),GAN能夠保留圖像中豐富的圖像細節、創造出和真實圖像十分相近的圖像,GAN在圖像增強、圖像重建等問題上取得了很好的效果[14]。Kupyn等[15]在GAN的基礎上提出了DeblurGAN,DeblurGAN是當前比較流行的端到端學習方法的去模糊網絡。同時,DeblurGAN也承襲了GAN的缺點。由于無人機在自然環境中的高速運行,圖片的拍攝過程中產生的模糊的情況復雜。當運動模糊程度比較大時,DeblurGAN不容易訓練,模型可能會出現坍縮,導致生成的圖片會產生奇怪的涂鴉[16-17]。最近兩年,深度信念網絡在超分辨率領域中應用非常成功[18]。深度信念網絡是一種深層的概率有向圖模型,具有訓練穩定和容易收斂等優點。為了解決上述問題,本文引入深度信念網絡用于運動模糊圖像的恢復。
文獻[18]中的網絡模型是一種全局性概率生成模型,適合小圖像的恢復。文獻[18]的實驗主要是將8×8像素大小的圖像恢復成32×32像素大小的圖像。它不適合對大范圍或者局部內容差異較大的圖像進行恢復。如果直接將文獻[18]的超分辨率方法應用于模糊圖像的恢復,這樣的應用有一定的效果,但是不能有效恢復模糊圖像的局部細節。因此,本文將深度信念網絡與沙漏網絡相結合,構建一種適合小目標的模糊圖像恢復的網絡模型。
本文的主要工作包括三個方面:① 將深度信念網絡引入到無人機小目標模糊圖像的恢復任務中,并設計一種適合局部迭代恢復的網絡框架;② 將深度信念網絡與沙漏網絡相結合,構建一種適合小目標的模糊圖像恢復的深度信念沙漏網絡;③ 建立了模擬仿真的無人機高速運動模糊圖像數據集。
深度信念網絡(Deep Belief Nets)[19]是由Hinton等于2006年提出的一種生成模型。它通過訓練神經元間的權重,讓整個神經網絡按照最大概率來生成訓練樣本。深度信念網絡可以用來識別特征、樣本分類,還可以用來生成樣本。
像素卷積神經網絡(PixelCNN)[20]是由Oord等于2016年提出的由多層全卷積層[21]組成的深度卷積神經網絡,屬于全可見信念網絡。PixelCNN對像素點的概率分布進行建模,當給模型一組描述性的向量時,PixelCNN便能生成大量有變化的圖片樣本。該模型提供了一個易于評估的指標,這個指標通過計算數據的似然來評估生成的樣本的質量。PixelCNN對圖像的像素施加順序,將圖像表示為由像素組成的長序列。PixelCNN使用條件概率和鏈式規則表示圖片x的條件概率分布,表示為p(x)。p(x)為每一個像素xi的條件概率分布p(xi)的乘積,表示如下:
(1)
PixelCNN中每一個像素xi的條件概率分布p(xi)取決于其之前的像素(x1,x2,…,xi-1),如圖1所示[20]。

圖1 像素xi的概率
PixelCNN通過卷積神經網絡對圖像的概率分布進行建模,并將p(x)的似然最大化來學習卷積神經網絡的參數。計算像素xi的概率需要考慮xi之前的像素。在生成圖片時,PixelCNN從圖片的左上角開始,逐像素點地生成像素。
文獻[18]構造了一個簡單的多模態MNIST角點數據集實驗。實驗證明了相對于像素獨立模型,PixelCNN模型在多模態任務中的優越性。
因此,本文將PixelCNN深度信念網絡引入到無人機小目標模糊圖像的恢復任務中。它用于學習無人機清晰圖像的先驗知識。在恢復模糊圖片時,深度信念網絡將使生成不帶有像素殘影的清晰圖片。然而,深度信念網絡不能有效地對模糊圖像的局部細節進行恢復。
堆疊沙漏網絡(Stacked Hourglass Networks)[22]是由Newell等提出的一種堆疊沙漏型的全卷積網絡。沙漏網絡可以捕捉圖像的多尺度特征,并從粗到細地預測對象的關鍵點出現在圖像中每個位置的概率。位置概率用熱力圖表示。
沙漏模塊的結構如圖2所示。模塊的兩端具有較大的特征尺度,模塊的中間具有較小的特征尺度,整個模塊為一個對稱的結構。這種結構設計是為了捕獲對象的多尺度信息,從而獲得更準確的預測。

圖2 沙漏模塊
沙漏模塊中殘差層[23]的結構如圖3所示。殘差層能在保留原始特征信息的前提下進一步提取更深的特征,同時也能使網絡更深而梯度不會消失且無法訓練。

圖3 殘差模塊
將上一層沙漏模塊輸出的熱力圖作為下一層沙漏模塊的輸入,下一層沙漏模塊就可以使用圖像中關鍵點間的相互關系。因此,相比于單個的沙漏模塊,串聯的沙漏模塊復用了全部關鍵點的信息,從而提高了關鍵點的識別精度。
傳統的識別或檢測網絡的損失函數只比較網絡的預測結果與標簽之間的差異。這樣則會容易出現梯度消失的情況。沙漏網絡中每個沙漏模塊之后的輸出結果都可以參與損失的計算中。這樣可以起到中間監督的作用,從而可以適當地更新底層參數,并提高生成的圖像的準確性。
由于深度信念網絡不能有效恢復模糊圖像的局部細節,本文將利用沙漏網絡的多尺度提取、多模塊串聯和中間監督的特點,來獲得無人機的關鍵點特征,從而使深度信念網絡能對運動模糊圖像的局部細節進行恢復。
為了解決拍攝高速運動的物體時圖像產生運動模糊的問題,本文提出了一種基于深度信念網絡和沙漏網絡的像素遞歸生成模型。該模型記為DB-HG,如圖4所示。

圖4 DB-HG模型
DB-HG模型分為兩個部分。第一部分將模糊圖像進行初步復原,第二部分將初步復原的圖像再次復原。每個部分由兩個網絡組成,分別為使用PixelCNN深度信念網絡的優先網絡和使用沙漏網絡的調節網絡。優先網絡結構如圖5所示,調節網絡中的沙漏模塊結構如圖2所示。

圖5 優先網絡結構

(2)
本文需要解決確定p(y|x)的適當形式,使模型能夠實現有效的學習,生成逼真的、清晰的輸出。本文使用文獻[18]中的PixelCNN深度信念網絡,以便能夠對生成像素之間的統計依賴性進行建模,從而在給出非常模糊的圖像輸入的情況下產生清晰的合成圖像。
文獻[18]中的自回歸模型部分的優先網絡捕獲像素之間依賴性,而調節部分的調節網絡捕獲圖像的全局結構。文獻[18]所處理的數據主要針對8×8像素大小的圖像。這種逐像素點與全局關聯模式對超小目標非常有效,隨著范圍擴大,性能將會顯著下降。為了克服這個缺點,本文提出了基于局部條件的深層信念網絡像素生成策略:
(3)
式中:Ei={ej|‖ej-ei‖|<δ,j
這種基于局部條件的策略,不僅對超小目標有效,而且不受尺度大小的約束。為了彌補全局條件的損失,本文設計了迭代生成的網絡模式,增大了推演單個像素點的視野。此外,本文的調節部分使用沙漏網絡,配合優先網絡完成像素生成。
給定輸入x∈RL,令A(x):RL→RK表示預測第i個輸出像素K個可能值對應的概率向量的調節網絡。類似地,令Bi(yEi):Ri-1→RK表示預測第i個輸出像素K個可能值對應的概率向量的優先網絡。本文的概率模型通過將兩組概率值相加并在它們上應用softmax運算來預測第i個輸出像素的分布,表示為:
p(yi|x,yEi)=softmax(Ai(x)+Bi(yEi))
(4)

(5)
式中:lse(·)是softmax函數分母的對數運算符,1[k]表示第k維的值設置為1的K維獨熱向量。
為了解決用式(5)訓練的模型容易忽略調節網絡的問題[18],本文增加了調節網絡損失的權重。最終的總損失函數表示為:
(6)
DB-HG模型的兩個部分包括優先網絡和調節網絡兩個支路。優先網絡是一個PixelCNN深度信念網絡,其接收標準清晰圖像作為輸入。調節網絡為一個堆疊沙漏模塊的沙漏網絡,其接收模糊圖像作為輸入。優先網絡與調節網絡輸出的特征大小都為[32,32,768],將兩個網絡的輸出相加并通過softmax交叉熵計算,得到32×32×3的輸出。
如圖6(a)所示,圖像的生成過程分為兩個部分。在第一部分中,網絡將一個空白圖像(零矩陣)和模糊的無人機圖像作為輸入,將生成的圖像更新空白圖像的一個像素。在更新空白圖像后,網絡將更新后的圖像作為新的輸入。重復這樣逐像素的更新操作,直到網絡更新了整個空白圖像,得到初步復原的生成圖像1。在第二部分中,網絡將一個空白圖像(零矩陣)和生成圖像1作為輸入。重復上述更新操作,直到網絡完整地更新空白圖像,得到最終復原的生成圖像2。圖像的更新過程如圖6(b)所示。

圖6 圖像生成的過程
本文首先提出了基于局部條件的像素生成策略,使深度信念網絡不僅對超小目標有效,而且不受尺度大小的約束。并且設計了迭代生成的網絡模式,增大了推演單個像素點的視野。然后,本文將深度信念網絡與沙漏網絡相結合,使網絡能有效地恢復圖像的局部細節。最后,本文將模糊圖像進行兩次恢復,使恢復的圖像更加清晰。
由于人工條件下難以拍攝得到大量的無人機圖像,而且拍攝得到的模糊圖像沒有對應的清晰圖像。因此本文使用模擬仿真的方式對清晰圖片進行模糊操作,生成訓練樣本。該操作采用高斯過程模擬運動軌跡,運動軌跡上的每一點都與上一點的位置和速度有關。然后添加高斯噪聲、椒鹽噪聲以增加運動隨機性。最后對運動軌跡進行子像素插值得到模糊核。
首先,本文收集清晰的無人機圖像。然后,將清晰的無人機圖像經過翻轉與旋轉處理,得到大量的清晰的無人機圖像,將其作為標準清晰圖像。最后,將每幅標準清晰圖像經過模糊處理,得到對應的模糊的無人機圖像,所有圖像都設置為32×32像素大小。本文總共得到60 000對無人機圖像,按5∶1比例將圖像劃分為訓練集和測試集。部分圖像數據如圖7所示,其中每兩行為一組,上一行是運動模糊的圖像,下一行為對應的清晰圖像。

圖7 部分訓練數據
通過比較現有的圖像相似度評估算法[24-26],本文選用以下三種評估方法對生成圖像與標準圖像的相似度進行評估。
峰值信噪比(pSNR)是一個表示信號最大可能功率和影響它的表示精度的破壞性噪聲功率的比值的工程術語。由于許多信號都有非常寬的動態范圍,pSNR常用對數分貝單位(dB)來表示。pSNR經常用作圖像壓縮等領域中信號重建質量的測量方法,它通常簡單地通過均方誤差(MSE)進行定義。兩個m×n單色圖像I和K,如果一個為另外一個的噪聲近似,那么它們的MSE定義為:
(7)
MSE指標的值越小,代表兩個圖像的像素誤差越小。pSNR定義為:
(8)
式中:MAXI是表示像素點顏色的最大數值,8bit表示的圖像中MAXI為255。信噪比數值越大,代表圖像的失真越少。
結構相似度(SSIM)是一種用以衡量兩幅圖像相似度的指標。當一幅圖像為無失真圖像,另一幅圖像為失真后的圖像時,兩幅圖像之間的SSIM可以看成是失真圖像的圖像品質衡量指標。相較于傳統使用的圖像品質衡量指標,SSIM在圖像品質的衡量上更能符合人眼對圖像品質的判斷。給定兩個圖像x和y,兩者的SSIM定義為:
SSIM=[l(x,y)]α[c(x,y)]β[s(x,y)]γ
(9)
式中:l(x,y)比較x和y的亮度,c(x,y)比較x和y的對比度,s(x,y)比較x和y的結構,α>0、β>0、γ>0為調整l(x,y)、c(x,y)、s(x,y)的參數。SSIM指標的值越大,代表兩幅圖像的相似性越高。
本文使用pSNR、MSE和SSIM來計算生成的清晰圖像與標準清晰圖像之間的相似度。
本文將DeblurNet、DeblurGAN與文獻[18]中的超分辨率網絡模型應用于本文數據集進行橫向對比,分別記為DeblurNet、DeblurGAN和PRSR。此外,本文還在實驗中設計了三種網絡模型進行縱向對比,分別記為DB-ResN、DB-HG1和DB-HG2。DB-ResN為用深度殘差網絡(ResNet)代替DB-HG中調節部分的網絡模型。DB-HG1為使用單個沙漏模塊的DG-HG網絡模型。DB-HG2為串聯了兩個沙漏模塊的DB-HG網絡模型。評估結果如表1所示。

表1 評估結果
去模糊效果對比如圖8所示。可以看出DeBlurNet與DeblurGAN生成的清晰圖像較平滑,圖像帶有一些殘影,不清晰。并且DeblurNet生成的圖像帶有黑色的邊框,DeblurGAN生成的圖像的顏色趨于一致。而基于深度信念網絡的模型生成的清晰圖像與標準清晰圖像在色調上保持一致,且紋理信息更加豐富,細節更清楚。

圖8 去模糊效果對比
從表1也可以看出,本文基于深度信念網絡提出的(DB-HG)模型比DeBlurNet與DeblurGAN模型表現得更好。直接將超分辨率模型(PRSR)應用到無人機模糊圖像中進行恢復也能起到一定的效果,但是表現不佳。使用深度殘差網絡的DB-HG模型(DG-ResN)比使用單層沙漏模塊的DB-HG模型(DB-HG1)表現得好,而隨著串聯的沙漏模塊的增加,DB-HG模型(DG-HG2)表現得更好。
實驗結果表明,與已有的方法相比,本文構建的深度信念沙漏網絡在無人機小目標模糊圖像恢復任務中的效果更好。
GoPro數據集是目前為數不多的運動模糊圖像公開數據集。GoPro數據集使用GOPRO4 HERO Black相機拍攝了240幀/s的街景視頻,對連續的7到13幀取平均獲得模糊程度不一的模糊圖像。數據集將模糊圖像對應的清晰圖像定義為處于中間位置的一幀圖像。數據集包含3 214對圖像,訓練集和測試集分別為2 103對圖像和1 111對圖像,圖像分辨率為1 280×720像素大小。但是GoPro數據集的圖像中的場景復雜、圖像分辨率高、ground truth畫質不佳、圖像數量少,不適用于本文所研究的對象。
為了在GoPro數據集進行對比實驗,本文GoPro數據集進行增強處理。首先將訓練集中的每幅圖像十字剪切出4幅小圖像。然后將這5幅圖像進行一次翻轉與三次旋轉,增加訓練集的數據量到84 120對圖像。最后將所有的圖像放縮到32×32像素大小進行訓練。
GoPro數據集實驗的評估結果如表2所示。

表2 GoPro數據集評估結果
從表2可以看出,本文提出的DB-HG模型(DG-HG2)的復原效果比DeBlurNet與DeblurGAN模型更好。而PRSR模型則無法通過超分辨率的方法對復雜場景下的運動模糊的圖像進行有效恢復。
GoPro數據集去模糊效果如圖9所示。可以看出DeblurGAN和DB-HG模型能有效對模糊圖像進行復原。而DeblurNet生成的圖像帶有黑色的邊框,PRSR生成的圖像更加模糊。

圖9 GoPro數據集去模糊效果
實驗結果表明,與已有的方法相比,本文構建的深度信念沙漏網絡在GoPro數據集中對運動模糊的圖像進行復原的效果最好。
本文將深度信念網絡引入到無人機小目標模糊圖像的恢復任務中,并設計了一種適合局部迭代恢復的網絡框架。然后由于沙漏網絡具有能在不同尺度上學習圖像的細節和輪廓特征的特性,本文將深度信念網絡與沙漏網絡相結合,提出了DB-HG網絡模型。DB-HG網絡模型通過對模糊圖像進行兩次復原,使模糊圖像的恢復更加清晰。在對比實驗中, DB-HG網絡模型在無人機數據集和GoPro數據集上表現出比當前已有的網絡模型更好的模糊圖像復原效果。