低小慢無人機(jī)降落野外場景識別方法

2017-09-22 12:20:13葉利華趙利平

計算機(jī)應(yīng)用 2017年7期

葉利華，王磊，趙利平,3

(1.同濟(jì)大學(xué) 電子與信息工程學(xué)院，上海 201804； 2.嘉興學(xué)院數(shù)理與信息工程學(xué)院，浙江嘉興 314000；3.同濟(jì)大學(xué) 超大規(guī)模集成電路研究所，上海 200092) (*通信作者電子郵箱9604ylh@tongji.edu.cn)

葉利華1,2*，王磊1，趙利平1,3

針對低小慢無人機(jī)野外飛行場景復(fù)雜自主降落場景識別問題，提出了一種融合局部金字塔特征和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征的野外場景識別算法。首先，將場景分為4×4和8×8塊的小場景，使用方向梯度直方圖(HOG)算法提取所有塊的場景特征，所有特征首尾連接得到具有空間金字塔特性的特征向量。其次，設(shè)計一個針對場景分類的深度卷積神經(jīng)網(wǎng)絡(luò)，采用調(diào)優(yōu)訓(xùn)練方法得到卷積神經(jīng)網(wǎng)絡(luò)模型，并提取深度網(wǎng)絡(luò)學(xué)習(xí)特征。最后，連接兩個特征得到最終場景特征，并使用支持向量機(jī)(SVM)分類器進(jìn)行分類。所提算法在Sports-8、Scene-15、Indoor-67以及自建數(shù)據(jù)集上較傳統(tǒng)手工特征方法的識別準(zhǔn)確率提高了4個百分點以上。實驗結(jié)果表明，所提算法能有效提升降落場景識別準(zhǔn)確率。

卷積神經(jīng)網(wǎng)絡(luò)；特征提??；無人機(jī)；場景分類；金字塔模型

0 引言

當(dāng)前，世界各國在無人機(jī)的民用方面應(yīng)用逐步開放，無人機(jī)在民用方面的應(yīng)用越來越多，已經(jīng)廣泛應(yīng)用于公共安全、應(yīng)急搜救、農(nóng)林、環(huán)保、交通、通信、氣象、影視航拍等多個應(yīng)用領(lǐng)域[1-2]。隨著新能源技術(shù)的發(fā)展，無人機(jī)超視距的飛行能力也越來越強(qiáng)，無人機(jī)自主飛行的需求也在不斷地增加，如無人機(jī)偵察[3]、無人機(jī)物流等。自主飛行要求無人機(jī)具備對飛行周邊環(huán)境的感知能力，因此研究如何使無人機(jī)具備飛行環(huán)境感知能力也越來越受到國內(nèi)外研究者的廣泛關(guān)注，例如采用超聲波傳感器和立體視覺系統(tǒng)感知飛行場景幫助飛行器避免碰撞等[1]。目前大部分研究主要圍繞無人機(jī)自動避障等飛行途中的安全問題，隨著無人機(jī)應(yīng)用的擴(kuò)展，要使無人機(jī)真正具備野外自主飛行能力，安全降落也是一個非常重要的環(huán)節(jié)。因而研究降落場地識別問題，使無人機(jī)具備識別野外降落場景是否適合降落的能力也是自主安全飛行的重要環(huán)節(jié)。野外場景主要包括水域、沼澤、公路、草地、荒漠、樹林、灌木、冰雪地、建筑頂、泥地等。根據(jù)無人機(jī)降落安全問題，本文將這些場景歸結(jié)為水域、路、草地、樹林與灌木、雪地和泥地等六類場景。使無人機(jī)在降落的時候能夠自動識別當(dāng)前降落場景，為安全自動降落提供控制決策基礎(chǔ)。

降落地場景識別問題屬于圖像場景語義分類中的一種，當(dāng)前場景語義分類是圖像語義分類中的一個重要方向，當(dāng)前已經(jīng)有很多關(guān)于場景分類問題的研究。早期的場景分類研究，主要集中在以低層特征并采用手工算法提取包括顏色、紋理、形狀等圖像特征，典型提取算法如尺度不變特征變換(Scale Invariant Feature Transform, SIFT)[4]、梯度方向直方圖(Histogram of Oriented Gradient, HOG)[5]、局部二值模式(Local Binary Pattern, LBP)[6]、通用搜索樹(Generalized Search Tree, GiST)[7]等，然后訓(xùn)練分類器進(jìn)行場景分類。由于缺乏語義層次的描述能力，采用低層特征描述的場景分類方法在應(yīng)用中表現(xiàn)出泛化能力差的特點，從文獻(xiàn)[4-7]的測試結(jié)果中可以看到雖然分類性能遠(yuǎn)未達(dá)到應(yīng)用的要求，但是HOG等算法的低層特征提取能力是非常不錯的。文獻(xiàn)[8]提出在低層特征的基礎(chǔ)上建立中層特征，通過借鑒詞包(Bag-Of-Words, BOW)模型的思想，提出構(gòu)建視覺詞包(Bag Of Visual Word, BOVW)模型[9]，該模型由特征提取、視覺詞典、特征映射和主題模型四部分構(gòu)成。BOVW相對于只采用低層特征的模型具有較強(qiáng)的分辨性，而且魯棒性較好，但是BOVW模型沒有考慮到局部特征空間關(guān)系，不具備全局特性，制約其場景特征的描述能力，識別效果上距離應(yīng)用還有較大距離。文獻(xiàn)[10]借鑒金字塔匹配核的思想，提出空間金字塔匹配(Spatial Pyramid Matching, SPM)模型,大大提高了詞包模型的場景分類識別能力，能夠適用于簡單場景分類應(yīng)用，但是對于復(fù)雜場景分類還不具備應(yīng)用可能。文獻(xiàn)[11-12]對視覺詞包模型進(jìn)行了詳細(xì)描述，典型BOVW處理流程如圖1所示。

圖1 BOVW處理流程

近年來，卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型在計算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用。深度學(xué)習(xí)采用構(gòu)建層次模型，通過監(jiān)督方式自動學(xué)習(xí)圖像特征。目前深度學(xué)習(xí)方法也被應(yīng)用于圖像分類研究，與傳統(tǒng)手工特征方法相比取得非常大的突破。其中Lecun網(wǎng)絡(luò)(Lecun Networking, LeNet)、Alex網(wǎng)絡(luò)(Alex Networking, AlexNet)、Google 網(wǎng)絡(luò)(Google Networking, GoogLeNet)、視覺幾何組網(wǎng)絡(luò)(Visual Geometry Group Networking, VGGNet)、殘差網(wǎng)絡(luò)(Residential Networking, ResNet)是目前最知名的圖像分類深度學(xué)習(xí)網(wǎng)絡(luò)模型。文獻(xiàn)[13]針對場景分類創(chuàng)建深度學(xué)習(xí)模型在測試庫上Sports-8、Scene-15、Indoor-67上分別獲得93.8%、88.4%、68.9%的識別準(zhǔn)確率；文獻(xiàn)[14]在Scene-15、Indoor-67上分別獲得90.19%、68.24%的識別準(zhǔn)確率；文獻(xiàn)[15]在測試庫Scene-15獲得90.4%的識別準(zhǔn)確率。文獻(xiàn)[13-15]分別采用不同的深度網(wǎng)絡(luò)模型提取自學(xué)習(xí)特征并在場景分類上與手工特征方法相比在識別準(zhǔn)確率有顯著提高。深度自學(xué)習(xí)特征通常具有較好的高層特征，然而低層局部特征提取能力相對較弱[14]。

針對深度學(xué)習(xí)模型獲取低層局部特征能力不足的問題，本文提出一種結(jié)合深度自學(xué)習(xí)特征和HOG金字塔低層局部特征相結(jié)合的場景識別方法。首先提取場景圖像的HOG金字塔特征；然后通過調(diào)優(yōu)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型提取深度自學(xué)習(xí)特征；最后利用支持向量機(jī)(Support Vector Machine, SVM)分類器對聯(lián)合特征進(jìn)行分類。通過在公開以及自建圖像場景數(shù)據(jù)庫上的實驗結(jié)果表明,所提出方法的場景識別準(zhǔn)確率與手工特征如SIFT、HOG等和只使用深度自學(xué)習(xí)特征的方法相比較，識別效果有顯著提升。

1 場景識別系統(tǒng)架構(gòu)

場景識別系統(tǒng)的典型框架是特征表述加分類器，該識別系統(tǒng)采用HOG特征與深度學(xué)習(xí)特征的聯(lián)合特征。其中深度模型通過設(shè)計深層網(wǎng)絡(luò)模擬人腦進(jìn)行信息判別而自動獲取特征，在圖像分類領(lǐng)域的研究中取得優(yōu)異的效果[5]。在該思想的啟發(fā)下，本文提出結(jié)合深度學(xué)習(xí)模型和HOG特征的場景識別方法，改進(jìn)場景類別識別效果，系統(tǒng)框架如圖2所示。

圖2 識別系統(tǒng)框架

系統(tǒng)通過無人機(jī)機(jī)載攝像頭采集圖像序列，分別通過HOG算法和深度學(xué)習(xí)模型提取特征并進(jìn)行融合，然后利用分類器判別最終結(jié)果并輸出。系統(tǒng)選取SVM 分類器作為分類算法，其具有較強(qiáng)泛化能力的通用學(xué)習(xí)算法，在圖像識別領(lǐng)域廣泛應(yīng)用并取得良好的效果，為測試特征融合效果的有效性提供支持。

2 HOG金字塔特征

2.1 金字塔特征描述

通常情況下，圖像在固定尺度下不容易提取到的特征，但通過變化尺度后容易被提取到，因此利用尺度變化方法可以更好地描述圖像的特征，可以更多地提取到圖像的特征信息。金字塔模型就是一種非常有效的多尺度特征提取方法，通過對圖像采用不同分塊方法來實現(xiàn)圖像的多尺度表達(dá)，如圖3所示。隨著分塊的增加，所提取局部特征越細(xì)致，但是計算代價越高。文中采用兩層金字塔結(jié)構(gòu)，每層分別提取4×4和8×8的尺度特征信息。

圖3 金字塔分塊結(jié)構(gòu)

2.2 HOG直方圖特征提取

HOG的核心思想是所檢測的局部物體外形能夠被光強(qiáng)梯度或邊緣方向的分布所描述，是對圖像的局部區(qū)域內(nèi)梯度方向信息的統(tǒng)計。通過將整幅圖像分割成小的連接細(xì)胞單元，每個細(xì)胞單元生成一個方向梯度直方圖或者區(qū)域中像素的邊緣方向，這些直方圖的組合可表示出檢測目標(biāo)描述子。為提高準(zhǔn)確率，局部直方圖可以計算圖像中一個較大區(qū)域均值，然后用這個值歸一化這個區(qū)域中的所有單元。這個歸一化過程完成了更好的照射和陰影不變性。HOG特征提取根據(jù)不同目的可以使用矩形窗口與圓形窗口，其中矩形窗口是一些方形的格子，可以提取到全部像素的信息，而圓形窗口存在部分像素不能提取或重復(fù)提取問題，因此本文采用矩形窗口，特征的具體提取過程如下:

1)圖像進(jìn)行灰度化處理，并用標(biāo)準(zhǔn)化到gamma空間。

2)分別用水平邊緣算子[-1,0,1]和垂直邊緣算子[-1,0,1]T,求圖像中像素點(x,y)的梯度。

3)將圖像分割為小細(xì)胞單元格并構(gòu)建每個單元格梯度方向直方圖。

4)把單元格組合成大的區(qū)塊，使用式(1)進(jìn)行塊內(nèi)歸一化梯度直方圖：

(1)

其中：i= 1，2，…，n，n為直方圖的區(qū)間數(shù);ε為小的正常數(shù)。用式(2)對得到的直方圖進(jìn)行截斷；

(2)

5)將所有區(qū)塊的HOG描述符從上到下、從左到右組合在一起，形成特征向量。

6)將所有區(qū)塊的HOG描述符從上到下、從左到右組合在一起，形成特征向量。

HOG是一種比較特殊的特征，不同的配置模型得到不同的特征向量，配置參數(shù)對分類結(jié)果有非常大的影響，文中圖像大小歸一化為(128，128)像素，并將圖像分為16和64塊兩個層次提取特征，每塊得到16維的向量，最終得到的特征維數(shù)為1 280維。

3 深度卷積神經(jīng)網(wǎng)絡(luò)

3.1 卷積神經(jīng)網(wǎng)絡(luò)

目前，卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域的應(yīng)用取得非常好的效果，其將權(quán)值共享、空間下采樣和局部連接結(jié)合起來，一方面降低了網(wǎng)絡(luò)的復(fù)雜性，另一方面保持圖像邊緣和空間信息的檢測能力。典型卷積神經(jīng)網(wǎng)絡(luò)通常由輸入層、卷積層、池化層、全連接層和輸出層組成，卷積和池化層一般交替出現(xiàn)多次。每個卷積層都有多個卷積核對上一層的輸出進(jìn)行卷積運(yùn)算得到對應(yīng)特征圖。模型中低層的卷積從輸入的圖像數(shù)據(jù)中學(xué)習(xí)到水平或垂直的線、顏色等低層特征信息，高層次的卷積核學(xué)習(xí)獲取物體形狀、空間結(jié)構(gòu)等高級特征。

3.2 深度卷積網(wǎng)絡(luò)模型構(gòu)建

當(dāng)前深度學(xué)習(xí)進(jìn)步很快，應(yīng)用范圍逐步擴(kuò)大，其中針對圖像分類有Alexnet、GoogLeNet、VGGNet、ResNet等。然而這些深度模型有些對場景分類效果不好，有些則是網(wǎng)絡(luò)規(guī)模太大不能適用于UAV飛行平臺的應(yīng)用。構(gòu)建深度卷積網(wǎng)絡(luò)模型，提高分類效果通常做法是增加模型的深度或者寬度(層核或神經(jīng)元數(shù))，但是容易產(chǎn)生如下缺陷：一是參數(shù)太多，若訓(xùn)練數(shù)據(jù)集有限，容易過擬合；二是網(wǎng)絡(luò)模型越大計算復(fù)雜度越高，難以應(yīng)用；三是網(wǎng)絡(luò)越深，梯度容易消失，難以訓(xùn)練優(yōu)化模型。本文針對無人機(jī)降落場景分類的復(fù)雜程度參考文獻(xiàn)[16]構(gòu)建如圖4所示的網(wǎng)絡(luò)結(jié)構(gòu)模型。

圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

圖4中的混合層結(jié)構(gòu)如圖5所示。

圖5 混合層結(jié)構(gòu)

3.3 深度卷積網(wǎng)絡(luò)訓(xùn)練

卷積網(wǎng)絡(luò)的訓(xùn)練過程有兩個部分，分別是前向傳播和反向傳播。前向傳播包括數(shù)據(jù)輸入層、卷積層、下采樣層等隱含層逐層變換和映射達(dá)到輸出層；反向傳播是利用帶有標(biāo)簽的數(shù)據(jù)監(jiān)督優(yōu)化訓(xùn)練各層網(wǎng)絡(luò)參數(shù)。訓(xùn)練過程在參考文獻(xiàn)[17]研究的基礎(chǔ)上，本文細(xì)化如下：

1)權(quán)值初始化為一個較小的隨機(jī)數(shù)。

2)從訓(xùn)練圖庫中取出樣例X輸入到網(wǎng)絡(luò)并給出它的目標(biāo)輸出向量。

3)前向傳播計算到輸出，對于不同的層采用不同的計算，包括：卷積層、下采樣層和全連接層。

4)全部訓(xùn)練集上的誤差損失計算。

5)反向傳播計算各層誤差損失，包括全連接層、卷積層和下采樣層。

6)根據(jù)各層誤差損失計算損失函數(shù)對基的偏導(dǎo)數(shù)和對權(quán)向量的偏導(dǎo)數(shù)，即梯度計算。

7)根據(jù)計算得到的梯度分別更新上述各層的權(quán)值和閾值。

8)重復(fù)2)～7)，直到誤差函數(shù)結(jié)果小于設(shè)定的閾值。

考慮到測試數(shù)據(jù)集數(shù)量有限，為增強(qiáng)網(wǎng)絡(luò)的識別能力，網(wǎng)絡(luò)訓(xùn)練分為兩個階段，首先使用ImageNet數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練；再使用測試數(shù)據(jù)集進(jìn)行調(diào)優(yōu)訓(xùn)練得到結(jié)果模型。深度模型訓(xùn)練使用修正線性單元(Rectified Linear unit, ReLu)為激勵函數(shù),丟棄率(DROPOUT)值為0.4。訓(xùn)練輸入圖片采用224×224隨機(jī)采樣與水平翻轉(zhuǎn)，并減去訓(xùn)練集均值。

3.4 深度學(xué)習(xí)特征提取

將測試數(shù)據(jù)輸入訓(xùn)練完成后的網(wǎng)絡(luò)模型提取數(shù)據(jù)的特征，序列化全連接層(圖4中h11層)數(shù)據(jù)，輸出2 048維特征向量。歸一化該特征與HOG特征連接得到最終的特征向量。

4 實驗結(jié)果與分析

4.1 實驗環(huán)境

實驗中使用NVIDIA-K20 GPU在ImageNet數(shù)據(jù)上集訓(xùn)練初始網(wǎng)絡(luò)模型；其他實驗在大疆妙算計算單元Jetson TK1嵌入式系統(tǒng)上進(jìn)行，主機(jī)內(nèi)存為 2.0 GB，Tegra K1 SOC集成處理器包括NVIDIA Kepler GPU、192 個 CUDA 核心、CPU為 4 核的ARM Cortex-A15。操作系統(tǒng)是ubuntu14，網(wǎng)絡(luò)模型采用Caffe框架構(gòu)建,并使用OpenCV與libsvm庫進(jìn)行最后分類識別處理。

4.2 實驗測試數(shù)據(jù)

測試數(shù)據(jù)集的來源由三部分構(gòu)成，約55%通過使用自有無人機(jī)采集,30%左右分通過從互聯(lián)網(wǎng)上搜集一些無人機(jī)飛行的航拍場景圖片，剩下15%來源于Scene-15和Sports-8測試圖像數(shù)據(jù)庫。測試的數(shù)據(jù)包括6類場景，分別是：樹與灌木、水域、道路、泥地(包括沙漠)、草地、雪地(包括冰面)。實驗中將所有圖像尺寸縮放到256×256像素。

由于當(dāng)前降落場景識別沒有公開數(shù)據(jù)庫，為檢驗識別方法的有效性，使用三個公開測試庫來檢驗所提方法的分類識別準(zhǔn)確率，分別如下：

1)Scene-15: 數(shù)據(jù)包括4 485張圖片，涵蓋15個室內(nèi)和室外的場景，每個類型包含200～400張灰度圖片。根據(jù)標(biāo)準(zhǔn)測試方法，每類選取100張作為訓(xùn)練，剩下的作為測試數(shù)據(jù)。

2)Sports-8: 數(shù)據(jù)庫包括1 579張圖片，涵蓋8個運(yùn)動場景，每個運(yùn)動場景有137～250張圖片。根據(jù)標(biāo)準(zhǔn)測試方法，每類抽取70張作為訓(xùn)練圖片，并選取60張作為測試圖片。

3)Indoor-67: 數(shù)據(jù)庫包括15 620張圖片，包含67個室內(nèi)場景，使用參考文獻(xiàn)[14]的分類方法，每類場景包含約80張訓(xùn)練圖片和20張測試圖片。

4.3 結(jié)果分析

文中采用準(zhǔn)確率來評價場景分類方法的性能，準(zhǔn)確率是各類場景召回率的均值，式(3)和式(4)分別是召回率與準(zhǔn)確率的定義。

(3)

(4)

其中K為場景數(shù)。

4.3.1 實驗一

在三個公開數(shù)據(jù)庫上，分別使用本文方法與手工場景圖像特征提取效果較好的幾種方法，如HOG2×2、SIFT、LBP、深層歧視和共享特征學(xué)習(xí)(Deep Discriminative and Shareable Feature Learning, DDSFL)[18]等，以及當(dāng)前圖像分類效果較好的CaffeNet深度網(wǎng)絡(luò)模型進(jìn)行對比(CaffeNet來自Caffe框架提供的模型數(shù)據(jù)進(jìn)行調(diào)優(yōu)訓(xùn)練)，結(jié)果如表1所示,其中:“直接”表示不使用調(diào)優(yōu)訓(xùn)練，直接使用測試集數(shù)據(jù)訓(xùn)練。

通過測試CaffeNet以及本文改進(jìn)的網(wǎng)絡(luò)，從表1可以看出，采用深度卷積神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)手工特征方法的識別準(zhǔn)確率從整體上體現(xiàn)出極大的優(yōu)越性。表1結(jié)果表明CaffeNet和本文網(wǎng)絡(luò)分別連接HOG金字塔特征后分類準(zhǔn)確率都有明顯提高，尤其在Indoor-67測試集。這是因為經(jīng)過特征融合后，低層特征描述得到改善，進(jìn)而提高了分類準(zhǔn)確率。通過以上實驗，從表1中可以看出所提方法在三個公開數(shù)據(jù)庫上與DDSFL、SIFT等手工特征和CaffeNet模型相比較都表現(xiàn)出更好的分類準(zhǔn)確率。其中CaffeNet模型參數(shù)比本文網(wǎng)絡(luò)更多，但是識別效果上與本文網(wǎng)絡(luò)相比還有較大差距，說明深度卷積網(wǎng)絡(luò)結(jié)構(gòu)對網(wǎng)絡(luò)的識別準(zhǔn)確率有較大影響。

表1 公開數(shù)據(jù)庫測試準(zhǔn)確率對比 %

從表1中實驗結(jié)果對比可以得出使用調(diào)優(yōu)訓(xùn)練比直接使用數(shù)據(jù)集數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)識別準(zhǔn)確率有顯著提升，因此訓(xùn)練網(wǎng)絡(luò)時采用兩個階段的方法是非常有效的。

4.3.2 實驗二

自建數(shù)據(jù)庫測試，總共有3 668張，每個類別的張數(shù)在600～650，測試方法是每類選取450張作為訓(xùn)練，剩下968張作為測試數(shù)據(jù)。部分圖樣示例如圖6所示。

在自建圖庫上分別使用LBP、HOG、CaffeNet和本文網(wǎng)絡(luò)并分別結(jié)合HOG特征進(jìn)行分類測試，最終測試的分類結(jié)果如表2所示。實驗結(jié)果與前面公開庫測試的效果基本一致，表明所提采用深度網(wǎng)絡(luò)學(xué)習(xí)特征與HOG金字塔特征相結(jié)合的方法對各類場景分類都有效果，所提方法適應(yīng)性強(qiáng)。

表2 自建庫分類結(jié)果準(zhǔn)確率對比

圖7、8分別是本文網(wǎng)絡(luò)與本文網(wǎng)絡(luò)+HOG特征分類模型對6類場景分類所產(chǎn)生的混淆矩陣。

從圖8混淆矩陣對比可以看出，結(jié)合HOG金字塔特征后，分類效果還是有明顯的提高。圖9抽取了部分水域分類錯誤的場景示例，其中：圖9(a)被歸入為樹叢灌木，圖9(b)圖被識別為泥地，可以看出圖9(a)和圖9(b)中圖像的特征與被錯分場景類別色調(diào)非常接近，說明卷積網(wǎng)絡(luò)低層特征對色彩較為敏感，但局部細(xì)節(jié)特征的提取不足。對比圖7～8混淆矩陣結(jié)果可以看出，水域類別的分類結(jié)果有比較明顯的提升，說明加入HOG特征后，一定程度上彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)低層局部細(xì)節(jié)特征提取不足的缺陷。

圖6 測試庫部分樣例

圖7 本文網(wǎng)絡(luò)模型分類混淆矩陣

圖8 本文網(wǎng)絡(luò)模型+HOG特征分類混淆矩陣

圖9 混淆識別部分示例

4.4 系統(tǒng)運(yùn)行性能

系統(tǒng)識別過程中需要進(jìn)行HOG特征提取和深度自學(xué)習(xí)特征提取并分類，其中深度特征提取需要計算量比較大。系統(tǒng)采用多線程并行處理方法同時進(jìn)行特征提取和識別處理，運(yùn)行方式在本文的硬件環(huán)境下有兩種方式可以選擇，一種是全采用中央處理器(Central Processing Unit, CPU)處理每張測試圖片，耗時1.54 s；另一種是采用CPU與圖形處理器(Graphic Processing Unit, GPU)聯(lián)合的方式每張耗時0.07 s。兩種運(yùn)行方法處理時間的差別主要是在深度自學(xué)習(xí)特征提取上，CPU所花時間約為GPU的20倍。

本文場景分類系統(tǒng)采用 CPU提取HOG特征與GPU獲取深度自學(xué)習(xí)特征的并行工作方式，視頻圖像場景識別實時處理速度約14.3 frame/s，處理速度滿足降落場景識別需求。

5 結(jié)語

針對UAV降落場景識別問題，提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)與HOG提取聯(lián)合特征的方法，并使用SVM分類器進(jìn)行分類識別。使用深度卷積神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)手工特征提取方法在降落場景識別的準(zhǔn)確率上有絕對優(yōu)勢，但在局部特征提取上存在不足而HOG方法可彌補(bǔ)局部細(xì)節(jié)提取不足的缺陷。深度卷積網(wǎng)絡(luò)模型參數(shù)規(guī)模大，擬合能力強(qiáng)，在小樣本訓(xùn)練時容易造成過擬合問題，通過采用大數(shù)據(jù)集預(yù)訓(xùn)練方法可解決該問題。實驗結(jié)果表明，通過聯(lián)合深度學(xué)習(xí)自學(xué)習(xí)特征和手工提取局部特征的方法能有效提高場景特征的描述能力，提高降落場景的識別準(zhǔn)確率。本文中方法的識別準(zhǔn)確率與應(yīng)用要求還有距離，下一步將通過優(yōu)化深度網(wǎng)絡(luò)模型結(jié)構(gòu)和測試數(shù)據(jù)樣本獲取更好的場景自學(xué)習(xí)特征，并結(jié)合低層局部特征或BOVW模型特征來補(bǔ)充深度自學(xué)習(xí)局部特征的不足，進(jìn)一步提高系統(tǒng)降落場景識別準(zhǔn)確率。

References)

[1] FU Y, ZHANG Y M, YU X. An advanced sense and collision avoidance strategy for unmanned aerial vehicles in landing phase [J].IEEE Aerospace and Electronic Systems Magazine, 2016, 31(9): 40-52.

[2] 鄭攀.小型無人機(jī)在公共安全領(lǐng)域的應(yīng)用前景展望[J].警察技術(shù),2013(4):53-55.(ZHENG P. Application prospect of small UAV in public security [J]. Police Technology, 2013, 4(1): 53-55.)

[3] 李世秋.無人自轉(zhuǎn)旋翼機(jī)現(xiàn)狀及在軍事領(lǐng)域的應(yīng)用研究[J].飛航導(dǎo)彈,2014(1):49-53.(LI S Q. The situation of unmanned rotorcraft and its application in military field [J]. Aerodynamic Missile Journal, 2014(1): 49-53.)

[4] LOWE D G. Distinctive image features from scale-invariant key points [J]. International Journal of Computer Vision,2004, 60(2): 91-110.

[5] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2005: 886-893.

[6] OJALA T, PIETIKAINEN M, MAENPA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

[7] OLIVA A, TORRALBA A. Building the gist of a scene: the role of global image features in recognition [J]. Progress in Brain Research, 2006, 155(2): 23-36.

[8] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// CVPR’06: Proceedings of the 2006 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2006: 2169-2178.

[9] LI T, MEI T, KWEON I S, et al. Contextual bag-of-words for visual categorization [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(4): 381-392.

[10] FERNANDO B, FROMONT E, MUSELET D, et al. Supervised learning of Gaussian mixture models for visual vocabulary generation [J]. Pattern Recognition, 2012, 45(2): 897-907.

[11] 顧廣華,韓晰瑛,陳春霞,等.圖像場景語義分類研究進(jìn)展綜述[J].系統(tǒng)工程與電子技術(shù),2016,38(4):936-948.(GU G H, HAN X Y, CHEN C X, et al. Survey on semantic scene classification research [J]. Systems Engineering and Electronics, 2016, 38(4): 936-948.)

[12] 趙理君,唐娉,霍連志,等.圖像場景分類中視覺詞包模型方法綜述[J].中國圖象圖形學(xué)報,2014,19(3):333-343.(ZHAO L J, TANG P, HUO L Z, et al. Review of the bag-of-visual-words models in image scene classification [J]. Journal of Image and Graphics, 2014, 19(3): 333-343.)

[13] KOSKELA M, LAAKSONEN J. Convolutional network features for scene recognition [C]// MM’14: Proceedings of the 2014 ACM International Conference on Multimedia. New York: ACM, 2014: 1169-1172.

[14] ZHOU B, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database [C]// NIPS’14: Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 487-495.

[15] AZIZPOUR H, RAZAVIAN A S,SULLIVAN J, et al. From generic to specific deep representation for visual recognition [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2014: 36-45.

[16] CIRESAN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification [C]// Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2011: 1237-1242.

[17] 徐珊珊.卷積神經(jīng)網(wǎng)絡(luò)研究與應(yīng)用[D].南京:南京林業(yè)大學(xué),2013:20-22.(XU S S. Research and application of convolution neural network [D]. Nanjing: Nanjing Forestry University, 2013: 20-22.)

[18] ZUO Z, WANG G, SHUAI B, et al. Exemplar based deep discriminative and shareable feature learning for scene image classification [J]. Pattern Recognition, 2015, 48(10): 3004-3015.

[19] WU J X, REHG J M. CENTRIST: a visual descriptor for scene categorization [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1489-1501.

[20] XIAO J X, HAYS J, EHINGER K A, et al. SUN database: large-scale scene recognition from abbey to zoo [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2010: 3485-3492.

This work is partially supported by the National Natural Science Foundation of China (61601200).

YELihua, born in 1978, Ph. D. candidate, lecturer. His research interests include computer vision, graph and image processing.

WANGLei, born in 1961, Ph. D., professor. His research interests include intelligent control, navigation and guidance.

ZHAOLiping, born in 1984, Ph. D. candidate. Her research interests include video coding algorithm.

Fieldscenerecognitionmethodforlow-small-slowunmannedaerialvehiclelanding

YE Lihua1,2*, WANG Lei1, ZHAO Liping1,3

(1.CollegeofElectronicsandInformationEngineering,TongjiUniversity,Shanghai201804,China;2.CollegeofMathematicsPhysicsandInformationEngineering,JiaxingUniversity,JiaxingZhejiang314000,China;3.InstituteofVeryLargeScaleIntegration,TongjiUniversity,Shanghai200092,China)

For the complex and autonomous landing scene is difficult to be recognized in wild flight environment for low-small-slow Unmanned Aerial Vehicles (UAV), a novel field scene recognition algorithm based on the combination of local pyramid feature and Convolutional Neural Network (CNN) learning feature was proposed. Firstly, the scene was divided into small scenes of 4×4 and 8×8 blocks. The Histogram of Oriented Gradient (HOG) algorithm was used to extract the scene features of all the blocks. All the features were connected end to end to get the feature vector with the characteristics of spatial pyramid. Secondly, a depth CNN aiming at the classification of scenes was designed. The method of tuning training was adopted to obtain CNN model and extract the characteristics of deep network learning. Finally, the two features were connected to get the final scene feature and the Support Vector Machine (SVM) classifier was used for classification. Compared with other traditional manual feature methods, the proposed algorithm can improve the recognition accuracy by more than 4 percentage points in data sets such as Sports-8, Scene-15, Indoor-67 and a self-built one. The experimental results show that the proposed algorithm can effectively improve the recognition accuracy of the landing scene.

Convolutional Neural Network (CNN); feature extraction; Unmanned Aerial Vehicle (UAV); scene classification; pyramid model

TP391.413; TP18

2016- 12- 09;

:2017- 02- 27。

國家自然科學(xué)基金資助項目(61601200)。

葉利華(1978—)，男，浙江衢州人，講師，博士研究生，主要研究方向：計算機(jī)視覺、圖形圖像處理；王磊(1961—)，男，陜西西安人，教授，博士，主要研究方向：智能控制、導(dǎo)航與制導(dǎo)；趙利平(1984—)，女，湖南衡陽人，博士研究生，CCF會員，主要研究方向：視頻編碼算法。

1001- 9081(2017)07- 2008- 06

10.11772/j.issn.1001- 9081.2017.07.2008