基于Gist特征與CNN的場景分類方法

2016-12-21 02:04:24梁雪琦

電視技術 2016年11期

關鍵詞：分類特征實驗

梁雪琦

(太原理工大學信息工程學院，山西晉中 030600)

基于Gist特征與CNN的場景分類方法

梁雪琦

(太原理工大學信息工程學院，山西晉中 030600)

針對大多數場景分類方法只能學習淺層特征，忽略圖像之間的相關結構信息，提出一種基于Gist特征與卷積神經網絡結合的場景圖像分類方法。其中Gist特征用于提取場景圖像的全局特征，并將其作為深度學習模型的輸入，通過逐層訓練卷積神經網絡，提取更高層次的特征，并用訓練好的卷積神經網絡進行分類。實驗在O&T室外場景圖像數據集和MNIST手寫體數據集上考察了batchsize、卷積核對分類結果的影響，并與DBN，NN，SVM和CART作為分類器的分類結果進行比較，充分說明了本文方法的有效性。

Gist特征；特征提取；卷積神經網絡；場景分類

場景分類在計算機視覺領域有廣泛的應用，2006年召開的首次場景理解研討會上明確提出“場景分類是圖像理解的一個新的有前途的研究方向”[1]。Ulrich和Nourbakhsh[2]利用顏色直方圖進行場景分類。Shen[3]等人采用多種特征融合的方法表征圖像特征進行場景分類。Lazebnik[4]等人提出金字塔匹配模型(Spatial Pyramid Matching, SPM)，利用視覺詞匯的空間布局信息實現場景的有效分類。楊昭[5]在Gist特征中引入空間信息和RGB顏色信息，并基于詞匯包(BOW)模型設計了一種高效匹配核來度量局部特征間的相似性，核化特征匹配過程。以上算法均為利用各種特征提取方法解決場景分類問題，但特征提取過程有過多主動因素介入，有很大的盲目性。

深度學習是近年發展起來的多層神經網絡學習算法，可通過學習一種深層非線性網絡結構，實現復雜函數逼近[6-7]。其中，卷積神經網絡(Convolutional Neural Network, CNN)[8-11]是一個典型的深度學習模型。它是一個深層的神經網絡，采用上一層的輸出是這一層的輸入的逐層學習的貪婪模型，使其能夠學習更高級、更有效的特征。CNN已成功應用于語音識別、手寫字符識別等領域。但是，CNN對輸入數據是局部敏感的，以像素級的特征作為CNN的輸入，提取不到圖像的全局信息。Gist特征提取算法[12]是Oliva和Torralba等提出的一種有效的全局特征描述子，提取圖像的自然度、開放度、粗糙度、膨脹度和險峻度描述描述圖像的全局特征。以Gist特征作為CNN的輸入，可有效避免深度學習中遇到的難題。二者相結合，能為場景分類提供一種新的思路。

本文通過Gist特征提取場景圖像的全局特征，用CNN進一步學習更深層次的特征，并在CNN最高層進行場景分類。全局特征反映了圖像的空間布局，過濾了很多不必要的信息，比原始圖像像素具有更強表達能力。同時，通過CNN的逐層貪婪學習，并在最高層實現特征識別，提高了場景圖像的學習性能。在O&T室外場景圖像數據集上的實驗表明，本文提出的算法與DBN、NN、SVM、CART相比，具有更強的判別性，能夠更有效地表征室外場景圖像的特征，并得到較高的分辨率。

1 相關理論

1.1 Gist特征[12-13]

Oliva等提出的Gist特征是一種生物啟發式特征，該特征模擬人的視覺，形成對外部世界的一種空間表示，捕獲圖像中的上下文信息。Gist特征通過多尺度多方向Gabor濾波器組對場景圖像進行濾波，將濾波后的圖像劃分為4×4的網格，然后各個網格采用離散傅里葉變換和窗口傅里葉變換提取圖像的全局特征信息。Gabor濾波器組的表達式為

exp[2πj(u0xrθi+v0yrθi)]

(1)

其中

(2)

式中：l為濾波器的尺度；K為正常數；σ為高斯函數的標準差；θi=π(i-1)/θl，i=1,2,…,θl，θl為l尺度下的方向總數。濾波后的圖像為

(3)

1.2 卷積神經網絡

卷積神經網絡是當前語音分析和圖像識別領域的研究熱點，它融合了3種結構性的方法來實現平移、縮放和扭曲不變形，即局部感受眼、權值共享和空間域或時間域上的采樣。CNN是一種多層神經網絡，由多個卷積層和子采樣層交替組成，每一層由多個特征圖組成，每個特征圖由多個神經單元組成，同一個特征圖的所有神經單元共用一個卷積核(即權重)，卷積核代表一個特征。

1.2.1 卷積層

卷積層[14]有如下幾個參數：特征圖的個數N，特征圖的大小(Nx,Ny)，卷積核(kx,ky)和步長(Sx,Sy)。一個大小為(kx,ky)的卷積核必須在輸入圖像的有效區域內移動，即卷積核必須在輸入圖像內。步長Sx和Sy定義了卷積時卷積核在x軸和y軸跳多少的像素。輸出特征圖大小的定義為

(4)

式中：參數n表示層數。在Ln層的每個特征圖最多可連接在Ln-1層的Nn-1個特征圖。

1.2.2 采樣層

采樣層是對上一層的卷積層進行采樣工作，實現局部平均和子抽樣，使特征映射的輸出對平移等變換的敏感度下降[15]。采樣層并不改變特征圖的個數，但輸出的特征圖會變小。對卷積層進行采樣有很多方式，包括均值采樣、隨機采樣、最大值采樣、重疊采樣、均方采樣、歸一化采樣等。均值采樣是對上一層特征圖的相鄰小區域進行聚合統計，區域大小為scale×scale，并取均值。隨機采樣是對特征圖中的元素按照其概率的大小進行選擇，即元素值大的被選中的概率也大。

2 基于Gist特征與卷積神經網絡的圖像分類方法

本文提出一種基于Gist特征與卷積神經網絡的場景圖像分類方法。該方法不是將原始圖像的像素作為卷積神經網絡的輸入，而是采用圖像的Gist特征作為它的輸入。

本文所用圖像大小為256×256，若圖像的像素直接作為CNN的輸入，其維數就是圖像的大小，即256×256。而CNN的輸入采用Gist特征時，用Oliva模型提取Gist特征，每幅圖像的Gist特征維數為512×1，重新調整它的行數、列數，即將512×1維轉化為16×32維。比起前一種方法，第二種使得CNN的輸入維數大大縮小，減少了可訓練參數，從而減小了網絡復雜度，節省了計算時間。

本文構建的卷積神經網絡基本結構如圖1所示。它由一層輸入層、兩層卷積層、兩層采樣層和一層輸出層組成。網絡中C層為卷積層，卷積層的特征圖都由不同的卷積核與前一層的特征圖卷積得到。S層為采樣層，它對卷積層的特征圖進行子采樣，本實驗選擇的采樣方式是均值采樣，輸出是指最終的分類結果，輸出層與輸出層前一層之間全連接。

圖1 基于Gist特征與卷積神經網絡結合的模型

本文提出的方法步驟(偽代碼)如下：

方法：基于Gist特征與卷積神經網絡結合的場景圖像分類方法

輸入：圖像數據集

輸出：分類誤差

Step1:用Oliva模型提取Gist特征；

Step2:每類抽取150幅圖像的Gist特征作為訓練數據，其余用于測試；

Step3:處理Gist特征，將數據歸一化，并調整Gist特征的行數、列數；

Step4:參數初始化，包括CNN結構、學習率、batchsize和迭代次數；

Step5:CNN網絡初始化，即對卷積核和權重進行隨機初始化，而對偏置進行全0初始化；

Step6:CNN網絡訓練

fori=1:迭代次數

forj=1:numbatches

隨機抽取batchsize個訓練數據，前向傳輸計算在當前網絡權值和輸入下網絡的輸出；

反向傳輸調整權值；

更新權值；

endfor

Step7:CNN網絡測試，用測試樣本和訓練好的CNN網絡進行測試；

Step8:輸出誤差。

3 實驗分析

為了驗證本文方法的有效性，選用O&T室外場景數據集進行實驗。關于CNN的結構選取目前尚未有完善的理論依據，本實驗用上述模型在Oliva&Torralba(O&T)室外場景圖像數據集和MNIST手寫體數據集上的結果討論了CNN的結構(batchsize、卷積核)對分類結果的影響，找到各個參數影響分類結果的內在原因。并通過本文結果與DBN，NN，SVM，CART作為分類器在O&T場景圖像集上的分類結果進行比較，來驗證本文方法的有效性。

3.1 數據集

本實驗選用兩個數據集，即MIT的Oliva&Torralba(O&T)室外場景圖像數據集和MNIST手寫體數據集。

Oliva&Torralba(O&T)室外場景圖像數據集用于驗證基于Gist特征與卷積神經網絡的場景圖像分類方法的有效性。該數據集包含海濱、森林、高速公路、城市、高山、鄉村、街道和高樓8個類別，每幅大小為256×256，共2 688幅。數據集如圖2所示。MNIST手寫體數據集用于在進行參數討論時的對比實驗。本實驗直接用CNN對MNIST手寫體數據集進行分類。數據集包含0～9的10個類別，每個樣本被規范化，將數字置于圖像中心，并下采樣成28×28的灰度圖像，共70 000個樣本。

圖2 Oliva&Torralba(O&T)室外場景圖像數據集

3.2 場景分類及相關參數討論

在進行實驗時，卷積神經網絡選取的卷積核(kx,ky)和步長Sx，Sy在x軸與y軸的數值一樣，故用kn表示第n層的卷積核，Sn表示第n層的步長。本實驗中，設步長為固定值1。

3.2.1 batchsize的影響

對于O&T室外場景圖像數據集，每類隨機抽取150張圖像用于訓練，其余用于測試。MNIST手寫體數據集包含60 000個訓練樣本和10 000個測試樣本。保持其他參數不變，改變batchsize，結果如表1、表2所示。

從表中可以看出，對于同一個數據集，隨著batchsize的減小，誤差也在減小。程序中，每次挑出batchsize個樣本進行訓練，即每次用batchsize個訓練樣本一起計算梯度，更新模型參數。本實驗數據集數量沒有那么大，如果選取較大的batchsize，很容易收斂到不好的局部最優點，而減小batchsize的數值，引入更多的隨機性，會跳出局部最優。

3.2.2 卷積核參數的影響

卷積核是連接兩層神經元互聯的重要工具，其大小決定提取局部特征的大小，設置適當的卷積核，對于提高CNN的性能至關重要。

在此實驗中，對于O&T室外場景圖像數據集，其實驗結果如表3所示。其中，誤差1和誤差2是指C1、C2層特征圖個數分別為7、14，8、16時實驗的分類誤差。

表1 batchsize對O&T室外場景圖像數據集的影響

表2 batchsize對MNIST手寫字數據集的影響

表3 O&T室外場景圖像數據集上卷積核參數的影響

對于MNIST手寫體數據集，調整卷積核參數，其實驗結果如表4所示。其中，誤差3、誤差4和誤差5是指C1、C2層特征圖個數分別為6、12，7、14和8、16時實驗的分類誤差。

從表3和表4可以看出，對于同一個數據集，C1層的特征圖個數和C2層的特征圖個數變化時，誤差最小時對應的C1層的卷積核大小不變。對于不同的數據集，誤差最小時對應的C1層和C2層的卷積核大小雖然不一樣，但C1層的卷積核大小應選擇最大值，C2層應選擇與C1一樣大或大小相鄰的卷積核。

表4 MNIST手寫體數據集上卷積核參數的影響

根據卷積神經網絡通過局部感受眼提取網絡內部各層特征的特點，卷積核越大，網絡可表示的特征空間越大，學習能力越強。卷積核在一定程度上越大越好，但如果太大，提取的特征的復雜度遠遠超過卷積核的表示能力，而訓練數據沒有增加，容易出現過擬合現象，故應適當選擇。

3.3 與其他方法比較

為探討本文算法的有效性，本實驗還與其他分類器進行了比較。CNN，DBN，NN，SVM，CART的輸入均為O&T室外場景圖像數據集的灰度圖像。其中，CNN與本文方法參數一致、DBN隱含層節點為100-100-100，NN的節點為512-100-8。SVM采用常用的LIBSVM，其核函數采用徑向基函數(RadialBasisFunction,RBF)，CART算法選擇10折交叉實驗。

對比實驗結果如表5所示。實驗結果表明，本文算法識別率最高，說明本文算法具有較好的識別能力。基于Gist特征的CNN分類精度高于輸入為像素級的分類精度。將Gist特征作為網絡的輸入，有助于過濾不必要的信息，學習到圖像的局部特征更有利于圖像的識別。

表5 分類性能比較

4 小結

本文在對CNN深入研究的基礎上，提出了一種基于Gist特征與卷積神經網絡的場景圖像分類方法，在O&T室外場景圖像數據集上的實驗表明，本文方法能夠很好地對場景圖像進行分類。引入深度學習結構，一定程度上克服了傳統淺層結構算法的局部最優。將Gist特征與CNN相結合，使得在逐層提取特征之前，提前過濾了一部分不必要的特征，減小了網絡復雜度，節省了計算時間。實驗深入研究了batchsize與卷積核對分類結果的影響，并在不同的數據集上得到了一致的結果。實驗還與其他分類方法進行了比較，結果證明本文方法正確率較高。本實驗在最經典的Oliva模型上進行實驗，在其他的模型上是否也有同樣的效果，是繼續研究的方向。

[1]金泰松, 李玲玲, 李翠華. 基于全局優化策略的場景分類算法[J]. 模式識別與人工智能, 2013, 26(5): 440-446.

[2]ULRICHI,NOURBAKHSHI.Appearance-basedplacerecognitionfortopologicallocalization[C]//Proc.IEEEInternationalConferenceonRoboticsandAutomation, 2000. [S．l．]:IEEE, 2000: 1023-1029.

[3]SHENJ,SHEPHERDJ,NGUAHH.Semantic-sensitiveclassificationforlargeimagelibraries[C]//Proc.Proceedingsofthe11thInternationalMultimediaModellingConference, 2005. [S.l.]:IEEE, 2005: 340-345.

[4]GRAUMANK,DARRELLT.Thepyramidmatchkernel:Discriminativeclassificationwithsetsofimagefeatures[C]//Proc.TenthIEEEInternationalConferenceonComputerVision, 2005. [S.l.]:IEEE, 2005: 1458-1465.

[5]楊昭,高雋,謝昭,等. 局部Gist特征匹配核的場景分類[J]. 中國圖象圖形學報, 2013, 18(3): 264-270.

[6]孫志軍,薛磊,許陽明，等. 深度學習研究綜述[J]. 計算機應用研究, 2012, 29(8): 2806-2810.

[7]BENGIOY,DELALLEAUO.Ontheexpressivepowerofdeeparchitectures[C] //Proc.AlgorithmicLearningTheory.BerlinHeidelberg：Springer, 2011: 18-36.

[8]ZHENGZ,LIZ,NAGARA,etal.Compactdeepneuralnetworksfordevicebasedimageclassification[C]//Proc. 2015IEEEInternationalConferenceonMultimedia&ExpoWorkshops.Turin,Italy:IEEE, 2015: 1-6.

[9]HEK,ZHANGX,RENS,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2015,37(9): 1904-1916.

[10]DONGZ,WUY,PEIM,etal.Vehicletypeclassificationusingasemisupervisedconvolutionalneuralnetwork[J].IEEEtransactionsonintelligenttransportationsystems, 2015(29): 2247-2256.

[11]SANTANAE,DOCKENDORFK,PRINCIPEJC.LearningjointfeaturesforcoloranddepthimageswithConvolutionalNeuralNetworksforobjectclassification[C]//Proc. 2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing, 2015. [S.l.]:IEEE, 2015: 1320-1323.

[12]OLIVAA,TORRALBAA.Modelingtheshapeofthescene:aholisticrepresentationofthespatialenvelope[J].Internationaljournalofcomputervision, 2001, 42(3): 145-175.

[13]陳三風, 梁永生, 柳偉, 等. 基于全局特征信息的快速場景識別與分類研究[J]. 微計算機信息, 2010, 26(25): 41-42.

[14]CIRESAND,MEIERU,MASCIJ,etal.Acommitteeofneuralnetworksfortrafficsignclassification[C]//The2011InternationalJointConferenceonNeuralNetworks, 2011. [S.l.]:IEEE, 2011: 1918-1921.

[15]劉建偉,劉媛,羅雄麟. 深度學習研究進展[J]. 計算機應用研究, 2014, 31(7): 1921-1930.

Method of scene image classification based on Gist descriptor and CNN

LIANG Xueqi

(CollegeofInformationEngineering,TaiyuanUniversityofTechnology,ShanxiJinzhong030600,China)

Most of the scene classification methods have a problem which ignoring the structural information related between images leads to they only can learn shallow representations for scene recognition. A method of scene image classification based on Gist descriptor and Convolutional Neural Network(CNN) is proposed. Firstly, Gist descriptor, for global scene image feature extraction, is used as the input of deep learning net. Secondly, convolutional neural network is trained by layer-by-layer to extract a higher level of features. Then, the trained convolutional neural network is used as a classification. Finally, experiments on Oliva&Torralba(O&T) outdoor scene image data set and MNIST handwritten data set investigates the influence to classification accuracy with batchsize and kernelsize, and the comparison with the classification results of the classifiers, Deep Belief Network(DBN), Neural Network (NN), Support Vector Machine(SVM) and Classification And Regression Tree(CART) on the O&T scene image sets indicates the effectiveness of the method are put forward.

Gist descriptor; feature extraction; convolutional neural network; scene classification

梁雪琦.基于Gist特征與CNN的場景分類方法[J]. 電視技術，2016,40(11)：7-11. LIANG X Q. Method of scene image classification based on Gist descriptor and CNN[J]. Video engineering，2016,40(11)：7-11.

TP18

10.16280/j.videoe.2016.11.002

國家自然科學基金項目(61450011)；山西省自然科學基金項目(2014011018-2)；山西省回國留學人員科研資助項目(2013-033；2015-45)

2016-04-06

梁雪琦(1990— )，女，碩士生，主研深度學習、人工智能、大數據等。

責任編輯：薛京