基于改進的Cifar-10深度學習模型的金錢豹個體識別研究

2018-07-23 05:30:12趙婷婷周哲峰李東喜

太原理工大學學報 2018年4期

趙婷婷，周哲峰，李東喜，劉松，李明

(1.太原理工大學 a.數學學院，b.大數據學院，太原 030024；2.山西沃成生態環境研究所，太原 030012；3.中國科學院大學網絡空間安全學院，北京 100049；4.中國科學院信息工程研究所物聯網信息安全技術北京市重點實驗室，北京 100093)

金錢豹是世界上分布最廣的野生貓科動物之一。長期的過度獵捕、棲息地的破壞、種群過小且相互隔離等因素導致了金錢豹在亞洲的種群數量顯著減少。歷史上，除干旱戈壁沙漠和海拔大于4 000 m的西部山區外，豹的分布遍及中國。金錢豹在我國有3個亞種，長江以南的為華南豹，長江以北的為華北豹，分布在吉林和黑龍江的為東北豹[1]。近年的調查研究結果表明，金錢豹在中國急劇減少。現存金錢豹種群小且分散，主要存在于相互獨立的自然保護區中，使得它們面臨著較高的局部地區滅絕的風險。金錢豹的保護工作引起了國家和社會越來越多的重視，并開展了大量的研究。金錢豹的個體識別，為分析國內金錢豹的資源現狀和保護提供了科學依據。

目前，主要使用紅外相機技術對金錢豹個體進行調查與檢測研究。山西沃成生態環境研究所通過在自然保護區中布設大量的紅外觸發相機，對金錢豹進行長時間連續的監測調查，獲得了大量金錢豹相關影像數據。通過處理金錢豹相關影像數據，根據影像數據中金錢豹自身的可識別特征——局部花紋來區分個體，從而估算調查區域內金錢豹的種群數量。

當前主要是通過人工目視比對圖片中金錢豹花紋的差異性來區分金錢豹個體。隨著金錢豹影像數據的增多，人工目視比對方法效率會降低。但在圖片識別領域，深度學習方法對于區分圖片差異有著顯著的優勢?；诖?，本文將以提升金錢豹個體識別的準確率為目標，研究基于深度學習的具有普適性的金錢豹個體識別方法。

1 研究現狀

金錢豹個體識別指根據金錢豹個體之間的差異區分金錢豹個體。金錢豹個體識別是對金錢豹進行有效保護的基礎。隨著金錢豹的種群數量顯著減少，對金錢豹個體識別的研究也逐漸增多起來。

對金錢豹的個體識別，可以借鑒各類虎豹的個體識別方法。已有部分研究主要關注于通過虎豹的生物特征差異進行識別。2000年，MILLS et al[2]通過從稀有或難以捕獲的物種的糞便和毛發中提取DNA進行個體識別。2007年，KERLEY et al[3]使用專門訓練的犬通過糞便的氣味進行東北虎的個體識別。2010年，RIORDAN[4]通過提取虎和雪豹的腳印形狀進行個體識別。DNA分析法可以識別到準確的個體，但是花費較高，并且在野外采集毛發、糞便樣本也較為困難。通過腳印形狀進行個體識別花費較少，并且腳印采集較為簡單，但是只能在冬季進行，不利于全年的持續監測。利用犬糞便氣味進行個體識別則需要對犬進行專門的訓練，并且在金錢豹所在的自然保護區也比較難遇到金錢豹糞便，不適于長時間對金錢豹進行監測。

近年來紅外照相技術在物種監測中被廣泛應用，通過紅外觸發相機可以獲得大量的金錢豹的形體特征[5-7]。通過金錢豹的形體特征進行個體識別成為流行。在金錢豹的形體特征中，金錢豹體側花紋更為明顯。2006年，STEPHENS et al[8]提出虎豹的體側中部、后肢外側等部位條紋與斑點具有很大的個體差異性，非常適合進行個體識別。HIBY利用動物個體體側花紋來進行個體識別，從而精確得出檢測到的虎豹個體數量[9]。在當前的通過體側花紋識別金錢豹的方法中，主要是通過人工目視比對進行個體識別。人工目視比對對于少量金錢豹體側花紋圖片識別準確度較高，而隨著紅外相機拍攝到的金錢豹的圖片數量增多，則需要更多的人力來進行識別標定。

在圖片識別領域，深度學習取得的成績非常顯著。在人臉識別測試集LFW中，經典的人臉識別算法EIGENFACE[10]僅能達到60%的識別率，非深度學習識別算法的最優識別率為96.33%[11]，而深度學習可以達到99.47%的高識別率[12]。

本文首次將深度學習方法應用到金錢豹花紋特征識別研究中，試圖得到一種金錢豹個體識別的普適方法。

2 深度卷積神經網絡

卷積神經網絡是一種特殊的前饋神經網絡，是受生物學上感受野的機制而提出的，已成為當前語音分析和圖像識別領域的研究熱點。卷積神經網絡通過使用卷積層代替部分全連接層以及添加子采樣層，獲得了3種結構上的特性：局部連接，權重共享以及空間或時間上的次采樣。這些特性使得卷積神經網絡具有一定程度上的平移、縮放和扭曲不變性[13]。

深度神經網絡可以從原始輸入數據中自動發現需要檢測的特征，進行特征學習。通過堆疊多個隱藏層，深度神經網絡能夠逐層學習到更加抽象復雜的特征，其中每一層學習到的特征表達都是前一層學習到的簡單特征表達的組合。比如對于圖像分類任務，圖像往往以像素矩陣的形式作為原始輸入，第一層可以通過比較相鄰像素之間的亮度識別邊緣。給定第一個隱藏層對邊緣的描述，第二個隱藏層可以檢測角和輪廓，這些角和輪廓可以被看作是邊緣的集合。給定第二個隱藏層對角和輪廓的描述，第三個隱藏層可以通過查找角和輪廓的特定集合來檢測特定對象的整個部分。以此類推，之后的每一個隱藏層都是對前一個隱藏層檢測到的特征組合的描述。最后，所得到的描述可以用于識別圖像中存在的對象。對于深度學習而言，這些特征和隱藏層并不需要通過人工設計，它們都可以通過通用的學習過程得到。

對于金錢豹花紋而言，可能會由于光線、拍攝角度以及金錢豹的行動等因素造成花紋亮度及其形狀的變化，但是花紋間的結構是不變的。深度卷積神經網絡可以自主進行特征學習，檢測出花紋結構，且對多種變形具有不變性。本文首次使用深度卷積神經網絡來實現金錢豹的個體識別。結果表明，該方法具有很好的預測準確性。

2.1 卷積

卷積神經網絡得名于使用卷積層代替部分全連接層，即在部分隱藏層使用卷積運算代替矩陣相乘。應用于圖像識別領域，指輸出圖像中的每個像素都是由輸入圖像對應位置的小區域的像素通過加權平均得到的，相應的權值矩陣就稱作卷積核。卷積的結果經激活函數后輸出該層的特征圖。卷積層可以看作是對輸入圖像進行“抽象”的操作，經過幾次處理之后，能夠提取出圖像的“特征值”。一般地，卷積層的計算形式為：

(1)

2.2 ReLU激活函數

在神經網絡中，激活函數的作用是通過加入非線性因素，從而解決線性模型不能解決的問題。

ReLU激活函數(The Rectified Linear Unit)是目前使用最多的激活函數，其表達式為：f(x)=max(0,x)，函數關系圖如圖1所示。

圖1 ReLU激活函數Fig.1 Plot of the ReLU activation function

相比傳統的Sigmoid和tanh函數，ReLU激活函數的有效性體現在2個方面：a) 減輕梯度消失的問題；b) 加快訓練速度。KRIZHEVSKY et al[14]指出，使用ReLU激活函數的深度卷積神經網絡訓練速度比同樣情況下使用tanh函數的訓練速度快幾倍。

2.3 池化

卷積神經網絡中的池化層歸納了同一個核特征圖中相鄰神經元組的輸出，對輸入的特征圖進行壓縮，一方面使特征圖變小，簡化網絡計算復雜度；一方面進行特征壓縮，提取主要特征。常見的池化操作為平均池化(Ave)和最大池化(Max).通常，由鄰接池化單元歸納的鄰域并不重疊。確切地說，一個池化層可以被看作是包含了每間隔stride個像素的池化單元的柵格組成，每一個都歸納了以池化單元為中心大小為sizeX×sizeX的鄰域，這里stride即為步長，sizeX指定池化層核的大小。如果令stride=sizeX，將會得到非重疊池化。若令stride

本文模型使用了3個池化層，共有8種池化方式的組合，最終通過實驗選取相對于實驗數據最合適的池化組合。

3 基于Cifar-10卷積神經網絡的改進模型

Cifar-10是由KRIZHEVSKY和SUTSKEVER收集的一個用于普適物體識別的數據集。Cifar-10由60 000張像素的RGB彩色圖片構成，共10個分類。其中50 000張用于訓練，10 000張用于測試。Cifar-10快速簡易模型是基于該數據集推出的一個深度卷積神經網絡結構，理論上這個網絡容量可以把驗證集錯誤率降到25%左右。

3.1 整體結構

本文模型參考了Cifar-10快速簡易模型。結構方面，該模型包含5個學習層(3個卷積層和2個全連接層)。每一個卷積層后面都添加了池化層，其中，第一個卷積層之后采用最大池化，第二、三個卷積層之后采用平均池化。激活函數均使用ReLU函數，除最后一個全連接層使用了Softmax函數。參數方面，該模型初始化每一層的權重，服從均值為0，標準差分別為0.000 1，0.01，0.01，0.1，0.1的高斯分布。初始化第二個卷積層以及第一個全連接隱層的偏置項為常數1.這種初始化通過向 ReLUs提供正的輸入來加速學習的早期階段。初始化其余層的神經元偏置項為常數0.對于每一個卷積層的輸入，對其向外擴充兩個像素點，以使得卷積運算之后的特征圖大小不變。對于每一個卷積層，為防止損失太多信息，步長設置為1，卷積核的大小設置為5×5.對于每一個池化層，設置步長為2，核的大小為3×3.在輸入層，模型通過對原始數據減去像素均值以提高精度。

3.2 引入Dropout防止過擬合

對于深度神經網絡而言，需要學習的參數較多，容易出現過擬合現象。本文使用的金錢豹數據相對于模型需要學習的參數來說較少，很容易發生過擬合。因此，本文選取一種非常有效的方法——“Dropout”防止訓練得到的模型過擬合。

“Dropout”的思想是在每一輪訓練過程中，將每一個隱藏神經元以固定的概率p“丟棄”。這些以這種方式被“丟棄”的神經元的輸出被設置為0，它們既不會參加前向傳遞，也不會參與反向傳播。而那些以概率(1-p)被保留下來的神經元構成了一個新的“瘦”的神經網絡。這樣對于每一次輸入，神經網絡都會學習到一個不同的結構。因此，使用“Dropout”之后，可以將一個大網絡看做是多個小網絡的組合。最后通過對多個模型的輸出取平均來得到最終結果。這種方式相當于綜合考慮多種不同模型的預測結果，可以有效降低測試誤差，提高預測的準確度，而且能夠有效地防止過擬合，顯著降低泛化誤差。需要指出的是，如果神經元在訓練期間以概率(1-p)保留，那么該神經元的輸出權重在測試期間要乘以(1-p).這確保了對于任何隱藏神經元的輸出的期望(在已知訓練期間被“丟棄”的神經元的分布下)與測試時的實際輸出相同[15]。本文模型在第一個全連接層使用了“Dropout”，Nitish Srivastava等指出，使用“Dropout”時，在簡單情形下，使用驗證集選擇p值或直接設置p=0.5，可使通用網絡模型近似最優[15]。本文設置p=0.5，即每一個神經元有50%的概率被“丟棄”。

圖2 標準神經網絡(左)與應用“Dropout”之后的神經網絡(右)Fig.2 A standard neural net with 2 hidden layers (Left) and an example of a thinned net produced by applying dropout to the network (Right)

3.3 池化方式組合優化

Cifar-10 快速簡易模型的3個池化層分別為Max-Ave-Ave.為了更好地擬合實驗數據，本文對池化層的組合方式進行了調整，最優組合方式通過實驗確定。

3.4 改進模型整體結構

最終改進模型結構如圖3，圖4所示。

圖3 金錢豹左側中部數據最優模型整體結構Fig.3 Overall structure of the optimal model about leopard left middle data

圖4 金錢豹右側中部數據最優模型整體結構Fig.4 Overall structure of the optimal model about leopard right middle data

本文模型改進主要是加倍了神經元的個數以學習到更多的特征結構，添加了“Dropout”層來防止模型過擬合，并對池化層的組合方式進行了適當地調整?？梢园l現左側中部數據的最優模型池化層的組合方式與Cifar-10快速簡易模型是相同的。而右側中部數據的最優模型的第一個和第二個池化層都進行了改變。說明沒有哪一種模型是最好的，我們需要通過針對實驗數據對模型進行靈活改動，以訓練得到針對實驗數據的最佳模型。

4 實驗

4.1 數據描述

本文使用的金錢豹數據來源于山西沃成生態環境研究所2010-2016年數據。

目前通過人眼目視識別的豹子有80只左右，但對于不同豹子所獲得的影像數據數量不等。選取了其中影像數據量較多的3只豹子進行識別分類，使用體側中部數據訓練與驗證模型，可觀察到金錢豹體側中部的影像數據量如表1所示。

表1 可觀察到金錢豹體側中部的影像數據量Table 1 Amount of images that can be observed leopard body-side middle

4.2 數據預處理

對于金錢豹影像數據，首先使用Adobe Premiere Pro CC工具將視頻以每秒24幀的方式導出圖片，然后對導出的圖片進行高效選擇：對于可以直觀明顯地觀測到體側中部花紋的圖片，按其連續動作進行保存，對于圖片質量稍差的圖片，從中選取幾幀典型動作(花紋較明顯)進行保存。這里的質量稍差指的是由于光線、角度以及金錢豹的行動造成的體側中部部分過亮或過暗、花紋不夠直觀明顯以及扭曲過于嚴重。接下來將篩選得到的圖片與直接獲取得到的質量較好的金錢豹圖片導入Adobe Photoshop CS6進行裁剪，獲得體側中部圖像。在利用卷積神經網絡進行圖像識別時，對于輸入層(圖像層)，通常把數據歸一化成2的次方的長寬像素值。通過觀察待裁剪圖片的像素大小，本文將圖片統一裁剪為64×64像素大小。最后進一步篩選適用于模型訓練與驗證的圖片。統計數量如表2所示。

表2 適用于模型訓練與驗證的圖片數量Table 2 Number of pictures applicable for model training and verification

圖5展示了通過預處理得到的用于模型訓練的3只金錢豹的左側中部花紋數據的部分樣本數據。

圖5 用于模型訓練的3只金錢豹左側中部花紋對比圖Fig.5 Contrast chart of three leopard left-side middle pattern which used model training

4.3 實驗驗證與討論

4.3.1 數據集的構建

每次實驗，從各類樣本中隨機選取90張圖片作為訓練集，剩余樣本構成驗證集。對于兩側數據，分別隨機選取3組互不相容的訓練集與驗證集。其中訓練集圖片在裁剪時以體側中部花紋為中心，截取體側中部。驗證集圖片簡單截取體側中部，盡量使體側中部居中，未刻意尋找中心花紋。參與模型的數據分布如表3.

表3 參與模型訓練與驗證的數據分布Table 3 Data distribution used model training and verification

4.3.2 參數配置

SRIVASTAVA et al[15]指出，使用“Dropout”時，0.95～0.99之間的動量值相對更好。不僅可以顯著加快學習速度，還可以有效降低噪音，所以本文中動量值設置為0.95.

本次實驗使用隨機梯度下降法訓練模型，最大迭代次數為1 000，基礎學習率為0.000 01，權重衰減參數為0.004. 權重衰減項可以控制神經網絡的正則化項，一定程度上防止模型過擬合[14]。權重w的更新規則是

(2)

wi+1=wi+vi+1.

(3)

4.3.3 實驗平臺

平臺方面，本文選取在Linux ubuntu16.04.2系統上搭建Caffe框架，進行模型訓練。

Caffe(convolutional architecture for fast feature embedding)是由在Google工作的賈揚清博士及其團隊一同研制的一款用來計算卷積神經網絡的深度學習開源框架。其優勢主要體現在高效的運行速度上。Caffe可以通過文本文件的更改來實現網絡結構的調整，從而避免了通過繁瑣的編碼進行網絡優化。Caffe支持CPU和GPU運算的轉換，同時實現了多GPU的并行運算，從而可以最大程度地提高計算效率。Caffe是基于BSD2-Clause協議的C++/CUDA架構，支持終端指令、Python和MATLAB等接口[16]。

5 結果分析

5.1 性能指標

本次試驗使用3組數據的平均準確率來衡量模型預測結果的準確度，使用準確率的標準差來衡量模型的穩定性，使用平均損失來衡量模型預測正確的可能性的大小。

準確率a和損失bloss的計算公式分別為：

(4)

圖6 使用金錢豹左右兩側體側中部數據建立模型，在驗證集上得到的平均準確率、準確率標準差與平均損失Fig.6 Using Leopard left and right body-sides middle pattern to build the model, the average accuracy, the standard deviation of accuracy and the average loss on validation set

(5)

從圖6可以看出，對于金錢豹左側中部數據，池化層組合方式為MAX-AVE-AVE的模型平均預測準確率較高且更穩定，平均損失也基本穩定在最低值；對于金錢豹右側中部數據，池化層組合方式為AVE-MAX-AVE的模型的平均預測準確率較好且相對更穩定，平均損失也基本始終保持在最低值。

5.2 結果分析

綜合考慮平均準確率、準確率標準差、平均損失3種評價指標，對于左側中部數據，本文模型選取池化層為MAX-AVE-AVE的組合方式，對于右側中部數據，本文模型選取池化層為AVE-MAX-AVE的組合方式。其訓練結果如表4所示。

表4 訓練結果隨迭代次數的變化Table 4 Training results vary with the number of iterations

通過觀察實驗結果，可以發現本文模型的預測準確率高達99.3%以上，且損失較低，說明模型以很高的概率預測到了正確類別。而且對于左右兩側中部數據，本文通過實驗的方式選取了不同的池化組合。在實際訓練模型時，我們需要根據實驗數據適當的調整模型結構，以訓練得到相對于實驗數據的最優模型。

6 總結與展望

本文基于山西沃成生態環境研究所通過紅外相機采集的大量金錢豹影像數據，首次將深度學習方法應用到金錢豹個體識別研究中，通過適當改進的Cifar-10深度學習模型，借助Caffe深度學習框架進行模型訓練，得到較優的金錢豹個體識別深度學習模型。最終得到的深度學習模型可以達到99.3%的識別準確率，能夠有效識別金錢豹個體。之后可以依據此方法分析金錢豹生存現狀，為金錢豹棲息地的保護提供理論基礎。

本文根據已有數據構建了豐富的圖像數據庫，之后拍攝到的新的金錢豹圖像可與當前圖像庫中的豹紋圖片進行比對，實現個體識別，擴充數據庫。且隨著獲取到的圖像資料的增加，可以根據金錢豹的頭部、尾部、體側花紋分別構建模型，然后將其集成為一個系統，以便之后可以進行推廣使用。