基于卷積神經網絡的樹種識別研究

2020-01-15 03:57:14劉忠偉戚大偉

森林工程 2020年1期

劉忠偉，戚大偉

(東北林業大學理學院，哈爾濱 150040)

0 引言

森林資源，特別是天然林資源，是地球陸地生態系統的主體和生態環境建設的基礎，具有不可替代性[1]。準確識別森林植被是森林資源被科學經營和管理的前提[2]。自動分類識別樹種，在植物學研究和多樣性保護方面意義深遠。具體來說，樹種識別可分為花卉識別、葉片識別、木材紋理識別和樹皮紋理識別等[3]。準確識別樹種是利用和研究森林資源的基礎，并為林業資源的可持續發展提供有力保障。

在深度學習未被提出之前，圖像特征提取的方法主要有尺度不變特征(scale invariant feature transform, SIFT)[4]、局部二值特征(local binary pattern, LBP)[5]、梯度直方圖特征(histogram of gradient, HOG)[6]和灰度共生矩陣(gray-level co-occurrence matrix, GLCM)等[7]。以上這些方法要通過手動的方式進行特征提取，通常設計者經驗的豐富程度和設計特征合理性等是影響特征算子識別性能的關鍵因素。此類方法存在操作繁瑣、精度不能較好地滿足要求等問題。

基于深度學習典型的卷積神經網絡(convolution neural networks, CNNs)模型，是20世紀80年代Fukushima等[8]基于感受野的概念，提出的神經認知機，可看作CNNs計算模型的第一次實現。而后Lecun等[9]將梯度反向傳播算法應用到CNNs模型中，在手寫數字識別問題中，表現出優異性能。近年來，隨著機器學習的發展，CNNs為樹種分類識別帶來新機遇，該網絡模型有效地解決了自適應特征提取以及自動化提取的難題[10]。CNNs在對數據集進行訓練后，可自動獲取圖像中的紋理特征[11]，與傳統神經網絡相比，卷積神經網絡結構更加復雜，具有更強的特征表達和學習能力，并且魯棒性高、適應能力更強。因此，基于CNNs構建的網絡模型可免去人工定義圖像紋理特征的成本并且識別準確率較高[12]。

本研究設計了基于Lenet5模型框架的卷積神經網絡，以水曲柳(Fraxinusmandshurica)、家榆(Ulmuspumila)、白樺(Betulaplatyphylla)、紅皮云杉(Piceakoraiensis)和蒙古櫟(Quercusmongolica)樹皮紋理圖像作為輸入，對5種樹木進行自動識別分類研究。

1 圖像采集與預處理

1.1 圖像數據采集

實驗采集了東北地區幾種典型林木的樹皮紋理圖像，圖像采集地點位于東經126°45′～126°43′，北緯45°30′～45°40′的黑龍江省哈爾濱市東北林業大學校內林場。該地區屬中溫帶大陸性季風氣候，四季分明，年平均氣溫3.5 ℃。實驗采集水曲柳、家榆、白樺、紅皮云杉和蒙古櫟的RGB樹皮紋理圖像各1 000幅，共計5 000幅作為輸入，具體樹種信息見表1。

表1 樹種信息

1.2 圖像數據預處理

獲取圖像分辨率大小為3 024×3 024，由于獲取圖像的分辨率較大，考慮到計算機可承受的數據量和計算速度[12]，需要對所有樣本圖像的感興趣區域(Region of Interest, ROI)進行截取操作。選取100×100的窗口，截取含有2個及以上完整紋理基元的部分，該操作可對輸入卷積神經網絡的圖像準確定位，并有效緩解數據計算量的壓力。

從客觀存在的林木樹皮，到通過拍攝設備進行獲取，再經由電子設備顯示后進行ROI區域截取。其過程中，可能由于自然光照因素、人為因素以及ROI截取操作等，造成紋理特征模糊等不同程度上的圖像失真，灰度偏黑或者偏白，會影響自動提取樹皮紋理特征的準確率，不利于識別。所以對ROI操作后的圖像進行增強處理是極其必要的。直方圖均衡化是通過修正直方圖，使其灰度變換為均勻分布的形式，從而拉伸圖像灰度的動態范圍，它是增強圖像對比度的有效方法[13]。圖1(a)和圖1(b)分別是樹皮紋理原始圖像及其直方圖；圖1(c)和圖1(d)分別是經過直方圖均衡化處理后的圖像及其直方圖信息。

沒有經過直方圖均衡化處理的圖像灰度較為集中，紋理特征不夠明顯；而經過直方圖均衡化處理后的圖像，灰度層次比較適中,圖像質量得以改善,比原始圖像更加清晰、明朗，有利于卷積神經網絡對圖像紋理特征的提取和分析。經過以上ROI截取操作和直方圖均衡化處理后的樹皮紋理圖像，如圖2所示。

2 卷積神經網絡結構及訓練

深度學習以組合低層特征的形式，形成如屬性類別和特征等更抽象更本質的高層表達，進而發現數據的分布式特征表示[14]。CNNs的網絡結構與生物神經網絡更相近，在圖像識別和語音識別方面獨具優越性，尤其在視覺圖像處理相關領域，取得了很好的研究成果[15-16]。本文采用卷積神經網絡方法，實現對5種基于樹皮紋理的樹種圖像進行分類識別。

圖1 直方圖均衡化

圖2 預處理后的樹皮圖像

2.1 CNNs結構設計

常規的卷積神經網絡通常由多個卷積層和池化層以及全連接層組成[17]。其中卷積層(Convolutional layer)是通過卷積核在原圖像上滑動，進行以提取輸入圖像不同特征為目的的卷積運算；組成卷積層的若干卷積單元，其參數是通過反向傳播算法最佳化而得到的。第一層卷積層只能提取一些低級的，如角、邊緣和線條等特征，更多層的網絡能從低級特征中迭代提取更復雜的特征。其中，池化(Pooling)是由于圖像的“靜態性”屬性，即某圖像在局部區域A的特征，很可能在局部區域B也同樣適用，因此聚合統計圖像的某局部區域中，不同位置特征的操作，被稱作池化[12]。常見的池化方法有最大池化(Max pooling)和平均池化(Average pooling)。其中，通過最大池化過濾器在某局部區域內提取的某個特征，將保留其最大元素值到池化輸出里。最大池化的超參數為過濾器尺寸f和滑動步長s，如圖3所示。

池化操作可對上一層網絡的輸出進行壓縮，與不做池化操作而直接使用卷積后的特征相比較，池化操作可極大降低特征向量的維度，進而提高計算速度，同時可提高所提取特征的魯棒性。

經一系列卷積和池化操作后，提取生成了該圖像的深層抽象特征，將這些特征矩陣拉平為一維向量作為全連接層的輸入，由全連接層完成分類任務，

圖3 池化層：最大池化層

最后經Softmax層可以得到不同種類的識別概率分布情況，從而得到分類結果。

本文參考Lenet 5網絡結構框架[18]，該結構框架對數量相對較少的訓練數據集處理能力較好[19]。針對實驗樣本圖像沒有干擾背景影響且樹皮紋理特征并不復雜等特點，在Lenet 5結構的基礎上，對CNNs使用反向傳播算法和隨機梯度下降算法訓練，結合樹皮紋理圖像特征的特點，對網絡的結構、參數進行了相應的調整和優化，具有實現較易和識別效率較高等優點。

本研究的卷積神經網絡結構包含3層卷積、2個全連接層，其中輸出層為softmax回歸單元識別5種不同類別對象，如圖4所示。

2.2 CNNs實驗參數與訓練

調整和優化后的卷積神經網絡，訓練的流程如圖5所示。

圖4 卷積神經網絡結構圖

圖5 卷積神經網絡流程圖Fig.5 Convolution neural network flow chart

(1)輸入層 Input

卷積神經網絡以5種尺寸為(100×100)×3個通道的RGB樹皮紋理圖像、Batch norm歸一化參數50為輸入，即每次輸入50張(100×100)×3個通道的RGB樹皮紋理圖像。

(2)卷積層Conv1

輸入樣本圖像后，對其進行卷積操作，每層卷積核為3×3，卷積核個數為100，對輸入數據提取特征。由于線性模型表達能力的不足，而Relu函數具有縮減模型訓練時間、加快收斂速度和可以有效緩解梯度消失等問題的優勢[20]。因此，在卷積操作后使用Relu激活函數，使之具有分層的非線性映射學習能力。

(3)池化層Pool 1

池化是對上層輸入數據進行采樣以縮減模型尺寸，提高效率的操作。本層采用最大池化的方法，選用滑動步長為3，尺寸為5×5的池化窗口。即將Conv 1層提取的特征最大值，保留5×5窗口區域里。

(4)卷積層Conv 2

Conv2每次輸入50張樣本圖像，卷積核尺寸設置為3×3，卷積核數目設置為150個，卷積操作提取紋理特征后，使用Relu激活函數對數據進行非線性映射。

(5)池化層Pool 2

對上一層的輸出，使用池化尺寸為3×3，滑動步長為2的最大池化方法，保留上一層特征輸出的最大值，縮減模型尺寸。

(6)卷積層Conv 3

Conv3的卷積核尺寸設置為3×3，卷積核數目設置為150個，每次仍輸入50張樣本圖像，并使用Relu激活函數非線性映射。

(7)池化層Pool 3

對Conv3輸出的數據，使用2×2尺寸、步長為2的池化窗口進行最大池化操作。

(8)全連接層FC 1

將Pool 3層輸出的所有特征矩陣轉換為一維向量，輸入至第一個全連接層，本層的神經元個數為450個，其后使用Relu激活函數觀察高級特征并進行分類。

(9)全連接層FC 2

將上一層的輸出進行全連接，本層神經元個數為進行分類識別的樹種數量“5”，在FC 2后使用softmax分類器輸出不同迭代次數的分類識別率。

2.3 訓練結果

實驗基于Windows 10 (1903)操作系統，Intel(R) Core(TM) i7-8700 CPU @ 3.20 GHz 處理器，16 G運行內存，在Jupyter編輯器中，使用python語言，引入MXNet庫進行深度學習訓練。

在本實驗的樣本庫內，水曲柳、家榆、白樺、紅皮云杉和蒙古櫟圖像共5 000張，選取4 000張圖像用作訓練集，500張圖像用作驗證集，500張圖像用作測試集。即，訓練集、驗證集和測試集的比例為8∶1∶1。實驗采用隨機梯度下降的方法優化網絡中的學習參數，學習率為0.000 1，Batch norm歸一化參數為50，經過977 min 52 s ，80個Batch的訓練，完成了20次的迭代任務，訓練集的準確率為98%，如圖6所示，此時測試集圖像的識別率為95.8%。

圖6訓練結果

Fig.6 Training results

李可心等[7]提出的應用灰度共生矩陣與SOM神經網絡結合，得到由角二階矩、熵、方差、相關性、熵和聚類陰影構成的一組參數集的傳統識別方法，對黃檗、水曲柳和胡桃楸3種林木樹皮紋理圖像識別正確率為83.88%。本文提出的基于調整和優化的Lenet 5卷積神經網絡模型結構，對水曲柳、家榆和白樺等5種典型東北林木的RGB樹皮紋理圖像自動提取特征的方法，識別準確率明顯高于傳統的圖像分類系統。并且本方法能夠自動提取圖像的高層特征，從而無需依賴手動提取特征。

3 結論

本文對水曲柳、家榆等具有不同紋理特征的樹皮圖像，提出基于數字圖像處理技術和卷積神經網絡模型的樹種識別方法。與傳統的人工識別方法以及需要特征提取的神經網絡模型相比，本方法可達到更高的識別效率，并得到以下結論。

(1)應用數字圖像處理技術，經ROI截取操作后，樹皮紋理圖像目標區域更加明確。直方圖均衡化處理后，其動態范圍得以拉伸，圖像特征更清晰，有利于圖像的分析和識別。

(2)針對樹皮紋理的特征，選用基于Lenet 5結構優化后的網絡模型及參數，通過深度卷積可自動識別其高級特征，經softmax分類器輸出不同樹種分類結果，實驗精度可達到95.8%，可為林木資源管理提供更有效的管理策略。