基于殘差網絡和遷移學習的野生植物圖像識別方法

2021-09-07 06:38:12李立鵬師菲蓬田文博

無線電工程 2021年9期

關鍵詞：模型

李立鵬，師菲蓬，田文博，陳雷

(天津商業大學信息工程學院，天津 300134)

0 引言

我國是全球植物多樣性最豐富的國家之一[1]，總數居世界第三位。除了常見的農林植物與盆栽外，還有很多野生植物，是重要的自然資源和環境要素，對于維持生態和發展經濟具有重要作用[2]。近年來，由于野生植物種類的多樣性以及人們對其認識的匱乏，很多野生植物被過度采摘。尤其是一些國家級重點保護野生植物，如百山祖冷杉、銀杉等，處于極度瀕危的狀態，其生存與發展急需得到保護。因此，探求一種準確且高效的野生植物識別方法刻不容緩。

由于野生植物種類間的相似性，傳統的植物識別主要依賴人工采集大量樣本，耗時耗力且識別率低，植物識別面臨巨大挑戰。近年來，人工智能行業飛速發展，深度學習方法已廣泛應用于日常生活的各個領域[3-4]。以深度學習為基礎，溫長吉[5]、曹香瀅[6]、于慧伶[7]等研究人員將卷積神經網絡的思想與植物圖像識別問題相結合，探索出了一系列高效準確的識別算法，應用于不同種類植物圖像的分類問題。目前，以深度學習為核心技術的野生植物分類方法較少，分類效率和識別精度方面還有很大的提升空間。

本文以遷移學習方法為基礎，利用已在大型ImageNet數據集中提前訓練好的ResNet101網絡模型，對經過數據增強后的野生植物圖像進行識別和分類。同時，使用Dropout正則化和批量正則化等技術對原始模型進行微調，降低模型過擬合。最后，采用SGDM優化器優化模型的網絡結構參數，加速模型的收斂。

1 基礎網絡模型

1.1 卷積神經網絡

作為一種典型的深度神經網絡，卷積神經網絡的參數共享和稀疏連接策略在處理圖像識別問題上有獨特的優勢，在減少網絡層參數的同時提高了神經網絡的泛化能力，增加了圖像的識別率。

自LeNet-5網絡被成功用于手寫數字識別問題起[8]，由卷積層和池化層交替連接的卷積神經網絡模型基本骨架正式確立。隨后AlexNet網絡模型的創立[9]，使卷積神經網絡逐漸成為眾多學科領域的研究熱點之一。近年來，使用卷積神經網絡來處理與分析數據已成為流行趨勢，眾多經典的網絡模型如VGGNet，ResNet，DenseNet及GooleLeNet等相繼被提出，并在計算機視覺和自然語言處理等方面得到了廣泛應用[10-12]。

1.2 ResNet101網絡

在卷積神經網絡發展與研究的進程中，由于分類問題日益增多，識別難度逐漸加大，人們對卷積神經網絡層的深度要求日漸增高。2015年誕生的殘差網絡——ResNet[13]，利用殘差模塊進行訓練，建立了輸入與輸出之間的有效連接，使神經網絡在深度拓寬的同時還能保持其特征表達的能力，巧妙地解決了由層數加深引發的梯度消失或梯度爆炸問題。引入殘差模塊是卷積神經網絡發展進程中至關重要的一環，該模塊結構如圖1所示。

殘差結構以跨層鏈接的方式，構成了身份映射(Identity)和殘差映射(Covn)2種映射路徑。通過在普通模塊連接過程中添加x恒等映射的方法，使得該網絡在緩解梯度消失問題的同時，有效地控制網絡層參數和計算復雜度不變。殘差結構單元可表示為：

xj+1=xj+F(xj,Wj)，

(1)

式中，xj，xj+1分別代表該層網絡的輸入和輸出信息；Wj表示該層待學習的參數。將式(1)進行遞歸運算，可得任意深層單元J的特征表示：

(2)

為了更好地說明殘差網絡模塊的內涵，引入反向傳播的概念。令網絡損失函數為E，由反向傳播的鏈式求導法則可推出：

(3)

ResNet101是以VGG網絡結構為基礎，在其上基于短路機制添加殘差學習模塊而產生的。該網絡多達101層，殘差塊由大小分別為1×1,3×3和1×1的3個卷積層依次相串并與輸入合并構成，各層后均加入Rule激活函數，其殘差學習模塊如圖2所示。

圖2 3層式的殘差學習模塊Fig.2 Three-layer residual learning module

ResNet101網絡構造如圖3所示。

圖3 ResNet101網絡結構Fig.3 ResNet101 network structure

從第1組卷積塊起到第5組均為殘差模塊，將大小為224 pixel×224 pixel的圖像數據輸送后，經殘差網絡提取特征進行學習訓練，最終縮減為7 pixel×7 pixel的尺寸。經過殘差網絡訓練后，將圖像輸入平均池化層取平均，最終由全連接層的Softmax函數進行圖像類別的劃分。

2 網絡模型構建與優化

2.1 遷移學習

遷移學習[14]是為了解決小數據量樣本集在神經網絡學習訓練過程中，容易出現過擬合問題而提出的一種非常高效的學習方法。通過將在大型網絡(如ImageNet[15]等)中預訓練好的特征參數保存后，應用到全新的任務中，通過特征模型權重在不同分類數據之間的可移植性，提高了小數據分類問題的效率與準確性。

對卷積模型而言，遷移學習就是要提取提前訓練好的卷積基(包括一系列卷積層和池化層)的特征參數，在新模型中凍結卷積基，輸出時設置一個新的分類器，針對特定圖像進行分類。

基于遷移學習在小樣本數據集上的優勢，本文以ResNet101網絡為基礎架構，設置新樣本參數為已在ImageNet數據集上訓練好的參數，采用遷移學習的方法對小型野生植物圖像數據集進行訓練。

2.2 改進模型

2.2.1 模型微調

基于ResNet101網絡遷移學習，提出的改進后的網絡模型結構如圖4所示。

圖4 改進后的網絡結構Fig.4 Improved network structure

主要改進內容如下：

(1) 首先對遷移模型進行微調，刪除最后的平均池化層和分類層，凍結其前312層(即凍結圖3所示conv1～conv4_x層)，對其后卷積層(conv5_x層)進行參數重訓練，使網絡在借鑒大型數據集參數的同時保持其與本文所用數據集的相關性，并將該模型作為骨干網絡。

(2) 設置全局平均池化層(Global Average Pooling)[16]于ResNet101骨干網絡之后，使網絡參數減少，避免過擬合的發生。其后添加2層全連接層，將神經元個數均設置為128，激活函數選擇Rule。

(3) 在激活函數后增加Dropout正則化[17]處理，將舍棄概率值設置為0.5，即在訓練網絡時，隨即丟棄一半的參數，以降低參數的改變對輸出結果的影響，如圖5所示。

(4) 搭建BN層，以Batch Normalization技術[18]批量標準化處理不規范的數據，歸一化網絡輸出，降低模型過擬合，使模型收斂速度加快，進一步提高模型的性能。BN層算法如式(4)和式(5)，分別表示對數據進行規則化和尺度變換與平移。

(4)

(5)

(5) 添加輸出神經元個數為62的分類層Softmax，使輸出符合本文數據集的要求。

(a) 標準神經網絡

2.2.2 模型優化

(1) 優化器選擇SGDM動量梯度下降[19]，初始學習率設為0.001。在隨機梯度下降法的基礎上引入一階動量Momentum，并將參數β設為0.9。采用SGD with Momentum的方式，使更新梯度由式(6)轉化為式(7)，利用2次訓練間梯度的動量變化，使其梯度變化不止由當前時刻梯度決定，還與歷史積累有關。以SGDM為優化器，加快模型的收斂速度，緩解了由單純梯度下降法帶來的收斂速度較慢且易于陷入局部鞍點等問題。

mt0=gt0，

(6)

mt=βmt-1+(1-β)gt，

(7)

式中，mt，mt-1分別表示當前時刻與前一時刻的梯度更新；gt為目標函數的梯度，其具體表示方式如下：

(8)

(2) 損失函數選擇交叉熵損失函數，將得到的輸出進行0～1區間映射，隨后放入傳統的交叉熵函數中，加快了誤差變化的速度。

2.3 圖像分類流程

將數據集劃分后，圖片的一部分在經過預處理后用于新模型的訓練，另一部分用于對學習到的特征進行評定。改進后網絡在植物圖像上的基本分類流程如圖6所示。

圖6 改進后網絡在植物圖像識別中的流程Fig.6 Improved network process in plant image recognition

3 實驗結果與分析

3.1 野生植物數據集及其預處理

本文采用的數據集是來自kaggle的野生植物圖像數據集，包含苜蓿、蘆筍、藍馬鞭草、車前草等植物在內的62種常見的野生植物類別，采集了6 558張植物圖像。實驗以4∶1的比例將所含圖像劃分為訓練集(80%)和測試集(20%)兩部分，訓練集數量為5 246張，測試集數量為1 312張。其中，部分種類植物圖像如圖7所示。

(a) 紫花苜蓿

實驗原始數據還需要在訓練開始前進行預處理操作。由于每個類別訓練集植物圖像數量約85張，數據集相對較小，模型泛化能力差，直接送入網絡運行易過擬合，嚴重影響圖像識別的準確率。因此，首先采用平移、翻轉、剪切變換等數據增強方法對訓練集樣本進行擴張并隨機打亂順序，其中一張圖片隨機變換后的擴充圖像如圖8所示。

(a) 野生植物圖片原圖

接著，采用數據規范化操作使整個樣本集統一，整理其圖像尺寸為224 pixel×224 pixel。

3.2 實驗環境及參數設置

本實驗在硬件上使用Intel(R) Core(TM) i5-10210U CPU處理器，運行內存為8 GB，加速顯卡為NVIDIA GeForce MX250 GPU。軟件環境為Windows 10 64 bit操作系統，基于Python腳本語言，Tensorflow2.4.0深度學習框架和jupyter notebook開發平臺。以驗證集精度作為模型評估指標。

分別對各種熱門網絡進行遷移學習后，綜合選出精度與收斂速度綜合評分較高的ResNet101網絡模型進行微調訓練。

3.3 實驗結果及分析

3.3.1 數據擴充策略對實驗結果的影響

為驗證數據擴充策略對小樣本數據集的影響，現以對比實驗的方式，在保證網絡結構和優化方式相同的情況下，分別在原始數據集和經過平移、翻轉、剪切變換等數據增強方法擴充的數據集上進行訓練，并記錄測試精度如圖9所示。

圖9 數據增強前后準確率對比Fig.9 Comparison of accuracy before and after data enhancement

圖中a，b分別表示添加了數據擴充方法后和未添加前的測試精度。

由圖9可以看出，對數據增強操作后的訓練集進行網絡學習，可在一定程度上緩解模型過擬合的問題，使模型獲得更高的測試精度，相比原始數據集提高了約3個百分點，說明數據擴充策略能有效地提升小數據量樣本集的識別準確率。

3.3.2 改進策略對實驗結果的影響

(1) ResNet101網絡自對比實驗

為驗證本文所提出的微調模型在野生植物圖像識別問題上的有效性，分別在遷移學習方法的基礎上對原始ResNet101模型、微調第5組卷積塊后的模型、添加Dropout正則化和批量正則化技術后的模型進行訓練，優化器選用SGDM，損失函數為交叉熵損失函數。均迭代150次后，以測試準確率最大值為判斷依據，與本文改進模型相比，最終得到的模型精度與損失對比情況如表1所示。

表1 微調模型訓練結果對比Tab.1 Comparison of fine-tuning model training results

由表1可以看出，2種改進方案均對測試集準確率和損失結果有影響。較原始ResNet101模型，微調卷積塊后模型準確率提高5.8%、加入正則化技術后提高2.1%，且模型損失均有降低，證明了本文所提優化方法可在一定程度上緩解模型過擬合的問題，在植物識別問題上具有可行性。本文最終改進模型測試準確率達85.6%，較原始模型準確率提升了6.9%，損失降低了0.7，具有很好的泛化能力，適合用于野生植物圖像的分類。改進前后模型訓練過程中的準確率與損失曲線如圖10和圖11所示。

可以看出，原有ResNet101網絡在訓練集上表現較好，識別精度隨迭代次數的增多穩步升高，最終能達到將近94%的準確率，但測試集精度卻在達到78%后不再改變，可見模型產生了過擬合的問題。而改進后的網絡模型在訓練約40次后，測試精度能穩定在85%，較原始模型泛化能力更優。

(a) 改進前訓練集與測試集準確率

(a) 改進后訓練集與測試集準確率

(2) 與其他網絡模型的對比試驗

為驗證ResNet101網絡結構在野生植物數據集上的適用性，本文就卷積神經網絡發展進程中熱門網絡結構——VGGNet與其對比，分別以VGGNet16，VGGNet19和ResNet101網絡為基礎架構，采用遷移學習的方法對數據集進行訓練。迭代150次后，不同模型的訓練結果如表2所示。

表2 不同模型訓練結果對比Tab.2 Comparison of training results of different models

由表2可以看出，相較于VGGNet網絡，ResNet101網絡引入殘差結構模塊，在減少網絡參數的同時提高了模型的準確率，表明了殘差結構的有效性。模型的具體測試精度隨迭代次數的變化情況如圖12所示。

圖12 不同網絡測試準確率對比曲線Fig.12 Comparison curves of different network test accuracy

由圖12可以看出，ResNet101網絡比VGGNet更快收斂且曲線穩定后能達到相對較高的準確率，由于ResNet網絡是在VGG網絡結構的基礎上基于短路機制發展起來的，因此更能體現出殘差模塊的獨特優勢。與其他基礎神經網絡結構相比，本文所提出的改進模型經遷移學習后對植物圖像的識別準確率最高，因而更適用于野生植物數據集的學習。

3.3.3 不同優化器及學習率對實驗結果的影響

許多優化方法都能解決深度學習中模型最優解的問題，不同優化器的選擇也會使訓練出現不同的效果。訓練過程中學習率選取太小，收斂速度緩慢；而選取過大，會導致曲線震蕩，從而容易跳過最優值。為驗證不同優化器和學習率對野生植物數據集識別結果的影響，分別選用優化器SGDM，Adam和RMSprop在改進后的模型上進行試驗，并設置初始學習率分別為0.01，0.001和0.000 1，得到的測試結果如表3所示。

表3 不同優化器與學習率的識別精度對比Tab.3 Comparison of recognition accuracy of different optimizers and learning rates

實驗結果表明，以SGDM為優化器，0.001為學習率參數時，模型能夠快速收斂，測試準確率最高達到85.6%，更適合用于本模型的訓練。

4 結束語

本文提出了一種以ResNet101網絡為基礎的野生植物圖像識別方法。首先，針對實驗樣本較少的問題，對經過數據擴充后的樣本圖像進行遷移學習，選取綜合評分較高的ResNet101網絡作為骨干網絡，凍結其部分層，對剩余各層進行重訓練；其次，對模型結構參數進行微調，引入正則化技術提高泛化，并選取SGDM優化器加快模型的收斂速度，使其表現出更好的性能。實驗結果表明，本文所提方法針對62種野生植物圖像的測試精度可達85.6%，較單一ResNet101網絡模型遷移學習方法提高了約7%的檢測精度，模型泛化能力較好，對于解決野生植物圖像的分類識別問題有一定的可行性。在未來的工作研究中，將擴充野生植物數據集，把更多的植物種類考慮在內，設計更加有效地優化方法，進一步提高不同網絡模型在此種識別問題上的性能。