魏錦山,陳爭光
(黑龍江八一農墾大學信息與電氣工程學院 黑龍江,大慶 163319)
近紅外光譜分析是一種高效分析方法。近紅外譜區(780~2526 nm)涵蓋有機物中大量含氫基團信息,蘊涵分子的結構、組成狀態等信息。因此,采用近紅外光譜分析技術對土壤進行定性定量檢測已成為當前光譜檢測的熱點[1-4]。
土壤質地指土壤中不同尺寸礦物顆粒的組合狀況,一般分為砂土、壤土、黏壤土、黏土4類,是土壤物理性質之一,對土壤光譜特征有一定影響。一方面它影響土壤蓄水能力,較大的顆粒間能容納更多空氣和水;另外土壤顆粒大小對土壤反射率有顯著影響,顆粒越小,彼此結合越緊密,土壤表面越平滑,反射率越大[5]。國內外研究大多側重于土壤類型對土壤成分預測的影響上[6-11],通過近紅外光譜建模對土壤質地分類的研究很少[12]。
另外,國內外研究建模多采用小樣本數據集[13],會導致模型魯棒性不強、泛化能力差等問題[14]。卷積神經網絡[15]和長短時記憶網絡[16]作為當前最流行、最有效和最廣泛使用的深度學習算法[17],能自動提取光譜的有效特征,利用大數據能夠提升分類模型準確率的同時獲得良好魯棒性。因此,將大數據與深度學習方法結合建立分類模型的研究具有重要意義。
本文以歐盟統計局調查收集的土壤近紅外光譜樣本數據集為研究對象,分別采用六種類型的CNN 網絡和六種類型的LSTM網絡建立土壤質地近紅外光譜分類模型,比較模型分類效果的差異,旨在建立一種高效準確的基于深度學習與近紅外光譜的土壤質地分類模型。
本實驗采用歐盟統計局開展的土地利用/土地覆蓋地區框架調查數據(Land Use/Land Cover Area Frame Survey,LUCAS),包含歐盟23國土壤近紅外光譜數據及其物理化學性質檢測結果。將LUCAS數據集中17939個土壤質地樣本,按照美國土壤質地分類標準將其分為4類,包括砂土、壤土、黏壤土、黏土(含1116 個砂土樣本、11999 個壤土樣本、3417 個黏壤土樣本和1407 個黏土樣本)。按6:2:2 的比例將數據隨機劃分為訓練集、驗證集和測試集,土壤數據集劃分如表1所示。

表1 LUCAS土壤樣本集劃分
卷積神經網絡(Convolutional Neural Network,CNN)是一種前饋神經網絡[18],主要由輸入層、卷積層、池化層、全連接層及輸出層構成。
卷積層(Convolutional Layer)通過卷積核提取輸入層局部特征,同一特征面權值共享[19]。第l層的第k個特征映射中,(i,j)處特征值計算如式(1)所示。設a(·)為非線性激活函數,激活值計算如式(2)所示。其中,是第l層輸入矩陣,中心為(i,j)。是卷積核的權重向量,是偏置項。

池化層(Pooling Layers)用于降維,避免過擬合。本文選用取局部接受域中值最大點的最大池化方法。設pool(·)為池化函數,對激活值的池化如式(3)所示。其中,Ri,j是特征映射中以(i,j)為中心的區塊。

全連接層(Fully Connected Layer)負責本層神經元與前層相連,產生全局語義[20],并通過Softmax 函數進行分類。
長短時記憶(Long Short-Term Memory,LSTM)網絡[16]是一種改進的循環神經網絡,由記憶單元、輸入門、輸出門和遺忘門構成,如圖1(b)。其特點是利用“門”機制調整信息流,能學習橋接大于一千步的間隔,即便存在噪聲、無法壓縮數據的條件下,也對短時間延遲能力無影響。

遺忘門控制信息的傳遞或丟棄,其輸出ft如式(4)所示。
其中,σ(·)為sigmoid 函數,Wf為遺忘門權重矩陣,[ht-1,xt] 為上一時刻輸出與當前輸入組成的向量,bf為偏置。輸入門控制輸入值的更新單元狀態,其輸出it如式(5)所示。

其中,Wi為輸入門的權重矩陣,bi為偏置。

其中,Wc為輸入單元權重,bc為偏置。
新細胞狀態Ct如式(7)所示。

其中⊙為哈達瑪積。
輸出門產生的控制信號ot如式(8)所示。

最終輸出值ht如式(9)所示。

擠壓激勵網絡[21](Squeeze-and-Excitation Networks,SENet)主要包含兩部分:
Squeeze:通過全局平均池化(Global Average Pooling)將每個特征圖壓縮為1*1*(通道數)的一維序列。
Excitation:得到Squeeze 壓縮序列后,輸入全連接層FC(Fully Connected)進一步壓縮,其后進行ReLU激活,通過下一個FC 恢復原來維度,再將其輸入sigmoid 函數,對每個通道的重要性進行預測,得到各個通道的權重后再激勵到之前特征圖對應的通道上。其特點是模塊輕量化,可直接嵌入網絡,通過顯式建模其特征通道之間的相互依賴關系來提高網絡的表示能力。僅增加模型少量的運算時間就能提高模型準確率,性價比很高。
本研究建立了六種類型的CNN模型(3種標準卷積神經網絡、3 種融入Attention 的卷積神經網絡)和六種類型的LSTM 模型(3 種標準LSTM 網絡、3 種融入Attention 的LSTM 網絡)。模型結構如圖1所示。其中圖1(a)展示了融入Attention 的4 層卷積神經網絡,圖1(b)展示了融入Attention的4層LSTM網絡。

圖1 CNN模型結構圖(a)和LSTM模型結構圖(b)
利用一維土壤質地近紅外光譜數據訓練六種類型的CNN模型(3種標準卷積神經網絡、3種融入Attention的卷積神經網絡)和六種類型的LSTM模型(3種標準LSTM網絡、3種融入Attention的LSTM網絡)。模型在驗證集和測試集上的分類結果如表2所示。其中CNN_4_Attention表示卷積層數為4 且融入Attention 的CNN 模型,LSTM_4_Attention 表 示LSTM 層 數為4 且融 入Attention 的LSTM模型。
如表2所示,輸入一維光譜訓練后,無論是CNN還是LSTM 模型,隨著網絡層數的增加,其總樣本分類準確率均逐漸提高。當網絡隱藏層層數為4層時,CNN_4模型的測試集準確率最高達到76.58%,LSTM_4模型的測試集準確率最高達到77.86%。Agrawal等[22]在人臉識別的研究工作中證實卷積層增加會提升分類準確率。Livieris等[23]在研究黃金價格波動的預測工作中發現,深層的LSTM網絡性能要優于淺層網絡。開發ResNet的作者何愷明等[24]也認為網絡層數對模型的性能有很大影響。這些均與本研究結論一致。

表2 模型的分類準確率表
融入Attention 模塊后,網絡執行特征重新校準,通過GlobalAveragePooling 將全局空間信息壓縮到信道描述符中,使來自網絡全局感受野的信息能被低層利用。為了利用壓縮的聚合信息來捕獲通道依賴性,要進行激勵操作。在ReLU 層前后分別加入了Fully Connected層,形成瓶頸結構來參數化門控機制,第一個FC 層用以降維,然后進行ReLU 激活,再經過第二個FC 層升維,最后通過sigmiod 函數對特征圖重新加權,以達到集中注意力的效果。SENet以一種高效的計算方式增加了網絡深度,可在計算成本很低的情況下提高模型性能,嵌入Attention 會對模型性能有一定的提升。融入Attention后,通過學習使用全局信息來選擇性地強調特征,并抑制無用特征,顯式建模通道間的相互依賴關系提高了網絡表示能力,提升了分類準確率[21]。兩類網絡的總體分類準確率均有了一定提升,CNN_4_Attention 測試集準確率達到了77.50%,LSTM_4_Attention測試集準確率達到了78.39%。
如表2,未融入Attention時,LSTM_4模型的測試集總體分類準確率比CNN_4模型高1.28%。融入Attention后,LSTM_4_Attention 模型的總樣本分類準確率比CNN_4_Attention模型高0.89%。整體看LSTM分類效果稍優于CNN,證明LSTM更適合處理一維的序列數據。這是由于二者模型結構的差異所致。CNN 的核心是卷積核,其僅能識別局部特征,提取的特征是由一層層卷積核輸出的結果堆疊起來的;而LSTM區別于CNN,主要由記憶單元、輸入門、輸出門和遺忘門構成,具備記憶能力,便于根據前后信息獲得結果。通過門控狀態更新傳輸的數據,其中遺忘門的sigmoid函數負責保存需要長期保留的重要信息,遺忘次要信息,有選擇的篩選和過濾信息能有效地提高模型準確率。Livieris等[23]在其研究中提到LSTM 網絡適合處理序列數據。由于LSTM特殊的構造,其模型能有效地獲取序列數據的特征。利用深度學習算法的序列模型可以提高模型性能。其觀點與本研究結論一致。
表2中12個模型驗證集分類準確率隨迭代次數的變化曲線如圖2所示。

圖2 驗證集數據的分類準確率曲線
隨著迭代次數的增加,12 個模型驗證集數據的分類準確率不斷提高,準確率最高點均超過72%,效果良好。早停法檢測到其模型性能不再繼續優化,長時間訓練存在過擬合風險,因此自動中斷訓練。并且隨卷積層數的增加,模型能在驗證集數據上達到更高的分類準確率。未融入Attention 模塊時,CNN 最優模型CNN_4 的驗證集分類準確率能達到76.64%,LSTM 最優模型LSTM_4 的驗證集分類準確率能達到78.76%,LSTM模型的分類性能更優。融入Attention 模塊后,CNN 最優模型CNN_4_Attention 的驗證集分類準確率能達到77.84%,LSTM 最優模型LSTM_4_Attention 的驗證集分類準確率能達到79.31%,LSTM模型的分類性能更優。
未融入Attention 的CNN 和LSTM 模型的分類準確率曲線波動較大,穩定性差(圖2(a)(c))。相比之下,融入Attention的CNN和LSTM模型的分類準確率曲線波動小,訓練過程中,準確率穩定上升(圖2(b)(d)),在Early stopping方法輔助下避免過擬合的同時,能達到更高的訓練次數,即意味著達到了更高的分類準確率,說明Attention 模塊會重新分配通道權重,以達到集中注意力、顯著提高模型性能的效果。
另外,樣本量對實驗結果有影響。Pittaki等[10]在其研究中發表過相同觀點。樣本多的類別分類準確率高,樣本量少的類別分類準確率低。這是因為,模型在訓練過程中,較多樣本的類別對模型的修正能力更強。如表1所示,砂土樣本量僅為1116個,僅占總樣本的6.2%。從表2可見,12個模型對于砂土的分類準確率都較低,最低達到了17.94%。
通過一維土壤質地近紅外光譜數據訓練模型,共建立六種類型的CNN 模型(3 種標準卷積神經網絡、3 種融入Attention的卷積神經網絡)和六種類型的LSTM模型(3種標準LSTM 網絡、3 種融入Attention 的LSTM 網絡)。從不同角度分析了兩種模型間分類性能的差異。實驗證明:(1)網絡層數對分類準確率有影響,深層網絡的性能要優于淺層網絡。(2)融入Attention 模塊后,對兩類模型分類準確率均有了一定提升,CNN_4_Attention 達到了77.50%,LSTM_4_Attention 達到了78.39%。(3)LSTM 模型的分類效果整體優于CNN,證明LSTM更適合處理一維序列數據。(4)樣本量對實驗結果有影響,樣本多的類別分類準確率高,樣本量少的類別分類準確率低。利用大數據結合深度學習相關算法對近紅外光譜進行分類,能建立更高魯棒性和普適性的優良模型,為土壤分類研究提供了一種新思路。