葉林蔚, 唐榮年, 李創
(海南大學機電工程學院, 海口 570228)
天然橡膠為四大工業原料之一,對于促進我國經濟發展至關重要。橡膠樹是天然橡膠的直接來源,我國橡膠樹主要種植于華南地區,海南是主要植膠區。提高橡膠產量對生態保護和國民經濟發展都有重要意義。磷在橡膠樹的生長和產膠過程中起著重要作用,磷缺乏會導致橡膠樹早衰、割膠期縮短,且抗病能力明顯下降。相反,過量施用磷肥會導致橡膠樹成熟緩慢、產膠質量下降且容易污染土壤和水源。合理施用磷肥是管理橡膠樹的重要環節。海南農墾橡膠樹診斷施肥已開展多年,其中,判斷施肥量以葉片養分含量為主,土壤養分含量為輔。這為以橡膠樹葉片的養分含量判斷橡膠樹的整體養分含量提供了依據[1]。同時,土壤磷含量與橡膠樹葉片磷含量有強線性關系[2],而施用肥料后葉片相應元素和葉綠素含量均出現相同的增加趨勢,對橡膠樹的生長發育起到重要影響[3]。
橡膠樹葉片的磷含量能夠指導肥料的施用。傳統的理化分析方法精度較高,但其對葉片樣本具有破壞性,且操作流程復雜,需要專業的實驗儀器和分析人員[4]。利用近紅外光譜和高光譜對植株、土壤、葉片等樣本的磷元素含量進行快速無損檢測是近幾年的研究重點,相關研究主要圍繞特征選擇和模型建立,提出的方案主要結合線性回歸算法和波段選擇方法。其中,如何特征選擇能夠得到最具關聯性的特征組合及線性回歸算法能否建立磷元素和高光譜之間的關聯機制值得探究。
高光譜技術作為快速無損的檢測技術,雖然已在植物磷素營養診斷方面取得了較為成熟的應用,但相關研究大多使用線性回歸算法。如利用支持向量機回歸和偏最小二乘回歸建立柑橘葉片磷含量的回歸模型[5],利用敏感波段、隨機森林建立蘋果葉片磷含量診斷模型[6]及利用一元線性回歸建立土壤磷含量的高光譜估測模型[7]。但橡膠樹葉片磷含量與高光譜之間不僅存在線性信息,還存在非線性信息[8]。因此,引入非線性模型診斷橡膠樹葉片磷含量,有利于將線性和非線性信息考慮在內。
目前,深度學習因其能提取光譜深層特征,逐漸被應用到光譜的快速檢測。除了對蔬菜水果進行分類[9],通過改變獲取數據窗口的大小,卷積神經網絡還應用于藍藻的藻藍蛋白與葉綠素a定量檢測[10]。堆疊自適應加權自編碼器同樣可提取特征作為分類器的輸入[11]。此外,卷積神經網絡等深度學習算法也可用于光譜的波長選擇[12]。因此,應用深度學習建立高光譜和磷元素含量之間的關聯機制,可以有效將非線性信息考慮在內。
此外,波段選擇作為特征提取的思路已有大量研究。針對橡膠樹葉片磷含量的檢測效果不佳,特征提取旨在減少數據維度,并提取出有效的特征供后續使用以提升模型的效果。其中,除MC-UVE-SPA法(monte carlo-uniformative variable elimination-successive projections algorithm, 蒙特卡洛-無信息變量消除法-連續投影算法)挑選特征波長提升了橡膠樹葉片的檢測精度外[13],AIRF-CARS(adaptive interval random frog-competitive adaptive reweighting algorithm, 自適應間隔隨機蛙-競爭性自適應重加權算法)和CARS-SPA(competitive adaptive reweighting algorithm-successive projections algorithm, 競爭性自適應重加權算法-連續投影算法)等聯用方法也被用來提取樣本氮元素的光譜特征[14-15]。另外,環境因素與高光譜的結合能夠有效提升營養元素的診斷效果[16]。
針對以上問題,本文擬使用深度學習中的神經網絡解決磷元素與近紅外光譜之間線性關系較弱的問題。綜合深度學習和特征提取方法的優勢,本文使用自編碼器(AE)對橡膠樹葉片的高光譜進行特征提取和降維,將變換后的光譜特征作為前饋神經網絡(FFNN)的輸入,應對不同精細程度的分類任務,建立橡膠樹葉片磷含量高光譜定性分析模型,并與傳統線性分類器樸素貝葉斯和非線性分類器支持向量機和隨機森林比較。
1.1.1試驗樣本 供試橡膠樹品種為RY-7-33-97,種植于中國熱帶農業科學院海南省儋州市試驗基地。
1.1.2儀器設備 通過FieldSpec3光譜儀(美國ASD公司)采集橡膠葉片樣品的近紅外高光譜。該儀器具有高分辨率、高靈敏度、采集速度快等特點,因此被國內外學者廣泛應用于采集光譜圖像數據。整個系統可分為三個部分:①光譜采集系統,波長范圍為926~1 678 nm,光譜采樣間隔為3.25 nm,共230個光譜點;②信息處理系統;③運動控制平臺,包括步進電機和底部有光源的透射光譜采樣平臺。運動控制平臺和光譜采集系統被置于暗箱中,使整個系統不受外界光源的干擾。
在自然生長環境下,隨機選取不同橡膠樹植株,采集完整、無蟲害的健康成熟葉片作為實驗樣本,總計147個。首先,使用光譜儀掃描整個葉片,通過式(1)校正圖像獲得葉片的高光譜數據。
(1)
式中,Ic為校正后的高光譜,Io為光譜儀掃描得到的高光譜,B為黑幀,W為白幀。
測定光譜反射率后,為了得到葉片磷含量真實值,首先將每個葉片樣品105 ℃干燥30 min,70 ℃干燥8 h,然后將干燥的葉片磨碎并通過1 mm的篩網。干燥和研磨后的樣品用濃硫酸和30%過氧化氫的混合物消化。最后用鉬銻比色法[17]測定147個葉片的磷含量。
本文所提出的核心思路是對近紅外高光譜進行非線性特征分析,即先對光譜進行特征提取和降維,然后使用光譜特征建立分類模型。本文提出了AE進行特征的第一步提取,然后使用FFNN[18]對提取的特征進行建模。最后使用十則交叉驗證(10-fold cross-validation)測試模型準確性。進行10次十折交叉驗證,再求其均值,作為對模型準確性的估計。
自動編碼器由MATLAB2020a實現,其結構如圖1所示,自動編碼器的隱藏層作為前饋神經網絡的輸入。自編碼器通過編碼提取特征解碼重構樣本,隱藏層神經元即為提取的特征。
本實驗根據中國國家標準GB/T 29570—2013[19]對橡膠樹葉片進行分類,指標如表1所示。

表1 海南省主要品種橡膠樹葉片營養診斷指標Table 1 Leaf nutrition diagnosis index of main rubber varieties in Hainan Province
均方根誤差(root mean square error,RMSE)是預測值與真實值偏差的平方與觀測次數n比值的平方根。RMSE越小,說明預測值和真實值越接近。
本文中數據處理和算法計算都使用MATLAB2020a。
圖像校正后,提取每個葉片樣本的光譜。從圖2可以看出,樣本原圖含有樣本數據和背景冗余數據,需要從背景中分離出葉片像素點。利用1 300和1 446 nm的灰度圖像構建了掩模圖像,其中樣品的反射率值與背景值有較大差異。可以看出,該掩模圖基本上把樣本從背景中提取出來,去掉背景,保留樣本數據。然后,將每個葉片樣本的像素級光譜平均為葉片光譜。
經過化學分析,147個葉片樣本磷含量分布如圖3所示。其中,樣本磷元素含量最大值為0.330 3%,最小值為0.122 4%,樣本的磷元素平均含量為0.234 1%,標準差為0.049 2%,從磷元素含量標準差值來看比較均勻。對磷含量執行kolmogorov-smirnov(K-S)檢驗,確定樣本服從5%的正態分布,這與自然生長環境下磷元素含量的分布一致,實驗有效。
根據國家標準GB/T 29570—2013[19],橡膠樹葉片磷含量可分為五個水平。其中小于0.18%屬于“極缺磷”、0.18%~0.21%屬于“缺磷”、0.21%~0.23%屬于“正常”、0.23%~0.27%屬于“富磷”和大于0.27%屬于“極富磷”,各級別樣本數如表2所示。而針對較為粗放的要求,簡單判斷磷含量缺乏、正常和富有的狀態。把“極缺磷”和“缺磷”統稱為“缺磷”,“極富磷”和“富磷”統稱為“富磷”。本研究將樣本劃分為:小于0.21%屬于“缺磷”,樣本數35個;0.21%~0.23%屬于“正常”,樣本數27個,而大于0.23%屬于“富磷”,樣本數85個。

表2 橡膠葉片磷含量精細診斷結果Table 2 Phosphorus content fine diagnosis index of rubber leaves
采用樸素貝葉斯(naive bayesian model,NBM)線性判別分析、支持向量機和隨機森林非線性判別分析與前饋神經網絡對粗細分類效果進行比較,結果如表3所示。可以看出,不管粗細分類任務,非線性分類器都優于線性分類器,均已AE-FENN模型的最高。

表3 不同分類模型效果比較Table 3 Comparison of different classification models
2.3.1粗分類結果分析 由表3可見,以支持向量機和隨機森林為代表的非線性分類器整體優于樸素貝葉斯為代表的線性分類器。由此可見,橡膠樹葉片光譜與磷元素的相關性并不強,傳統的分類器對磷元素檢測效果具有局限性。在此基礎上,FFNN發揮其善于提取非線性模型的特點,提升了針對橡膠樹磷含量水平的檢測精度。FFNN的識別率為84.99%,Kappa值為0.720 9,與傳統分類器相比模型性能有很大提升。而AE-FFNN模型的識別率是91.10%,Kappa值為0.761 8,除了識別精度比FFNN更高外,AE-FFNN的模型所用到的變量比FFNN更少,模型更簡單。
2.3.2細分類結果分析 由表3可見,由于細分類比粗分類目標更明確,要求更精細,所有細分類模型的效果都不免有所下降。但同時,FFNN的識別率為67.95%,Kappa值為0.558 0,而AE-FFNN模型的識別率是81.48%,Kappa值為0.664 0,識別精度雖然低于粗分類模型,但依然領先于傳統分類模型。
2.3.3交叉驗證次數的影響 對FFNN和AE-FFNN進行比較,結果如表4所示。在粗分類中,AE-FFNN的平均識別率為91.10%,Kappa值為0.761 8。在細分類中,AE-FFNN的平均識別率為81.48%,Kappa值為0.664 0。無論粗細分類要求,AE-FFNN較FFNN分類的效果更好。

表4 交叉驗證次數對FFNN和AE-FFNN分類結果的影響Table 4 Influence of cross-validation fold on classification results of FFNN and AE-FFNN (%)
其中,FFNN和AE-FFNN第一次交叉驗證時,無論粗細分類任務,分類效果有所下降,這與樣本的劃分具有很大關系。同時,隨著交叉驗證次數的增多,分類效果提升明顯并較為穩定。
2.3.4最優模型與分析 從表3可以看出,傳統模型中無論線性模型樸素貝葉斯分類器還是非線性模型支持向量機和隨機森林,都遜于FFNN和AE-FFNN,其原因在于FFNN和AE-FFNN都是通過神經網絡提取較為深層的特征。在不清楚磷元素含量和橡膠樹葉片高光譜之間有著怎樣的聯系的情況下,FFNN讓網絡自學習。通過迭代學習,建立穩定的磷元素和橡膠樹葉片高光譜關系模型。
另外,相較于FFNN模型,AE-FFNN方法在三個方面具有明顯優勢:①AE相較普通波長點選擇方法,不依賴標簽而避免了強制建立線性關系;②進一步利用FFNN建立分類模型,FFNN的非線性與AE提取的非線性特征契合;③大大提高了建模效率,使得特征與磷元素的關聯更加緊密。這說明,AE-FFNN可以提取出有效的深層特征,改善橡膠樹葉片磷含量的分類精度。
從圖4可以看出,無論分類目的是粗分類還是細分類,提取10個特征之后,RMSE降低不明顯。同樣無論是粗分類還是細分類,特征數在8之后,分類效果逼近極限且出現波動,而特征數在30、90個左右都有不錯的分類效果。而同時考慮到模型的復雜度,本文選擇31個特征,特征數從230降低到31,使用的數據量僅占總光譜的13.48%。
本研究根據國家標準對橡膠樹葉片磷元素含量進行分類。通過比較粗分類和細分類在同一水平下不同模型的診斷結果,最終確定AE-FFNN為最佳模型。
在預處理過程中,通過單波長特征圖像的閾值分割和主成分分析能夠獲得樣本固定大小的感興趣區域[20]。但橡膠樹葉片的磷含量與整個葉片的大小和每個像素點的磷濃度有關。因此,本研究通過葉片的反射率變化和背景的反射率變化不同,利用1 300和1 446 nm兩個敏感波段,從冗雜的原始樣本高光譜圖像中提取到精確完整的葉片高光譜圖像。這相較傳統人工劃分運行速度更快,并確保葉片區域分離完整。其次,根據國家標準劃分的葉片高光譜訓練不同模型。模型包括傳統線性模型貝葉斯線性判別器、支持向量機和隨機森林以及本文提出的FFNN和AE-FFNN。由于磷元素和葉片高光譜數據相關性不強,傳統的線性分類器檢測效果(粗分類50.00%、細分類42.86%)較差。而傳統非線性模型支持向量機(粗分類60.42%、細分類38.76%)和隨機森林(粗分類66.67%、細分類65.42%)通過其模型建立磷元素和高光譜非線性關系,使檢測效果相較貝葉斯判別器得到提升。最后,本研究提出的FFNN(粗分類84.99%、細分類67.95%)和AE-FFNN(粗分類91.10%、細分類81.48%)利用神經網絡的網絡特點,經過網絡變換,結合高光譜和磷元素之間線性和非線性特征,融合得到深層次穩定且相關性較高的特征,建立了磷元素和高光譜之間較強的聯系,極大提升了橡膠樹葉片磷元素的檢測水平。
神經網絡比SVM等傳統分類器具有較強較快的學習速度,且精度適當或更高。但神經網絡參數都是隨機選擇的,很大程度上造成了模型不穩定[21]。為了保證模型的穩定性,本研究加入了十次交叉驗證。通過對樣本多次劃分,采用不同的訓練集和測試集,防止模型過擬合并保持模型穩定。結果表明,FFNN和AE-FFNN融合了線性和非線性特征,無論如何變換樣本集合,分類效果都明顯優于傳統分類模型。同時,本研究通過AE提取特征,將建模的變量從FFNN的230個減少到31個。傳統的橡膠樹磷元素光譜診斷方法不僅對磷元素的敏感波段解釋不夠充分,且沒有考慮到高光譜的非線性特征。本研究提出的自編碼器提取特征結合前饋神經網絡建模,同時考慮線性和非線性特征,從大量高光譜數據中挖掘低共線性的非線性特征,建立基于神經網絡的磷元素含量診斷模型。該研究有望從特征融合的角度為診斷模型提供有力的解釋支撐。
無論是自編碼器還是前饋神經網絡,都具有較強的魯棒性,且實現簡單,本研究針對橡膠樹葉片磷含量的分類任務將兩者結合。因此,通過簡單變換網絡的層數和神經元個數能夠應對不同檢測任務,這給未來面對其他定性任務提供模型框架。該模型有望應對復雜的田間情況,結合手持式等設備將在田間實現快速的在線識別。總之,AE-FFNN能夠簡化橡膠樹磷元素含量高光譜檢測模型且提升模型檢測效果,為快速、精準地估算橡膠樹磷含量水平提供思路。