孟志軍 劉淮玉 安曉飛 尹彥鑫 金誠謙 張安琪
(1.黑龍江八一農墾大學工程學院, 大慶 163319; 2.國家農業智能裝備工程技術研究中心, 北京 100097; 3.北京市農林科學院智能裝備技術研究中心, 北京 100097; 4.農業農村部南京農業機械化研究所, 南京 210014)
秸稈是農業生產過程中重要的生物質資源,其富含氮、磷、鉀、鎂、鈣等重要元素以及粗纖維和有機質,是一種具有多用途的可再生生物資源,具有很大的利用價值。對秸稈資源的開發利用,不僅可有效改善人居環境,還能在一定程度上緩解全球能源緊缺的問題[1-2]。含水率是衡量秸稈品質的重要指標,含水率在一定程度上決定了秸稈的利用價值[3-5]。由于過去對其不夠重視及缺乏相關檢測技術,常造成不必要的經濟損失和資源浪費。因此,研究一種快速、準確的小麥秸稈含水率檢測方法,對于秸稈資源的高效利用具有重要意義。
目前,應用于秸稈含水率檢測的方法主要有電容法、電阻法、近紅外光譜法、微波法等。皇才進等[6]采用近紅外光譜技術結合LOCAL算法建立秸稈含水率(5.13%~20.44%)和熱值的近紅外光譜模型;FALBO[7]基于電阻法設計了平面極板式含水率在線檢測系統;萬舟等[8]基于微波法通過對微波的衰減量和相移量的測量可測得秸稈的水分含量;郭文川等[9]基于電容法探究秸稈含水率(10.6%~19.6%)、溫度(5~35℃)和容積密度(77.2~103.6 kg/m3)對輸出電容的影響;FONSECA等[10]采用近紅外光譜儀對秸稈含水率進行檢測,研究表明旋轉掃描方法檢測精度更加穩定。其中,電容法具有適應性強、可靠性高、動態響應性好和結構簡單易維護等優點[11],是目前農業物料含水率檢測的主要技術手段。
基于電容法的秸稈含水率檢測研究多考慮溫度、含水率對電容的影響,較少考慮容積密度因素,且已有模型多為線性模型[9],存在容積密度適用上限低、含水率檢測范圍窄等問題?;诖耍疚牟捎秒娙莘ㄔ?,通過設計電容采集裝置,使用LCR數字電橋采集不同含水率小麥秸稈在不同頻率、不同容積密度與不同溫度下的電容數據,采用BP神經網絡結合特征頻率篩選算法構建秸稈含水率定量分析模型,并引入麻雀搜索算法(SSA)對模型進行優化,分析模型的預測效果,確定小麥秸稈含水率的最佳建模方法。以實現小麥秸稈含水率的快速、準確定量分析。
以小麥秸稈為試驗對象,秸稈樣本于2021年6月在國家精準農業研究示范基地采集。由于試驗盒內部尺寸為180 mm×125 mm×70 mm,為保證每份裝入盒中的樣本密度均勻,不因過于疏松或致密導致試驗盒中不同樣本的質量差距過大,因此將采集的秸稈粉碎成長度(30±5) mm的枝干狀,并隨機分為56個樣本,每個樣本80 g,裝于自封袋中保存在25℃的室溫環境下。
1.2.1電容采集裝置設計
電容采集裝置結構如圖1所示,主要包括亞克力試驗盒, TH2830型LCR數字電橋及配套數據采集軟件(常州同惠電子股份有限公司),DHG-9240A型鼓風干燥箱(上海一恒科學儀器有限公司),WDW-01S型微機控制電子萬能拉壓力試驗機及配套軟件(常州三豐儀器科技有限公司),MTB2000D型精準電子天平(深圳市美孚電子有限公司),西瑪-AT1150型紅外線測溫儀(東莞萬創電子制品有限公司)。

圖1 電容采集裝置結構示意圖Fig.1 Schematic of capacitance acquisition device1.溫控箱 2.拉壓力試驗機 3.亞克力試驗盒 4.硅橡膠加熱板 5.支柱 6.螺栓 7.拉壓力傳感器 8.升降臺 9.數字電橋
亞克力試驗盒內部尺寸為180 mm×125 mm×70 mm,將待測秸稈在亞克力試驗盒內填滿,為使得秸稈樣本各處受力均勻,將壓板覆蓋于秸稈樣本上;設計2塊尺寸為120 mm×50 mm×2 mm的銅板對稱布置在試驗盒底部,二者相距3 mm,用于采集秸稈電容數據;設計硅橡膠加熱板包裹在試驗盒外壁,通過調節溫控箱按鈕,預設試驗環境溫度,達到改變試驗盒內溫度的目的;用螺栓將試驗機壓力臺、拉壓力傳感器和支柱連接到一起,通過上位機軟件控制試驗機壓力臺升降,實現對試驗盒內秸稈壓力的調控,以達到改變秸稈容積密度的目的。
1.2.2樣品制備
從秸稈樣本中隨機取出1份并置于105℃的電熱鼓風干燥箱中4 h至質量恒定,測得小麥秸稈的初始濕基含水率為10.43%[12]。為配制不同含水率的樣本,取56個(每個80 g)秸稈樣本,通過添加不同質量的去離子水,得到56個不同含水率的樣本并編號。為保證樣品吸收水分均勻,將配好的樣品裝入PE自封袋中,置于25℃的室溫環境下1~2 d。期間每天取出樣本2~3次,充分攪拌后倒回袋中,以使水分分布均勻。
1.2.3數據獲取
電容數據采集前,先將室內溫度調至25℃恒定,將LCR數字電橋測量電極與2塊銅板外接線相連,再開機預熱30 min并校準清零。采集時,由于試驗盒容積所限,從樣本中取出40 g左右秸稈填滿試驗盒即可,剩余樣本裝回袋中繼續密封;通過溫控箱將試驗環境溫度依次設置為25、30、35、40℃,使用手持式紅外線測溫儀對電容采集裝置內部溫度進行定期測量;通過萬能拉壓力試驗機改變對秸稈壓力的方式來調節秸稈的容積密度,將試驗機對秸稈的壓力設置在500~3 600 N之間,故秸稈的容積密度在90.08~179.42 kg/m3范圍內,每個秸稈樣本在同一溫度下從上述容積密度范圍內隨機選取3個容積密度,確保所有樣本組合選取的容積密度在90.03~179.42 kg/m3之間均勻分布;在0.05~100 kHz共取100個呈對數正態分布的頻率點,作為LCR數字電橋的檢測頻率,測量待測秸稈樣本在上述不同容積密度、溫度、頻率點組合下的電容數據。
秸稈含水率測量裝置主要由電子天平、電熱鼓風干燥箱組成。測量前,先將電子天平開機預熱15 min后并校準清零,測量時,將試驗盒中樣本與自封袋中剩余樣本充分混合后分為2份,并分別置于105℃的電熱鼓風干燥箱內干燥4 h,根據干燥前樣本的鮮質量與干燥后樣本的干質量可計算出各樣本的實際含水率。
1.4.1樣本集劃分
試驗共配制了56份樣本,樣本的濕基含水率在10.43%~25.89%之間,每個樣本又在4個溫度及3個容積密度條件下分別采集100頻率點下的電容,共得到672組電容數據。通過對數據進行觀察,采用馬氏距離法剔除一些因儀器設備和試驗操作原因產生的異常數據,剩余656組數據。采用留出法,隨機選取樣本數據中3/4的數據作為建模的校正樣本,另外1/4的數據作為測試樣本。劃分結果見表1。

表1 校正集和預測集統計結果Tab.1 Statistics results of moisture content in calibration and prediction sets
1.4.2數據處理方法
因研究中所選的多個頻率間可能會存在較強的線性相關,它們會包含較多的冗余信息,增加模型的復雜度,通過特征提取方法能夠從原始數據中提取主要信息,達到在不損失過多原頻率信息的基礎上,降低模型的復雜程度[13-14]。本研究采用連續投影法(SPA)及主成分分析法(PCA)來選取特征頻率。SPA是一種能夠有效解決變量間共線性問題的變量篩選方法,利用向量投影可優選出冗余度低、共線性小又能反映樣本頻譜重要信息的特征頻率。PCA是一種被廣泛使用的數據降維算法。其主要思想是通過某種線性投影,將高維空間的數據映射到低維空間中,并通過計算特征頻率的方差優選出信息量大的特征頻率,以達到使用較少的數據維度就可保留住較多信息的目的[15]。PCA是對頻譜數據進行主成分分析,在累計貢獻率大的前幾個主成分相應的權值系數曲線中,權值系數的絕對值與其相對應頻率的貢獻程度成正比,故選擇曲線中波峰和波谷處對應的頻率為特征頻率[16]。
1.4.3建模方法
常用的建模方法主要分為線性方法和非線性方法。線性建模方法主要有偏最小二乘回歸(PLSR)、多元線性回歸(MLR)和主成分回歸等;非線性建模方法主要有支持向量回歸(SVR)[17]、BP神經網絡等??紤]到試驗數據量大,線性建模方法不能很好地擬合非線性數據,支持向量回歸(SVR)不善于處理大量數據。因此,本文選用適合處理大量數據,并且非線性擬合能力強的BP神經網絡建立含水率檢測模型。
BP神經網絡是一種多層前饋神經網絡。該算法處理信息的神經元可分為3層:輸入層、隱含層、輸出層,每層的神經元狀態只影響下一層神經元狀態。其主要特點是信號向前傳遞,誤差反向傳播,通過反向傳播來不斷調整網絡的權值和閾值,使神經網絡的誤差平方和趨于最小[18],該算法具有很強的非線性映射能力,可映射任意復雜的非線性關系,并具有很強的魯棒性和自適應能力。
影響小麥秸稈電容的主要因素有秸稈含水率、容積密度和環境溫度,因此,設定小麥秸稈容積密度、環境溫度和選取的特征頻率為神經網絡的輸入參數,小麥秸稈含水率為輸出參數,如圖2所示,采用單隱含層的3層網絡結構,隱含層節點數計算公式為
(1)
式中n——輸入層節點數
l——隱含層節點數
m——輸出層節點數
a——1~10之間的常數

圖2 BP神經網絡結構Fig.2 BP neural network structure
通過反復試驗確定輸入層到隱含層的傳遞函數為S型正切函數tansig,隱含層到輸出層的傳遞函數為線性函數purelin。常用的訓練函數包括trainlm、trainrp、trainscg等,其中trainlm具有收斂速度快、誤差小、訓練效果優的特點,因此本文采用trainlm作為訓練函數[19]。
BP神經網絡訓練前,為減弱各主控因素不同量綱的數據對網絡模型訓練與預測值的影響,各主控數據做歸一化處理。計算式為
(2)
式中x——原始數據y——歸一化值
xmax——同一影響因素響應值的最大值
xmin——同一影響因素響應值的最小值
ymax——歸一化最大值,取1
ymin——歸一化最小值,取0

1.4.4麻雀搜索算法優化BP神經網絡模型
麻雀搜索算法(SSA)是一種新型的群智能優化算法,該算法主要是受麻雀覓食行為和逃避捕食者行為啟發而設計[21-24]。麻雀在覓食過程中會分為3種類型:發現者、加入者和偵察者,利用這三者間的關系及麻雀遇到捕食者時的行為可達到優化搜索的目的。同近年來新興的群智能優化算法相比,麻雀搜索算法具有較好的全局搜索和局部開發的能力,在尋優過程中,能促進麻雀種群向全局最優值移動,有效避免易早熟收斂、收斂速度慢等缺點,具有良好的魯棒性和收斂速度。整體過程如圖3所示。

圖3 麻雀優化算法流程圖Fig.3 Process chart of sparrow optimization algorithm
SSA-BP算法的實施過程如下:
(1)讀取數據。確定BP神經網絡模型的校正集和測試集樣本,對數據進行歸一化處理,將本研究中不同量綱數據歸一化到0~1之間,并根據式(1)確定最佳隱含層節點數。
(2)網絡參數配制。將訓練次數設置為1 000次,學習速率設置為0.01,訓練目標最小誤差設置為0.000 1。
(3)初始化參數。設置SSA算法的初始種群規模N和最大迭代次數T,本文將初始種群規模N設為30次,最大迭代次數T設為50次;設定種群中不同類型的麻雀比重和安全值,本文將安全值ST設為0.6,發現者數量NPD設為0.7,偵察者數量設為0.2。
(4)計算初始適應度。根據適應度計算出全局中最優個體。
(5)根據適應度將麻雀種群分類,并對不同類型的麻雀個體位置進行更新。
(6)若迭代次數達到最大迭代次數,學習過程結束,輸出最優參數和適應度,否則返回步驟(5)重復上述過程。
圖4為不同含水率的秸稈在相同環境溫度和容積密度條件下電容隨頻率的變化曲線。在頻率0.05~100 kHz范圍內,秸稈的電容隨頻率的增大而減小。這是因為隨著頻率的不斷增大導致偶極子的振動速度滯后于電場的變化,所以樣本的電容會隨著介電常數的減小而不斷減小[25]。同一頻率下,不同樣本的電容受濕基含水率的影響不同,主要表現為:秸稈樣本濕基含水率越高,電容越高。

圖4 不同含水率秸稈在不同頻率下電容變化曲線Fig.4 Capacitance curves of straw with different moisture contents at different frequencies
圖5為容積密度和溫度對秸稈電容的影響曲面。由圖5a可以看出,當頻率和溫度一定時,隨著容積密度的升高,秸稈電容呈單調遞增的趨勢,這是因為秸稈受到擠壓后密度增大,單位體積內秸稈量隨之增加,并可以儲存更多的電場能,所以測量儀器會測得更大的電容[26]。由圖5b可以看出,當頻率和容積密度一定時,秸稈的電容隨溫度的升高而增加,這是因為溫度升高有利于加速秸稈內極性分子的取向運動和自由水的布朗運動,致使秸稈的相對介電常數增加,故秸稈電容也隨之增加[27]。

圖5 秸稈容積密度和溫度對電容的影響曲面Fig.5 Influence of bulk density and temperature of straw on capacitance
2.2.1連續投影法特征頻率選取
為保證模型性能可靠,設置選取的頻率數量為2~30,以不同頻率數量所對應的RMSE作為最佳的特征頻率數的指標。當選取的頻率數量為5時,RMSE最低(0.025 002),如圖6所示??紤]到過多的特征頻率會導致模型復雜度上升,故選取電容的5個頻率作為SPA選取的特征頻率。SPA算法選取的特征頻率如圖7所示。

圖6 RMSE隨SPA選取頻率數量的變化曲線Fig.6 Change of RMSE with selected characteristic frequency by SPA

圖7 采用SPA算法選取的特征頻率點Fig.7 Characteristic frequency points selected by SPA algorithm
2.2.2主成分分析法特征頻率選取
在將PCA算法用于原始頻率數據的提取過程中,主成分分析得到的前3個主成分累計方差貢獻率接近100%,說明前3個主成分能夠較為全面地反映絕大部分原始信息,從前3個主成分的權值系數曲線中提取4個特征頻率。采用PCA法選取的特征頻率如圖8所示。全變量、SPA和PCA所選出的特征頻率如表2所示。

圖8 采用PCA算法選取的特征頻率Fig.8 Characteristic frequency selected by PCA algorithm

表2 SPA與PCA選取的特征頻率Tab.2 Characteristic frequency selected by successive projections algorithm and principal component analysis
為了選取最佳檢測模型,以全頻率、SPA和PCA分別選取的特征頻率與容積密度、環境溫度組合作為建模分析的自變量,秸稈樣本含水率為因變量。選用BP神經網絡算法分別與上述3種變量組合構建模型,建模結果如表3所示。

表3 基于不同特征頻率選取方法的BP建模結果Tab.3 BP modeling results based on different characteristic frequency selection methods


從模型復雜程度來看,基于全頻率構建的BP模型中存在大量冗余信息,增加了模型復雜程度。基于SPA和PCA算法能有效提取全頻率中的重要信息,會大大簡化模型復雜程度,減少模型的運算量并提高程序運行速度。
建模結果表明,提取特征頻率有效地減少大量冗余信息和損害模型的信息,在大幅降低模型復雜度的基礎上,依舊保持較高的預測精度。因此,基于電容法采用SPA和PCA提取特征頻率并分別與容積密度、環境溫度組合建立的BP神經網絡模型均具有較高的含水率預測精度和可靠性。
為進一步探究SSA算法對BP模型預測精度的影響,引入SSA算法對基于不同特征頻率選取方法構建的BP模型進行優化,并繼續比較分析。
由表3和表4可以看出,SSA-BP建模方法中模型R2較BP建模方法中模型的R2更高,RMSE更低,RPD則更高,這表明經SSA算法優化后的模型具有更高的預測精度和可靠性。

表4 SSA-BP模型結果Tab.4 Results of SSA-BP model
為探究最佳模型對不同秸稈樣本含水率的預測效果,隨機配制了含水率為10.62%~25.59%的13個秸稈樣本,將環境溫度分別設置為25、30、35、40℃,在容積密度90.03~179.42 kg/m3范圍內隨機選擇4個容積密度和頻率0.058、0.215、0.583、12.581、100.000 kHz下采集上述秸稈樣本的電容,共形成156組數據,對模型進行驗證。圖9為SPA-SSA-BP的預測結果,可以看出樣本集中于回歸線(y=x)附近,預測效果較佳。因此,最終選擇SPA-SSA-BP作為小麥秸稈含水率的檢測模型。圖10統計了樣本含水率預測值與烘干法測得的實際值的相對誤差,相對誤差為-5.27%~5.52%,其中96.8%的預測誤差集中在±5%范圍內,說明該模型具有較高的準確性和較好的魯棒性。

圖9 SPA-SSA-BP模型的含水率預測結果Fig.9 Moisture content predicted results of SPA-SSA-BP model

圖10 模型對不同含水率秸稈的預測相對誤差Fig.10 Model prediction relative error of different moisture contents of straw
(1)探究了不同含水率、容積密度、環境溫度、頻率下秸稈電容的變化規律,在含水率10.43%~25.89%范圍內,電容隨樣本含水率的增大而增大;在頻率0.05~100 kHz范圍內,電容隨頻率的增大而減小,當頻率大于1 kHz時,減小趨勢平緩;在容積密度90.03~179.42 kg/m3范圍內,電容隨容積密度的增大而增大;在溫度25~40℃范圍內,秸稈電容隨環境溫度的升高而增大。結果表明含水率、容積密度和環境溫度對電容的影響極顯著。


(4)對13個含水率為10.62%~25.59%的秸稈樣本進行預測,結果表明,模型預測結果相對誤差為-5.27%~5.52%,其中96.8%的預測誤差集中在±5%范圍內,模型具有較高的準確性和較好的魯棒性,本文提出的方法可進一步提高小麥秸稈含水率檢測模型的檢測精度,并為其他作物秸稈含水率預測提供了思路和理論參考。