周星宇, 姜洪喆, 蔣雪松, 沈 飛,何學明, 張 祎, 莫曉嵩
(南京林業大學機械電子工程學院1,南京 210037)(南京財經大學食品科學與工程學院2,南京 210023)(江蘇省糧油質量監測中心3, 南京 210031)
可見/近紅外光譜分析技術具有低成本、高效率、無損等優點,作為一種快速分析技術之一,廣泛地應用于各個領域,本文利用可見/近紅外光譜分析技術對江蘇13市的小麥樣本進行小麥品質的動態檢測。
小麥作為三大谷物之一,在全世界各地廣泛種植,研磨而成的小麥粉可以制作成面包、饅頭等食物,對人類的生活有著重大的意義[1]。民以食為天,糧食的安全與每一個人都息息相關,隨著生活水平的提高,人們對于小麥品質的要求也越來越高,由于小麥的生產、加工、貯藏等原因,小麥品質容易劣變,如在貯藏期小麥水分先降低后升高,隨著貯藏時間增加變化趨于穩定,不同的貯藏方式對濕面筋影響較大,如高溫貯藏會使得濕面筋含量下降等。國內外很多學者研究利用近紅外光譜分析技術研究了小麥的赤霉病、白粉病、嘔吐毒素等病變,還研究了小麥的蛋白質、水分、灰分、濕面筋、硬度指數等關鍵指標。所以一種快速、簡單的檢測技術就十分重要,本文探索了利用動態可見/近紅外技術實現對小麥品質的快速檢測[2]。
可見/近紅外光譜屬于吸收分子光譜,吸收帶主要是由低能電子躍遷、含氫原子團(N—H、O—H、C—H)的伸縮振動的倍頻及組合頻吸收產生[2-5]。原子團具有固定的震動頻率,當分子受到紅外線照射時,被激發產生共振[6-8]。分子振動的非諧振性使分子振動從基態向高能躍遷時產生可見/近紅外光譜,通過測量物質吸收可見/近紅外光能量大小,可以反應被測物質的特征[9,10]。
本研究利用動態光譜檢測技術建立動態小麥質量指標的預測模型,對于推動可見/近紅外光譜技術動態、在線檢測有著重要的意義。本文同時還創新性的建立小麥硬度指數的預測模型,小麥硬度作為重要的加工指標,在小麥碾磨成小麥粉過程中,是制粉工藝和其他參數的重要指標。
可見/近紅外光譜分析技術在獲得樣本信息時容易參雜噪聲,所以需要找到合適的預處理和建模方式。本文采用偏最小二乘回歸分析(PLSR)和BP神經網絡(BP-ANN)兩種建模方法,研究在不同預處理方法下小麥各品質PLS建模結果,還研究了在相同預處理下不同訓練算法下建立的BP神經網絡的模型。
本文采用的小麥樣品來自江蘇省南京、常州、無錫等13個市各縣、鄉、村共213份,為了保證樣本具有一定的代表性,該樣本的土壤環境包括沙土、黏土、淤土、半沙半淤、壤土等31種不同土壤環境,小麥品種有寧麥13、楊麥16、煙農19、鎮麥12、蘇麥199等78種不同小麥品種。因此選取的213份樣本具有一定的代表性,可以用于研究。
本研究根據《GB 5009.3—2016 食品安全國家標準 食品中水分的測定》中直接干燥法測定小麥水分,根據《GB/T 21304—2007 小麥硬度測定法 硬度指數法》測定小麥硬度指數,根據《GB/T 5506.1—2008 小麥和小麥粉 面筋含量》中手洗法測定濕面筋,根據《GB 5009.5—2016 食品國家安全標準 食品中蛋白質的測定》中的凱氏定氮法測定小麥蛋白質。
本研究采用可見/近紅外光譜動態采集平臺由三個部分組成:機械傳送單元、信息采集單元和信息處理單元。該平臺具有操作方便、速度易調節等優點。

圖1 近紅外光譜動態采集平臺示意圖
本研究采用德國蔡司ZEISS MCS 600光纖光譜儀和OMK500-H/NIR型漫反射探頭,對213種來自江蘇13市的小麥樣本進行光譜采集,實驗前將小麥樣本平衡至室溫24 ℃,開啟光譜儀預熱30 min,設置積分時間為100 ms,平均采集次數3次,采集波段為600~1 600 nm,將小麥樣本置于樣本架上,樣本距離探頭約為3 cm,啟動傳送帶,設置傳送帶速度為0.1 m/s,采集小麥樣本的動態可見/近紅外漫反射光譜。
由于固體顆粒大小、表面散射和光程變化對可見/近紅外漫反射光譜的影響,需要對采集的光譜進行預處理,以提高光譜的與數據間的相關性,降低噪聲的影響,本文研究了在不進行任何預處理和3種不同預處理下對同一種品質建模結果的影響[11-15]。光譜的預處理方法:標準正態變化算法(SNV); Savitzky-Golay卷積平滑法(S-G平滑);多元散射矯正(MSC)。
本研究對不采用任何預處理和進行3種不同預處理方法分別進行建立偏最小二乘分析(PLS)模型,利用決定系數(R2)和均方根誤差(RMSE)評價指標衡量建立模型的預測性能[15-23]。
同時本研究為了研究深度學習建模方法在小麥品質上的預測與回歸能力,利用BP神經網絡(BP-ANN)建立預測模型。本研究將小麥的光譜數據作為輸入層,則m為每個樣本的波點數256,n為1代表每個樣本的品質,根據經驗公式選擇的隱藏層節點為25,其示意圖如下。把樣本的測試誤差的范數用來衡量網絡的優劣,再通過誤差范數計算每一個個體的適應度值,使得誤差范數減小[24]。在BP神經網絡前向傳播時,隱藏層有著激勵函數對輸入節點的數據進行處理,常用激勵函數有sigmoid函數、tanh函數等,由于sigmoid函數收斂速率快,本文選擇的激勵函數為sigmoid函數[25]。在BP神經網絡反向傳播時,為達到均方根誤差最小,需要不斷對網絡中的權重和偏置進行調整[26,27]。同時研究了4種不同訓練算法對建模結果的影響,這4種算法分別為:梯度下降法(GD算法);賴文貝格-馬夸特算法(LM算法);貝葉斯正則化算法(BR算法);共軛梯度法(CG算法)。
圖2為213份樣本通過ZEISS MCS 600光纖光譜儀和OMK500-H/NIR型漫反射探頭采集到的光譜,區間為600~1 600nm,在可見/近紅外光譜區間中,發現由于每一個樣本自身所具有的特殊性,光譜曲線整體上看上去類似,但還是存在差異性[28-30]。由圖2可以看出在970、1 210 nm處有明顯的吸收峰。近紅外光譜區與有機分子中含氫基團(O—H、N—H、C—H)振動的合頻和各級倍頻的吸收區一致,通過掃描樣品的可見/近紅外光譜,可以得到樣品中有機分子含氫基團的特征信息[30-34]。在970 nm處為O—H基團的二級倍頻吸收,在1 210 nm處為C—H基團的二級倍頻吸收,這與小麥的品質有最直接的聯系[35]。

圖2 原始光譜圖
利用上述幾種預處理方法對光譜進行預處理,注意校正集與預測集需要以同一種預處理方法處理。為保證驗證不同預處理方法的可靠性,以比較出哪一種預處理方法更適用于本實驗。利用PLSR建立模型,以決定系數(R2)、均方根誤差(RMSE)和RPD值作為評價指標進行驗證。結果如下表,發現蛋白質在經過MSC預處理后的模型最好,決定系數為0.863 5和0.827 5,RMSEC為0.511,RMSEP為0.574,MSC預處理可以有效消除散射水平不同帶來的光譜差異,從而增強光譜與數據間的相關性,該方法可以通過理想光譜修正光譜的幾線平移和偏移現象,在這種預處理下的建立的蛋白質模型較好。水分在不經過任何預處理下建立的模型最好相關系數為0.908 9和0.878 5,RMSEC為0.291,RMSEP為0.379,預處理雖然可以減少噪聲,但也可能丟失一部分敏感信息,降低了其預測能力。
預處理為SNV時,可以有效的消除固體顆粒大小、表面散射和光程變化對漫反射光譜的影響。濕面筋模型在經過SNV預處理后的建立的模型最好,相關系數為0.874 4和0.832 2,RMSEC為1.258,SEP為1.453,硬度指數經過SNV預處理后的模型較好,相關系數為0.757 2和0.725 7,RMSEC為2.162,SEP為2.162。發現小麥的硬度指數預測模型低于其他模型,由于小麥的硬度指數與水分有著直接關系,本樣本水分含量范圍廣,建立預測模型難度較大。除了水分,其他小麥品質在經過預處理后的模型建立效果良好。

表1 不同預處理方法小麥品質PLSR建模結果
由表2可以看出采用sigmoid函數為激勵函數時,再比較上述4種不同訓練算法時,發現利用GD算法和BR算法時,訓練時長較另外2種方法,訓練時間更長,利用BP-ANN建立模型,以校正集決定系數(R2)、交互驗證均方根誤差作為評價指標進行驗證。發現小麥的蛋白質、水分和硬度指數利用BR算法其模型更好其訓練集的Rc2分別達到0.875 7、0.955 1和0.723 7,預測集Rp2分別達到0.892 8、0.926 9和0.794 7,更適合回歸分析;濕面筋利用LM算法其模型更好,其訓練集的Rc2達到0.808 5,預測集Rp2達到0.743 6。由表2可知水分和濕面筋的預測集均方根誤差高于訓練集,可能產生的原因為訓練率太小,陷入局部最優,也可能學習率過大或者數據噪聲太大。同時發現蛋白質和硬度指數的預測集均方根誤差低于訓練集,產生的原因為數據集太小,數據集切分不均勻,也可能為模型正則化過多,訓練時dropout過多。

表2 不同訓練算法小麥品質BP-ANN模型結果
本研究采集不同產地和不同土壤環境下的動態小麥光譜信息進行分析,結合PLSR和BP-ANN建立預測模型。
利用動態可見/近紅外光譜分析技術,傳送帶在0.1m/s速度下獲得的動態光譜,發現可以實現在動態環境下對小麥品質的定量分析;利用PLS算法,對獲取的動態小麥光譜數據建立蛋白質、水分、濕面筋和硬度指數的預測模型,結果表明蛋白質在經過MSC預處理后的模型最好,水分在不經過任何預處理下建立的模型最好,濕面筋和硬度指數模型在經過SNV預處理后建立的模型最好。利用BP-ANN算法,對獲取的動態小麥光譜數據建立蛋白質、水分、濕面筋和硬度指數的預測模型,比較4種不同的訓練算法對模型的影響,發現利用BR算法,可以建立良好的蛋白質、水分、硬度指數的模型,利用LM算法可以建立良好濕面筋的模型。通過研究發現基于深度學習的建模方法對于可見/近紅外光譜分析有著重要的意義。本研究發現,利用動態光譜建立的PLS和BP-ANN模型可以快速、有效的得到小麥的主要品質參數。