朱培培 田芳明,2 譚 峰 馬文寶 嚴陳慧子
(黑龍江八一農墾大學信息與電氣工程學院1,大慶 163319)(農業部農產加工品質量監督檢驗測試中心2,大慶 163316)
黑龍江省粳稻產量占全國50%以上,近年來由于我國退耕還林政策和農業種植結構調整優化,導致水稻種植面積有所降低,故需要最大限度的對其產量進行提升,但因種子市場混雜,由種子質量問題而產生的糾紛屢見不鮮,種子質量的好壞直接關系到水稻產量的高低及品質的優劣,每年因其造成很大的經濟損失,因此,對其進行品種鑒別一直是農業生產、種子檢測和作物育種中的重要問題。
傳統的種子品種檢測方法如形態鑒定、顯微鑒定、微形態鑒定及微性狀鑒定,其操作簡單,但是由于種子的鑒定特征在各個科屬中存在的變異很難達到鑒別種子的目的[1]。逐漸發展起來的SSR分子標記法對水稻品種檢測可靠性高[2],但該方法操作復雜,對操作人員技術水平要求較高,且無法批量分析。因此,簡便、高效快捷地獲取品種機理信息是解決農業上鑒別種子品種類別的重要手段。
快速、便捷、高效是光譜分析技術迅速在品種鑒別領域得到廣泛發展的原因之一。目前,應用于水稻品種鑒別的設備和技術主要包括近紅外光譜技術、高光譜技術、圖像、多光譜成像技術等[3-9],拉曼光譜因操作便捷,靈敏度高、重現性好的特性和優勢,使得該技術在文物考古[10]、石油化工[11]、醫藥[12-14]、食品[15,16]等領域獲得了推廣和應用。
目前,基于拉曼光譜技術的水稻品種鑒別方法主要以南方水稻為研究對象[17],通過秈稻進行品種鑒別,取得了良好的鑒別效果,但是該方法僅對秈稻與粳稻進行區分。應用拉曼光譜技術與化學計量學方法結合[18]雖實現對粳稻品種間鑒別,但是鑒別地域分布較為廣泛。近紅外光譜技術[19]可以準確、快速地針對寒地粳稻種子品種鑒別,但鑒別品種種類較少(3種),對多品種粳稻種子的鑒別需要進一步探究。
國內外很多學者利用拉曼光譜、近紅外光譜技術對粳稻、秈稻以及糯稻等水稻品種進行了大量的研究[20-22],而多種類品種的粳稻種子鑒別較秈稻、糯稻復雜,在關于品種的水稻種子鑒別中開展南方水稻、雜交水稻和寒地少種類品種鑒別等研究較多,而關于寒地多種類品種的粳稻種子鑒別相對較少。因此,開展寒地多品種粳稻種子的拉曼光譜鑒別方法研究具有重要的應用價值。
實驗選用黑龍江省2019年主要種植的10粳稻種子為研究對象,樣品由黑龍江省農業科學院提供,品種分別是墾稻32、龍粳21、龍粳29、龍粳31、綏粳18、綏粳27、中科902、空育131、墾稻41、龍粳46。
實驗使用Advantage 532臺式拉曼光譜儀,分辨率為1.4 cm-1,測量范圍為200~3 400 cm-1,結合ProScope HR軟件獲取樣本圖像信息。因種子外部包裹著谷殼,拉曼光譜儀器無法穿透其谷殼直接進行光譜信息采集,故對水稻種子應用LJJM-2011精米機碾磨50 s,去除外部谷殼獲得大米備用,數據分析軟件采用Matlab2018a實現。
1.3.1 實驗方法
對精米機碾磨完成的樣本進行挑選,去除破損、干癟、畸形等大米;將挑選完成每種樣品存儲在不同編號的密封袋中,以減少外界因素對實驗結果的影響;從每種樣品中隨機選取20粒作為該品種樣本集;利用拉曼光譜儀對每種樣品集中每個樣本中部進行3次光譜數據采集,取平均光譜作為該樣本的最終光譜值。
1.3.2 樣品劃分方法
實驗采用光譜-理化共生距離(SPXY)樣本劃分法將預處理數據劃分為訓練集和測試集,其中訓練集樣本數為134個,測試集樣本數為66個。
實驗獲取了200~3 400 cm-1的光譜信息,由于200~400 cm-1和3 200~3 400 cm-1范圍內無特征峰,為提高分類效果,將上述波段去除,保留400~3 200 cm-1的光譜信息作為原始光譜數據,如圖1a所示。經過SG平滑、AIRPLS、一階導(1-Der)、二階導(2-Der)、MC數據預處理方法后光譜如圖1b~圖1f,由預處理結果可以看出,在400~3 200 cm-1波段范圍內,水稻樣本的光譜曲線形狀相似,無法從光譜曲線上對品種進行直觀區分,需要通過數學建模方法進行鑒別分析。






圖1水稻樣本預處理前后光譜分布
分別利用PLSDA和SVM方法對原始光譜數據和預處理數據進行建模,結果如表1和表2所示,基于原始光譜所建立的PLSDA模型比SVM模型測試集準確率高37.87%。SG、MC和SG+MC在每個模型中鑒別準確率分別為72.73%、95.45%和56.06%,其中SG和SG+MC在每個模型中鑒別效果均為最低,可能是因為SG只是對光譜數據進行平滑,MC是使數據變為均值為0的數據(故準確率與原光譜相同),兩者都沒有對光譜數據中無關信息或噪聲問題處理。除以上情況外的10種預處理組合方法中,兩種模型測試集準確率均達到89%以上,說明預處理后水稻品種信息在模型中均能較好的進行表達。

表1 基于PLSDA方法的不同預處理數據建模鑒別結果

表2 基于SVM方法的不同預處理方法建模鑒別結果
AIRPLS+SG、AIRPLS+1-Der、AIRPLS+MC、AIRPLS+SG+MC和AIRPLS+1-Der+MC五種方法在兩種模型中測試集準確度均能分別達到95.45%和96.97%,但是AIRPLS+SG、AIRPLS+MC和AIRPLS+SG+MC方法在PLSDA模型中訓練集均出現誤判;AIRPLS+1-Der和AIRPLS+1-Der+MC兩種方法雖然在兩種模型中訓練集準確度均為100%,測試集準確度分別達到95.45%和96.97%,但由于AIRPLS+1-Der方法相比較AIRPLS+1-Der+MC程序簡單,建模也相對簡便。因此,后續研究選擇AIRPLS+1-Der 組合的預處理方法進行深入建模分析。
2.3.1 SPA提取特征波段
由于原始及預處理數據量大,故研究特征提取方法,以減少建模數據量。采用SPA方法對樣本拉曼光譜數據進行特征波段提取,結果如圖2所示,最佳特征波數(圖2b中“□”所對應的橫坐標)對應均方根誤差(RMSE)=1.722 6最小時個數為38,說明提取的特征波段包含粳稻種子的品種差別信息和真實值相比具有較高的相似性,因此,選取該38個波段及對應強度值作為后續建模數據。


圖2 SPA提取特征波段
2.3.2 SR提取特征波段
利用 SR 特征提取算法提取特征波段,使最終樣本集包含所有對因變量顯著的變量,且包含的自變量要盡可能的少,最終得到一個最優的變量集合。
設n為觀測樣本數,X=(x1,x2,x3,…xm)為所有自變量構成的集合,A={xi1,xi2,xi3,…,xil}為X的子集,其中,m為自變量,xi獨立抽取的樣本,xil為獨立抽取的樣本數。
在計算過程中首先應使均方差S2最小:
(1)
其中,SE(A)為殘差平方和。在此基礎上遵循BIC準則,即BIC最小;
(2)
最后遵循R2準則:使R2最大;
(3)
最終通過逐步回歸選取特征變量數為123個。
2.3.3 CARS提取特征波段
使用CARS算法(設置蒙特卡洛采樣次數為50)進行特征選取后結果如圖3所示。由于指數衰減函數EDP的作用,在前5次采樣中波段變量數減小的速度較快,隨后逐漸變緩,表明其在特征變量選取中具有“粗選”和“精選”兩個階段。在采樣次數的增加初始階段,五折交互驗證RMSECV值逐漸變小,表明大量與水稻品種鑒別無關或部分共線的信息被剔除。在采樣次數為 15時 RMSECV取得最小值[圖3c中“*”垂線標示],隨著采樣次數的增加,RMSECV值逐漸增加,說明模型性能隨著光譜數據中關鍵信息的刨除逐漸變差。因此取第15次MC采樣后獲得的變量確定為預測水稻品種鑒別的特征波段變量,共353個。

圖3 CARS提取特征波段
模型運行時間是衡量其好壞的一個重要因素,基于特征提取數據建模效果與模型運行時間分析見表3和表4。所有模型的訓練集識別效果較好;基于CARS的特征提取方法建模效果好于其他幾種,基于SPA和SR的特征提取方法,雖然降低了建模數據維數,但建模準確率較原始光譜差;SR特征提取數據建立的模型運行時間最短,CARS的次之,SPA的最長;相同的數據集,SVM方法建模的訓練集與測試集鑒別準確率明顯優于PLSDA方法,但在模型運行時間上,SVM方法略顯劣勢。

表3 基于不同特征波段提取方法所建PLSDA模型的鑒別結果

表4 基于不同特征波段提取方法所建SVM模型的鑒別結果
本研究選用黑龍江省主要種植的10個品種的粳稻進行分類鑒別方法研究。在探究13種預處理方法及組合對模型影響中,AIRPLS+1-Der組合的預處理數據建模準確率高達96.97%;在探究3種光譜特征提取方法和運行時間對模型影響中,CARS提取的特征波段在模型中預測效果優于其他算法。特征提取算法中, SVM模型在此條件下,更適合對寒地多品種粳稻種子的拉曼光譜鑒別。
AIRPLS+1-Der的預處理方法和CARS特征提取方法在2種模型中均能實現對粳稻種子的快速鑒別,拉曼光譜技術滿足了對黑龍江省多種類(10種) 品種粳稻種子高效、快捷、準確鑒別的要求。因此,本實驗可為進一步開展拉曼光譜技術在其他農作物農業生產、種子檢測和作物育種提供參考。