楊 東 常 青 苑江浩 - 曹 陽 趙會義 -
(國家糧食和物資儲備局科學研究院,北京 100037)
稻谷是中國三大儲備原糧之一,其貯藏品質及食用品質備受國民關注[1-2]。稻谷在貯藏過程中易受倉內溫濕度失衡、糧蟲侵蝕、霉菌侵染等影響使其品質發生劣變,導致儲存稻谷出庫時數量及質量損失嚴重[3-4]。因此,了解稻谷在貯藏過程中的品質變化趨勢,明確稻谷在貯藏過程中的宜存狀況,建立適宜的檢測方法實現稻谷貯藏品質的有效鑒別,是當前糧食貯藏領域急需攻克的技術難題[5]。
脂肪酸值是衡量稻谷貯藏品質變化趨勢的重要指標之一[6],又可通過其實測值區間范圍確定當前稻谷樣品的宜存狀況。然而,稻谷中脂肪酸含量的常規檢測方法通常以理化試驗為主,存在檢測周期長、儀器成本較高且損傷樣品等問題,不適合現場快速、無損、批量檢測的需求[7]。
近紅外光譜技術因其快速、無損、操作簡單、樣品無需預處理等特性,已被廣泛應用于水果、蔬菜、肉類等農產品品質檢測方面[8-9],也有其應用于稻米品質檢測的報道[10]。而且國家已出臺了有關稻谷水分、粗蛋白質等指標近紅外分析模型的建立標準[11]。蔣曉杰等[12-13]以主成分分析及偏最小二乘回歸為核心算法,開展了稻谷中脂肪酸值近紅外光譜建模研究工作,并取得一定成效。文韜等[14]研究了稻谷的霉變狀況與脂肪酸值的變化規律,建立了二者的關系模型。
特征波段優選是光譜分析建模的重要環節之一,采用適宜的算法優選出能夠表征樣品本質特性的波長變量,可以提升建模效率和預測精度。鄰域粗糙集(neighborhood rough set,NRS)是針對目標不確定性進行數據約減或分類的算法,已在光譜波段選擇中得到了應用,Liu等[15]在基于高光譜技術檢測大豆品種研究中利用了粗糙集算法進行波段選擇,從而實現大豆品種的有效分類;朱啟兵等[16]將鄰域粗糙集算法與高光譜散射圖像相結合,成功地應用于蘋果粉質化程度檢測。但多數研究所建模型的復雜度可進一步簡化,準確性與穩定性還有待提升。此外,將稻谷的貯藏品質作為分類標準,建立近紅外光譜鑒別稻谷宜存狀態的定性分析模型的研究還未見報道。
試驗擬以貯藏稻谷為分析對象,以脂肪酸值為指標將稻谷樣品存儲狀態劃分為三類,引入鄰域粗糙集算法進行光譜特征優選,與隨機森林算法結合建立稻谷宜存狀態的鑒別模型,并對模型進行驗證和比較,為稻谷品質安全現場快檢技術發展提供方法借鑒。
稻谷樣品主要來源于黑龍江、吉林、江蘇、安徽等中國主要粳稻主產區某些地方糧食儲備庫,選取當地具有代表性,種植品種較多的庫存稻谷樣品進行扦樣,所有樣品入庫水分含量均在13.4%~14.3%,滿足國家收購標準,300余份樣品收集后標記密封保存,運到實驗室進行后期參數測定。經整理后有效樣品285份,首先進行光譜數據采集,隨后利用GB/T 15684—2015《谷物碾磨制品 脂肪酸值的測定》方法測定出樣品中的脂肪酸值含量。隨機選擇190份樣品作為校正集用于模型的構建,剩余樣品作為測試集用于模型的驗證。
近紅外光譜分析儀:Sup NIR-3000型,聚光科技(杭州)有限公司;
全溫振蕩器:HZQ-Q型,廣州永程科學設備有限公司;
電子天平:ML 204型,梅特勒—托利多儀器有限公司;
組織搗碎機:8010 BU型,青島圣吉儀器系統有限公司;
碾米機:JNM-II型,吉林省鼎立機械設備有限公司;
試驗礱谷機:THU35B型,北京東孚久恒儀器技術有限公司。
采集光譜范圍1 000~1 800 nm,波長準確性±0.2 nm,波長重復性<0.05 nm,分辨率(10.9±0.3) nm,每間隔1 nm取一次光譜數據,每個樣品重復3次裝樣,掃描32次取平均得到最終樣本光譜數據。
按GB/T 15684—2015《谷物碾磨制品 脂肪酸值的測定》執行,每個樣本作3次平行試驗,取平均值作為最終結果。根據GB/T 20569—2006《稻谷儲存品質判定規則》中相關規定,粳稻谷脂肪酸值(KOH/干基)可將稻谷宜存狀況劃分為宜存(≤ 25 mg/100 g)、輕度不宜存(≤ 35 mg/100 g)、重度不宜存(>35 mg/100 g)三類。試驗將這三類狀態作為模型的輸出結果,開展稻谷貯藏品質鑒定方法的研究。
1.5.1 隨機森林 隨機森林(RF)是一種非參數、非線性的分類和回歸算法,利用其集成學習方法的優勢,可以快速處理高維數據,能夠有效地防止過擬合現象[17-18]。試驗中決策樹數量的范圍設置為1~1 000,決策樹具體數量與對應分裂變量個數利用10折交互驗證方法優選。
1.5.2 鄰域粗糙集概念 經典粗糙集(Rough Set,RS)理論將知識理解為對數據的劃分,將分類理解為在特定空間上的等價關系,可對不確定或不精確的知識利用特征屬性進行描述或約減[19]。但利用RS理論進行連續數據處理時需首先對其進行離散化,會導致原始數據特征屬性出現損失,因此引入鄰域的概念到RS理論中,形成鄰域粗糙集模型用于解決集合中數值型特征變量離散化的過程[16,20],具體描述如下:

(1)
(2)
(3)
(4)
式中:
Q——鄰域屬性,歸屬于整體鄰域系統;
D——整體鄰域系統的決策屬性;
NQD——決策屬性D關于Q鄰域的下近似或上近似;
Xi——等價類,集合U被決策屬性D劃分為N個等價類;
xi——樣本集數據;
δQ(xi)——由屬性Q和度量Δ(xi)生成的鄰域信息粒子。
可變精度(β)是鄰域粗糙集模型中重要參數之一,通常0.5<β≤1.0。β與鄰域范圍(δ)的參數設定直接影響到鄰域粗糙集模型的性能及對數據的分析結果,因此β與δ參數匹配與選擇是模型建立的重要環節[21]。
模型的評價標準主要是通過正確判別率(correct classification rate,CCR)檢驗,即正確判別的樣本個數(Nc)占總樣本個數(Nt)的百分比。此外,敏感性和特異性也用于分類模型的評判[22],通常敏感性和特異性的值越接近于1表明模型的性能越好。公式為:
(5)
(6)
式中:
Se——敏感性值;
Sp——特異性值;
TP——真正類,即真樣本被判別為真樣本的數量;
FN——假正類,即真樣本被判別為偽樣本的數量;
TN——真負類,即偽樣本被判別為偽樣本的數量;
FP——假負類,即偽樣本被判別為真樣本的數量;
表1為稻谷樣本脂肪酸值實測數據基礎參數統計結果。其中校正集樣本(n=190)均值和方差分別為24.15,10.67 mg/100 g,測試集樣本(n=95)分別為22.47,9.27 mg/100 g,兩個數據集具有可比較的參數統計量,此外,測試集樣本脂肪酸含量數據范圍(12.98~60.21)恰好被校正集樣本數據范圍(12.11~67.90)所覆蓋,符合基本建模需求,進一步表明樣本數據集的劃分具有一定的合理性。圖1為校正集樣本脂肪酸值實測數據散點圖。由圖1可知,稻谷樣本多處于宜存或輕度不宜存狀態,只有少量樣本脂肪酸值>35 mg/100 g,處于重度不宜存狀態。三類狀態樣本點數據離散的分布在各自閾值區間內,可作為分類模型的參考依據,但在閾值(25,35 mg/100 g)邊緣處存在易混狀態樣本,可能會影響模型的性能。
圖2為采集到稻谷樣品經過平滑處理后的光譜數據分布圖。由圖2可知,在測試范圍內(1 000~1 800 nm),所有稻谷樣品光譜曲線分布趨勢基本一致,不同脂肪酸含量樣本在吸光度方向上呈現梯度式變化趨勢。脂肪酸含量的變化致使其光譜吸收特性存在差異,可能與稻谷在貯藏過程品質變化趨勢相關。測試范圍內含有多個不同的吸收波段(1 116,1 204,1 450 nm),可能與稻谷樣品中包含OH、CH、NH等含氫基團的內部組分及其含量的不同相關[23]。這些特征差異可作為定性分析模型的建立基礎。

表1 校正集與測試集稻谷樣品脂肪酸值統計結果

圖1 校正集稻谷樣品脂肪酸含量散點分布圖
Figure 1 Scatter distribution of fatty acid values of paddy samples in calibration set

圖2 不同宜存狀態稻谷樣品的光譜趨勢圖
利用NRS算法約減光譜變量,參閱文獻[21]可知,通常鄰域尺寸取值以0.05為步長,范圍標準化到[0,1]區間,β取值以0.05為步長在[0.5,1]區間變化。結合文獻[16]的參數取值結果,試驗中β設定為0.75和0.85,δ設定為0.05,0.10,0.15,0.20,β與δ分別進行組合完成鄰域粗糙集優選算法參數的設置(分別設定為組合1和組合2),經過多次校正實現特征波長的優選,結果如表2所示。
組合1針對不同鄰域尺寸分別優選出16,13,12,10個波長變量,分布狀況如圖3(a)所示,優選出的特征波段基本都分布在主要吸收峰附近。進一步分析可知,不同鄰域尺寸優選出的特征波長存在一定的共性,圖3(a)中標識出的波長變量均被共同優選出,因此針對組合1的優選結果進一步凝練出10個具有共性的特征波長變量(1 057,1 116,1 204,1 282,1 298,1 354,1 450,1 592,1 651,1 762 nm)用于分類模型的建立。
組合2針對不同鄰域尺寸分別優選出12,10,8,6個波長變量,分布狀況如圖3(b)所示,組合2共同優選出的特征波長數量減少,與組合1優選結果的吸收波段位置存在差異,但同樣分布在主要吸收峰附件。針對組合2的優選結果凝練出8個特征波長變量(1 086,1 148,1 234,1 276,1 400,1 576,1 682,1 754 nm)用于分類模型的建立。優選出的特征波長變量能否表征稻谷的宜存狀態還需進一步通過建立的分類模型來驗證。
基于NRS算法,利用組合1和組合2各自優選出的特征波長變量與RF相結合,分別建立NRS-RF-1和NRS-RF-2分類模型用于稻谷貯藏品質的鑒定,分類結果如表3所示。模型NRS-RF-1和NRS-RF-2在校正集的分類準確率相互接近(CCR均>94%),均達到較理想分類結果,其中,對重度不宜存狀態的稻谷樣品的判別均只誤判了1個。進一步分析可知,由于輕度不宜存屬于過度存儲狀態,致使處在宜存和重度不宜存狀態的稻谷樣品易被誤分為該狀態(脂肪酸含量處于閾值邊緣的樣本)。針對測試集樣本,兩個模型的分類能力均呈現出下降趨勢,NRS-RF-1的CCR為93.68%,錯誤判別了6個樣本數據,而NRS-RF-2模型的分類能力下降明顯,CCR為86.31%,13個樣本被錯誤劃分為其他類。綜合考慮可知,NRS-RF-1模型的分類能力與穩定性要優于NRS-RF-2模型,組合1優選出的10個特征波長變量更能表征稻谷貯藏品質的本質特性。

表2 鄰域粗糙集算法優選特征波長統計結果?
? 加粗數據表示不同β和δ組合共同優選出的特征波長。
為了驗證NRS-RF-1模型的分類能力,進一步采用常規的主成分分析(PCA)和連續投影算法(SPA)分別對原始光譜數據進行降維處理,沿用RF算法分別建立PCA-RF和SPA-RF分類模型用于稻谷貯藏品質的鑒別,結果如表4所示。PCA-RF模型校正集與測試集分類準確率均<90%,分別為88.94%,86.31%,其中校正集與測試集分別有21,13個稻谷樣本的宜存狀態被誤判到其他類屬。模型分類能力明顯不及NRS-RF-1模型。SPA-RF模型的分類能力略優于PCA-RF模型,校正集CCR達到94.73%,僅10個樣本狀態判別錯誤,測試集CCR下降到89.47%,表明SPA-RF模型的分類穩定性還需進一步提升。
選取NRS-RF-1和SPA-RF模型通過敏感性和特異性指標的計算結果進一步比較模型性能。由表5可知,NRS-RF-1和SPA-RF模型校正集敏感性和特異性指標分布在0.96~0.99和0.92~0.99,沒有明顯差異,分類結果較為理想。測試集中,NRS-RF-1模型評價指標分布在0.93~0.98,具有較理想的模型穩定性,而SPA-RF模型的分類準確性和穩定性均出現下降趨勢(0.88~0.98)。由此可知,SPA-RF模型針對稻谷樣品貯藏品質的整體分類性能同樣不及NRS-RF-1模型的鑒別結果,利用NRS算法優選的10個光譜特征波長結合RF算法建立的NRS-RF-1模型用于稻谷樣本貯藏品質的鑒定是可行的。

表3 基于NRS-RF模型的稻谷宜存狀態分類結果?
? 加粗數據表示分類正確的樣本數量及分類準確率。

表4 基于PCA-RF和SPA-RF模型的稻谷貯藏品質分類結果?
? 加粗數據表示分類正確的樣本數量及分類準確率。
表5基于NRS-RF-1和SPA-RF模型的敏感性和特異性指標統計結果?
Table 5 The results of sensitivity and specificity based on NRS-RF-1 and SPA-RF models

模型類別校正集敏感性特異性測試集敏感性特異性NRS-RF-1宜存 0.960.980.930.97輕度不宜存0.960.960.930.93重度不宜存0.960.990.940.98SPA-RF宜存 0.950.990.890.95輕度不宜存0.940.940.890.89重度不宜存0.920.980.880.98
? 加粗數據表示敏感性和特異性指標的分布范圍。
采集1 000~1 800 nm的稻谷樣品近紅外光譜數據,利用參數調整后的鄰域粗糙集(NRS)算法優選出10個能表征稻谷樣品脂肪酸值變化趨勢及其宜存狀態的特征波長變量,并結合隨機森林(RF)算法構建了分類模型NRS-RF-1,用于稻谷貯藏品質的鑒定。該模型校正集與測試集CCR均>93%,敏感性和特異性分布在0.93~0.99,具有可觀的分類準確性與穩定性。經分析比較,NRS-RF-1模型性能同樣優于試驗中所建立的SPA-RF和PCA-RF兩類模型。結果表明,NRS算法優選出的特征變量能夠代表稻谷樣品的本質特性,構建的NRS-RF-1模型用于稻谷貯藏品質的鑒定是可行的,后期可進一步融合色澤、品嘗評分值、水分等多貯藏品質指標細化稻谷宜存狀態等級,改進現有模型算法,建立更加適宜的分類模型,為儲糧品質安全現場快檢設備研制及多光譜在線檢測系統研發提供技術支持。