劉培江
(山東煙草研究院有限公司,山東 濟南 250098)
隨著人們對食藥安全關注的提升,經常需要對農作物進行化學成分檢測。目前常見的檢測方式主要通過化學手段進行定量或定性分析,但這種方式通常要以破壞農作物為代價,而且化學試劑的生產、使用、處置都會對環境造成進一步污染。近紅外分析技術作為一種快速、無損、綠色的化學成分檢測手段,目前在很多領域已經逐步替代化學方法成為主要的檢測方式。近紅外光譜儀最開始的用途是分子結構理論的研究,隨著近紅外硬件技術的改進,獲得的近紅外光譜逐步趨于穩定,光譜中包含的特征信息逐步被挖掘利用起來。尤其是隨著機器學習、人工智能分析技術的發展,近紅外光譜中信息的價值得到了越來越廣泛地重視和應用。作為近紅外光譜分析技術的奠基人,Karl Norris 等人在20 世紀50 年代開始將近紅外分析技術應用于谷物、飼料、水果、蔬菜等的化學成分定量檢測[1]。許祿在1992 年出版的《化學計量學方法》中將多元統計變量方法引入到近紅外光譜分析技術中來[2],為近紅外光譜分析技術應用提供了理論和技術支撐。化學計量學成為當時近紅外光譜數據預處理及定量定性分析的主流技術。經過幾十年的研究發展,近紅外光譜分析技術已經成為現在較具應用前景的分析技術之一,歐美許多國家已經將近紅外光譜分析技術廣泛應用于食品、藥品等多個領域,取得了較好的經濟和社會效益。
近紅外光譜分析技術被廣泛應用于煙草行業[3-11],主要用來進行煙草化學成分分析及測試醋酸纖維濾棒中的三醋酸甘油酯等。山東煙草于2013 年立項“山東煙葉品質快速檢測與分析網絡技術研究”重點科技項目,針對山東煙葉質量評價滯后、缺乏快速檢測手段、質量領域信息化薄弱等實際問題,項目將利用近紅外光譜分析等技術,研究煙葉常規化學成分定量分析基本模型,搭建山東煙葉品質快速分析網絡系統,實現了煙葉常規六項化學成分的快速檢測,初步構建了山東煙葉質量數據庫與光譜數據庫,并開展質量數據多維度分析,形成了“硬件終端+網絡+技術模型+軟件系統+分析應用+標準規范”的體系化的成套技術方案。隨后該項目在山東煙葉產區進行了推廣應用,2013~2021 年連續9 年組織開展全省6 個煙葉產區的煙葉質量檢測與分析,每年采集數百煙葉樣品進行常規化學成分檢測,并利用檢測結果編制印發《山東煙葉品質分析報告》,從煙葉樣品的總體質量、年度質量變化、化學成分協調性、產區差異性、存在的主要問題等方面對全省煙葉質量進行了多視角分析。目前,已累計近紅外光譜信息19 000 余條、煙葉內在品質信息15 000 余條,可實現煙葉粉末樣品總糖、還原糖、總氮、總煙堿、鉀、氯、淀粉等常規化學成分的1 分鐘快速檢測。
本研究將在前期項目研究的基礎上進一步挖掘近紅外光譜特征的價值,因為近紅外光譜向量中每一維特征與煙葉化學成分定量分析的相關性(貢獻度)是不同的,本文將利用Relief-F 學習算法[12]對煙葉的近紅外光譜特征貢獻度進行綜合分析,對煙葉常規六項化學成分中每一項都找出最相關的光譜特征子集(光譜譜段),并分析之間的關系,為改進煙葉品質近紅外光譜分析算法,進一步提高煙葉品質檢測準確率及執行效率打好基礎。
為保證所采集煙葉近紅外光譜的質量,在采集前需要對煙葉樣品進行一系列預處理工作,所有樣品制備方式與要求參考YC/T31-1996《煙草及煙草制品 試樣的制備》標準執行。具體樣品制備流程,見圖1。

圖1 煙葉近紅外樣品制作流程
關鍵操作及其注意事項如下:
(1) 樣品抽樣:去除樣品中的雜質,比如紙屑、雜草及變質煙葉等。(2)剔除煙梗:抽掉煙葉葉脈。
(3)烘干:使用鼓風干燥箱以60 ℃烘干4 h,使樣品含水率達到基本一致。
(4)磨粉:使用旋風磨磨粉,過濾網密度為40目。
(5)保存:將樣品粉末裝入干凈的密封瓶(或者密封袋)中密封起來,充分搖動,混合均勻,放低溫下避光保存。
其中,烘干與磨粉兩個步驟的時間間隔不超過1h;樣品制樣完成后,應在2 mth 內完成化學成分檢測和留樣粉末樣品掃描工作,以保障實驗數據的一致性。
1.2.1 儀器參數
選用福斯NIRS DS2500 近紅外光譜儀進行樣品光譜采集,光譜儀的主要技術參數見表1。

表1 NIRS DS2500 近紅外光譜儀技術參數
1.2.2 環境溫濕度
環境濕度對設備穩定性和樣品物理狀態的影響較大。本次實驗環境溫濕度為:空氣相對濕度范圍保持20%~70%,溫度范圍為20 ℃~25 ℃,每小時的溫度變化不大于2 ℃,濕度變化不大于2%,以保證樣品檢測準確性。
1.2.3 樣品光譜采集
在穩定環境溫濕度條件下,將重量為20 g 左右樣品粉末倒入樣品杯中,放置壓樣器,將樣品杯放在近紅外設備上進行掃描。每個樣品重復裝樣測定兩次,兩次掃描結果的平均值作為最終結果。
新采集的煙葉近紅外光譜由于受樣品內在狀態、外在環境等因素影響,存在著各種噪聲問題,這些噪聲如果不加以處理會對檢測結果的準確性造成影響,這就需要對光譜進行預處理工作,常用的預處理技術包括:
(1)去噪聲:第一步,選擇合適的窗口通過移動平滑的辦法去掉高頻噪聲的干擾;第二步,使用微分過濾的方法去除由儀器原因產生的噪聲。
(2)數據清洗:剔除無效數據,舍棄信息少的光譜頻段,減少后續計算量。
(3)歸一化:通過量綱變換消除樣品不均勻等變化造成的影響。
經預處理后取波長在[1120,2600]的近紅外光譜作為我們的實驗數據,樣例,見圖2。

圖2 預處理后煙葉近紅外光譜圖樣例
Relief-F 算法是一種有監督的過濾式特征選擇算法,它的返回結果是關于全體特征的相關系數。Relief-F 算法的主要過程包括以下幾步:
(1)初始化相關系數向量W(a) = 0,以及一個自定義整數m。
(2)隨機選擇一個實例(樣本)Ri。
(3)在與Ri 同類的樣本中找到Ri的k 個最近鄰Hj。
(4)在其他每類樣本中找到Ri的k 個最近鄰Mj(C),其中C≠class(Ri)。
(5)對于a 中的每一維特征通過下面的公式計算其相關系數W(a):


(6)從步驟1 開始重復以上操作,直到返回所有特征的相關系數向量W(a)。
從以上算法的整個過程我們可以看到,Relief-F算法在計算特征相關系數時僅僅用到了訓練數據的一些整體性質,并未涉及到任何分類器算法,這保證了算法的獨立性。
本次實驗共采集煙葉樣品202 個,使用福斯NIRS DS2500 近紅外光譜儀掃描得煙葉近紅外光譜202 條(波長區間[1 120,2 760]),采用化學流動分析方法檢測獲得樣品的總煙堿、總糖、還原糖、鉀和氯5項指標數據,采用凱氏定氮儀設備檢測獲得樣品總氮指標數據,所有指標的檢測數據盡可能保證準確、可靠,樣品參考化學成分測定和相應光譜采集時間間隔不超過1 mth。使用Relief-F 學習算法分析得出近紅外光譜與總煙堿、總糖指標的相關系數,見圖3。從圖3 可以看出,波長區間[1 440,1 620]的近紅外光譜與總煙堿具有最強的相關性,區間[1 750,2 060]的近紅外光譜也具有較強的相關性;低波長[1 120,1 620]的近紅外光譜與總糖具有較強相關性,尤其是區間[1 430,1 600]。使用Relief-F 學習算法分析得出近紅外光譜與還原糖、總氮指標的相關系數,見圖4。從圖4可以看出,低波長[1 120,1 620]的近紅外光譜與還原糖具有較強相關性,尤其是區間[1 440,1 610],波長2 080 nm 附近部分光譜與還原糖具有一定的相關性;高波長[1 870,2 600]的近紅外光譜與總氮具有較強相關性,其中區間[1 910,2 000]的光譜相關性最強。使用Relief-F 學習算法分析得出近紅外光譜與鉀、氯指標的相關系數,見圖5。從圖5 可以看出,波長區間[1 430,1 610] 的近紅外光譜與鉀含量具有最強的相關性;波長區間[1 430,1 620]∪[1 910,1 985]∪[2 015,5 135]∪[2 430,2 600]的近紅外光譜與氯含量具有較強的相關性。對比分析發現,除總氮外,其他五項化學成分與波長區間[1 430,1 620]的近紅外光譜都具有較高相關性,光譜價值較高;總糖與還原糖與近紅外光譜相關性較類似,不同的是,波長2 080 nm 附近部分光譜與還原糖具有一定的相關性,而總糖表現不明顯。

圖3 近紅外光譜與總煙堿(左圖)、總糖(右圖)指標的相關系數

圖4 近紅外光譜與總還原糖(左圖)、總氮(右圖)指標的相關系數

圖5 近紅外光譜與鉀(左圖)、氯(右圖)指標的相關系數
本研究首先介紹了煙葉近紅外光譜的采集及預處理過程,簡單介紹了Relief-F 學習算法的運行機制,最后利用Relief-F 學習算法對煙葉近紅外光譜特征與常規六項化學成分的相關性進行了深入分析,找出了貢獻度最高的光譜子集(波長區間),這些光譜子集對于煙葉常規化學成分檢測的價值較高。如何妥善利用本研究的結論,提高煙葉品質檢測準確率及執行效率,拓寬近紅外光譜在煙葉品質方面的應用范圍將是我們下一步的研究重點。