劉翠玲 邢瑞芯 吳靜珠 孫曉榮 胡 瑩
(1.北京工商大學計算機與信息工程學院, 北京 100048;2.北京工商大學食品安全大數據技術北京市重點實驗室, 北京 100048)
花生是我國主要油料作物之一,種植面積僅次于油菜[1]。花生主要組成物質有脂肪、蛋白質和碳水化合物,其中脂肪質量分數占46%~52%,不飽和脂肪酸更是高達85%以上。我國所產的花生中有55%用于制油,花生油年產量僅次于菜籽油[2-4]。然而,花生品種不同,則其脂肪含量(含油率)、蛋白質含量也差異顯著。其中,含油率作為油料作物品質的重要參考指標之一,決定著花生的食用價值或榨取價值。在花生制油過程中,花生種子作為花生油的提取原料,其含油率不同,適合的榨油方式也不同,進而得到的花生油在氣味、口感方面也良莠不齊。我國花生品種繁多、含油率參差不齊,通常情況下制油廠多采取壓榨法來制油,但壓榨法只適用于高含油率品種,對于含油量較低的品種應采用溶劑浸出法提油[5-6]。由于花生品種加工特性研究的缺乏,我國尚未形成統一的、適宜加工制油的專用花生品種準則,多個品種混合應用的現狀,也導致我國的花生制油產業的發展受到阻礙[7-8]。花生品種的鑒別與選取,對于制油產量的提升至關重要。
目前針對花生品種的鑒別技術主要有:形態學鑒定、生化鑒定、DNA分子標記鑒定、圖像處理技術等[9-10]。其中,形態學鑒定技術主要是花生在田間生長期間,根據莢果形狀經驗性地判定品種及純度;生化鑒定包括同工酶和種子儲藏蛋白電泳技術,主要通過鑒定蛋白質的種類、含量、結構的不同來鑒定花生品種;DNA分子標記鑒定技術直接以花生種子的DNA作為檢測對象來鑒別花生品種;圖像處理技術通過掃描儀等成像器件采集花生莢果圖像,結合模式識別方法來識別花生品種。這些技術雖然操作方法不同,但都存在操作過程復雜、專業性強、不易實現等特點。太赫茲(THz)作為一種新興的光譜技術,是指波長為0.03~30 mm (頻率0.1~10 THz)范圍內的電磁波。太赫茲波段包含大多數生物大分子的振-轉能級躍遷,具有穿透性能好、光子能量低損耗小、承載信息更多等優于其他光譜技術的特點,已被證明在農產品及食品,特別是植物選種、品質檢測及食品加工等方面能夠起重要的作用[11-12]。
太赫茲在農業領域的研究和應用剛起步,因此在農產品品質檢測方面的應用仍然受到一些限制,限制之一就是難以檢測高含水率樣品,特別是對新鮮果蔬等含水率較高的農產品的品質檢測研究非常少見[13-14]。但對于含水率很低的油料作物,太赫茲光譜檢測技術存在巨大潛能[15-16]。本文利用太赫茲衰減全反射技術(Terahertz attenuated total reflection,THz-ATR)研究不同花生品種的太赫茲光譜,并結合多種預處理方法及建模算法來研究花生品種的快速鑒別方法。
實驗所用花生種子樣本均購自某種子公司,包括3個花生品種:魯花9號、魯花1號和花育36號。每一個品種隨機選取20粒,并制作成厚度約1 mm、切片尺寸約1 cm×1 cm的花生仁切片,樣本數量共計60個。為防止花生仁發生氧化等反應,該操作要盡可能快速準確。為保證儀器系統穩定性,實驗的環境溫度控制在22℃。
實驗儀器為劍橋Tera View公司生產的太赫茲脈沖光譜儀,型號為TeraPulse 4000,如圖1a所示。光譜范圍2~133 cm-1(0.06~4 THz)、信噪比最高達到70 dB。
實驗利用太赫茲脈沖光譜儀和入射角為35°的單晶硅ATR模塊。ATR的工作范圍在10~120 cm-1(0.3 ~3.6 THz)的電磁頻譜區域內,能夠測量固體和液體樣本,具有采樣面積小、樣品量小(固體一般為1 mg)、樣品制備及采集方式簡單等特點[17]。ATR采樣技術示意圖見圖1b。

圖1 實驗儀器Fig.1 Experiment instrument1.樣品 2.ATR晶體 3.衰逝波
實驗采集60個花生樣本切片的ATR光譜。采集方法為:首先,確保ATR晶體未放置任何樣品并干凈無污染,進行ATR采集,得到參考信號;其次,將制作好的花生仁切片置于ATR采集部位,為確保樣品和ATR晶體之間有良好的光學接觸,需擰緊壓力螺釘。一旦螺桿達到20 kg的負荷,沒有更多的壓力施加到窗口,螺桿將自由旋轉,最大限度地提高吸光度[17]。逐一采集所有花生仁切片的ATR光譜。其中,為提高精確度,ATR采集參數設置為:分辨率0.94 cm-1,每次快速掃描的平均次數為450。

圖2 時域信號Fig.2 Time domain signal
3個品種的花生仁切片樣本的時域信號如圖2所示。從圖中可以看出,由于空氣中的水分干擾,樣本信號的波形均存在較小抖動。此外,3個品種樣本的脈沖波形相似,差異細微,說明了系統的穩定性。進一步將主脈沖放大進行對比,發現不同品種的花生仁切片對THz波的吸收強度不同,表現在主脈沖的相位和幅度上均存在一定程度的延遲和衰減,吸收強度從高到低依次為:魯花1號、魯花9號、花育36號。含油率較高的2個品種的信號更強一些,這可能是由于高含油率的花生品種對太赫茲波的吸收小于低含油率品種[18]。
由于實驗儀器存在噪聲和空氣中水分對太赫茲波的吸收,所采集的樣本信號存在一定幅度范圍的波動,難以達到儀器理想的信噪比,不易直接通過太赫茲特征光譜來有效鑒別某一花生樣本的真實品種。因此,采集得到的時域信號需要進一步處理,提取出更有效的光學常數進行分析,或借助模式識別方法建立鑒別模型。
2.1.1光學常數提取
光學常數是表征物質宏觀光學性質的重要物理量。在從采集到的THz電場的時域波形中提取這些光學常數前,需要利用快速傅里葉變換(FFT)將參考信號和樣本的時域光譜進行轉換,得到對應的頻域光譜,進而利用頻域信號的幅值和相位(實部和虛部)信息計算得到所需的光學常數[19]。此外,在獲得信號頻域譜的過程中,為避免信號數據開頭和結尾不連續造成信號頻譜顯示的失真,必須對信號執行一個切趾(加窗)的過程,減少時域信號截斷所帶來的誤差[20]。切趾函數的種類多樣,比如Boxcar用于高分辨率,Blackman Harris用于高信噪比,本研究選擇最常用的Happ Genzel,因為它兼顧了信噪比和分辨率。
THz光譜分析中常用的光學常數是吸光系數和折射率。其中,吸收系數定義為該樣本單位厚度的吸光度。折射率是光在真空中的傳播速度與光在該介質中的傳播速度之比,可以通過不同樣本在時域信號上的延遲反映出來。圖3和圖4分別是樣本的吸收系數圖和折射率圖。

圖3 吸收系數Fig.3 Absorption coefficient

圖4 折射率Fig.4 Refractive indices
盡管太赫茲衰減全反射技術具有諸多其他光譜技術無法比擬的優勢,但對于太赫茲光譜信號缺乏深入研究。目前對于儀器、樣本特征和測量環境變化帶來的信號干擾,并沒有通用的解決方法,缺乏對于處理效果進行評定的指標,通常只能對采集的光譜進行簡單處理來解決一些主要的問題,包括:提高信噪比、過濾噪聲影響、有效光譜范圍篩選等。本研究所用實驗儀器信噪比在一定范圍內高達70 dB,在對樣本信號進行FFT變換前也選取了特定的切趾函數去除噪聲影響,但實驗過程中仍然受到各種隨機噪聲的干擾。本次實驗采集到的花生樣本信號,是在較低和較高頻域(即在10 cm-1以下和120 cm-1以上),受噪聲干擾嚴重,信噪比下降劇烈,光譜振蕩明顯。因此,需要人為地對樣本信號進行有效光譜范圍篩選。
2.1.2光譜范圍篩選
本研究使用的THz脈沖光譜儀ATR模塊工作范圍在10~120 cm-1頻域內,但是通過觀察實驗數據發現,所有樣本的吸收系數和折射率均在116 cm-1左右就開始受到隨機噪聲干擾,因此,本研究通過對有效光譜范圍篩選,即手動選擇10~116 cm-1作為吸收系數和折射率數據的有效頻域進行后續研究分析,簡單有效地剔除了噪聲信息干擾。
在10~116 cm-1頻域內,隨著頻率的增加,所有樣本的吸收系數整體呈水平趨勢,折射率則呈現微弱上升趨勢,但重疊度較高,難以分辨。局部區域放大發現,3個品種的樣本之間的存在明顯差異。圖5為所有樣本在25~40 cm-1的吸收系數圖,由上往下依次為花育36號、魯花9號和魯花1號,吸收系數越來越低,雖然與含油率沒有明顯的線性關系,但較高含油率的2個品種的吸收系數小于低含油率的花育36號。相比蛋白質,脂肪在太赫茲波段的吸收很弱,因此可以推測,含油率較高的花生品種對太赫茲波的吸收有可能小于含油率較低的品種。這一點也與時域信號大致相符。

圖5 吸收系數局部圖Fig.5 Local graph of absorption coefficient
圖6a、6b分別為3種樣本在10~20 cm-1、20~116 cm-1的折射率圖,其中,20 cm-1是一個轉折點。在20 cm-1以下,由上往下分別為魯花1號、魯花9號和花育36號,折射率依次降低,且與吸收系數變化方向相反;在20 cm-1以上,由上往下依次為花育36號、魯花9號和魯花1號,這與吸收系數變化方向一致。雖然相比吸收系數,含油率均較高的魯花9號和魯花1號界限不是十分清晰,但與低含油率的花育36號差異明顯。因此,3種樣本在其吸收系數和折射率上存在的差異,可為花生品種鑒別模型的建立提供可能。

圖6 折射率局部圖Fig.6 Local graphs of index of refractive indices
如圖5、6所示,難以直觀地從圖中曲線來區分樣本所屬的品種,因此有必要借助定性方法來建立定性模型,實現對花生品種進行快速鑒別的目的。本研究選取所有樣本的吸收系數數據,結合距離匹配(Distance match,DM)定性算法,建立基于吸收系數的花生品種快速鑒別模型。距離匹配是一種常用的定性算法,通過計算每個樣本到各自類別中心點的距離,來判別一個未知樣本到兩個或更多已知樣本類別的匹配程度。本研究中得到的不同的3種花生切片樣本的吸收系數和折射率曲線差異較小難以分辨,主要的不同僅體現在曲線的上下分布。在這種情況下,距離匹配算法可以很好地建立不同含油率的分類模型,能用于測試單個樣本的種類和等級。

(1)
最后計算距離匹配值,即計算新光譜中超出距離匹配限(設為4.9)的波長點所占總波長點的百分比,便可得到該未知樣本與每個類別之間的匹配值。匹配值在0~100%之間,匹配值越接近于0,表示該樣本距某個類別越近,因此會被歸屬到這個類別。
本研究為放大和分辨重疊信息,并減小隨機噪聲和提高信噪比,對2.1.2節中的光譜使用一階導數和歸一化處理,建立基于吸收系數的距離匹配模型。隨機挑選15個樣本對模型進行測試,剩余45個作為建模集樣本。模型結果如圖7所示,橫、縱坐標分別代表樣本與不同類別的馬氏距離。圖中箭頭所指為1個錯誤預測樣本,剩余14個測試樣本都準確地被劃分到自身所屬類別當中。因此,模型預測準確率為93.3%。

圖7 距離匹配定性識別結果Fig.7 Qualitative identification results of DM
為更清楚地說明預測結果,樣本距離各個類別的匹配值和具體預測結果如表1所示。其中,類別1為花育36號樣本,類別2為魯花1號樣本,類別3為魯花9號樣本。
花生品種鑒別對于新品種的選育、榨油方式選取和提高制油產量以及食用加工品質等都起著至關重要的作用。利用太赫茲衰減全反射技術研究了花育36號、魯花1號和魯花9號3個花生品種在0.3~3.6 THz波段的時域譜、吸收系數譜和折射率譜。通過比較,發現3種花生在此頻率范圍內的吸收系數譜和折射率譜都存在顯著差異。因此通過一階導數及歸一化處理,結合距離匹配算法,建立了相應的吸收系數分類模型。結果表明,距離匹配算法對未知樣本的總體識別準確率高達93.3%,可以實現對不同花生品種進行快速分類鑒別,這說明利用太赫茲衰減全反射光譜技術結合一定的分類算法快速鑒別花生品種具有可行性。

表1 距離匹配定性識別結果Tab.1 Qualitative identification result of distance match
1王麗,劉紅芝,劉麗,等.油用花生品質評價模型的建立及其加工適宜性研究[J].食品科學技術學報,2016,34(1):21-27.
WANG Li,LIU Hongzhi,LIU Li,et al.Research on evaluation model and processing suitability of oil-used peanut[J].Journal of Food Science and Technology,2016,34(1):21-27. (in Chinese)
2馬寅斐,何東平,王文亮,等.我國花生品種加工特性與品質評價技術研究進展[J].中國食物與營養,2011,17(6):29-31.
MA Yinfei,HE Dongping,WANG Wenliang,et al. Research advancement of processing character and quality assessment technology of Chinese peanut cultivars[J].Food and Nutrition in China,2011,17(6):29-31. (in Chinese)
3王麗,王強,劉紅芝,等.花生加工特性與品質評價研究進展[J].中國糧油學報,2011,26(10):122-128.
WANG Li,WANG Qiang,LIU Hongzhi,et al. Research process on peanut processing characteristics and quality evaluation[J].Journal of the Chinese Cereals and Oils Association,2011,26(10):122-128. (in Chinese)
4沈一,鄂志國,劉永惠,等.中國花生品種及其系譜數據庫的構建[J].中國油料作物學報,2015,37(4):571-575.
SHEN Yi,E Zhiguo,LIU Yonghui,et al. Database construction of Chinese peanut varieties and their genealogy[J]. Chinese Journal of Oil Crop Sciences,2015,37(4):571-575. (in Chinese)
5劉玉蘭,劉瑞花,鐘雪玲,等.不同制油工藝所得花生油品質指標差異的研究[J].中國油脂,2012,37(9):6-10.
LIU Yulan,LIU Ruihua,ZHONG Xueling,et al. Differences of quality indexes of peanut oil obtained with different processes[J]. China Oils and Fats,2012,37(9):6-10. (in Chinese)
6魏振承,唐小俊,張名位,等.花生油加工和相關技術研究進展及展望[J].中國糧油學報,2011,26(6):118-122.
WEI Zhencheng,TANG Xiaojun,ZHANG Mingwei,et al. Advances in peanut oil processing and related technology research[J]. Journal of the Chinese Cereals and Oils Association,2011,26(6):118-122. (in Chinese)
7周瑞寶.中國花生生產、加工產業現狀及發展建議[J].中國油脂,2005,30(2):5-9.
ZHOU Ruibao. Present situation and development suggestion on China peanut processing industry[J]. China Oils and Fats,2005,30(2):5-9. (in Chinese)
8楊偉強,王秀貞,張建成,等.我國花生加工產業的現狀、問題與對策[J].山東農業科學,2006(3):105-107.
YANG Weiqiang,WANG Xiuzhen,ZHANG Jiancheng,et al. Present situation, problems and countermeasures of peanut processing industry in China[J]. Shandong Agricultural Sciences,2006(3):105-107. (in Chinese)
9張建成,江玉萍,王傳堂,等.花生品種鑒定技術研究進展[J].花生學報,2006,35(2):24-28.
ZHANG Jiancheng,JIANG Yuping,WANG Chuantang,et al. Review of variety identification in peanut (ArachishypogeaeL.) [J]. Journal of Peanut Science,2006,35(2):24-28. (in Chinese)
10韓仲志,鄧立苗,于仁師.基于圖像處理的花生莢果品種識別方法研究[J].中國糧油學報,2012,27(2):100-104.
HAN Zhongzhi,DENG Limiao,YU Renshi. Study on variety identification of peanut pods based on image processing[J]. Journal of the Chinese Cereals and Oils Association,2012,27(2):100-104. (in Chinese)
11QIN Jianyuan,YING Yibin,XIE Lijuan. The detection of agricultural products and food using terahertz spectroscopy: a review[J].Applied Spectroscopy Reviews,2013,48(6):439-457.
12GOWEN A A,O’SULLIVAN C,O’DONNELL C P. Terahertz time domain spectroscopy and imaging: emerging techniques for food process monitoring and quality control[J].Trends in Food Science & Technology,2012,25(1):40-46.
13趙國忠.太赫茲科學技術研究的新進展[J].國外電子測量技術,2014,33(2):1-6.
ZHAO Guozhong. Progress on terahertz science and technology[J]. Foreign Electronic Measurement Technology,2014,33(2):1-6. (in Chinese)
14謝麗娟,徐文道,應義斌,等.太赫茲波譜無損檢測技術研究進展[J/OL].農業機械學報,2013,44(7):246-255.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20130743&journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2013.07.043.
XIE Lijuan,XU Wendao,YING Yibin,et al. Advancement and trend of terahertz spectroscopy technique for non-destructive detection[J/OL]. Transactions of the Chinese Society for Agricultural Machinery,2013,44(7):246-255. (in Chinese)
15戚淑葉,張振偉,趙昆,等.太赫茲時域光譜無損檢測核桃品質的研究[J].光譜學與光譜分析,2012,32(12):3390-3393.
QI Shuye,ZHANG Zhenwei,ZHAO Kun,et al. Evaluation of walnut by terahertz nondestructive technology[J]. Spectroscopy and Spectral Analysis, 2012,32(12):3390-3393. (in Chinese)
16李斌,WANG Ning,張偉立,等.基于太赫茲光譜技術的山核桃內部蟲害檢測初步研究[J].光譜學與光譜分析,2014,34(5):1196-1200.
LI Bin,WANG Ning,ZHANG Weili,et al. Preliminary research on insect damage detection in pecans using terahertz spectroscopy[J]. Spectroscopy and Spectral Analysis,2014,34(5):1196-1200. (in Chinese)
17NEWNHAM D A,TADAY P F. Pulsed terahertz attenuated total reflection spectroscopy[J]. Applied Spectroscopy,2008,62(4):394.
18戚淑葉,韓東海.太赫茲時域光譜技術無損檢測高油玉米研究[C]∥中國食品科學技術學會第九屆年會,2012.
QI Shuye,HAN Donghai. An overview of analytical approaches for determining the geographical origin of plant-derived foods[C]∥The 9th Annual Meeting of CIFST,2012. (in Chinese)
19韓曉惠,張瑾,楊曄,等.基于太赫茲時域光譜技術的光學參數提取方法的研究進展[J].光譜學與光譜分析,2016,36(11):3449-3454.
HAN Xiaohui,ZHANG Jin,YANG Ye,et al. Review on the methodology for optical parameter extraction with terahertz time-domain spectroscopy[J]. Spectroscopy and Spectral Analysis,2016,36(11):3449-3454. (in Chinese)
20張娣.基于太赫茲時域光譜的生物小分子檢測與分析[D].成都:電子科技大學,2015.
ZHANG Di. Detection and analysis of small bio-molecules on terahertz time domain spectroscopy[D]. Chengdu:School of Physics and Electronics,2015. (in Chinese)
21吳靜珠,張宇靖,石瑞杰,等.拉曼光譜結合距離匹配法快速鑒別摻偽食用油[J].中國糧油學報,2015,30(9):119-122.
WU Jingzhu,ZHANG Yujing,SHI Ruijie,et al. Rapid detection of adulterated edible oil using raman spectroscopy and distance match method[J]. Journal of the Chinese Cereals and Oils Association,2015,30(9):119-122. (in Chinese)