999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高光譜成像技術的白茶儲藏年份判別

2021-09-29 14:17:02陳書媛張友超蔡梅生張青碧何普明屠幼英
食品工業科技 2021年18期
關鍵詞:模型

陳書媛,張友超,楊 杰,蔡梅生,張青碧,何普明, ,屠幼英

(1.浙江大學茶學系,浙江杭州 310058;2.浙江大學農業工程系,浙江杭州 310058;3.福鼎市茶業發展領導小組,福建福鼎 355200;4.福鼎市茶業管理局,福建福鼎 355200)

白茶是我國六大茶類之一,主要產區在福建福鼎、政和、松溪、建陽、云南景谷等地。根據原料的嫩度不同,白茶可分為白毫銀針、白牡丹、壽眉和貢眉。萎凋和干燥這兩道工序形成了白茶獨特的品質特征和生物活性。研究表明,白茶具有許多強大的生物活性,包括抗氧化、抗炎、抗癌、抗菌和神經保護活性[1?5]。而在茶葉銷售市場中,長期儲存的白茶更受到廣大消費者的喜愛和追捧,有著“一年茶,三年藥,七年寶”的說法。有研究表明[6],白茶在儲藏過程中,其化學品質成分會發生改變,與新白茶相比,儲藏白茶的醇含量更低,碳氫化合物含量更高。Ning等[7]發現兒茶素和氨基酸的含量隨著儲藏年份的延長呈相似的下降趨勢,而沒食子酸的含量則增加。相比之下,由茶氨酸和兒茶素在儲藏過程中形成的7種新化合物8-C-N-乙基-2-吡咯烷酮(8-C N-ethyl-2-pyrrolidi-none-substituted flavan-3-ols,EPSFs)取代黃烷-3-醇顯著增加,其含量與儲藏年份呈正相關[8]。隨著消費者對儲藏白茶的喜愛的增加,市面上也出現了儲藏年份造假的現象,但當下關于白茶儲藏年份預測的研究報道極少。Dongchao Xie等[9]對白茶中24種儲藏相關化合物進行了絕對定量分析和線性回歸,分析表明基于EPSFs的5個指標組合對白茶儲藏年份具有較好的判別能力,其中模型和測試集的相關系數分別為0.9294和0.8812。該模型對于儲藏年份小于10年的白茶,預測和實際儲藏年份之間的誤差在?1.75~1.84年之間,尚不能滿足快速精確判別白茶年份的需求。

光譜技術的發展為快速、準確地進行茶葉品控檢測提供了基礎,近年來較多研究集中在近紅外光譜技術在茶葉領域中的應用。劉鵬[10]提出采用局部線性嵌入法和拉普拉斯特征映射法對近紅外光譜數據進行非線形流形降維處理,從而提高不同海拔茶葉品質的鑒別精度。Wang等[11]利用微型近紅外光譜儀預測了紅綠茶的判別模型,基于標準正態變量的支持向量機模型對兩類茶葉中的兒茶素和咖啡因都有較高的判別能力。劉洪林等[12]對利用近紅外光譜技術結合感官審評結果建立多個預測模型,其預測性能優,為客觀評價功夫紅品質提出新方法。李春霖[13]采用化學計量方法和近紅外光譜技術對龍井茶的感官和化學品質評價進行了系統性研究,建立龍井茶鮮味和澀味的定性預測模型,預測準確率達75.18%。

相較于近紅外光譜技術,高光譜成像技術是一種更高效、無損的檢測技術。近紅外光譜技術對待檢測的樣本有一定的要求,例如磨碎過篩,而高光譜成像技術則不需要。并且高光譜成像技術是成像技術和光譜技術的結合體,故可以同時獲得待測樣品的光譜信息和空間信息,以此檢測樣品的內外品質。目前高光譜成像技術在茶葉領域的研究主要集中在茶葉等級判別和茶類判別。于英杰等[14]利用高光譜技術對不同等級的鐵觀音進行判別,結合支持向量機的模型對未知的鐵觀音茶樣正確判別率可達92.86%。李曉麗等[15]結合高光譜成像儀和高效液相色譜法,建立光譜與表沒食子兒茶素沒食子酸酯(epigallocatechin gallate,EGCG)濃度之間的回歸模型,其最優回歸模型的決定系數達到0.905。李瑤等[16]以蒙頂黃芽、竹葉青、甘露茶葉為實驗對象,利用高光譜成像技術結合支持向量機建立茶葉品種判別模型和茶葉等級判別模型,其精確率分別達到了100%和96.67%。Guangxin Ren等[17]利用近紅外高光譜成像結合多決策樹的方法,對祁門工夫紅茶進行了品質和等級判別,比較了三種不同類型的監督決策樹算法,其中基于數據融合的細樹(fine tree, FT)模型預測效果最好,紅茶品質的評價正確率達到93.13%。Zhiqi Hong等[18]采用380~1030和874~1734 nm兩個光譜范圍的高光譜成像系統對6個產地的龍井茶單葉進行了產地判別,建立了支持向量機和偏最小二乘判別分析模型,在兩個光譜范圍內均獲得了良好的分類性能,校正集和預測集的總體分類精確率均在84%以上。

鑒于白茶儲藏年份判別的研究報道較少以及高光譜成像技術的優點,本文探討高光譜成像技術在白茶儲藏年份判別中的應用,在450~998 nm光譜范圍采集白茶的高光譜圖像并建模分析,嘗試為白茶儲藏年份快速檢測提供理論基礎。

1 材料與方法

1.1 材料與儀器

實驗樣本 均來自福建省福鼎市(北緯26°52′~27°26′,東經119°55′~120°43′)12家茶葉企業。選取的白茶樣本等級均為壽眉,原料品種均為福鼎大毫。實驗樣本的儲藏條件與白茶的一般儲藏條件基本一致,實驗前樣本均儲藏在室溫25 ℃,通風干燥的茶葉儲藏室中。在實驗當月2020年8月,將生產日期在2017年5月~10月、2014年5月~10月、2010年5月~10月的樣本儲藏時間分別歸為3、6、10年,樣本數量分別為160、156、148,每份樣本約為15 g。

Q285成像光譜儀 來自德國品牌Cubert;AZD100鹵素燈 來自德國品牌Osram。為避免圖像采集時環境光的干擾:4個75 W鹵素燈對稱安裝在暗箱側部,保證整個視場光照均勻,電控升降臺安裝在暗箱底部。成像光譜儀通過網線與計算機相連,以控制數據的采集和傳輸[19?20]。Q285采用能在千分之一秒內獲得樣本高光譜圖像立方體數據的畫幅式成像技術,相比于傳統的推掃式成像技術,不需要配備電動位移平臺,其數據采集過程更加快速、穩定。Q285的主要技術參數如下:光譜范圍為450~998 nm,采樣間隔4 nm,通道125,鏡頭焦距23 nm,像素分辨率1000×1000,數字分辨率14 bit。

1.2 光譜采集

采集高光譜圖像前的準備工作:實驗前30 min打開光源進行預熱,將壽眉樣本均勻平鋪在直徑150 mm、高度20 mm的培養皿中,培養皿預先內置反射率近似為零的黑色橡膠,以免影響實驗數據。

打開高光譜圖像采集軟件的操作界面,采集壽眉樣本的高光譜圖像。使用HSI Analyzer(ISUZU optics,中國臺灣)軟件對高光譜圖像進行白板與暗電流校正。然后,利用ENVI 5.1(Exelis VIS,美國)軟件分析壽眉的光譜特征,確定分割閾值,將背景置0,并使用Spectral Python 0.21,scikit-learn 0.23.1,numpy 1.18.1,pandas 1.0.3做后續光譜數據分析。

1.3 數據處理

1.3.1 光譜提取和樣本劃分 由于壽眉樣本等級基本一致,且葉梗芽隨機分布,顏色花雜,故高光譜采集到的圖像數據對壽眉分類并無實際意義,本文只分析光譜數據。高光譜圖像在采集過程中會受到多種因素的干擾,因此高光譜圖像的去噪尤為重要[21]。為了盡可能保留光譜的主要特征,同時又能去除光譜中的噪音,本文采用數學形態學中的二值形態學對采集到的壽眉樣本圖像進行降噪處理,利用開運算和閉運算將圖像上孤立的小點和毛刺去掉,填平小孔,并保持總體的位置和形狀不變。

因為壽眉樣本的不同部位,如梗、葉、芽所含的內含物質成分差異明顯,故每個像素點之間的光譜數據差異較大。為解決這一問題,如圖1所示,本文采用的方法是在樣本區域內隨機選取100個20×20像素的感興趣區域(Region of Interest, ROI),其中一個像素點包含一條光譜信息,再計算ROI內所有像素點的平均光譜作為建立模型的光譜數據進行下一步分析。

圖 1 壽眉樣本高光譜圖像數據采集示意圖Fig.1 Sketch of data acquisition

為了防止同一個樣本的方塊數據點同時出現在訓練集和測試集,本實驗以每個壽眉樣本的100個ROI作為一個單位進行判別分析。本次實驗一共464個壽眉樣本,共采集到46400個ROI,464個數據組。為了防止訓練集過擬合,同時防止因為訓練集測試集劃分引起的精確率的誤差,本文采用5折交叉驗證法以增強模型的泛化能力,即進行5次隨機劃分,最后取各次結果平均值來評估模型效果。每一次都采用隨機挑選法選取371個數據組作為訓練集,剩余93個數據組作為測試集。

1.3.2 四種預處理方法 因為電噪音、光散射、基線漂移、光程變化等因素的干擾強度較大,還需要對光譜數據做必要的預處理。本文采用4種光譜預處理算法:最小二乘平滑濾波(Savitzky-Golay Filter,SGF)、歸一化(MinmaxScaler,Minmax)、多元散射校正(Multiplicative Scatter Correction,MSC)、標準正態變換(Standard Normal Variate,SNV)。后續實驗分別建立不同預處理后的光譜與儲藏時間的不同判別模型,通過對比不同預處理后的建模結果,確定最佳處理組合。

1.3.2.1 最小二乘平滑濾波(SGF) Savitzky-Golay濾波器廣泛地運用于數據平滑去噪,是一種基于局域多項式最小二乘法擬合的濾波方法,其最大特點在于去除噪聲的同時可以保留信號的形狀、寬度不變[22]。該方法應用于光譜數據的主要作用是消除隨機噪聲,提高信噪比。

1.3.2.2 標準正態變換(SNV) 粒子大小、散射和多重共線性是漫反射光譜分析中長期存在的問題。這些效應的乘性組合是阻礙解釋漫反射光譜的主要因素。樣品粒子大小是影響方差的主要因素,而由化學成分引起的方差很小。SNV可有效地消除散射、粒徑的乘性干擾和多重共線性[23]。該算法處理光譜數據的基本思想是:假設每一條光譜中各波長點的反射強度應符合正態分布,再對每一條原始光譜數據進行標準正態化處理使得校正后的光譜數據均值為0,標準差為1。具體如以下公式:

式中:x是原始光譜數據;x′是經過標準正態變換后的光譜數據;μ為平均值;σ為原始光譜數據的標準偏差。

1.3.2.3 歸一化(Minmax) Minmax的原理與SNV相似,目的都是為了方便處理數據,使得整個數據分布更加均勻,且兩者都能使模型運行時的收斂速度加快[24]。Minmax與SNV的區別在于,Minmax是將訓練集中某一列數值特征(假設是第i列)的值縮放到0到1之間或者?1到1,從而降低特異樣本數據導致的不良影響。計算公式如下:

式中:x′′是經過Minmax變換后的光譜數據;xi是 第i列的任一原始光譜數據;m ax(xi)是該列中最大值;m in(xi)是最小值。

1.3.2.4 多元散射校正(MSC) MSC主要用來消除固體顆粒大小、表面散射對漫反射的影響。多元散射校正通過校正每個光譜的散射來消除顆粒分布不均勻及顆粒大小產生的影響,增強了與成分含量相關的光譜吸收信息[25]。廣泛應用于固體漫反射光譜。使用該方法的前提是建立一個待測樣品的“理想光譜”,而實際上并不存在“理想光譜”。該光譜的特點是樣品中的成分含量與其滿足線性關系,然后將該光譜作為標準對其他樣品的光譜進行修正,其中包括基線平移和偏移校正。在實際應用中,經常將所有光譜的平均光譜視為一個理想的標準光譜。

1.3.3 三種判別模型 本文通過混淆矩陣、精確率、召回率對建立的模型進行評估。以最簡單的二分類問題為例,預測結果可分為四類,分別是:原本為正例的樣本被預測為正類(True Positive, TP)或負類(False Negative, FN),原本為負例樣本被預測為負類(True Negative, TN)或正類(False Positive, FP)。精確率是針對總體預測結果而言的,它表示的是所有預測正確的樣本占總觀測值的比重,若用P表示精確率(Precision),則:

而召回率是針對原來的樣本而言的,它表示的是樣本中的正例被預測正確的比例,若用R表示召回率(Recall),則:

1.3.3.1 支持向量機 支持向量機(Support vector machine,SVM)是將低維空間線性不可分的數據映射到高維,利用支持向量用來尋找一個最優分類超平面,使得不同類別的邊緣數據點之間的距離最大化,使得分類器的泛化能力最強,從而實現最優的二分類或多分類。SVM的核心是將高維特征空間中的內積運算轉化為低維空間中的內積核函數,以實現數據在經歷非線性轉化后的線性劃分[26]。核函數是支持向量機映射數據的重要手段[27]。在光譜數據分析中,徑向基函數(RBF)因其較強的非線性問題處理能力而成為應用最廣泛的核函數。本文以徑向基函數作為核函數,采用網格搜索法確定支持向量機的超參數(懲罰系數c和核寬度g)。

1.3.3.2 偏最小二乘法聯合線性判別 偏最小二乘法(Partial Least-square Method,PLS)是一種基于特征變量的回歸方法,其實質是按照協方差極大化準則,在分解自變量變量數據矩陣X的同時,也在分解因變量數據矩陣Y,并且建立相互對應的解釋隱變量與反應隱變量之間的回歸關系方程[28]。偏最小二乘回歸的成分之間是相互正交的,這在一定程度上消除了多重線性相關性。線性判別(Linear discriminant analysis,LDA)分類器是一種監督學習的數據降維方法,該方法的核心是將輸入變量空間投影到最佳鑒別矢量空間,達到樣本在投影后的矢量空間中“類內方差最小,類間方差最大”的目的,即投影后每一種類別數據的投影點盡可能的接近,而不同類別的數據的類別中心之間的距離盡可能的大。之后通過計算待測樣本與各中心的距離,待測樣本的類別即為距離最短的[29]。

1.3.3.3 邏輯回歸 邏輯回歸(Logistic Regression,LR)是在線性回歸的基礎上構建一種分類模型,是對于特征的線性組合來擬合真實標記為正例的概率的對數幾率,其公式可表示為:

式中:w,b均為參數。

LR多應用于二分類問題,一個事件發生的機率定義為事件發生的概率與不發生的概率的比值,設p=P(y=1|x,w),那么事件的幾率是p/1?p,其對數幾率是:

可以看出,輸出類別1的對數幾率函數是輸入x的線性函數,對數幾率函數是Sigmoid函數的重要代表[30]。對于多分類問題,LR的方法是將多分類轉化為所有的多個二分類問題,然后對樣本,再依次進行二分類[31]。

2 結果與分析

2.1 光譜分析

由于三個儲藏年份的壽眉樣本的光譜曲線在頭尾處存在較大的隨機誤差,首先除去全波段中450~461 和963~998 nm的首尾噪聲,以獲得波段范圍為462~962 nm內的126個波段的光譜數據進行后續分析。統計每個樣本的光譜數據并作圖,結果如圖2所示。根據圖2可知,650~700 nm處存在一個波谷,可能是因為葉綠素在663 nm處有較大的吸光系數,李曉麗等[15]利用高光譜成像實現茶葉中EGCG可視化研究中也有類似研究現象。700~900 nm處壽眉樣本對光譜的反射急劇上升,是因為壽眉對近紅外波段吸收較少。每條光譜曲線的形狀類似,說明壽眉樣本內部的內含成分大致相同。隨著儲藏時間的變化,壽眉的內含成分的含量發生變化,導致在相同的波段有不同的反射率,這也為壽眉儲年份測定奠定了客觀基礎。

圖 2 各儲藏年份壽眉樣本原始光譜數據圖Fig.2 Diagram of raw spectra of different Shoumei samples

圖 3 預處理效果圖Fig.3 Spectra of all samples after being preprocessed

2.2 預處理效果

由圖3可知,在同一坐標系下,除了SNV預處理后的光譜,其余光譜的相對反射率均在0以上。由1.3.2.3中的公式可知,SNV預處理后的相對反射率值為原始反射率減去該波段所有反射率的平均值再除以原始光譜的標準偏差后得到,所以相對反射率會出現負值。從光譜變化情況可知,相比于其余預處理,SNV預處理后的光譜在不同波段的相對反射率變化較大。從光譜分布情況可知,MinMax預處理后的光譜分布相比于原始光譜更為離散;MSC預處理后光譜分布相比于原始光譜更為集中,而SGF預處理前后差異不明顯。光譜預處理后的具體建模效果還需結合建模結果進一步分析。

2.3 建模結果分析

2.3.1 SVM建模結果 表1是SVM建模分析結果,表2是該模型下的最優處理即SNV-SVM處理后得到的混淆矩陣。從表1可以看出,經過SNV預處理后的建模結果最優,訓練集和測試集的精確率明顯高于其他預處理,分別為90.83%和86.02%。其中沒有經過預處理的建模效果在兩個數據集上的表現與經過Minmax預處理后的差異較小,說明原始光譜分布較為均勻,導致該預處理在SVM模型中效果一般。從表2混淆矩陣中可以看出,SNV-SVM處理組合對于訓練集不同年份壽眉樣本的預測效果差異不大,但對于測試集中的預測效果差異明顯,其中3、10年壽眉的召回率接近,分別為90.32%、89.29%,而6年壽眉的召回率只有79.41%。

表 1 SVM建模分析結果Table 1 Results of SVM modeling analysis

2.3.2 PLS-LDA建模結果 表3是PLS-LDA建模分析結果,表4是該模型下的最優處理即SNV-PLSLDA處理后得到的混淆矩陣。由表3可見,經過SNV預處理之后的建模結果最佳,訓練集和測試集中的精確率分別為80.05%和74.19%;而經過部分預處理后的建模結果相較于無預處理并沒有明顯的提高。在PLS-LDA模型中,與SVM建模結果類似,不經過預處理與經過Minmax預處理后的建模結果幾乎一致;不經過預處理的建模結果比經過SGF和MSC預處理的建模結果更好,可見原始光譜的噪聲較小、基線漂移不明顯,預處理可能會造成有效信息的損失。從表4混淆矩陣中可見,經過SNV預處理后,10年的壽眉樣本的精確率最高,但召回率最低,在測試集中分別為86.67%、66.67%;3年的壽眉樣本情況則相反,在測試集中的精確率和召回率分別為62.50%、80.00%。

2.3.3 LR建模結果 表5是LR建模分析結果,表6是該模型下的最優處理即Minmax-LR處理后得到的混淆矩陣。從表5可知,與PLS-LDA建模結果類似,不經過預處理的建模結果和SGF、MSC預處理后的建模結果差異較小。但與其他兩種模型不同的是Minmax相比于其他預處理在LR模型中的表現最佳,訓練集和測試集的精確率分別為84.64%和78.50%,這與LR模型本身對樣本分布的均勻度更為敏感有關。從表6混淆矩陣中可以看出,Minmax模型對三個儲藏年份的壽眉樣本判別存在差異,且在兩個數據集中都對3年壽眉樣本的判別最佳,6年其次,10年最差。

表 2 SNV-SVM處理的混淆矩陣Table 2 The confusion matrix in SNV-SVM model

表 3 PLS-LDA建模分析結果Table 3 Results of PLS-LDA modeling analysis

表 4 SNV-PLS-LDA處理的混淆矩陣Table 4 The confusion matrix in SNV-PLS-LDA model

表 5 LR建模分析結果Table 5 Results of LR modeling analysis

表 6 Minmax-LR處理的混淆矩陣Table 6 The confusion matrix in Minmax-LR model

表 7 三種判別模型的最優處理匯總Table 7 Results of three discriminant models with their best preprocessing algorithm

2.3.4 建模結果小結 從表7可以得出,SVM模型對于壽眉樣本的判別效果要明顯優于PLS-LDA、LR模型,其中最佳處理組合SNV-SVM在訓練集和測試集的精確率分別為90.83%、86.02%。四種預處理方法中,SNV在三種判別模型中的表現較好,Minmax其次,SGF和MSC表現一般。該結果與原始光譜數據特點相關,原始光譜數據所受到隨機噪聲和基線漂移的影響都較小,SGF和MSC預處理后可能降低原始光譜中的有效信息,導致后續的建模效果相較于無預處理并不明顯,在PLS-LDA模型中甚至更差。

3 結論

本文通過高光譜成像技術獲得450~998 nm波段范圍內的高光譜數據對儲藏年份為3、6、10年的壽眉樣本進行無損檢測研究。采用Minmax、SGF、SNV、MSC 4種算法來對壽眉原始光譜數據進行預處理,并分別建立SVM、PLS-LDA、LR判別模型。建模結果表明,相較于線性模型PLS-LDA、LR,非線性模型SVM對于壽眉樣本的高光譜數據有更好的判別效果,說明光譜數據和白茶儲藏年份之間的關系更可能是一個非線性關系,這與白茶中多種內含成分在儲藏過程中不斷發生復雜的化學變化有關。本文所建立的SNV-SVM處理組合針對3、6、10年這三個年份的壽眉有較高的判別精確率以及較強的泛化能力,而對于判別其他品類和其他年份的白茶還需后續進一步研究。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费一级无码在线网站 | 国产91蝌蚪窝| 97亚洲色综久久精品| 欧美在线观看不卡| 视频在线观看一区二区| 91色在线观看| 国产99免费视频| 欧日韩在线不卡视频| 国产1区2区在线观看| 国产精品片在线观看手机版| 多人乱p欧美在线观看| 久久人搡人人玩人妻精品 | 一本久道久久综合多人| 亚洲欧美激情另类| jizz在线免费播放| www.亚洲一区二区三区| 国产成人亚洲无码淙合青草| 国产在线视频导航| 亚洲一区无码在线| 久久久受www免费人成| 玖玖免费视频在线观看| 国产免费久久精品44| 色婷婷在线影院| 日韩欧美成人高清在线观看| 国产精品久线在线观看| a国产精品| 国产精品福利在线观看无码卡| 福利在线不卡| 国外欧美一区另类中文字幕| 国产亚洲精品91| 亚洲国产午夜精华无码福利| 91精品亚洲| 波多野结衣视频一区二区| 国产AV无码专区亚洲精品网站| 国产一级片网址| 国产成人精品一区二区三在线观看| 毛片免费视频| 麻豆精品在线视频| 色爽网免费视频| 2021国产精品自产拍在线| 欧美另类视频一区二区三区| 好吊色国产欧美日韩免费观看| 亚洲成a∧人片在线观看无码| 亚洲人精品亚洲人成在线| 2021最新国产精品网站| 精品国产www| 国产亚洲精品97在线观看| 91无码人妻精品一区| 国产在线观看精品| 国产精品一区二区在线播放| 欧美午夜网站| 国产一区二区三区在线观看视频| 老司机精品99在线播放| 亚洲无码电影| 91毛片网| 中文字幕66页| 97se亚洲综合在线韩国专区福利| 九色综合伊人久久富二代| 国产在线无码一区二区三区| 国产精品亚洲欧美日韩久久| 一本大道视频精品人妻| 制服丝袜无码每日更新| 免费在线观看av| 午夜无码一区二区三区在线app| 丁香亚洲综合五月天婷婷| 国产精品黑色丝袜的老师| 99福利视频导航| 亚洲乱伦视频| 理论片一区| 免费无码一区二区| 奇米影视狠狠精品7777| 免费观看欧美性一级| 日韩精品亚洲人旧成在线| 亚洲精品桃花岛av在线| av大片在线无码免费| 99国产在线视频| 国产精品自在拍首页视频8| 亚洲精品国产首次亮相| 熟女成人国产精品视频| 久久香蕉国产线| 国产探花在线视频| 国产黑丝视频在线观看|