陳思博 ,潘曉文,吳子旋,孫楨怡 ,李少凡 ,劉金福 *
1. 福建農林大學計算機與信息學院(福州 350002);2. 生態與資源統計福建省高校重點實驗室(福州 350002)
茶是深受國人喜愛的傳統飲品,近年來茶文化發展迅速,茶葉成為世界三大非酒精飲品之首[1]。茶的種類繁多,按照加工工藝和產品特性可分為六大茶系(綠茶、紅茶、白茶、黃茶、黑茶和烏龍茶)[2],因此建立一種快速、便捷和準確地鑒別茶葉優劣的方法極為重要。
傳統的感官定級法,憑借觀察茶葉外形、顏色、葉片大小及感知茶葉香氣等進行評審,但由于標準樣品受限,影響因素過多[3],導致評審結果模糊,缺少量化識別[4];化學分析法是一種穩定、可靠的分析方法,具有可信度強、重復性好、精確度高、分析高效快速等優勢,該方法通過測定茶葉的成分含量確定茶葉的種類,雖然該方法精確度高,但成本高、周期長[5-6];電子鼻多傳感器識別技術通過傳感器陣列的反饋以識獲取信息,進行茶葉種類識別,但由于檢測系統單一不夠全面,無法多角度反映樣品信息,分類識別性能偏低[7]。
紫外光譜分析技術利用全譜段或多波長下的光譜數據進行定性或定量分析,將紫外光譜分析法應用在茶葉鑒別上的研究還較少[8-9]。因此,開展茶葉浸汁液的紫外光譜試驗,并對其進行數據預處理后,分別采用主成分分析對光譜數據進行降維,用BP神經網絡進行識別的方法,從中探索出更適合茶葉浸汁液紫外光譜數據的分析方法[10-12]。應用于茶葉的快速鑒別,并可直接通過茶葉浸汁液進行光譜分析,相比利用茶葉本身的識別方法,通過茶葉浸汁液進行分析識別,更貼近人類感官,使茶葉的識別更直接,是一種快速簡便、分析成本低、實用性強的鑒別方法和手段,有望得到廣泛應用。
鐵觀音、碧螺春、正山小種、金駿眉這4種茶葉均來自松溪縣銀都茶葉加工廠。
試驗臺的構建采用高利通的GLA600-UVN紫外光纖光譜儀,其測定波長范圍為190~750 nm,采用Czerny-Turner光學結構,光譜分辨率為FWHM 0.5 nm,具有光譜范圍寬、光譜分辨率高和動態范圍較大等特點;結合浸入式水質檢測探頭,波長范圍為240~800 nm;GL-D2T-V01一體化紫外增強的寬帶氘鎢燈,可提供200~2 500 nm(決定于所用的濾光片)紫外可見光高效穩定的連續輸出光譜。構建的茶葉浸汁液檢測試驗臺的結構原理圖見圖1。
圖1 試驗臺結構原理圖
1.3.1 紫外光譜數據采集
為了能在不同情況下鑒別茶葉的種類,試驗設計采集不同情況的樣本光譜數據,包括不同濃度、不同沖泡次數和不同品種的茶葉樣本。
將鐵觀音、碧螺春、正山小種、金駿眉這4種茶葉各取5 g茶葉分別用100 ℃的200 mL純凈水泡開,分別記錄4種茶葉不同泡時與不同泡次(10,30,60,90,120和150 s)的光譜圖(泡時分別為10,30,60,90,120和150 s)。分別采取時間10 s、曝光度20s、浸入式探頭的長度設置成1 cm進行光譜測量。使用光譜儀來進行吸收率測量以獲得數據,圖2為碧螺春茶葉浸泡60 s時的透射光譜圖。
圖2 碧螺春浸泡60 s時的光譜圖
先降噪后微分,可先對光譜中夾雜的大量噪聲信息進行有效的消除,提高光譜的信噪比,進行小波降噪,同時消除濁度帶來的基線影響進行預處理。將上述得到的光譜數據進行主成分分析,以主成分為輸入值,以茶葉種類為輸出值,應用BP神經網絡建立紫外光譜的茶葉種類識別模型,根據得出結果,分析紫外光譜的茶葉識別模型識別效果。
試驗中,通過使用紫外-可見光纖光譜儀得到的光譜中不僅有待測樣品的相關信息,還包含其他的信息和噪聲,如儀器噪聲、雜散光和背景光等,運用小波閾值去噪的方法可以有效地降低噪聲對光譜信號產生的影響,能較好地避免其信息丟失。因此,為消除光譜的隨機噪聲或樣品的不均勻性造成的影響、消除濁度帶來的基線影響對光譜的影響需要對試驗進行預處理是必要的。
由于光譜儀中的CCD探頭隨著時間的變化會產生波動,這就形成噪聲。而這種噪聲,在GLA600-UVN驅動軟件采集光譜數據的時候就能通過增加平均次數,降低噪聲的影響。
試驗中,不僅光譜儀內部會產生噪聲,試驗設備的使用以及光源、光路也同樣會產生噪聲,對光譜造成影響。對于此類噪聲,通常采用小波變換來濾除[13-14]。
小波變換:把基本小波函數ψ(t)做位移τ后,再在不同尺度α下與待分析信號x(t)做內積。
等效的頻域表示式:
式中:X(ω)、ψ(ω)分別為x(t)、ψ(t)的傅里葉變換。
由于高斯疊加的部分有一個轉折點,如果用硬閾值去噪的話,則轉折點會消失,軟閾值得到的小波系數整體連續性較好,從而使估計信號不會產生附加振蕩,所以使用軟閾值來去噪。小波系數的絕對值小于給定的閾值時,令其為零;大于閾值時,令其都減去閾值,即:
式中:wλ為軟閾值濾波的收縮函數,sgn(w)表示w的符號。w值大于閾值λ時,收縮為w與閾值λ的差值,值小于閾值λ的相反數時,收縮為w與閾值λ的和,絕對值小于等于閾值λ的點則變為零。
在小波閾值去噪中,含有小波包分解數(n)、小波函數等參數。Daubechies(dbN)小波角適用于濾波,由多次光譜濾波試驗可以得出,當n=5、db 9時,進行小波閾值去噪的效果是更佳的,故將其設為試驗的參數。
從濾波前后對比圖(圖3)可以看出,經小波閾值去噪后,光譜信號更加光滑,噪聲得到有效去除,該方法的有效性為進一步降維及分類處理奠定良好基礎。
圖3 濾波前后對比圖
2.2.1 光譜數據的相對變化率推導
檢測器在沒有對樣品進行檢測時,信號會隨著時間變化即產生由濁度帶來的基線影響。使用微分可消除基線對光譜的影響。由于每次試驗都需要對入射光強度進行測量,造成試驗步驟增加,使得試驗工作量加大。對此提出問題:不同的入射光強度不會對光譜造成影響;入射光強度不需要測量。對于該問題,可通過光譜數據進行驗證。
根據Lambert-Beer定律:
式中:A為吸光度;I(λ)為透過待測樣品的光強,I0(λ)為透過去離子水的光強;I(λ)和I0(λ)是波長(λ)的函數。
式中:K(λ)為吸收系數;C為物質濃度;L為光程長度[15];K(λ)是波長(λ)的函數。對A進行求導。
從式(6)中可以得出:I0’(λ)/I0(λ)與光源的穩定性有關,與吸收率無關,因此吸光度對波長的一階導數與透過去離子水的光強I0無關。定義ΔI(λ)/I(λ)為透射光譜的相對變化率與K’有線性關系,在測量時C和L固定不變。
2.2.2 光譜相對微分驗證
對試驗數據進行驗證,使用不同的茶葉浸汁液數據,計算光譜相對變化量,得到結果,圖4為同種不同浸泡時間的光譜相對微分信號,圖5為不同種茶葉浸汁液的光譜相對微分信號。
將圖4和圖5進行對比可以發現,盡管試驗時存在一些系統誤差和設備誤差等對輸出波形造成的輕微干擾,但從整體來看同品種波形幾乎相等,都保留幾乎相同的特征,不同品種波峰波谷差異較為明顯,易于識別。因此,I0(λ)對光譜圖的影響微乎其微,在后續試驗中不必測量I0(λ),節省每次測量I0(λ)所花的成本。
通常情況,高維數據包含大量冗余、隱藏重要關系的相關性,造成計算工作量增加及對決策有效性與可靠性產生影響。在訓練數據不足情況下,容易造成神經網絡在對于所給予的訓練樣本有較好的表現,但是在測試集上表現欠佳。因此,需要對光譜數據進行降維。
將主成分分析法用于檢測茶葉浸汁液的光譜數據降維,其目的是為減少數據的冗余并在盡可能保有原來的信息[16]。主成分分析法用于光譜數據降維的步驟為:計算樣本矩陣協方差系數矩陣;計算相關系數矩陣的特征值和相應的特征向量,將該特征值進行按從大到小排列,選擇前面若干最大的特征值組成新的投影矩陣,即實現數據的主成分分析法降維。
根據上述步驟可以看出,對于高維的頻譜數據,通過坐標變換,可以將原來的數據投影在新的坐標系下。要求新的坐標系下,數據在部分坐標軸上的投影必須是密集的。因為數據越分散代表數據信息量越大、數據越集中代表數據信息量小。描述數據的信息量大小的參數可以是熵或數據的方差。PCA可以使用方差表示數據信息量。對于較為密集的坐標軸的數據可以忽略,從而實現降維。光譜數據經過降維后,就可用于訓練神經網絡,同時待測數據經過降維后,可以輸入神經網絡進行分類。
試驗采集碧螺春、鐵觀音、金駿眉、正山小種4種茶葉的光譜數據,通過主成分分析得到其茶溶液吸收光譜的主成分,通過茶葉在這些主成分投影上所得的分數從而區分是哪個品種茶葉。區分茶溶液吸收光譜中在其投影方差最大的向量就是第1主成分,依次遞減便是第2,第3,第4,第5和第6主成分。為提高茶葉的識別度,提取的茶溶液吸收光譜的主成分貢獻率的總和一定要占累計貢獻率的90%以上,共選取8個主成分,占總成分的92.24%,如圖6所示。
圖4 正山小種不同浸泡時間的光譜相對微分信號
圖5 正山小種與鐵觀音的光譜相對微分信號
圖6 茶葉中主成分含量
選取這次試驗所有數據的前8個主成分得分作為訓練數據集,將訓練數據集進行主成分分析,降維后用每個樣本的得分數據作為輸入,茶葉種類為輸出值,對應碧螺春輸出序號1,金駿眉輸出序號2,鐵觀音輸出序號3,正山小種輸出序號4。將BP神經網絡訓練模塊輸入層設置為8,隱含層B設置為10,隱含層t設置為9,輸出設置為4 one-hot。進行BP算法訓練,計算出準確率為97.66%,在可接受范圍內,表明訓練識別成功,如表1所示。
將測試集測試結果與實際結果據進行對比,結果發現存在1例正山小種識別為碧螺春與1例金駿眉識別為正山小種,分析錯誤數據,其錯誤原因可能為茶葉浸汁液的濃度過低,導致測試結果發生錯誤,然而在試驗的大量測試中,大多數茶葉浸汁液的濃度很低的情況下,依然取得不少正確的試驗結果,說明采用的相對微分光譜經過PCA降維后結合BP神經網絡訓練的試驗方法,對茶葉浸汁液種類識別非常有效。
表1 模型測試結果
茶葉種類的快速、無損檢測是當前的發展趨勢。此處通過對大量茶溶液數據的采集,收集不同品種茶葉的有效信息,將紫外光譜技術與主成分分析和BP神經網絡相結合,建立一個高效穩定的茶葉種類識別模型,可以快速準確地識別茶葉的種類,準確率達97.66%;且不必多次測量去離子水I0(λ),用相對微分的方法代替吸收率光譜,可減小基線偏移的影響,樣品制備簡單,節省試驗時間的同時也降低試驗成本。經過多次測試發現,在茶葉浸汁液濃度很低的情況下,該組合方法依然可以正確識別出茶葉浸汁液的種類,因此主成分分析結合BP神經網絡的組合方法可用于消除評價茶葉品質時對茶葉種類識別錯誤的問題。