王巧華,李小明,段宇飛
(1.華中農業大學工學院,湖北 武漢 430070;2.華中農業大學 國家蛋品加工技術研發分中心,湖北 武漢 430070)
基于CUVE-PLS-DA的雞蛋新鮮度在線檢測分級
王巧華1,2,李小明1,段宇飛1
(1.華中農業大學工學院,湖北 武漢 430070;2.華中農業大學 國家蛋品加工技術研發分中心,湖北 武漢 430070)
針對目前雞蛋新鮮度檢測技術方法存在勞動強度大、檢測精度低、分級效率不足等缺陷,本研究在4 800 枚/h的禽蛋傳輸機上搭建了可見-近紅外透射光譜(501~1 000 nm)在線檢測裝置,動態采集雞蛋透射光譜數據,并建立光譜信息與雞蛋哈夫值等級的偏最小二乘判別模型。采用3∶1原則對雞蛋樣本進行隨機劃分,其中校正集169 個,驗證集57 個,通過比較多種光譜預處理方法以及兩種特征波長選擇方法,得出標準正態變換預處理方法和多模式共識方法能夠有效地提高模型的正確率、運算效率和預測能力,優化模型后的校正集和驗證集準確率分別為92.31%、91.23%。結果表明本實驗建立的可見-近紅外光譜透射光譜檢測方法能夠對雞蛋的新鮮度進行無損、智能、在線檢測分級。
雞蛋;新鮮度;在線檢測;偏最小二乘判別法;多模式共識法
雞蛋因其易消化、口感佳,并含有大量的蛋白質、脂肪、維生素等豐富營養物質而深受廣大消費者的喜愛。雞蛋新鮮度會隨著時間的推移逐步下降,營養成分逐漸丟失[1]。根據農業部標準雞蛋品質新鮮度在B級以下
不建議消費者食用,而目前我國蛋品市場和蛋品加工企業在線智能無損檢測技術尚未成熟,因此對雞蛋新鮮度的快速無損檢測具有重要的現實意義。
光譜分析技術是近幾年發展起來的一種高效、無損、智能檢測技術,并已經在石油、農業、醫療、工業等領域得到了成功的應用[2-7]。國內外眾多研究者對雞蛋的新鮮度、氣室高度、蛋白高度等方面開展了相關的研究和探索。侯卓成等[8]基于傅里葉近紅外漫反射光譜分析技術,運用無偏最小二乘法建立了光譜信息與雞蛋的氣室高度、氣室直徑和蛋白高度3 個指標的定量分析模型,所得出的回歸模型具有較好的準確性和預測能力。林顥等[9]提出了一種基于近紅外光譜漫反射結合一類支持向量機技術,建立了一種鑒別新鮮蛋和非新鮮蛋的判別模型,其模型預測準確率為80%。Soltani等[10]基于介電光譜技術和機器視覺技術,運用神經網絡、決策樹、支持向量機3 種方法建立了光譜信息與雞蛋新鮮度的回歸模型,得出驗證集的相關系數分別為0.817、0.906、0.920。Giunchi等[11]基于傅里葉近紅外光譜漫反射分析技術,運用偏最小二乘法建立了光譜信息與雞蛋氣室高度、蛋白高度、哈室單位的定量回歸模型,得出了驗證集的相關系數分別為0.722、0.789、0.676。
上述研究表明了雞蛋的新鮮度能夠通過近紅外光譜技術進行定量和定性的分析,但是大部分研究者都是基于靜態分析,而動態研究雞蛋品質的大多為機器視覺技術、生物傳感器技術等,少有應用光譜技術的,針對目前我國市場、企業檢測雞蛋新鮮度勞動強度大、效率低、準確率不高等缺點,本研究提出了一種基于多模式共識結合偏最小二乘判別分別(consensus uninformative variable elimination-partial least squares-discriminant analysis,CUVE-PLS-DA)的可見-近紅外透射光譜在線檢測雞蛋新鮮度等級的方法,為蛋品品質的光譜檢測實際應用提供了技術支撐[12-14]。
1.1 材料
當日產的新鮮雞蛋,購于湖北省武漢市九峰山養雞場。供試樣本226 枚,雞蛋的質量50~76 g;雞蛋的短軸直徑42~48 mm;雞蛋的長軸直徑53~65 mm。將所有雞蛋樣本均貯藏在溫度24 ℃、相對濕度65%的恒溫恒濕生化培養箱內。
1.2 儀器與設備
本實驗光譜采集裝置如圖1所示,主要由計算機、USB2000+便攜式光譜儀(美國Ocean Optics公司)、光電開關、準直鏡、暗箱、雞蛋運輸傳送裝置、光亮度調節箱、可編程控制器等部件構成。雞蛋通過4 800 枚/h的傳送裝置運輸到光電傳感器被觸發的位置,控制器收到傳感器的觸發信號后將其轉換并反饋到電腦光譜采集軟件,從而通過軟件驅動光譜儀采集雞蛋的透射光譜。
電子天平 上海精密科學儀器有限公司。

圖1 雞蛋透射光譜在線采集裝置Fig.1 On-line transmission spectral acquisition device for eggs
1.3 方法
1.3.1 雞蛋原始透射光譜
實驗每3 d從恒溫恒濕箱里隨機挑選雞蛋樣品30 枚,將雞蛋進行編號并依次放入ZYJD330蛋品運輸機上;光源選用LS-3000型的鹵素燈源;軟件設置積分時間100 ms、平滑次數10 次、平滑寬度為5 nm。采集的雞蛋原始透射光譜圖(光譜采集范圍500~1 000 nm),如圖2所示。

圖2 雞蛋的原始透射光譜Fig.2 Original transmission spectra of eggs
1.3.2 新鮮度常規檢測方法
通過上述采集裝置采集完雞蛋的光譜信息后,將雞蛋放入精度0.01 g的電子天平稱量,然后破殼,利用精度0.01 mm的數顯游標卡尺測量環繞蛋黃邊境不同點的蛋白高度3 次,取平均值作為最終的蛋白高度,最后利用標準的哈夫(Ha)值公式計算雞蛋的新鮮度,并按照美國農業部的劃分標準將其分為3 類:AA級(Ha≥72)、A級(60<Ha<72)、B級及以下(Ha≤60)。

式中:h為蛋白平均高度/mm;w為雞蛋質量/g。
1.3.3 樣本集劃分方法
實驗中不同新鮮度的雞蛋樣本226 個,按照3∶1原則將其隨機劃分校正集和驗證集,其中校正集的樣本個數為169 個,用來建立新鮮度判別模型,而剩余的57 個雞蛋作為驗證集用來檢驗模型的適用性及預測精度。
1.3.4 預處理和建模方法
雞蛋在線無損檢測的過程中需要一個運行穩定、運算效率快、準確率高的預測模型,本研究嘗試了PLS-DA法和K最鄰近(K-nearest neighbor,KNN)算法對雞蛋新鮮度進行分級。
KNN算法的思路是未知類別樣本點去尋找與附近已知K個樣本點進行比較,K個樣本點與未知樣本點某一類相似的個數最多,則歸結為該類,其中的相似是以歐式距離作為評判的依據,越小越相似,樣本點K的選擇是根據模型的交叉驗證準確率為依據。
PLS-DA是一個線性分類方法,是結合偏最小二乘回歸的性質和判別分類技術的一種方法[15]。該方法的基本實現過程如下:
首先在原始變量X中提取與Y變量(M×1維矩陣,M代表校正集樣本數目,1列則代表著每一個樣本類別標簽,本研究將類別標簽分為3 類,1代表AA級,2代表A級,3代表B級及以下)協方差關聯比較大的主成分X1。
將原始Y變量轉換成虛設矩陣Y1(Y1為M×3維矩陣),即將原始標簽轉換成二進制的0和1標簽,將樣本的歸屬類標簽置為1,在剩余兩類的標簽都置為0。
建立X1與Y1的偏最小二乘回歸模型,根據模型的運算將得到每一個樣本的預測值Yc(M×3),樣本將歸屬于Yc最接近于1的那一類。
校證集的正確率能夠有效說明該判別模型的準確性,驗證集的正確率能夠表明該模型的預測能力及推廣性。校證集和預測集的正確率越高,說明本模型的精確度和預測能力越高。
在線采集雞蛋透射光譜的過程中,會受到機器的振動、高頻隨機噪聲、基線漂移、樣品不均勻、光散射等各種外界噪聲影響,因此有必要對原始透射光譜進行濾波和校正,從而有利于提高模型的精度[16-18]。比較無預處理(NONE)、SG濾波(Savitzky-Golay,SG)、一階導數(first derivative,FD)、標準正態變換(standard normal variate,SNV)、多元散射校正(multiple scatter correction,MSC)不同種預處理的方法結合PLS-DA法建立了定性分級模型,并使用驗證集來進行驗證模型。
1.3.5 特征波段提取方法
在采集雞蛋透射光譜的過程中,會受到各種各樣隨機的外界條件所干擾,所獲得的光譜信息中會存在一些基線漂移、冗雜、噪聲等無用信息。選擇合適的方法去剔除這些無用的信息,不僅能夠有效的改善模型的準確率,而且也能夠極大地提高模型的運算效率。
1.3.5.1 無信息變量消除法
無信息變量消除(uninformative variable elimination,UVE)法是Center最早提出的篩選特征波長的有效算法,該算法核心目的是淘汰一些與因變量關聯非常小的波長[19]。該算法的具體實現是首先向原始光譜數據添加等同行列大小一定數量級的(本實驗采用大小0~10-8)隨機噪聲,并將其稱之為無信息的變量,然后每次剔除一個樣本,將剩余的樣本訓練集建立偏最小二乘回歸模型,從而能夠得到每一個回歸模型的回歸系數β,通過可信度Cj判斷是否保留該波長點。
綜上所述,超細鼻胃鏡不僅能夠有效減低對患者的刺激程度,還可以在消化道狹窄性病變中對胃腸道進行更全面、細致的檢查,配合相關器械還可進行內鏡下活檢與治療,在內鏡下診療領域發揮獨特優勢,應當廣泛推廣應用于各內鏡治療中心。

式中:βj為第j點波長的所有模型回歸系數,j=1,2,3,...1 000;mean(βj)表示平均回歸系數;std(βj)表示方差。滿足如下的條件,能夠有效地剔除光譜數據中的一些無信息的變量,也為最后的波長篩選結果。|Ck|>max|Cm|,k取1~500,m取501~1 000。
1.3.5.2 多模式共識法
單一方法挑選的特征波段往往受到多種因素、參數的影響,而且或許會在不同的條件下選取的特征波段結果有所差別,因此本研究針對于此缺陷嘗試將多模式共識的理論應用到特征波段的選取。CUVE的實現算法流程圖如圖3所示。

圖3 多模式共識法篩選波長的流程圖Fig.3 Flow chart of CUVE for wavelength selection
首先從總校正集樣本X(m×n)隨機選取約50%樣本X1(m×n),建立無信息變量消除-PLS(uninformative variables elimination,UVE-PLS)篩選波長;然后重復運行上述步驟200 次,每一次都會有波長的篩選結果;記錄每一個波長點被選擇的頻率f,最后通過十折交互驗證后的模型正確率來判斷最佳的頻率閾值,根據據頻率閾值,篩選出最后保留的波長點。
2.1 樣本集的劃分結果
對樣本集隨機分選后的結果見表1。

表1 樣本的分類情況Table1 Sample classification
2.2 光譜數據建模及預處理結果分析

圖4 KNN算法K的選擇Fig.4 K Selection for KNN algorithm
KNN算法K的合適選擇對于模型的預測能力和推廣至關重要,本研究使用交叉驗證的錯誤率來進行K值的選取,根據圖4能夠看出當K值為9的時候,此時的交叉驗證錯誤率最低。通過K=9的KNN算法與PLS-DA去預測雞蛋新鮮度等級進行比較,PLS-DA其校正集的準確率和驗證集的準確率均高于KNN模型對應的值。

表2 KNN和PLS-DA兩種建模方法比較Table2 Comparison of two modeling methods KNN and PLS-DA
KNN算法是通過領域空間去尋找相似樣本的個數,而在一些樣本離散度較大、樣本等級個數不均勻的情況下,往往所獲得的結果不夠理想。而PLS-DA是多元回歸、典型相關性、主成分分析集于一體的現代分析統計方法,比較適合復雜的數據分析,根據表2兩種建模方法結果的比較,最終選取了PLS-DA作為最終的建模方法。

表3 不同預處理方法所建立的PLS-DA模型結果Table3 Results of PLS-DA models based on different spectral preprocessing methods
由表3可以看出,不同預處理的方法所獲得的判別準確率有所差別,而且經過預處理后的模型預測準確率均比無預處理的結果要高。經比較,標準正態變換預處理更有效地去除了光譜噪聲、減弱顆粒大小、光程長短變化、表面散射等隨機因素對光譜的影響,經其處理后所獲得的模型預測效果最優。
2.3 特征波段提取與分析
2.3.1 無信息變量消除法挑選特征波段的結果
由表3可知,經過預處理后的模型預測集正確率和預測能力仍然不足,模型的推廣性有待優化。對光譜進行特征波段提取能夠有效地濾除與雞蛋新鮮度沒有關聯或者是關聯微乎其微的波段,同時也能夠優化判別模型,提高在線檢測分級的效率[20-24]。

圖5 基于無信息變量法選出的特征波長Fig.5 Selection of characteristic wavelengths by UVE
基于無信息變量法選出的特征波長見圖5。采取無信息變量后篩選出22 個波長,通過這些波長點建立PLS-DA模型,最后得到校正集的正確率為89%,預測集的正確率為88%,可見通過無信息變量法篩選后波長進行建模能有效提高模型的預測能力。
2.3.2 多模式共識法挑選特征波段的結果
由于無信息變量法添加的為隨機噪聲,每一次使用該方法隨機噪聲大小數值都會有所變化,因此經常會得到不同的波長篩選結果,這樣選取的波長變量往往有些不牢靠。針對此缺陷,本實驗嘗試將多模式共識的方法應用于波長篩選[25]。

圖6 最優頻率閾值Fig.6 Optimization of frequency threshold
從圖6可以看出,f≥2的時候交叉驗證后的模型準確率最高,最后將按照f≥2的判定準則選出如圖7中的39 個特征波長用來建立PLS-DA模型,建立模型的校正集準確率為92.31%,預測集的準確率為91.23%。

圖7 通過多模式共識法所選的特征波長Fig.7 Wavelength variables selected by CUVE
通過與無信息變量消除法相比,多模式共識采用隨機和組合的方式建立多個子模型,選出來的波長點更具有可靠性,有效地提取了特征波段,該方法篩選波段用來建模得到更好的檢測結果。
在比較多種光譜預處理方法對模型結果影響的基礎上,確定了SNV為最佳預處理,模型校正集的準確率為86.39%,驗證集的準確率為84.21%,能夠有效地提高模型的準確率和預測能力。將多模式共識理論應用于雞蛋透射光譜的波長選擇,基于多模式共識法挑選特征波段后的建模效果優于無信息消除變量法。
通過多模式共識法將500 個波長縮減到39 個特征波長,用39 個特征波長建模,最終得到的模型校正集的準確率為92.31%,預測集的準確率為91.23%,滿足了在線高效檢測要求,為可見-近紅外光譜用于雞蛋新鮮度在線檢測提供了技術支持。
[1] 王巧華, 周平, 熊利榮, 等. 雞蛋反射特性及其與新鮮度的關系[J].華中農業大學學報, 2008, 27(1): 140-143.
[2] 顧小紅, 馮宇, 湯堅. 偏最小二乘法在紅外光譜識別茶葉中的應用[J].分析科學學報, 2008, 24(2): 131-135.
[3] 黃濤, 李小昱, 彭毅, 等. 基于近紅外光譜的淡水魚新鮮度在線檢測方法研究[J]. 光譜學與光譜分析, 2014, 34(10): 2732-2736.
[4] 寧井銘, 宛曉春, 張正竹, 等. 近紅外光譜技術結合人工神經網絡判別普洱茶發酵程度[J]. 農業工程學報, 2013, 29(11): 255-259.
[5] 張仲源, 劉靜, 管驍, 等. 近紅外光譜技術在食品檢測中的應用研究進展[J]. 食品與發酵工業, 2011, 37(11): 159-165. DOI:10.13995/ J.cnki.11-1802/ts.2011.11.012.
[6] 張彬, 陳劍虹, 焦明星. 氯鹽溶液近紅外光譜分析研究[J]. 光譜學與光譜分析, 2015, 35(7): 1840-1843.
[7] 介鄧飛, 謝麗娟, 饒秀勤, 等. 近紅外光譜變量篩選提高西瓜糖度預測模型精度[J]. 農業工程學報, 2013, 29(12): 264-270.
[8] 侯卓成, 楊寧, 李俊英, 等. 傅里葉變換近紅外反射用于雞蛋品質的研究[J]. 光譜學與光譜分析, 2009, 29(8): 2063-2068.
[9] 林顥, 趙杰文, 陳全勝, 等. 近紅外光譜結合一類支持向量機算法檢測雞蛋的新鮮度[J]. 光譜學與光譜分析, 2010, 30(4): 929-92; 312.
[10] SOLTANI M, OMID M. Detection of poultry egg freshness by dielectric spectroscopy and machine learning techniques[J]. LWTFood Science and Technology, 2015, 62: 1034-1042. DOI:10.1016/ j.lwt.2015.02019.
[11] GIUNCHI A, BERARDINELLI A, RAGNI L, et al. Non-destructive freshness assessment of shell eggs using FT-NIR spectroscopy[J]. Journal of Food Engineering, 2008, 89: 142-148. DOI:10.1016/ j.talanta.2014.10.042.
[12] 岑易科. 基于機器視覺的雞蛋品質檢測方法研究[D]. 杭州: 浙江大學, 2006.
[13] 潘磊慶. 基于機器視覺和聲學技術融合檢測雞蛋品質的研究[D].南京: 南京農業大學, 2007.
[14] 劉艷, 李慶武, 黃小微, 等. 雞蛋透光圖像特征提取與新鮮度檢測模型研究[J]. 科學技術與工程, 2015, 15(25): 72-77.
[15] BALLABIO D, CONSONNI V. Classification tools in chemistry part 1: linear models PLS-DA[J]. The Royal Society of Chemistry, 2013, 5: 3790-3798. DOI:10.1039/C3ay40582f.
[16] 高榮強, 范世福, 嚴衍祿, 等. 近紅外光譜的數據預處理研究[J].光譜學與光譜分析, 2004, 24(12): 1563-1565.
[17] 尼珍, 胡昌勤, 馮芳. 近紅外光譜分析中光譜預處理方法的作用及其發展[J]. 藥物分析雜志, 2008, 28(5): 824-829.
[18] 江澤慧, 費本華, 楊忠. 光譜預處理對近紅外光譜預測木材纖維素結晶度的影響[J]. 光譜學與光譜分析, 2007, 27(3): 435-438.
[19] CENTNER V, MASSART D, NOORD O E D. Elimination of uninformative variables for multivariate calibration analytical chemistry[J]. 1996, 69(21): 3851-3858.
[20] 孫俊, 金夏明, 毛罕平, 等. 基于高光譜圖像光譜與紋理信息的生菜氮素含量檢測[J]. 農業工程學報, 2014, 30(5): 167-173.
[21] 余曉雅, 張玉鈞, 殷高方, 等. 基于偏最小二乘回歸的藻類熒光光譜特征波長選取[J]. 光學學報, 2014, 34(9): 1-6.
[22] 徐秋, 李娜, 趙慧潔, 等. 基于光譜特征的自適應子空間波段選擇方法[J]. 北京航空航天大學學報, 2013, 39(5): 635-639.
[23] 黃維, 田豐玲, 劉振堯, 等. 基于不同PLS算法的方竹筍中蛋白質分析的近紅外光譜特征波段選擇[J]. 2013, 34(22): 133-137.
[24] GOUVINHAS I, MACHADO N, CARVALHO T, et al. Short wavelength Raman spectroscopy applied to the discrimination and characterization of three cultivars of extra virgin olive iils in different maturation stages[J]. Talanta, 2015, 132: 829-835. DOI:10.1016/ j.talanta.2014.10.042.
[25] 韓清娟, 張夢軍, 曹文軒, 等. 基于多模式共識的近紅外光譜波長的選擇方法[J]. 分析科學學報, 2013, 29(6): 758-762.
On-Line Detection and Classification of Egg Freshness Based on Consensus Uninformative Variable Elimination-Partial Least Squares-Discriminant Analysis (CUVE-PLS-DA)
WANG Qiaohua1,2, LI Xiaoming1, DUAN Yufei1
(1. College of Engineering, Huazhong Agricultural University, Wuhan 430070, China; 2. National Egg Processing Technology Research and Development Sub-centers, Huazhong Agricultural University, Wuhan 430070, China)
Although there are many methods available to detect egg freshness at present, they have shortcomings including laboriousness, low precision and low classification efficiency. An on-line monitoring device based on visible/near infrared spectroscopy (501–1 000 nm) was fitted to the 4 800 eggs per hour egg transport machine for the purpose of dynamically collecting transmittance spectral data for eggs. The collected data were used to establish a partial least squares discriminant (PLS-DA) model for the Haugh unit value of eggs. A total of 226 egg samples were randomly divided into two set: calibration set (n = 169) and validation set (n = 57). By compared different spectral pretreatments and two wavelength selection methods, it was found that standard normal variate (SNV) transformation and multi-pattern consensus method could effectively improve the accuracy, efficiency and predictive ability of the PLS-DA model. The final calibration and validation accuracy were 92.31% and 91.23%, respectively. This study showed that visible-near infared spectroscopy could be used as a real-time and non-destructive detection method to classify egg freshness.
egg; freshness; online; partial least squares; multi-pattern
10.7506/spkx1002-6630-201622028
TS253.7
A
1002-6630(2016)22-0187-05
王巧華, 李小明, 段宇飛. 基于CUVE-PLS-DA的雞蛋新鮮度在線檢測分級[J]. 食品科學, 2016, 37(22): 187-191. DOI:10.7506/spkx1002-6630-201622028. http://www.spkx.net.cn
WANG Qiaohua, LI Xiaoming, DUAN Yufei. On-line detection and classification of egg freshness based on consensus uninformative variable elimination-partial least squares-discriminant analysis (CUVE-PLS-DA)[J]. Food Science, 2016, 37(22): 187-191. (in Chinese with English abstract) DOI:10.7506/spkx1002-6630-201622028. http://www.spkx.net.cn
2016-04-17
國家自然科學基金面上項目(31371771);湖北省科技支撐計劃項目(2015BBA172);
“十二五”國家科技支撐計劃項目(2015BAD19B05);公益性行業(農業)科研專項(201303084)
王巧華(1970—),女,教授,博士,研究方向為機電一體化、智能化檢測與控制、機器視覺。E-mail:wqh@mail.hzau.edu.cn