寇澤坤,陳國通,李思雨,楊 中,歐陽玲秀,龔 龑
(1.新疆維吾爾自治區分析測試研究院,新疆 烏魯木齊 830011;2.新疆大學紡織與服裝學院,新疆 烏魯木齊 830017;3.新疆農業大學食品科學與藥學學院,新疆 烏魯木齊 830052;4.北京服裝學院材料設計與工程學院,北京 100029)
蜂蜜作為一種營養豐富、用途廣泛的天然食品,不僅是一種營養品,而且在醫用、藥用方面發揮著獨到的作用[1]。近年來,各種低制作成本的假蜂蜜悄然出現并流入市場,造成局部市場蜂蜜產品魚龍混雜。蜂蜜造假的方式多種多樣,常見的有直接用糖漿和色素等制成假蜂蜜、真假蜂蜜混合制成摻假蜜、除去未成熟蜂蜜中的多余水分制成濃縮蜜和給蜜蜂喂養白糖等。其中真蜂蜜摻加假蜂蜜或糖漿的摻假方式較容易實現,制出的摻假蜜形貌與味道變化不大,有些理化指標還獲得了加強[2],也因此品嘗和肉眼觀察等方法不能直接準確地分辨出真假[3]。
因為天然蜂蜜的主要成分是果糖、葡萄糖和水分,故以其為主要成分的糖漿成為了摻假物的首選[4]。使用果糖、葡萄糖和蜂蜜香精等制成味道、形貌和理化指標都和真蜂蜜相近的糖漿,并摻加到真蜂蜜中可以模擬摻假蜂蜜的制作過程。
GB 14963—2011《蜂蜜衛生標準》規定了蜂蜜不同指標對應的檢測手段,諸如液相色譜、紫外光譜和液相色譜-質譜聯用等。基于上述檢測手段不同程度存在前處理復雜或無法脫離實驗室場景等缺點,提出利用拉曼光譜技術結合化學計量學方法對摻加蜂蜜進行現場快速鑒別的方法[5-6],并對數據分析模型進行評價。
伊犁百信黑蜂蜂蜜、伊犁天山黑蜂結晶白蜜、唐布拉黑蜂薰衣草原蜜、尼勒克山花蜜。
果糖(分析純)上海藍季生物公司;葡萄糖(分析純)天津市盛奧化學試劑有限公司;蜂蜜香精可菲生物科技有限公司。
SSR-3000拉曼光譜檢測儀 南京簡智儀器設備有限公司;AL204-IC電子天平 上海梅特勒-托利多儀器有限公司;SHA-CA水浴恒溫振蕩器 北京市光明醫療儀器有限公司;MS3basic微量振蕩器 德國IKA集團;石英進樣瓶 安捷倫科技(中國)有限公司。
1.3.1 樣本制作及采樣
1.3.1.1 真蜂蜜采樣
將4 種蜂蜜參照進行GB 14963—2011的相關檢驗,證實樣品均屬于符合國標要求的天然蜂蜜。
蜂蜜樣本存放于4 ℃環境下保存,測試之前取出,并于50 ℃水浴1 h以上直至蜂蜜樣本中的所有結晶物溶于蜂蜜中后,將樣本取出并于25 ℃環境下放置至恢復常溫且氣泡消失,待用。
樣品采集時,取1 g蜂蜜樣本置于離心管中,加入1 mL超純水,渦旋振蕩至溶液均勻。采集時每個樣本加入石英進樣瓶上機,結果取平均光譜進行分析,假蜂蜜和摻假蜂蜜樣品采集亦如此。
如圖1所示,對4 種蜂蜜樣本進行拉曼光譜采集后,發現4 種蜂蜜的譜圖形狀相近,特征峰位置幾乎相同,強度上有所差異,為了避免真蜂蜜樣本間的差異影響鑒別結果,選擇信號強度較好的山花蜜作為摻假鑒別的對象。

圖1 4 種真蜂蜜樣本的拉曼光譜圖Fig.1 Raman spectra of four pure honey samples
1.3.1.2 糖漿制作
糖漿樣本采用果糖、葡萄糖和蔗糖進行制作,按照GB 14963—2011的相關檢驗要求蔗糖質量分數不超過5%,葡萄糖和果糖質量分數不低于60%。制作時將果糖、葡萄糖和蔗糖和適量超純水一并加入并加熱至180 ℃,待所有糖完全溶解且保證溶液冷卻后的黏度、形貌和色澤等較為接近真蜂蜜時加入少量香精,攪拌并冷卻待用。
1.3.1.3 摻假蜂蜜制作
摻假蜂蜜樣本的制備通過山花蜜摻加糖漿樣本進行制作,并且引入摻假度Rf的量化指標:
式中:mf和mr分別為糖漿質量和真蜂蜜質量。
本實驗將設置1%、5%、10%、15%、20%、30%、40%、50%共8 個摻假度梯度,每個摻假度10 個樣本,共80 個假蜂蜜樣本,與山花蜜純品蜂蜜進行比較判別[7],并在此將上述種類的摻假樣本依次命名為F1、F5、F10、F15、F20、F30、F40、F50,真山花蜜樣本則命名為R,方便進行數據分析。
1.3.2 拉曼光譜工作條件
掃描范圍180~3500 cm-1,激光光源采用785 nm,積分時間2000 ms,激光功率250 mW,平均次數3 次。
1.3.3 樣本集劃分
在建立線性判別分析(linear discriminant analysis,LDA)和偏最小二乘判別分析(partial least squaresdiscriminant analysis,PLS-DA)和支持向量機(sport vector machine,SVM)模型時,訓練集和測試集的劃分比例往往會對訓練結果產生影響,比例失衡會影響模型的性能,甚至造成過擬合或欠擬合等現象,通常訓練集與測試集的比例在6∶4與8∶2之間較為適宜[8]。采用留出法[9]劃分訓練集和測試集,即將數據集劃分為兩個互斥的子集。經驗證,7∶3的劃分比例在訓練集上的準確率優于其他比例且和交叉驗證的總體準確率相差不超過0.1,故將比例統一確定為7∶3,各類樣本的樣品集均包含35 個訓練集和15 個測試集,9 類共315 個訓練集和135 個測試集,總計450 個樣本。
1.3.4 數據預處理
1.3.4.1 背景扣除與平滑處理
在拉曼光譜測試中,除去容器和環境等的影響產生的背景光,實驗樣品本身也會出現熒光現象,如來自羰基、硝基和乙烯基等常見熒光發色團的熒光背景。熒光的產生會降低拉曼光譜的信噪比,掩蓋光譜中的重要信息,所以需要采取一定的方法扣除熒光產生的基線漂移。基線扣除的常見方法有對樣本做表面增強等預處理手段和通過airPLS等化學計量學方法進行扣除等[10]。本實驗中采取軟件自帶的扣除基線算法進行處理。
在拉曼光譜檢測中,因為激發激光光強的漂移、CCD檢測器熱穩定噪聲、樣品放置位置與方向等多方面因素的影響,拉曼信號可能會有比較大的噪聲,在波形上表現為劇烈波動的鋸齒狀或毛刺狀信號。一般來講,信號平滑處理的方式有Savitzky-Golsy平滑(SG平滑)、相鄰平均(adjacent averaging,AAV)法和小波變換(wavelet transform,WT)去噪等。
采取SG平滑的方法進行處理。SG平滑濾波是一種移動窗口的加權平均算法,在濾除信號中的噪聲的同時保證波形的形狀和寬度不發生改變,處理后的拉曼光譜與原數據波形較為接近,且提高了信號信噪比。光譜在波長i處經SG平滑處理后的數值為:
式中:m為波長一側的平滑窗口數,2m+1則為總平滑窗口數;為歸一化指數;cj為多項式擬合得到的平滑系數;xi+j為光譜在波長i+j處的數值。在本實驗中,選擇15窗口點數與二階多項式進行平滑處理。
1.3.4.2 均值中心化處理
均值中心化是將樣品光譜數據集的每一個元素減去該元素所在列的均值的處理方法,經過均值中心化處理后的第i行第j列的元素如下:
式中:Xij為原始數據矩陣X的第i行第j列的元素;Xj為X第j列的n個樣本的平均值;為均值中心化處理之后的第i行第j列的元素。經過均值中心化處理的數據矩陣具有每一列的均值都等于零的性質,樣品光譜之間的差異性會被放大,模型的穩定性和預測能力會得到一定程度的提高。原始光譜數據經過背景扣除、平滑處理和均值中心化后方可作為輸入數據。
1.3.5 建模方法
1.3.5.1 主成分分析(principal component analysis,PCA)降維
PCA是一種獲得原始數據矩陣中主要信息的無監督的線性變換算法,它通過降低數據維度簡化復雜的數據集[11],通過確定數據的方差產生新的特征,稱為PC。產生的第1個PC具有最高的方差,隨后的PC方差遞減[12]。
用貢獻率對每個PC代表原變量的能力進行量化。累計貢獻率越高,代表PC綜合原變量的程度越高,一般選取累計貢獻率達85%以上的前幾個PC作為PCA的結果[13]。
1.3.5.2 LDA
LDA是基于類別之間的馬氏距離最大的判別思想[14],使變換后類間距離最大、類內距離最小,以尋找對分類最有幫助的特征向量[15]。LDA算法的核心使選擇某個投影方向,使得投影后樣本類間具有盡可能大的離散度而樣本類內具有盡可能小的離散度[16]。
1.3.5.3 PLS-DA
PLS-DA是一種有監督的多變量統計分析方法,采用經典的偏最小二乘回歸模型[17],其將變量數據與分類信息劃分為兩組數據集,將降維分析與組類別相結合,從而度樣本進行區分[18]。
1.3.5.4 SVM
SVM的主要思想是尋找某個超平面,使得它能夠盡可能多地將兩類數據點正確分開,并且使分開的兩類數據點離分類面的距離最遠。對于重合區域比較大,線性分類難度比較高的SVM分類問題,即通過引進輸入空間到另一個高維空間的變換,將原輸入空間的訓練集轉化為高維空間中新的訓練集,并使其在高維空間線性可分,或利用核函數進一步計算并構造分類函數[19],此時涉及到核函數的選取問題,選擇合適的核函數可以使映射到特征空間的樣品點類間混合程度降低,使得數據集類間線性可分的程度更高[20]。常用的核函數有線性內核函數、多項式核函數、徑向基核函數等[21]。
1.3.5.5 交叉驗證
在PCA-LDA、PLS-DA和SVM交叉驗證時,循環方法往往有五折、十折和留一法。在執行交叉驗證循環時,選取每一種方法進行操作,將準確率最高的方法作為模型適用的方法,PCA-LDA和PLS-DA為留一法,SVM為十折法最佳。
1.3.6 摻假度鑒別實驗與真假鑒別實驗
實驗主要分為假蜂蜜摻假度鑒別和真假蜂蜜鑒別兩方面進行。摻假度鑒別即為20%梯度(F10、F30、F50)和10%梯度(F10、F20、F30、F40、F50)和5%梯度(F5、F10、F15)摻假蜂蜜建立分類模型,若某模型可以在3 次或以上的交叉驗證中對上述分類的摻假蜂蜜保持0.9以上的總體準確率,則認定該模型可以達到對應該梯度的摻假度辨別能力。若某模型無法在上述5 類摻假度蜂蜜分類的多次訓練中一直保持0.9以上的總體準確率,則認定其無法達到摻假度鑒別要求。在進行模型訓練與評價時,先從10%梯度的摻假度鑒別開始。成功則繼續進行5%梯度鑒別,失敗則進行20%梯度。
在真假蜂蜜對比中,利用真樣本R分別與F10、F5、F1等摻假度梯度的樣本各自配對后進行PCA降維及后續的一系列建模分析,同樣認定可以在3 次或以上的交叉驗證中對R與某摻假樣本具有0.9以上的總體準確率的模型為有效區分模型,具備區分真蜂蜜和該摻假度假蜂蜜的能力。
PCA降維方法與PC選取原則通用,均為將預處理后的光譜數據進行PCA,選取累計貢獻率達85%以上的前n個PC作為光譜數據的降維結果。
使用準確率、靈敏度、特異性、F1-Score、Macro-F1 Score和GScore對模型性能進行評價[22]。準確率是指在分類模型中,已建立的模型在通過測試集測試時,被正確判別的樣本占總樣本數的比例,靈敏度是指正樣本被正確分類的百分率,特異性是指負樣本被正確分類的百分率。F1-Score常用以度量二分類問題的模型特征識別能力,對于多種分類的模型則需要其他評價方法,此處使用Macro-F1 Score和GScore[23-24]兩種度量方式,均為F1-Score向多分類集中相關性度量問題的推廣,上述評價指標計算公式如下:
式中:nc為測試集數據被模型正確分類的樣本個數;nt為測試集的所有樣本個數;TP、FN、FP和TN分別為真正樣本、假負樣本、假正樣本和真負樣本的數量;P為查準率;R為查全率計算同靈敏度;PMa和RMa分別為P和R對應所有類別的均值;為第j類數據集上的第i個特征的均值;為整個數據集上第i個特征的均值;l為總樣本個數(l≥2);m為某類樣本個數;xk,i(j)為第j類數據集的第k個樣本的第i個特征值。
采取拉曼光譜處理算法AutoBaseline進行背景扣除。采取SG平滑算法進行平滑處理,平滑處理時選擇的窗口點數是對平滑效果有決定性作用的參數。采取相關系數和殘差均方根評價對上述處理的結果進行選優,確定SG平滑點數為15。原始光譜與經背景扣除、SG平滑處理后光譜的對比圖見圖2,可以觀察到幅度小而雜亂的信號波動被基本除去,特征峰的相對強度和峰寬等重要信息得以保留。背景扣除后,原光譜曲線落入下方,光譜整體的強度區間縮小。

圖2 原始光譜與經背景扣除、SG平滑處理光譜對比圖Fig.2 Comparison of original spectra before and after background subtraction and Savitzky-Golsy smoothing
天然蜂蜜與摻假蜂蜜的拉曼光譜對比圖見圖3。可以觀察到兩種譜圖在形狀上大致相似[25],但部分特征峰的形狀存在差異,同時光譜重疊比較嚴重,特征峰的位置較為接近,肉眼判別區分譜圖的方式難以實現。

圖3 天然蜂蜜與摻假蜂蜜光譜對比圖Fig.3 Spectral comparison between natural honey and adulterated honey
同時通過觀察天然蜂蜜光譜,可知實驗所用山花蜜在422、520、627、705、819、864、916、1071、1123、1265、1361 cm-1和1461 cm-1處存在峰。其中,705 cm-1對應—CO—和CCO鍵的伸縮振動、OCO鍵的彎曲振動;864 cm-1對應CH(12);819 cm-1對應C(1)H;916 cm-1與C(1)—H和COH相關;1071 cm-1與碳水化合物中的C—H和蛋白質和氨基酸中的C—N基團有關;1123 cm-1與糖中的C—O和氨基酸中的C—N基團有關;1265 cm-1用于定量C(6)—OH和C—OH;1461 cm-1則與C—H和—COO—基團有關[2]。
進行10%摻加度判別的模型訓練時,將對應的5 類樣本的光譜數據輸入PCA模型進行降維和特征提取。F10、F20、F30、F40和F50共250 條光譜數據經PCA降維后,前3 個PC累計貢獻率達63.64%,前7 個PC累計貢獻率達85.14%。于是,選擇前7 個PC作為上述5 類摻假蜂蜜建立分類模型使用的光譜數據的PCA降維結果[26]。由圖4可以觀察到F10和F50的得分點分布范圍可分程度比較高,但F20、F30和F40的PC1和PC得分點彼此之間入侵和重合的現象比較嚴重,肉眼觀察和線性劃分均無法準確地對5 個摻假度進行聚類分析,故需要將上述前7 個PC作為LDA輸入數據,構建PCA-LDA模型進行進一步的判別[27]。

圖4 PC1和PC2得分情況Fig.4 Scores of the first and second principal components
2.4.1 PCA-LDA模型10%梯度鑒別
采用PCA與LDA相結合的方法,將PCA特征提取結果輸入LDA模型進行判別[28]。在10%梯度的LDA模型摻假度鑒別中,F40樣本發生了較為嚴重的錯判現象,35 個測試集樣本共錯判13 個,其中判為F20類5 個、F30類6 個、F50類2 個,單類GScore低至0.7157。其他4 個樣品的錯判數都在6 個及以下,交叉驗證的總體準確率都達到了0.92以上,但由于受F40影響,模型總體準確率為0.84,Macro-F1 Score為0.8373,未達到0.9的標準。
2.4.2 PLS-DA模型10%梯度鑒別
在10%梯度的PLS-DA模型摻假度鑒別中。F10和F50作為摻假度區間的最小值和最大值,只存在相鄰一個樣本的錯判。而F20、F30和F40錯判現象比較嚴重,GScore都低于0.8。PLS-DA模型的總體準確率為0.8057,Macro-F1 Score為0.8064,未達到0.9的標準。故PLS-DA模型也未達成10%梯度的摻假度鑒別目標。
2.4.3 PCA-LDA和PLS-DA模型20%梯度鑒別
利用PCA-LDA模型進行20%梯度的摻假度鑒別,即F10、F20和F30的分類判別。在20%梯度的摻假度鑒別中,PCA-LDA模型GScore都在0.94以上,總體準確率為0.9619,Macro-F1 Score為0.9618。
PLS-DA模型GScore都在0.95以上,總體準確率0.9714,Macro-F1 Score為0.9714,達到了總體準確率的最低要求。表1為20%梯度PCA-LDA與PLS-DA模型交叉驗證性能評價。

表1 20%梯度PCA-LDA與PLS-DA梯度模型性能評價Table 1 Performance evaluation of PCA-LDA and PLS-DA models in discriminating honey samples adulterated at 20% gradient
2.4.4 PCA-LDA和PLS-DA模型真假鑒別
在真蜂蜜與摻假5%蜂蜜的鑒別中,PCA-LDA和PLSDA模型的總體準確率達到了1,不存在錯判現象,故進行摻假1%蜂蜜的鑒別。
如表2所示,在真蜂蜜與摻假1%蜂蜜的鑒別中,PCA-LDA存在一定的錯判現象,但總體準確率達到0.9,Macro-F1 Score為0.8998。而PLS-DA總體準確率為0.9714,Macro-F1 Score為0.9714,達到了總體準確率的最低要求。其中PLS-DA的準確率達到了0.97以上,GScore均到達了0.97以上,相比PCA-LDA具有更高的判別準確率。

表2 PCA-LDA與PLS-DA真假鑒別模型性能評價Table 2 Performance evaluation of PCA-LDA and PLS-DA models in discriminating pure from adulterated honey
SVM模型訓練的步驟是,若SVM模型使用線性核函數即可通過調整參數在10%梯度的摻假度鑒別中達到0.9以上總體準確率,則可以進行5%梯度的鑒別,若總體準確率還可維持0.9以上,則進行1%梯度的鑒別,過程中總體準確率低于0.9時,再使用其他核函數并將進行調參,直至總體準確率達標。
SVM模型的輸入數據選擇預處理數據進行建模,通過調試核函數參數優化SVM模型性能,觀察模型訓練集和測試集中的準確率變化情況,若某核函數模型在訓練集上準確率較高,在測試集上的準確率卻很低,則認為該核函數模型出現過擬合。選擇準確率較高且未出現過擬合現象的核函數進行預測[29]。核函數在線性核函數、多項式核函數和徑向基核函數中選用[30],在調整參數過程中選優[31]。
2.5.1 SVM模型5%梯度鑒別
SVM模型在10%梯度的摻假度鑒別中總體準確率達到了1,不存在錯判現象,故進行摻假5%梯度蜂蜜的鑒別。線性核函數SVM在F5和F15判別中不存在錯判現象,有3 個F10樣本錯判為F5,F15單類評價參數均為1,如表3所示,F5的F1-Score和GScore到達0.9以上,F10的F1-Score為0.8889,GScore為0.8944,SVM模型總體準確率為0.93,Macro-F1 Score為0.9327,達到了總體準確率的最低要求,最優c值為0.3125,log2c=-1.678,圖5為隨線性核SVM準確率隨c值變化的曲線。

表3 SVM梯度鑒別模型性能評價Table 3 Performance evaluation of SVM model in discriminating honey samples adulterated with different proportions of syrup

圖5 線性核SVM的log2 c值與準確率關系圖Fig.5 Relationship between log2 c value and accuracy of linear kernel SVM
2.5.2 SVM模型真假鑒別
SVM模型在真蜂蜜與5%摻假度蜂蜜的鑒別中總體準確率達到了1,不存在錯判現象,故進行真蜂蜜和摻假度1%蜂蜜的鑒別。
在應用線性核時,R不存在錯判現象,有1 個F1樣本錯判為R。R和F1的GScore和F1-Score均達到了0.96以上,總體準確率0.9667(表4)。Macro-F1 Score為0.9666。在此SVM模型中,使用的是線性核函數,最優c值為0.15625,log2c=-2.678。

表4 SVM真假鑒別模型性能評價Table 4 Performance evaluation of SVM model in discriminating pure from adulterated honey
在應用徑向基核函數時,均不存在錯判現象,各評價指標均為1,最優c值為16,最優g值為4096,log2c=12。SVM準確率與log2c、log2g值的關系見圖6。

圖6 徑向基核SVM的準確率與log2 c、log2 g值的關系圖Fig.6 Relationship between log2 c and log2 g values and accuracy of radial basis function SVM
綜上所述,在蜂蜜摻假度鑒別中,PCA-LDA和PLSDA模型可以以0.9以上的準確率做到20%摻假度區別的蜂蜜鑒別,線性核函數SVM則可以達到5%精度的摻假度區別;在真假蜂蜜鑒別中,上述3 個模型均可以做到1%摻假度蜂蜜和真蜂蜜的區分,其中PCA-LDA、PLS-DA和線性核SVM總體準確率在0.9以上,徑向基SVM總體準確率為1。