999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

拉曼光譜結合機器學習對植物油的分類鑒別

2024-04-03 02:14:08蘇東斌秦嘉檜李開開
食品與發酵工業 2024年6期
關鍵詞:分類模型

蘇東斌,秦嘉檜,李開開*

1(中國人民公安大學 偵查學院,北京,100038)

2(中國人民公安大學 研究生院,北京,100038)

植物油是每日膳食攝入的必需成分,也是食品質量安全的重要監管對象。由于產量不同和營養價值不同,不同種類植物油的價格差異較大。因此針對植物油種類鑒別開展研究,不僅有利于在第一時間獲取相關線索信息,可以在涉植物油的案件中為公安機關提供偵查方向,而且也有助于提升監督部門的植物油分析效率,具有重要意義及應用價值[1]。

氣相色譜法[2-3]、液相色譜法[4-5]、質譜法[6-7]和核磁共振波譜法[8-9]常被用于測定植物油中的脂肪酸、甘油三酯等成分。然而這些方法普遍存在分析過程繁瑣、耗費時間長、對樣本具有破壞性的缺點。相比于以上分析方法,光譜分析法具有操作簡單、檢測速度快、樣品用量少等優點,被廣泛應用于食品的檢測分析。目前采用紫外可見光譜法[10-11]、拉曼光譜法[12-13]、紅外光譜法[14]等對植物油的分析檢驗已有報道。由于植物油的光譜具有極高相似性,僅通過目測光譜很難將其區分。機器學習方法與光譜分析的結合可以使油脂的分類識別率得到很大提升。VARGAS等[15]使用拉曼光譜儀對19種植物油和9種精油進行了檢測,并通過線性判別分析達到了100%的分類準確率。黃平捷等[16]在研究飲用水的有機污染物時,引入連續投影法(successive projections algorithm,SPA)處理紫外-可見光光譜。結果表明SPA可以有效地對有機污染物的紫外-可見光光譜進行特征提取。聶黎行等[17]在剔除異常樣本后,應用競爭性自適應重加權法(competitive adaptive reweighted sampling,CARS)篩選相關變量,建立了偏最小二乘法(partial least squares,PLS)校正模型,為光譜的重疊問題提供了解決思路。

本文采用拉曼光譜結合機器學習對食用植物油進行分類識別。采用拉曼光譜技術,獲取六類常見的植物油光譜數據,分別采用SPA和CARS提取各樣本的光譜數據特征,使用正交偏最小二乘判別法(orthogonal partial least squares-linear discriminant analysis,OPLS-DA)和基于網格搜索和交叉驗證的支持向量機(support vector machine,SVM)對食用植物油種類以及品牌進行分類識別。

1 材料與方法

1.1 實驗材料

共從市場上收集了六類(包括38個品牌)的植物油樣本,其品牌、編號等詳細信息如表1所示。

表1 植物油信息

1.2 儀器及工作條件

共聚焦顯微拉曼成像光譜儀,德國WITec科學儀器公司。主要由半導體激光器單元、光譜儀、拉曼光學探頭、激發光纖、采集光纖、計算機、樣品池和數據處理系統組成。其基本參數如表2所示。

表2 儀器參數信息

1.3 研究方法

基于拉曼光譜的食用植物油快速鑒別方法具體流程如圖1所示。主要包括:拉曼光譜獲取、光譜數據預處理、特征波長優選與類別判斷等步驟。

圖1 光譜數據處理

1.3.1 光譜數據預處理

在實際測量過程中,光譜采集易受到放置環境及儀器狀態的影響。在分析光譜數據前使用光譜校正方法消除該因素引起的光譜變異是十分必要的。Savitzky-Golay算法和多元散射校正(multiplicative scatter correction,MSC)是多波段建模常用的數據處理方法,能夠在一定程度上消除光譜數據產生的基線漂移問題[18-19]。

1.3.2 拉曼光譜特征波長優選

利用特征優選算法對原始數據進行優選,可以選取少量的特征波長進行分析,能夠從嚴重重疊的光譜信息中提取有效信息提高模型運行效率。連續投影法是將各波長特征向量投影到其他特征波長上,以投影向量最大的波長作為待選的特征波長,然后根據迭代特征向量與待選變量個數回歸模型的均方根誤差(root mean squared error,RMSE)來確定候選特征數量[18]。它可以從嚴重重疊的光譜信息中提取有效信息,提高建模效率。競爭性自適應重加權采樣法是一種結合蒙特卡洛采樣與PLS模型回歸系數的特征變量選擇方法。蒙特卡洛采樣法每次隨機從校正集中選擇一定數量的樣本進行建模,剩余的樣本作為預測集。然后利用指數衰減函數去除回歸系數絕對值權重較小的波長[17]。在每次采樣時都會計算所選變量的交互驗證均方根誤差(root mean square error of cross validation,RMSECV),利用交互驗證選出RMSECV值最低的子集可有效尋出最優變量組合。

1.3.3 植物油的分類研究

PLS能夠將回歸結果轉換為一組可用于預測因變量的中間線性潛在變量,具有降低噪音、特征提取、參數結構簡單及穩定性優良等優點。OPLS-DA是PLS的擴展,利用正交信號校正的思想增強了PLS-DA的可解釋性,常用來處理分類和判別問題。支持向量機是利用區間最大化的原理尋找一個超平面分割樣本,最后將分類問題轉換為凸二次規劃問題來解決[19]。網格搜索(Grid Search)是一種窮舉方法的參數調優手段,可以保證所得的搜索解是劃定網格中的全局最優解,避免出現重大誤差。

為讓被評估的模型更加準確可信,本研究在網格搜索中應用K-fold交叉驗證法對每組參數的性能進行綜合評價。基于Python選擇線性核(linear kernel)、多項式核(polynomial kernel)以及徑向基函數核(radial basis function kernel,RBF),采用十折交叉驗證法進行參數尋優。分別建立SVM分類模型對植物油的種類和品牌進行分類。參數網格范圍設定見表3。

表3 不同核函數的參數設定范圍

2 結果與分析

2.1 光譜預處理結果

植物油的原始光譜以及經過Savitzky-Golay平滑、MSC、Savitzky-Golay+MSC預處理后的光譜如圖2所示。對原始光譜進行平滑、MSC不僅能夠增強光譜的吸收特性,還可以減少光譜曲線的離散性。

a-原始光譜;b-Savitzky-Golay平滑;c-多元散射校正;d-Savitzky-Golay平滑+多元散射校正

2.2 拉曼光譜特征波長優選

2.2.1 SPA特征波長優選結果

在298~3 300 cm-1的拉曼位移范圍內,每一個光譜樣本共采集779個數據點。隨著迭代次數的增加,SPA模型中所包含的特征變量數量逐漸增加。RMSE隨變量個數變化以及光譜特征提取結果如圖3所示。最終通過SPA模型的建立與提取,所得到的特征波長共計249個。

圖3 SPA光譜變量篩選

2.2.2 CARS特征波長優選結果

利用CARS算法采用十折交叉驗證,最大迭代次數為50次。光譜特征波長優選過程如圖4所示。由圖4可知,被選擇的特征波長數量隨著迭代數量次數的增加而減少。在迭代次數為13時,RMSECV值達到最小,所得到的特征波長共計146個。

圖4 CARS光譜變量篩選

2.3 植物油OPLS-DA分析

2.3.1 樣本異常值排除

使用Kennard-Stone方法將光譜數據集中70%樣本劃分為訓練集(385個光譜),其余為驗證集(166個光譜)。圖5和圖6分別表示以經過SPA和CARS特征波長優選后的訓練集數據的二維OPLS-DA得分圖、DModX(distance to the model X)檢驗圖、Hotelling′sT2檢驗圖和置換檢驗結果圖。

a-偏最小二乘判別分析得分圖;b-DModX檢驗結果;c-Hotelling′s T2檢驗結果;d-置換檢驗結果

對于已知真實分類的數據集,得分圖可以顯示訓練集樣本中可能存在的異常值。根據變量分數,通過HotellingT2檢驗繪制95%置信橢圓,通常認為距離橢圓較遠的樣本觀測值可能是異常值。而DModX統計量指的是給定樣本觀測值與模型平面的距離,同樣可以反映樣本偏離模型的程度。Dcrit值是由F分布計算的DModX臨界值。當樣本DModX值為Dcrit兩倍時可認定其屬于中等異常值。將HotellingT2與DModX兩種統計量相互結合、綜合分析,訓練集中被排除于建模外的樣本匯總于表4。

表4 建模時被排除的樣本

2.3.2 置換檢驗

置換檢驗是將樣本觀測值的順序隨機排列,而變量矩陣順序保持不變,可以用于評估當前模型是否過擬合。置換檢驗的結果分別如圖5-d、圖6-d所示。橫坐標表示置換模型中觀測值與原始模型觀測值的相關性,橫坐標最大值為原始模型與其自身相關性。將原始模型的擬合度(由R2和Q2表示)與數據置換后模型的擬合度進行比較,原始OPLS-DA模型的R2和Q2值(最右側)均大于置換模型中所有R2和Q2值,同時Q2點回歸線的縱截距低于零點。這表明原始模型沒有過度擬合,對新樣本具有較好的預測能力。

a-偏最小二乘判別分析得分圖;b-DModX檢驗結果;c-Hotelling′s T2檢驗結果;d-置換檢驗結果

2.3.3 OPLS-DA分析結果

根據原始波長數據以及提取波長分別建立OPLS-DA模型,測試集樣本的分類識別結果如圖7所示。

a-OPLS-DA分類結果;b-SPA-OPLS-DA分類結果;c-CARS-OPLS-DA分類結果

由圖7可知,根據原始光譜數據建立的OPLS-DA模型對各樣本預測識別總體準確率為89.76%。模型對椰子油的種類預測正確率達到100%;對花生油的種類預測錯誤最多,正確率為78.95%。相比于原始光譜數據建立的OPLS-DA模型,基于SPA和CARS改進OPLS-DA對各樣本預測識別的總體準確率稍有下降,分別為82.53%、83.13%。

特征波長優選算法的優勢在于減少建立分類模型所需的變量數目,通過使用少量變量使得建立模型所需計算資源極大降低。對于二分類問題或者類別較少的多分類問題,特征波長優選導致的部分信息丟失對模型預測能力的影響小于變量間共線性的影響,最終使得模型預測能力得到提升。然而本研究結果顯示波長優選導致模型預測正確率有所下降。選取少量光譜波長代替全光譜,不可避免地會導致信息丟失。對于類別較多的多分類問題,特別是樣本類別區分度較低的多分類問題,信息丟失對于預測結果影響較大。因而基于SPA和CARS改進OPLS-DA模型的預測正確率均低于全光譜模型。

2.4 基于網格搜索和交叉驗證的SVM模型

表5為各方法模型的參數尋優結果。線性核是最簡單的核函數,具有參數少、操作簡單、計算方便的優勢,但只能用于解決線性可分問題,在相似樣本的多分類問題中表現不佳。而徑向基函數核在三類模型中均有良好表現。

表5 模型的參數尋優結果

根據三類模型的最佳參數組合,以70%數據集作為訓練集,30%數據集作為測試集分別建立SVM模型。SPA+SVM、CARS+SVM以及全光譜SVM模型的測試集預測結果如圖8所示。三類模型的測試集正確率均為100%,運算時間分別為9.699、9.001、14.481 s。根據CARS建立的植物油類別模型的預測能力與根據SPA算法所建立的模型沒有明顯差異。運算時間與模型所包含變量數量相關,全光譜SVM模型包含變量數最多,因而其所需運算時間也最長。

a-SPA+SVM預測結果;b-CARS+SVM預測結果;c-全光譜SVM預測結果

2.5 同種類植物油的品牌分類

在植物油種類預測中,CARS+SVM達到100%的測試集正確率且所需運算時間最短。因此在原有光譜預處理的基礎上利用CARS-SVM模型對同一類別的植物油進行品牌分類。按照7∶3的比例采用五折交叉驗證法進行訓練和驗證,最終得到植物油同一類別中不同品牌樣本預測正確率如圖9所示。不同種類植物油的SVM模型的參數尋優結果如表6所示。

a-玉米油預測結果;b-橄欖油預測結果;c-椰子油預測結果;d-花生油預測結果;e-葵花籽油預測結果;f-芝麻油預測結果

CARS-SVM模型對玉米油、橄欖油、葵花籽油和芝麻油的品牌分類識別的效果最佳,測試集正確率均達到100%;對椰子油和花生油品牌分類識別的準確率較差,測試集正確率分別為22.22%、63.64%。不同種類植物油的正確率差異可能與植物油原材料相關。本研究所使用的椰子油,除品牌5(椰來香SUPERCOCO)外,其余椰子油產地均為海南省,所用原料也全部產于海南省。不同產品所使用的制作工藝和原材料的高相似度使得SVM模型無法很好地將椰子油按照產品品牌分類。

3 結論與討論

采集多個植物油的拉曼光譜數據,采用連續投影算法和競爭性自適應重加權算法分別優選光譜波段,建立了OPLS-DA和SVM分類模型并與全光譜數據所建立模型進行對比。SPA-OPLS-DA和CARS-OPLS-DA的測試集總體正確率分別為82.53%、83.13%均低于全光譜數據建立的OPLS-DA模型。SPA-SVM和CARS-SVM的測試集正確率均可達到100%。CARS-SVM模型對玉米油、橄欖油、葵花籽油和芝麻油的品牌分類識別的效果最佳,對椰子油和花生油品牌分類識別的準確率較差。

a)在植物油種類識別中,SPA和CARS都可以作為特征提取的處理方式,對模型測試集正確率無顯著差異。特征波長優選算法可以極大減少建立分類模型所需的變量數目,減少光譜變量之間的共線性影響,使得建立模型所需計算資源極大降低。但同時通過算法選取特征波長,以少量光譜數據代替全光譜數據,不可避免地會導致部分信息丟失,可能會導致模型識別正確率下降。

b)在解決樣本類別區分度較低的多分類問題時,支持向量機優于正交偏最小二乘判別模型。SVM以引入核函數的方法可以更好地解決線性不可分問題。CARS-SVM模型對植物油分類識別效率高,為植物油的無損快速檢驗提供一定的參考與借鑒。在依據品牌對各種類植物油進行分類時,玉米油、橄欖油、葵花籽油和芝麻油的品牌分類識別的效果最好,椰子油和花生油的分類正確率較低。原因可能與生產商的生產工藝以及原料來源相關。對于進一步研究,深入調查各生產商的原料來源以及生產工藝的必不可少的。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成人一级黄色毛片| 91外围女在线观看| 99re视频在线| 综合五月天网| 22sihu国产精品视频影视资讯| 国产精品嫩草影院视频| 国产精品尹人在线观看| 东京热av无码电影一区二区| 一区二区三区成人| 国产精品亚洲一区二区在线观看| 国产美女自慰在线观看| 婷婷亚洲视频| 国产成人AV综合久久| 国产福利一区在线| 香蕉在线视频网站| 丁香婷婷激情综合激情| 成人福利在线视频免费观看| 91九色国产porny| 日本一区高清| 国产精品浪潮Av| 国产三级毛片| 日韩国产一区二区三区无码| 69国产精品视频免费| 亚洲日韩Av中文字幕无码| 亚洲天堂视频在线免费观看| 国产精品白浆无码流出在线看| 亚洲中文字幕久久无码精品A| 无码又爽又刺激的高潮视频| 丰满人妻被猛烈进入无码| 鲁鲁鲁爽爽爽在线视频观看| 亚洲色图综合在线| 亚洲91精品视频| 亚洲色图综合在线| 午夜福利视频一区| 国产经典在线观看一区| 色妺妺在线视频喷水| 1024国产在线| 欧美日韩精品一区二区视频| 亚洲Av综合日韩精品久久久| 日韩精品无码不卡无码| 成人蜜桃网| 国产成人夜色91| 久久夜夜视频| 国产清纯在线一区二区WWW| 91亚瑟视频| 亚洲日韩日本中文在线| 九九久久精品免费观看| 国产丝袜91| 日韩中文字幕免费在线观看| 91人妻日韩人妻无码专区精品| 自拍偷拍一区| 午夜毛片免费观看视频 | 极品尤物av美乳在线观看| 成人午夜免费观看| 亚洲国产欧洲精品路线久久| 精品福利视频网| 日本午夜精品一本在线观看| 久久香蕉国产线看观| 青青久视频| 在线欧美日韩国产| 制服丝袜在线视频香蕉| 亚洲国产AV无码综合原创| 无码精品一区二区久久久| 国外欧美一区另类中文字幕| 中国毛片网| 免费国产在线精品一区 | 亚洲无码高清免费视频亚洲| 亚洲成a人片| 日本在线欧美在线| 亚洲人成人伊人成综合网无码| 亚洲天堂视频在线播放| 亚洲美女一区| 狠狠色噜噜狠狠狠狠色综合久| 国产乱人乱偷精品视频a人人澡| 999国产精品| 亚洲福利一区二区三区| 51国产偷自视频区视频手机观看| 日本亚洲成高清一区二区三区| 亚洲第七页| 亚洲第一区欧美国产综合 | 91精品日韩人妻无码久久| 国产成在线观看免费视频|