郭 毅,丁海勇,徐晶鑫,徐 灝
(南京信息工程大學遙感學院,南京 210044)
“地溝油”,通常指的是回收的廢棄食用油、反復煎炸后的食用油、下水道垃圾提煉出的劣質油、剩菜剩飯提煉出的油、劣質的動物內臟提煉出的油,會對人們的身體健康和生命安全造成極大的威脅。對地溝油進行快速、高效地檢測是當前我國政府部門必須要解決的重點民生問題之一。地溝油主要成分是甘油三酯,比真正的食用油多了許多致病、致癌的毒性物質,如:鉛、砷及黃曲霉素等。如果提煉后的地溝油與正常的食用油按照一定的比例進行混合,就更加難以準確區分地溝油與正常食用油,這為地溝油的準確檢測帶來了極大困難。
傳統方法檢驗地溝油,關鍵是展開4大類核心指標檢測,即對多環芳烴、膽固醇、電導率和特定基因組成的檢測,但是地溝油經過人為特殊處理后,檢測發現并不是所有地溝油樣品都含有多環芳烴;食用油的理化指標檢測包括對酸價、過氧化值[1]、浸出油溶劑殘留、游離酚(棉籽油)、總砷、鉛、黃曲霉毒素、苯并芘及農藥殘留共9項基本指標的檢測,然而這些指標,即使是地溝油也都可能合格,根本無法辨別地溝油。傳統方法的檢測結果需要經驗,受主觀因素影響較大,難以保證準確度;而常規的理化分析方法不僅費時費力,而且需要借助昂貴的分析儀器和嚴格的實驗室條件。因此迫切需要研究一種簡單、快速、無損的食用油與地溝油的鑒別技術。
高光譜遙感具有波段多、光譜分辨率高的特點,光譜通道數多達數十甚至數百個以上,而且各光譜通道間往往是連續的[2-6],可以在多個光譜波段上對地物的物理屬性進行分析。高光譜遙感無損檢測農產品的品質,包括外部品質(大小、顏色及形狀等)和內部品質(糖度、酸度等),也可以應用于物品受污染情況、病蟲害滋生以及醫學中的某些疾病檢測等[7-11]。利用熒光法[12]和紫外可見光分光度法[13]可鑒別的油品過于單一,不適合用來鑒別種類繁多的地溝油和食用油。李剛等[9]證明了高光譜技術可以同時得到被測物質吸收系數、散射系數和各向異性因子的信息,顯著提高了高光譜數據的信噪比,使復雜混合溶液的成分及濃度的定量計算成為可能,為利用高光譜檢測復雜混合液體奠定了基礎。然而由于地溝油種類繁多,且組成成分與食用油相似,這種方法的應用仍有一定的局限。DN值差異的根本原因是油品分子C-H鍵吸收方式不同[14]。本文先對光譜數據進行辨別,剔除由C-H鍵吸收方式不同導致的峰型、峰位具有明顯差異的波段,對于峰型、峰位差別很小,無法直接鑒別的波段進行數學處理,采用聚類分析方法對地溝油、正常的食用油以及它們的混合油的ASD高光譜數據進行分析,突出各樣品之間化學成分的微小差異,精細地提取各樣品的高光譜特征,從而準確地鑒別各種油品,為今后深入研究提供基礎。
聚類分析是研究“物以類聚”的一種科學有效的方法。做聚類分析時,對準備進行聚類分析的對象分別采樣,然后獲取樣本的光譜信息。樣本之間的相似程度由樣本光譜之間的距離決定,如果2個樣本的光譜距離越大,則表明2樣本之間的差別越大,反之越小。聚類分析的運算過程是:先將待聚類的n個樣品的光譜(或者變量)各自看成1類,共有n類;然后按照某個選定的方法計算每2類之間的聚類統計量,即某種距離(或者相似系數),將距離最小的2類聚合為1類,其余類不變,即得到n-1類;再按照前面的計算方法,對這n-1類進行計算,求出新類與其他類之間的距離(或相似系數),再將距離最小的2類并為1類,其余不變,即得到n-2類;如此下去,每次重復都減少1類,直到最后所有的樣品(或者變量)都歸為1類為止。
聚類分析過程包括2種距離的計算,一種是樣本與樣本光譜圖之間距離的計算,另一種是新建類與其他樣本光譜圖或類之間距離的計算。選擇不同的距離,聚類結果會有所差異。在油品分類中,往往采用幾種距離進行計算和對比,選擇一種較為合適的距離進行聚類。計算樣本光譜圖之間的距離方法主要有4種。
1)歐氏距離,公式為

2)明科夫斯基距離,公式為

3)切比雪夫距離,當明科夫斯基距p→∞時,有

4)相關性距離,公式為

式(1)—(4)中:i,j為樣本編號;k為波段;xik為第i個樣本在第k個波段的DN值;n為波段數,m為樣本數;d為距離;p為實數,p>0。
計算新建類與樣本光譜之間距離的方法有最短距離法、最長距離法、未加權平均距離法、加權平均法、質心距離法、加權質心距離法及內平方和距離法等。
地溝油與食用油在成分上十分相似,利用聚類法進行樣品微小差別的鑒別分析具有很大挑戰性,但同時也可以提高本文理論的可靠性。
試驗用油共6種,分別是大豆油、調和油、菜子油、色拉油、地溝油A和地溝油B。前4種正常的食用油是從超市購買的,而地溝油A和B分別是食堂剩菜中提煉出的油和反復煎炸使用后的油。將2種地溝油與4種食用油分別按1∶2和1∶1混合,得到22類混合油。利用ASD高光譜儀獲取待測樣本的高光譜數據時,為了克服背景物質對光線反射從而導致數據不準確,本文利用內壁刷黑后的培養皿來盛放實驗用油,每個樣本用ASD高光譜儀測5條光譜曲線,計22類110條光譜曲線,隨機選取其中的66條作為實驗組,進行聚類分析,其余相同油品的光譜曲線作為驗證組,用來對實驗結果進行檢驗。
將22個樣本依次取至60 mm內壁刷黑的培養皿(極小反射率)中,然后用ASD高光譜輻射儀進行光譜DN值的采集,波長范圍為350~2 500 nm。
利用View Spec Pro軟件,將實驗采集到的各個樣本的5條光譜曲線取平均值,得到22條譜線。圖1所示是編號第3類的地溝油(d3)與4種正常食用油(Z1,Z2,Z3,Z4)按比例混合(d31-1至 d34-2)之后各個譜線經拋物線修正、拼接修正后的DN值。對所獲取的光譜數據經過預處理后利用Matlab統計工具箱中的cluster函數進行聚類分析和結果顯示。

圖1 地溝油與正常食用油按比例混合譜線分布Fig.1 Hyperspectral curve of the proportionally mixed oil of waste oil and edible oil
聚類分析時應盡量選擇信息量豐富的可見光、不可見光波段數據。地溝油在成分種類上與食用油大致相似,均為多種脂肪酸的混合物,其分子式主要包括甘油基以及多種脂肪酸基,輻射儀測得的地溝油與食用油光譜DN值在部分相同波長范圍內具有相似的特征峰型和峰位,但是在DN值的分布范圍上具有明顯的區別。從圖1可以看出,4種正常油(曲線名稱為 Z1,Z2,Z3,Z4)DN 值分布在2 550~3 790之間,而地溝油DN值則分布在487~2 100和3 450以上的區間。在450~600 nm,650~900 nm和1 000~1 800 nm范圍內,各官能團的C-H吸收峰及灰度值排列順序較為相似且DN值分布有微小差異,帶有油品間的相似信息,而在1 825~2 500 nm區間,差異明顯,予以剔除。同時,地溝油與正常食用油在700~710 nm和740~750 nm之間均有類似的差異。其中,663~683 nm波長范圍,峰型峰位差別很小,帶有油品間的相似信息。以第3種地溝油與正常油按2種比例摻兌后該范圍內譜線為例,不同比例摻兌后,吸收峰高度有明顯差異,具有規律性:與Z1相比,d31-1和d31-2的DN值分別降低42%和73%;與Z2相比,d32-1和d32-2的DN值分別下降了40%和72%;與Z3相比,d33-1和d33-2的DN值分別下降了41%和77%;與Z4相比,d34-1和d34-2的DN值分別下降了43%和68%;為了突出樣品之間化學成分的細小差異,取可見光范圍663~683 nm,利用化學計量方法進行數學處理,采用聚類算法進行鑒別。
為了使敏感波段的選擇更加可靠,基于聚類分析,本文定義了顯著性差異度量△μ,即

式中:△DN1=,即該油品灰度值的最大值減最小值;DNi為該油品像元灰度值的平均值(i=1,2)。
顯然,|DN1-DN2|越大,說明1類油品像元灰度的平均值和2類油品像元灰度的平均值差別就越大,從目視效果來說,越容易區分1類油品和2類油品。而△DN1愈小,說明1類油品像元灰度的反差越小,越容易使1類油品聚類。因此,顯著性度量△μ作為表征2類地物差異的量,與|DN1-DN2|成正比,與|△DN1+△DN2|成反比,△μ越大,分類效果越好。為了進一步提取敏感波段,對663~683 nm(記為 a)、700 ~710 nm(記為 b)、740~750 nm(記為c)波段各種油品的DN值進行統計,在油品之間兩兩求△μ的和,得出

即663~683 nm波段內各油品光譜差異值的和最大,利用該波段聚類分析結果最符合實際。
取663~683 nm波長范圍,將22種光譜66條譜線數據作為訓練組,將剩余44條譜線按光譜類型兩兩取平均作為驗證組。利用訓練組數據進行DN值預處理,再采用歐氏距離、相關性、馬氏距離結合不同的聚類分析方法建立模型。選擇不同的聚類方法建立模型,其準確率不同。實驗表明:采用馬氏距離和明科夫斯基距離結合聚類方法聚類后不能將同種油品的3條光譜曲線歸為一類,不符合實際;而經相關性結合最短距離法、最長距離法、未加權平均距離法及內平方和距離法分析的結果均能有效地將66條光譜曲線準確地分為22類,該結果符合實際分類。圖2是經相關性最短距離法得到的聚類樹。

圖2 基于相關性最短距離法的聚類樹Fig.2 Correlation clustering tree based on the shortest distance method
圖3 為通過相關性內平方和距離法,分析得到的聚類樹。
圖中66條光譜曲線的序號依次每3個表示1類油品,聚類樹的分析結果顯示,該方法可以準確地將同一類且不同編號的油品歸為一類,依據各油品的DN值對其區分是基本可靠的。

圖3 基于相關性內平方和距離法的聚類樹Fig.3 Correlation clustering tree based on the interior square sum distance
由結果看出,聚類分析模型對22種油類樣品的區分有較高準確率。為了進一步證明模型的可靠性,考察模型對預測樣品的準確率,本文利用驗證組與訓練組混合后的譜線,采用相關分析法得到區分油品的結果(表1)。

表1 驗證組與訓練組混合譜線不同聚類分析方法的油品區分結果Tab.1 Oil distinguish results of different clustering analysis based on the blend spectrums of validation group and training group
表中編號67—88所代表的驗證組譜線是按與訓練組譜線相同的順序對各油品最后2條譜線兩兩取平均值得到的。由表1可知,4種聚類方法均能將驗證組的光譜曲線準確聚類到所屬的油品類別中,與實際相符。事實證明這種模型對于油品的區分有較高的準確度。
運用聚類分析法對22種地溝油、食用油品檢測的實驗結果表明,高光譜聚類分析法在油品檢測方面具有較好的效果,填補了利用油品的ASD高光譜數據鑒別地溝油的空白。相對于傳統的4大類核心指標檢測,高光譜聚類分析法更加精確,可以有效鑒別出地溝油與食用油,但在檢測未知油品的技術上還需改進,今后需在此基礎上大量采集地溝油的譜線,建立地溝油光譜DN值數據庫,以便能快速地、更好地區分未知油所屬的類別。
[1]潘劍宇,尹平河,余漢豪,等.潲水油、煎炸老油與合格食用植物油的鑒別研究[J].食品科學,2003,24(8):27-29.Pan J Y,Yin P H,Yu H H,et al.Diagnostic physical and chemical target on distinguishing hogwash fat form good edible vegetable oils[J].Food Science,2003,24(8):27-29.
[2]馬翠紅,劉立業.基于小波分析的光譜數據處理[J].冶金分析,2012,32(1):34-37.Ma C H,Liu L Y.Spectral data processing based on wavelet analysis[J].Metallurgical Analysis,2012,32(1):34- 37.
[3]沈掌泉,王 珂,王人潮.水稻光譜數據處理系統[J].浙江大學學報:農業與生命科學,1998,24(1):49-50.Sheng Z Q,Wang K,Wang R C.Study on rice spectral data processing system[J].Journal of Zhejiang Agricultural University,1998,24(1):49-50.
[4]沈掌泉,王人潮.連續型光譜數據的處理及信息提取試驗[J].浙江農業大學學報,1993,19(s1):85-90.Sheng Z Q,Wang R C.Study on the procession and information collection of continuous spectral data[J].Journal of Zhejiang Agricultural University,1993,19(s1):85-90.
[5]謝紅接,李劍鋒,劉德長,等.高光譜數據處理及其在廣西苗兒山地區的地質應用研究[J].鈾礦地質,1999,15(1):47-54.Xie H J,Li J F,Liu D C,et al.Hyperspectral data processing and research on geological application in miaoershan district,Guangxi Province[J].Uranium Geology,1999,15(1):47-54.
[6]周 竹,李小昱,高海龍,等.馬鈴薯干物質含量高光譜檢測中變量選擇方法比較[J].農業機械學報,2012,43(2):128-133,138.Zhou Z,Li X Y,Gao H L,et al.Comparison of different variable selection methods on potato dry matter detection by hyperspectral imaging technology[J].Transactions of the Chinese Society for Agricultural Machinery,2012,43(2):128-133,138.
[7]包麗麗,齊小花,張孝芳,等.幾種常用油品拉曼光譜的檢測及分析[J].光譜學與光譜分析,2012,32(2):394-397.Bao L L,Qi X H,Zhang X F,et al.Detection and analysis of several kinds of oils with Raman spectrum[J].Spectroscopy and Spectral Analysis,2012,32(2):394-397.
[8]柳萍萍,林 輝,孫 華,等.高光譜數據的降維處理方法研究[J].中南林業科技大學學報,2011,31(11):34-38.Liu P P,Lin H,Sun H,et al.Dimensionality reduction method of hyperion EO- 1 data[J].Journal of Central South University of Forestry and Technology,2011,31(11):34-38.
[9]李 剛,熊 嬋,李家星,等.高光譜檢測復雜混合溶液的Monte Carlo仿真研究[J].光譜學與光譜分析,2011,31(11):3014-3017.Li G,Xiong C,Li J X,et al.Monte Carlo simulation of complex mixed[J].Spectroscopy and Spectral Analysis,2011,31(11):3014-3017.
[10]李 穎,劉丙新,陳 澎.高光譜遙感技術在水上溢油監測中的研究進展[J].海洋環境科學,2012,31(3):460-464.Li Y,Liu B X,Chen P.Study advancement in oil spill monitoring using hyper- spectral remote sensing[J].Marine Environmental Science,2012,31(3):460-464.
[11]呂 萍,薛 龍,何秀文,等.生姜水分含量的可見-近紅外光譜檢測[J].江西農業大學學報,2011,33(3):602-607.Lü P,Xue L,He X W,et al.Prediction of ginger moisture content using visual near- infrared spectroscopy[J].Acta Agriculturae Universitatis Jiangxiensis,2011,33(3):602-607.
[12]劉 薇,尹平河,趙 玲.熒光法測定十二烷基苯磺酸鈉鑒別潲水油的研究[J].中國油脂,2005,30(5):24-26.Liu W,Yin P H,Zhao L.Distinguishing hogwash fat by determination of sodium dodecylbenzene sulfonate with fluorerscence spectrum analysis[J].China Oils and Fats,2005,30(5):24-26.
[13]王 耀,尹平河,梁芳慧,等.紫外可見分光光度法鑒別摻兌潲水油的花生油[J].分析實驗室,2006,25(3):92-94.Wang Y,Yin P H,Liang F H,et al.Distinguishing hogwash oil from peanut oil by ultraviolet- visible spectrophotometry[J].Chinese Journal of Analysis Laboratory,2006,25(3):92-94.
[14]劉福莉,陳華才,姜禮義,等.近紅外透射光譜聚類分析快速鑒別食用油種類[J].中國計量學院學報,2008,19(3):279-282.Liu F L,Chen H C,Jiang L Y,et al.Rapid discrimination of edible oil by near infrared transmission spectroscopy using clustering analysis[J].Journal of China Jiliang University,2008,19(3):279-282.
[15]黃 偉,鄭建軍,徐建華.地溝油的安全快速檢測研究[J].山東科技大學學報:自然科學版,2010,29(3):51-53.Huang W,Zheng J J,Xu J H.Study on safe and rapid detection of discard- oil[J].Journal of Shandong University of Science and Technology:Natural Science,2010,29(3):51-53.
[16]韓瑞梅,楊敏華.一種改進的高光譜遙感數據波段選擇方法的研究[J].測繪與空間地理信息,2010,33(3):137-139.Han R M,Yang M H.Study on an improved method of band selection of hyperspectral remote sensing data[J].Geomatics and Spatial Information Technology,2010,33(3):137-139.