馮國紅 朱玉杰 楊慧敏 曹亞亭



摘 ?要: 基于主成分分析(PCA)對提取“光纖液滴指紋圖”的特征值進行研究。對40滴自來水樣本進行主成分分析,由特征值大小及累積貢獻率確定主成分的個數為6。計算40滴樣本的主成分,得出第2,3,4主成分較穩定,第1,5,6主成分穩定性較差。對比40滴樣本的“光纖液滴指紋圖”的重合性,發現最后15%左右的數據曲線重合性較差,截掉此部分數據重新進行主成分分析,得出6個主成分的穩定性好,最大相對差異僅為8%?;谥讣y圖中前85%的數據,應用PCA算法對曲線形狀較相似的10‰和20‰的鹽水進行識別驗證,得出二者的6個主成分差異性均顯著,說明截掉不穩定的數據后對基于PCA算法識別液體的影響較小。
關鍵詞: 液體識別; PCA; “光纖液滴指紋圖”; 特征提取; 主成分計算; 識別率驗證
中圖分類號: TN911.73?34 ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)15?0047?04
Study on liquid identification of fiber fingerprint drop trace based on PCA
FENG Guohong, ZHU Yujie, YANG Huimin, CAO Yating
(College of Engineering and Technology, Northeast Forestry University, Harbin 150040, China)
Abstract: The feature extraction of the fiber fingerprint drop trace is studied in this paper based on principal component analysis (PCA). The PCA was carried out on 40 drops of tap water samples. Six principal components were determined by the magnitude of the eigenvalues and the cumulative contribution rate. By calculating the main components of the 40?drop sample, it is found that the second, third and fourth principal components are more stable, and the stability of the first, fifth, and sixth principal components are poor. By comparing the coincidence of the 40?drop sample of the fiber fingerprint drop trace, it is found that the last 15% of the data curve coincidence is poor. After cutting off this part of the data and reanalyzing the rest of the data curve by PCA, it is found that the stability of the six principal components is good, and the maximum relative difference is only 8%. And then on the basis of data curve of the front 85% of the fingerprint drop trace, the PCA algorithm is adopted again to identify 10‰ and 20‰ brine with similar curves. The results show that the difference of the six principal components at the two situations is significant, which indicates that the identification of liquid based on PCA is less affected after cutting off the unstable data.
Keywords: liquid identification; principal component analysis; fiber fingerprint drop trace; feature extraction; principal component calculation; recognition rate verification
0 ?引 ?言
市場經濟的快速發展,名優產品的暢銷,使得一些利欲熏心的不法分子制造假冒偽劣產品,假酒、假醬油、假飲料等報道屢見不鮮,這使生產者和消費者的權益受到嚴重的侵害。為了保護消費者的合法權益,技術監督部門往往需要采用多種分析儀器進行檢驗,判斷難度較大。光纖液滴分析技術是一種低成本、先進和環保的液體分析技術,該技術主要利用光纖傳感器監測滴頭處液滴從開始形成至滴落整個過程中接收光纖中光信號的變化規律。學者們經過實驗驗證[1?4],該光信號形成的曲線就像人手指紋一樣對每種液體具有唯一性,因此,一般將該信號曲線稱為“光纖液滴指紋圖”,光纖液滴分析技術就是利用該“光纖液滴指紋圖”對液體進行識別的。
“光纖液滴指紋圖”僅能提供直觀的觀察效果,樣品的識別主要依賴于從樣品的實驗數據中提取相應的特征。目前關于“光纖液滴指紋圖”特征提取方法的研究主要有波形分析法、PCA法、互相關法、離散余弦變換及離散正弦變換等[5?6]。PCA法是較常用的一種數據壓縮特征提取方法,它將原來多個變量轉化為少數的幾個不相關的主成分,將得到的主成分作為特征值,簡化原始高維變量的同時最大限度地保留了原始數據的信息[7?9]。為了充分采集液體的特征,通常一滴液滴的“光纖液滴指紋圖”約包含2 000~4 000個數據,進行主成分分析時相當于有2 000~4 000個原始變量,當“光纖液滴指紋圖”的重復性不夠好時,很容易對提取的主成分穩定性產生影響,從而影響液體的識別。目前的研究主要集中在該方法提取不同的液體的特征值是否相同,對該方法提取的特征值的穩定性并未研究。本文對基于PCA法提取的“光纖液滴指紋圖”的主成分穩定性進行研究,分析了主成分不穩定的原因,并提出相應的改進方案。本文的研究結果對于光纖液滴分析技術的推廣應用有重要的參考價值。
1 ?主成分個數的確定
對“光纖液滴指紋圖”的光纖信號進行主成分分析,以得到的主成分作為其特征值,需要先確定主成分的個數。主成分的個數一般由特征值的大小和累積貢獻率決定,通常要求特征值大于1,累積貢獻率大于85%。在相同測試系統條件下,利用天津大學裘祖榮教授設計的實驗裝置進行實驗,獲得40滴自來水的“光纖液滴指紋圖”實驗數據,將其作為主成分分析的樣本。由于實驗儀器及液滴的形成過程等均存在一定的誤差,使得每滴液滴所包含的數據個數并不相同,即自變量的個數并不相同,而進行主成分分析需要樣本自變量的個數必須相同,為此,本文以包含數據個數最少的液滴為標準(包含3 674個數據),對40滴液滴數據進行截取。
運用Matlab軟件對截取后的40滴樣本數據進行主成分分析[10],得到特征值大于1的前10個主成分的特征值及貢獻率如表1所示,由表1中數據確定的主成分個數為6個。

2 ?主成分的穩定性分析
為分析“光纖液滴指紋圖”得到的主成分穩定性,將40滴液滴樣本代入主成分計算公式:

由表2可知,在相同測試系統條件下,僅有第2,3,4主成分較穩定,而第1,5,6主成分的穩定性較差。由前面的分析可知,第1主成分是最重要的,而表2中,第1主成分的穩定性最差??梢?,此時獲得的主成分不適合作“光纖液滴指紋圖”的特征值。
3 ?影響主成分不穩定的原因分析及改進計算
3.1 ?影響主成分不穩定的原因分析
由上述分析可知,直接應用采集的“光纖液滴指紋圖”數據進行主成分分析,得到的主成分穩定性較差,無法作為特征值進行液體識別。為分析提取的主成分不穩定的原因,對40滴液滴的“光纖液滴指紋圖”進行對比,為便于區分,本文僅給出前10滴液滴的數據曲線,如圖1所示。由圖1可知,“光纖液滴指紋圖”大部分重合性較好(如區域1),但有較少的一部分重合性明顯較差(如區域2)。
基于指紋圖的重合情況,將一滴液滴的實驗數據分成兩部分:區域1(取前3 124個數據)和區域2(取后550個數據)。應用式(1)對區域1和區域2的數據分別進行計算,計算結果如表3和表4所示。

由表3可以看出,區域1的主成分最大相對差異均較小,最大僅有7%,而區域2的第5和第6主成分的最大相對差異均較大,而其中第1主成分雖然差異性不大,但是,區域2和區域1的第1主成分符號相反,導致整體數據計算的第1主成分有正有負,差異性較大??梢?,區域2的數據是影響“光纖液滴指紋圖”提取的主成分不穩定的主要原因。


3.2 ?主成分的改進計算
由3.1的分析可知,“光纖液滴指紋圖”曲線大部分重合性較好,僅有最后一小部分曲線的重合性較差,導致提取的主成分不穩定。基于重合性較差的數據所占比例不大(本文實驗中約占15%),本文考慮基于圖1中區域1部分數據進行特征提取,實現液體識別。
截取區域1部分數據,對40滴液滴樣本重新進行主成分分析,計算出的主成分如表5所示。由表5可以看出,應用區域1部分數據得到的主成分穩定性好,最大相對誤差僅有8%,可作為“光纖液滴指紋圖”的特征值。

為了驗證基于區域1數據提取的主成分的液體識別能力,本文對10‰和20‰的鹽水進行實驗,結果如圖2所示。由圖2可以看出,二者的曲線形狀很相似,用肉眼較難區分。

選用指紋圖中前85%的數據對二者進行主成分分析,并應用Excel對得到的主成分的差異性進行檢驗(顯著性水平[α]取0.05),結果如表6所示。由表6可以看出,10‰和20‰鹽水的6個主成分差異性均顯著??梢姡趨^域1部分數據提取的主成分能夠識別出曲線形狀較相似的液體。

4 ?結 ?論
本文對基于主成分分析提取的“光纖液滴指紋圖”的特征值穩定性進行研究。由實驗獲得了40滴自來水的樣本數據,對其進行主成分分析,由特征值及累積貢獻率等確定主成分的個數為6。對40滴樣本數據計算6個主成分,并比較其差異性,得出第1,5,6主成分的差異性較大,穩定性較差。比較40滴自來水的“光纖液滴指紋圖”,發現40條指紋圖曲線絕大部分重合性較好,但最后一小部分重合性較差。將重合性好和重合性差的指紋圖數據分成兩部分,分別計算其主成分,得出最后一小部分數據是影響主成分不穩定的主要原因。由實驗數據得出不穩定的數據僅占整體數據的15%左右,截取穩定部分數據,重新進行主成分分析,得出6個主成分的穩定性均較好。應用曲線形狀較相似的10‰和20‰的鹽水對截掉不穩定數據后的主成分分析法的液體識別能力進行實驗驗證,得出10‰和20‰鹽水的6個主成分差異性均顯著,說明截掉不穩定的數據后對基于主成分分析法識別液體的影響較小。
注:本文通迅作者為朱玉杰。
參考文獻
[1] ?姚堯,裘祖榮,樊玉銘.液滴分析儀光電傳感器的改進[J].光電工程,2015,42(5):75?81.
YAO Yao, QIU Zurong, FAN Yuming. The improvement of droplet analyzer photoelectric sensor [J]. Opto?electronic engineering, 2015, 42(5): 75?81.
[2] 裘祖榮,陳哲,樊玉銘.利用液滴指紋圖實現溶液折射率的精確測量[J].光學學報,2017,37(4):1?8.
QIU Zurong, CHEN Zhe, FAN Yuming. Accurate measurement of liquid refractive index using liquid droplet fingerprints [J]. Acta photonica sinica, 2017, 37(4): 1?8.
[3] 劉晶,宋晴,黃加勇,等.基于液滴指紋圖的波形分析算法的改進[J].計算機測量與控制,2011,19(3):670?672.
LIU Jing, SONG Qing, HUANG Jiayong. Improvement of waveform analysis algorithm based on liquid drop fingerprint [J]. Computer measurement & control, 2011, 19(3): 670?672.
[4] 李小梅.“光纖液滴指紋圖”分析方法研究[D].哈爾濱:哈爾濱工程大學,2007.
LI Xiaomei. The investigation of analysis methods based on fiber fingerprint drop trace [D]. Harbin: Harbin Engineering University, 2007.
[5] 孫偉民,李小梅,曾佑民,等.互相關法在“光纖液滴指紋圖”分析中的應用[J].光子學報,2007,36(11):2033?2036.
SUN Weimin, LI Xiaomei, ZENG Youmin, et al. The application of cross?correlation analysis in the fiber fingerprint drop trace [J]. Acta photonica sinica, 2007, 36(11): 2033?2036.
[6] 袁暉.光電液滴指紋圖影響因素的研究[D].北京:北京郵電大學,2013.
YUAN Hui. The research on the influence factors of fiber?capacitive liquid drop fingerprint [D]. Beijing: Beijing University of Posts and Telecommunications,2013.
[7] 陳佩.主成分分析法研究及其在特征提取中的應用[D].西安:陜西師范大學,2014.
CHEN Pei. Principal component analysis and application in feature extraction [D]. Xian: Shaanxi Normal University, 2014.
[8] 錢沖,廖永紅,劉明艷,等.不同香型白酒的聚類分析和主成分分析[J].中國食品學報,2017,17(2):243?255.
QIAN Chong, LIAO Yonghong, LIU Mingyan,et al. Cluster analysis and principal components analysis of different flavor types of liquor [J]. Journal of Chinese institute of food science and technology, 2017, 17(2): 243?255.
[9] 趙薔.主成分分析方法綜述[J].軟件工程,2016,19(6):1?3.
ZHAO Qiang. A review of principal component analysis [J]. Software engineering, 2016, 19(6): 1?3.
[10] 王志新.Matlab程序設計及其數學建模應用[M].北京:科學出版社,2013.
WANG Zhixin. Matlab programming and application in mathematical modeling [M]. Beijing: Science Press, 2013.