周曉園,余旌胡
(武漢理工大學 理學院,湖北 武漢 430070)
?
基于平穩子空間分析和相對熵的分類算法
周曉園,余旌胡
(武漢理工大學 理學院,湖北 武漢 430070)
針對多維時間序列維數多、變量間關系復雜的特點,提出了一種基于平穩子空間分析和相對熵的分類算法。首先,利用平穩子空間分析法將多維數據分離為平穩子空間和非平穩子空間;其次,利用相對熵衡量平穩子空間的分布相似性;最后,進行真實數據集的分類。研究結果表明:平穩子空間分析和相對熵分類算法優于DTW算法和PCA-ED算法。
多維時間序列;平穩子空間分析;相對熵;分類算法
多維時間序列在日常生活中普遍存在,其分類研究廣泛應用于遙感圖像分類[1]、電腦圖分析[2]和航空機械設備的質量評估[3]等領域中。因此,研究多維時間序列分類具有重大的現實意義。由于多維時間序列具有維數多和變量間關系復雜的特點,文獻[4]基于動態時間規整(dynamic time warping,DTW)的動態算法對多維時間序列進行了分類。DTW算法的缺點是運算量大、耗時長且匹配效果對端點的選擇過于依賴[5]。文獻[6]采用主成分分析(principal component analysis,PCA)對原始樣本進行降維,然后借助歐氏距離(Euclid distance,ED)將測試樣本歸入與其最近的類別中,減少了冗余信息造成的誤差,提高了分類精度。由于PCA計算簡單且能保留原始變量的重要信息,因此被應用于人臉識別[7]和文本特征提取[8]等方面。PCA的缺點是需要很大的存儲空間和計算復雜度,且要求有足夠多的樣本點[9]。
針對DTW算法和PCA-ED算法對時間跨度小和樣本數量少的多維時間序列分類效果不佳的缺點,本文提出一種基于平穩子空間分析[10](stationary subspace analysis,SSA)和相對熵(relative entropy)[11](KL距離)多維時間序列的分類算法,簡稱SSA-KL算法。SSA是由Bunau等提出的一種盲源分離方法,可以把多維時間序列分解為相互獨立的兩個部分:平穩部分和非平穩部分。SSA方法在故障診斷[12-13]等方面獲得了成功的應用,而相對熵作為一種衡量相似度的方法也已被用于行為識別[14]等方面。
SSA-KL算法主要思想為:利用SSA方法對訓練集和測試集進行降維,在降維后的空間里,采用基于相對熵的近鄰法對測試樣本實現分類。該算法可描述為:針對訓練樣本利用SSA提取出各類時間序列的平穩子空間和平穩子空間的投影算子;針對測試樣本把投影算子作用在測試樣本上得到相應類別的投影子空間;再利用相對熵衡量各類平穩子空間的分布與測試樣本投影子空間分布的近似程度;最后把測試樣本歸入相對熵最小的平穩子空間中,從而得到該測試樣本的類別。具體地講,本文采用如下步驟來完成多維時間序列的分類過程,這里c指類別的個數。
步驟Ⅰ:獲得c類多維時間序列。

步驟Ⅱ:將c類多維時間序列分為訓練集和測試集。


步驟Ⅲ:利用SSA求解每類訓練集平穩子空間的投影算子和分布。


(1)

(2)

(3)

(4)

(5)
步驟Ⅳ:針對每類測試集中每個測試樣本,得到相應類別的投影子空間。


(6)

(7)
步驟Ⅴ:將測試樣本分類。


(8)
根據分類步驟Ⅰ~Ⅴ,可以計算出分類正確率e,其計算公式為:

(9)
為了驗證SSA-KL算法對真實多維數據分類的有效性,分別采用DTW算法、PCA-ED算法和SSA-KL算法對機器人執行失敗[15](robot execution failures,REF)數據集進行分類。其實驗環境為:Windows 7系統,CPU 2.20 GHz,內存2 GB,算法采用MATLAB 2011a平臺下的M語言實現。
REF數據集包含對機器人的力和力矩的測量,共有5個數據集:LP1、LP2、LP3、LP4和LP5。每個數據集包含6個變量,時間間隔均為15 ms。每個數據集的樣本數和分類數如表1所示。在實驗中5個數據集的每類訓練樣本和測試樣本的個數如表2所示。

表1 每個數據集的樣本數和分類數
注:括號內的數字為所屬類包含的樣本數。

表2 5個數據集的每類訓練樣本和測試樣本的個數
PCA-ED算法分別提取前5個、前4個、前4個、前4個和前4個主成分(所有主成分的貢獻率都大于90%)。而SSA-KL算法對數據集LP1每類提取的平穩信源個數分別為3個、4個、4個和3個;對數據集LP2每類提取的平穩信源個數分別為3個、3個、3個、4個和3個;對數據集LP3每類提取的平穩信源個數分別為4個、4個、4個和5個;對數據集LP4每類提取的平穩信源個數分別為3個、4個和4個;對數據集LP5每類提取的平穩信源個數分別為4個、4個、4個、4個和4個。這5個數據集的分類正確率如表3所示。

表3 5個數據集的分類正確率 %
從表3中可以看出:SSA-KL算法在數據集LP1、LP2、LP3、LP4和LP5的分類正確率最高,PCA-ED算法次之,DTW算法最低,表明SSA-KL算法的分類效果優于DTW算法和PCA-ED算法。 可見,SSA-KL算法對此種時間跨度小和樣本數量少的數據具有一定的優勢。DTW算法能有效地處理局部時間位移和時間跨度較大的多維時間序列,而本文數據集的時間跨度較小,因此DTW算法對于本文中的REF數據集分類效果不佳。PCA-ED算法是一種基于統計方法的分類算法,通常要求足夠的樣本點才能有效求得比較準確的主成分,并且它適應于等時間跨度的大規模數據集,對小規模時間序列的分類效果不佳。而本文的SSA-KL算法的分類效果對訓練樣本個數的依賴程度不高,主要取決于對平穩特征的有效提取程度。該算法獲取了每類樣本數據的時間不變量(即平穩特征),準確描述了數據內部的本質結構特征,也降低了原數據的維數,減小了冗余信息所造成的誤差,進而提高了分類精度。因此,SSA-KL算法對每類數據集的分類正確率都優于DTW算法和PCA-ED算法,克服了DTW算法和PCA-ED算法的缺陷。
本文研究了基于平穩子空間分析和相對熵對多維時間序列的分類算法。SSA-KL算法利用SSA對多維時間序列進行降維處理,不僅節約了數據的存儲空間,而且獲取了數據中潛在的時間不變量。相對熵具有準確刻畫不同分布之間差異性的優點,運用相對熵來處理所提取的平穩子空間有助于得到更加準確的分類結果。針對時間跨度小、樣本數量少的多維時間序列,SSA-KL算法比DTW算法和PCA-ED算法的分類精度更高。由于SSA方法對平穩信源的個數有一定的要求,選取不同的個數對分類精度會有所改變,本文并沒有作詳細解釋,以后可以從這個方面繼續研究,進一步提高SSA-KL算法的分類精度。
[1]胡偉強,鹿艷晶.遙感圖像分類方法綜述[J].中小企業管理與科技(下旬刊),2015(8):231.
[2]PAULVB,MEINECKEFC,SCHOLLERS,etal.FindingstationarybrainsourcesinEEGdata[C]//EngineeringinMedicineandBiologySociety(EMBC),2010AnnualInternationalConferenceoftheIEEE.IEEE,2010:2810-2813.
[3]王曉強,張東英,崔鳳奎.航空滾動軸承典型缺陷的分類識別[J].河南科技大學學報(自然科學版),2013,34(6):13-18.
[4]STEPHANS,JAINBJ,LUCAEWD,etal.Patternrecognitioninmultivariatetimeseries:dissertationproposal[C]//Proceedingsofthe4thWorkshoponWorkshopforPh.D.StudentsinInformation&KnowledgeManagement.ACM,2011:34-42.
[5]李正欣,張鳳鳴,李克武.多元時間序列模式匹配方法研究[J].控制與決策,2011,26(4):565-570.
[6]蘇靜,趙毅強,何家冀,等.旁路多維時間主成分分析的歐式距離硬件木馬檢測[J].微電子學與計算機,2015,32(1):1-4.
[7]倪世貴,白寶鋼.基于PCA的人臉識別研究[J].現代計算機(專業版),2011(3):44-47.
[8]洪軍建,珠杰.分塊主成分分析在文本特征抽取中的應用[J].河南科技大學學報(自然科學版),2015,36(6):30-34.
[9]吳虎勝,張鳳鳴,鐘斌.基于二維奇異值分解的多元時間序列相似匹配方法[J].電子與信息學報,2014,36(4):847-854.
[10]PAULVB,FRANKCM,FRANZCK,etal.Findingstationarysubspacesinmultivariatetimeseries[J].Physicalreviewletters,2009,103(21):214101.
[11]田寶玉,楊潔,賀志強,等.信息論基礎[M].北京:人民郵電出版社,2008.
[12]嚴如強,錢宇寧,胡世杰,等.基于小波域平穩子空間分析的風力發電機齒輪故障診斷[J].機械工程學報,2014,50:9-16.
[13]唐貴基,龐彬,劉尚坤.基于奇異差分譜和平穩子空間分析的滾動軸承故障診斷[J].振動與沖擊,2015,34(11):83-87.
[14]曾青松,賀衛國.基于相對熵度量的行為識別方法[J].河南科技大學學報(自然科學版),2009,30(6):53-55.
[15]LUISSL,LUISMCM.Robotexecutionfailuresdataset[EB/OL].(1999-04-23)[2016-02-10].http://archive.ics.uci.edu/ml/datasets/Robot+Execution+Failures.
國家自然科學基金項目(114331011);中央高校基本科研業務費專項基金項目(2015-zy-115)
周曉園(1992-),女,河南伊川人,碩士生;余旌胡(1967-),女,湖南岳陽人,教授,博士,碩士生導師,主要研究方向為馬氏過程及其應用、統計學習理論與方法.
2016-02-26
1672-6871(2016)06-0042-04
10.15926/j.cnki.issn1672-6871.2016.06.009
TP391
A