蔡斌斌,蔣 鵬,金煒東,秦 娜
(西南交通大學電氣工程學院,成都610031)
一種動態特征選取方法及其在故障診斷中的應用
蔡斌斌,蔣 鵬,金煒東,秦 娜
(西南交通大學電氣工程學院,成都610031)
針對高鐵故障數據的特點,以高速列車走行部(主要指轉向架)常見故障的實測數據為研究對象,提出一種動態特征選取方法。通過結合Fisher比率和模糊熵方法對其特征空間進行評估,有效去除冗余特征,利用加權平均方法選取優化的特征子集,從而實現故障分類。實驗結果表明,與Fisher比率方法、模糊熵方法相比,該方法能提高不同列車速度下高鐵故障的分類準確度及低速時的分類穩定性;與原特征空間方法相比,使用該方法提取最優特征空間后各列車速度下的分類準確率平均提高了5.2%。
特征選取;模糊熵;Fisher比率;故障分類;相似性分類器;魯棒性
特征評估和特征選取是模式識別中一個重要的研究內容,在模式識別中往往會提取多個特征,但是在眾多的特征中哪些特征起到的作用大、哪些是無用的特征是研究的重點和難點,同時也引起了國內外研究者的關注。目前有多種特征選取方法。特征選擇是從原始特征集中選取特征子集的過程,適當的特征選擇可有效去除不相關和冗余特征,提升算法學習效率[1-3]。特征選擇方法可以分為:嵌入,過濾和包裹等方法。國內外許多學者提出多種特征評價準則,取得了明顯效果。然而,單一的特征評價準則往往只從不同側面評價特征,無法全面評價特征子集的好壞,從而造成特征選擇的普適性較差、分類精度較低。目前,針對特征評估指標的研究已經較成熟。但是單從一個指標難以全面評估特征的優劣,因此多準則、多尺度特征評估方法是目前研究的主要內容。例如,文獻[4]提出多準則特征評估方法融合MCF-RFE算法不僅能有效提高分類精度而且具有較好的穩定性,優于基準算法SVM-RFE。文獻[5]提出輪詢式多準則思想,從根本上突破了目前各評價準則的局限性,能較快地進行特征選擇。文獻[6]提出MCFR多準則特征排序方案,該方案能夠智能地利用各準則得到魯棒性較好的特征排序。由此可見,多準則特征評估方法優于單一特征評估方法。但是將多個特征評估方法融合起來,是目前研究的重點和難點問題。如何針對特定數據選取合適的特征評估指標以及如何將不同的評估指標融合起來是目前尚未解決的問題。
由于高速鐵路走行部(主要指轉向架)故障檢測往往采用多路振動或者位移傳感器同時采集振動數據,并將時域數據變換到頻域以增加檢測穩定性。另外,多路傳感器采集的數據常常伴有較強的噪聲,而且數據的不一致性也較強。Fisher比率方法計算簡單、穩定性高,非常適合處理高維特征數據。針對高鐵故障數據的特點,本文以高速列車走行部常見故障的實測數據為研究對象,提出一種基于Fisher比率和模糊熵的動態特征選取方法,先采用Fisher比率和模糊熵方法分別對特征進行排序,并利用一種加權平均方法選取優化的特征集合。
2.1 模糊熵方法
熵是信息論中一個非常基本并且重要的概念,它度量了一個系統或一段信息的不確定性,描述了一個模糊集的模糊性程度。本文采用文獻[7]中的基于相似性測度的模糊熵方法。
2.1.1 相似性測度
相似性測度一個基本的計算方法為:首先計算樣本集x=(x(f1),x(f2),…,x(ft)),第i類樣本集xi的冪均值得到一個能夠較好地代表第i類理想的特征向量vi=(vi(fi),…,vi(ft)),然后計算待分類樣本x與理想特征向量 v之間的相似度值 S(x,v),最后根據S(x,v)的大小判斷x屬于哪一類。在理想情況下,如果x屬于第i類則得到S(x,v)=1,反之S(x,v)=0。
2.1.2 基于相似性測度的模糊熵方法
模糊熵的定義很多,考慮到模糊集合的概念在克勞德·艾爾伍德·香農(Shannon C E)概率熵的基礎上提出模糊熵的公式:

其中,μA(xj)(0≤μA(xj)≤1)表示模糊數。引入相似性測度,令μA(xj)等于xj與理想特征向量中第j個特征vj之間的相似度S(xj,vj),如果相似度值越接近1/2,模糊熵值越大;相反,如果相似度值越大(或越小),模糊熵值越小。將每一個特征所有樣本的模糊熵值相加得到每一個特征的模糊熵值。模糊熵值越大說明該特征包含的信息量越少,可以適當去除。
2.2 Fisher比率方法
Fisher比率方法用于估計某一特征的有效性,作為一個品質因數在聲音識別領域和特征選擇方面得到廣泛應用。Fisher比率定義為類間均值的方差與類內平均方差的比值,該方法選出的特征類間差距大,類內差距小[8-11]。Fisher比率計算方法如下[8]:
設共有K類,第j類中特征向量個數為Nj,則第i個特征的Fisher比率值定義為:

其中,Bi為類間方差;Wi為第i個特征總的類內方差。兩者在數學上的定義如下:

其中,μij和Wij分別為第j類中第i個特征的均值和方差;μi是第i個特征總的均值。具體計算方法如下:

其中,xijn是第j類、第n個特征向量中的第i個特征。
2.3 特征評價
由式(1)~式(7)可分別求得基于模糊熵、Fisher比率準則的特征排序,取一定的權值得到兩方法結合后的特征排序。
基于模糊熵和Fisher比率方法分別對原始特征空間每個通道的各個特征進行評價。由于特征的模糊熵權值越小該特征對分類的作用越大,而特征的Fisher比率權值越大該特征對分類的作用越大,為了使兩者對應將特征的模糊熵值按從小到大順序排序、Fisher比率值從大到小排序,最后得到排序后每個特征對應的序號,分別記為:

基于2種不同的準則得到αen和αFr2種不同的排序,將2種排序線性求和,得到基于2種不同準則的特征的綜合排序序號,記為:

其中,x(i)=axen(i)+bxFr(i),本文取a∶b=1∶1。對α按從小到大順序排列得到特征排序,根據特征排序選擇最優特征空間。
為驗證本文方法的有效性和優越性,對標準測試數據集和高速列車的實測故障數據分別進行實驗。
3.1 標準數據集實驗
3.1.1 實驗設計
基于本文方法首先對標準數據集Ionosphere,Pima Indians Diabetes進行仿真驗證。數據集Ionosphere, Pima Indians Diabetes可在UCI數據庫中獲得。表1是對標準數據集Ionosphere,Pima Indians Diabetes的簡單描述。

表1 標準數據集
在實驗中,采用相似性分類器進行分類,具體如下:首先得到能夠較好地代表各類的理想特征向量,然后將待分類樣本及理想特征向量歸一化,計算待分類樣本與每一類理想特征向量的相似度,根據相似度大小判斷該樣本屬于哪一類。在理想情況下,如果待分類樣本屬于某一類,那么它與該類理想特征向量的相似度值為1,否則為0。因此,待分類樣本與哪一類理想向量的相似度值最大,那么該樣本就屬于哪一類。
3.1.2 結果分析
圖1表示數據集Ionosphere基于3種方法在每次去掉一個冗余特征的過程中得到的各特征空間的分類準確率,表2、表3分別表示兩數據集基于3種方法得到的最優特征空間及分類準確率。

圖1 Ionosphere數據集中不同特征空間的分類準確率

表2 Ionosphere數據集的分類準確率

表3 PimaIndians Diadetes數據集的分類準確率
首先從總體上看,與Fisher比率、模糊熵方法相比,在對兩數據集選取最優特征空間的過程中,本文方法能更穩定、高效地選取最優特征,并得到較好的分類準確率。由圖1和表2可知,模糊熵方法選取21個特征時得到的最高分類準確率81.196 6%,低于原特征空間分類準確率84.900 3%。Fisher比率方法選取 9個特征時,最高分類準確率達到86.039 9%,本文方法只需選擇4個特征,最高分類準確率達到84.900 3%。同樣選取前4個特征,模糊熵方法的分類準確率只有74.928 8%,Fisher比率方法為80.057 0%。本文方法在保持和Fisher比率方法準確率相近的情況下,有效地選取了最優特征空間,使計算量大大降低。由表3可知,與原特征空間相比3種方法都能去除冗余特征、提高分類準確率。原特征空間分類準確率為73.3073%,而本文方法只需選取 4個特征得到最高分類準確率74.218 8%,模糊熵方法選取7個特征時得到最高分類準確率74.088 5%,Fisher比率方法選取6個特征時得到最高分類準確率74.218 8%,而同樣取4個特征,模糊熵方法準確率只有71.614 6%,Fisher比率方法分類準確率只有62.369 8%。表2和表3中各空間的平均分類準確率也表明了本文方法的魯棒性和優異性。
3.2 高鐵實測數據實驗
3.2.1 實驗設計
為驗證本文方法在高鐵故障實測數據中的有效性,對某型高速列車實測數據進行仿真驗證。分別提取高速列車4種工況實測數據小波系數的均值、方差及快速傅里葉變換的均值、方差8維特征,每種工況得到20組樣本,4種工況總共80組樣本。首先運用3種方法對所有樣本的特征進行評估,去除冗余特征,然后從4種工況中分別選出一組作為訓練數據,剩余76組作為測試數據,將每組測試數據分別與4個訓練數據進行比較,由于單個傳感器得到的信息不完整、錯誤率高,DS[12-13]數據融合算法能夠將不完整的信息加以綜合,形成相對完整、一致的感知描述,從而實現更加準確的識別和判斷功能。因此,本文選取通道11,13,14,15,20,22,采用相似性分類器與DS數據融合的分類方法,首先計算待分類樣本與各類理想特征向量的相似度得到相似度向量,相似度向量歸一化作為分類證據,根據DS合成規則將6個通道得到的證據融合得到一個綜合的證據,設定閾值p=0.5,當樣本屬于某種工況的概率大于p,則認為該樣本屬于該工況。
3.2.2 結果分析
表4~表7分別表示原特征空間及運用模糊熵、Fisher比率、模糊熵與Fisher比率結合(本文方法) 3種方法提取最優特征空間后各速度下的分類準確率。表8為不同特征空間下5種速度的平均分類準確率。圖2表示各速度下基于3種方法提取的最優特征空間分類準確率對比。

表4 基于原特征空間的分類準確率

表5 基于模糊熵方法的分類準確率

表6 基于Fisher比率方法的分類準確率

表7 基于本文方法的分類準確率

表8 不同特征空間下的平均分類準確率

圖2 3種方法的分類準確率對比
由表4、表5可得,應用模糊熵提取各速度下的最優特征均為前7個特征。與原特征空間分類準確率相比,速度為120 km/h,160 km/h分類準確率不變,速度為140 km/h時有顯著提高,準確率提高22%左右,速度為220 km/h準確率雖有提高但并不明顯僅有1%左右,速度為200 km/h時準確率下降2%。由此可得,模糊熵方法只對速度為140 km/h的分類準確率有提高,而其他速度下的準確率不變甚至下降,說明模糊熵方法對于特征評價不穩定。
由表4、表6可得,Fisher比率方法提取各速度下的最優特征空間均為前5個特征。各個速度下的準確率均有提高,較為明顯的是140 km/h時提高6%,160 km/h,220 km/h時準確率提高4%左右,平均精度提高3.4%。表明Fisher比率方法不僅能夠有效地降低特征維數而且能夠提高分類精度。
由于表7為Fisher比率與模糊熵結合的方法提取各速度下的最優特征個數及分類準確率。由表4、表7可得,Fisher比率與模糊熵結合的方法有效地簡化了特征空間,除了120 km/h識別率提高1%,其他速度下均有明顯提高。140 km/h時識別率提高最明顯,高達12%;160 km/h,200 km/h時提高4%左右,200 km/h識別率達到100%;220 km/h時準確率提高5%。
由表5~表7及圖2可得,速度為200 km/h, 220 km/h方法的識別率在Fisher比率及模糊熵方法的基礎上又有提高;速度為140 km/h時保持了兩方法中識別率較高者;120 km/h,140 km/h時識別率在兩方法的基礎上折中。可見,本文方法具有較好的魯棒性,能夠有效地提高分類準確度,平均分類準確率提高5.2%。
本文針對高鐵故障數據的特點,提出模糊熵和Fisher比率相結合的方法對其特征空間進行評估,并以高速列車的故障數據作為研究對象進行驗證。實驗結果證明,該方法能夠提高高鐵多種故障分類的準確度,針對標準測試數據集的實驗也證明了該方法的魯棒性和優異性。
[1] Liu Huan,Yu Lei.Toward Integrating Feature Selection Algorithms for Classification and Clustering[J].IEEE Transactions on Knowledge and Data Engineering,2005, 17(3):491-502.
[2] Guyon I,Elissee A.An Introduction to Variable and FeatureSelection[J].JournalofMachine Learning Research,2003,3(3):1157-1182.
[3] 楊 藝,韓德強,韓崇昭.基于排序融合的特征選擇[J].控制與決策,2011,26(3):397-401.
[4] Feng Yang,Mao K Z.RobustFeatureSelection for Microarray Data Based on Multicriterion Fusion[J].ACM Transactions on Computational Biology and Bioinformatics,2011,8(4):1080-1092.
[5] 李勇明,張素娟,曾孝平,等.輪詢式多準則特征選擇算法的研究[J].系統仿真學報,2009,21(7):2010-2017.
[6] Yan Weizhong.Fusion in Multi-criterion Feature Ranking[C]//Proceedings of the 10th International Conference on Information Fusion.Quebec,Canada:[s.n.],2007:1-6.
[7] Luukka P.Feature Selection Using Fuzzy Entropy Measures with Similarity Classifier[J].ExpertSystemswith Application,2011,38(4):4600-4607.
[8] Zabidi A,MansorW.TheEffectofF-ratio in the Classification of Asphyxiated Infant Cries Using Multilayer Perception Neural Network[C]//Proceedings of EMBS Conference on Biomedical Engineering & Science.Kuala Lumpur,Malaysia:IEEE Press,2010:126-129.
[9] Saha G,Senapati S,Chakroborty S.An F-ratio Based Optimization on Noisy Data for Speaker Recognition Application[C]//Proceedings of INDICON'05.[S.l.]: IEEE Press,2005:352-355.
[10] Abdulla W H,Kasbov N.Reduced Feature-setBased ParallelCHMM Speech Recognition Systems[J].Information Sciences,2003,156(1/2):21-38.
[11] Liu Donghui,Liang Youngchun,Li Aihua,et al.The Study of Improved Fisher Ratio for Default Diagnosis of Power Transformer[C]//Proceedings of the 7th World Congress on Intelligent Control and Automation.Chongqing,China:[s.n.],2008:6867-6870.
[12] 徐從富,耿衛東,潘云鶴.面向數據融合的DS方法綜述[J].電子學報,2001,29(3):393-396.
[13] 權 文,王曉丹,王 堅,等.一種基于局部沖突分配的DST組合規則[J].電子學報,2012,40(9):1180-1184.
編輯 陸燕菲
A Dynamic Feature Selection Approach and Its Application in Fault Diagnosis
CAI Binbin,JIANG Peng,JIN Weidong,QIN Na
(School of Electrical Engineering,Southwest Jiaotong University,Chengdu 610031,China)
According to the characteristic of fault data of high-speed train,a dynamic feature selecting algorithm is proposed to research the measured data of the running gear(referring mainly to bogie)of high-speed train.The approach combines the advantages of Fisher ratio and fuzzy entropy dynamically,which manages to evaluate features more accurately and removes the redundant features effectively to obtain superior feature subset by weighted average method.The new approach can improve classification accuracy.Experimental results for fault data of high-speed train show that the proposed approach not only improves the classification accuracies significantly,but also strengthens the stability in low speed.The overall-precise improvement is 5.2%after extracting the optimal feature space in average compared with that of the original feature space.
feature selection;fuzzy entropy;Fisher ratio;fault classification;similarity classifier;robustness
1000-3428(2014)11-0139-04
A
TP391
10.3969/j.issn.1000-3428.2014.11.028
國家自然科學基金資助重點項目(61134002)。
蔡斌斌(1989-),女,碩士研究生,主研方向:數據融合,信息處理;蔣 鵬,講師、博士;金煒東,教授、博士;秦 娜,博士研究生。
2013-10-14
2013-12-25E-mail:caibinbin0320@126.com
中文引用格式:蔡斌斌,蔣 鵬,金煒東,等.一種動態特征選取方法及其在故障診斷中的應用[J].計算機工程, 2014,40(11):139-142.
英文引用格式:Cai Binbin,Jiang Peng,Jin Weidong,et al.A Dynamic Feature Selection Approach and Its Application in Fault Diagnosis[J].Computer Engineering,2014,40(11):139-142.