999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最大樹聚類的多超球體一類分類算法及其應用研究

2012-11-30 06:13:50劉麗娟
中國機械工程 2012年3期

劉麗娟 陳 果

南京航空航天大學,南京,210016

0 引言

相對于多類分類算法對樣本數量的要求較高,一類分類[1-4]方法僅僅需要一類樣本對象。如狀態監測與故障診斷運行狀態中,相對于大量正常狀態的樣本,異常狀態的樣本往往很少,而且表現出各種各樣的異常模式[5],而其主要任務是識別狀態正常與否,采用一類分類法就能有效解決該問題。

一類分類器僅需一類樣本通過機器學習生成一個閉合的超球體作為該類樣本的決策邊界。如果測試樣本點在超球體的外面,則認為這些樣本點是異常樣本(野點),反之則判斷為正常樣本。但是在實際應用中發現,即使是正常狀態的訓練樣本,在數據分布或者結構信息上還是會存在差異(特別是當訓練樣本的數據是成簇分布時),如果只按照單超球體一類分類建模,那么構造的單個超球體不僅包圍了訓練數據,而且還包圍了簇間的空白區域[6],這樣一來很可能將非正常的樣本也錯誤地判為正常樣本。雖然通過引入核函數,調節核參數(如高斯核參數)可以使上述情況有所改善,但是這無法從根本上解決問題。因此本文采用多個超球體來覆蓋訓練樣本,研究了基于最大樹聚類的多超球體[7-8]一類分類器,分別將該方法應用于仿真數據、UCI標準數據集以及轉子故障診斷三個實例中,并且與常用的基于單超球體的一類分類方法進行了比較,結果表明了該方法的有效性。

1 單超球體一類分類器

一類分類器針對一類對象(如故障診斷中的正常運行狀態,為正類),而相對于該類對象的其他對象(如故障診斷中的非正常運行狀態,為負類)統稱異常對象(野點)。單超球體一類分類器本質上是尋找一個能夠包含全部正類樣本的最小超球體,在球體外的點視為野點。設有一個正類樣本集{x1,x2,…,xN},將該正類樣本集全部樣本包圍的最小球體的半徑設為R,球心設為a,為了實現錯誤劃分和區域范圍之間的折中,在優化過程中引入松弛變量,此時樣本集滿足:

(1)

定義Lagrange函數:

(2)

其中,C為懲罰因子,ξi為對應第i個樣本的松弛變量,Λ={αi},對應的Lagrange系數αi≥0,γi≥0。將式(2)分別對R和α求偏微分,并令其等于0,得到相關的優化方程如下:

(3)

引入高斯徑向基核函數K(x,y),即

(4)

用核函數K(x,y)替代(x,y),得到對應的優化方程:

(5)

實際上,根據KKT(Karush-Kuhn-Tucker)條件,大部分αi為0,只有一小部分αi>0,而與這些不為零的αi所對應的樣本點決定了超球體邊界的構成,為此,將這些樣本點稱為支持對象(support objection)。

對于待定狀態數據z,其到球心的距離的平方為

(6)

取任一支持對象xs,則球體半徑的平方為

(7)

依據下式可判斷z是否為正類樣本:

(8)

2 基于最大樹聚類的多超球體一類分類器

單超球體一類分類器在進行建模時,沒有考慮到樣本間的分布結構以及同類樣本之間存在的差異,因此本文采用多超球體來代替單超球體覆蓋訓練樣本。圖1中,“o”表示的是正常樣本,“*”表示的是異常樣本。圖1a所示是采用單超球體覆蓋訓練樣本的示意圖,圖1b所示是采用多超球體覆蓋訓練樣本的示意圖。通過比較發現圖1b的方法較之于圖1a的方法具有更高的識別率。

(a)單超球體

(b)多超球體圖1 單超球體與多超球體比較圖

相對于單超球體的一類分類器,多超球體一類分類器首先要對訓練樣本進行聚類,然后對聚類后的各子類分別進行一類支持向量機分類器學習,最后得到對應的多個超球體一類分類模型。

2.1 聚類

本文采用最大樹[9-10]聚類算法進行聚類。用絕對值減數法:

(9)

2.2 基于最大樹聚類的多超球體一類分類法流程

基于最大樹聚類的多超球體一類分類法具體的過程如下:

(1)對所得樣本數據進行特征提取,得到對應的訓練樣本集、測試樣本集。

(2)將訓練樣本集按最大樹聚類算法聚為多個子類。根據所聚成的子類個數將訓練樣本集的各個子類分別進行一類支持向量機分類器學習,得到各個子類所對應的單超球體,各子類對應的單超球體相組合就構成對應于訓練樣本集的多超球體一類分類模型。

(3)采用得到的多超球體一類分類模型對測試樣本集進行決策。只要存在一個超球體能包含測試樣本,就將該測試樣本視為正常類;若沒有一個超球體能包含該測試樣本,就將該測試樣本視為異常類。

圖2是其對應的流程圖,可以看出當訓練樣本集聚類為一個子類(即m=1)時,所得的多超球體分類模型就是單超球體分類模型。即單超球體一類分類器可以看作是多超球體一類分類器將其對應的訓練樣本集聚為一個子類的特例。

圖2 算法流程

3 實驗與應用

3.1 仿真數據實驗

為了驗證基于最大樹聚類的多超球體一類分類法的可行性,本文首先選用圖1所示的具有聚類特性的仿真數據進行驗證。從圖1可以看出,正常樣本聚類特征明顯,傾向于聚為3個子類。

隨機選擇正常樣本的2/3作為訓練樣本,剩余的1/3樣本作為正類測試樣本,所有的異常樣本作為負類測試樣本。采用最大樹聚類法(α取0.5),選取聚類子類數10以內對應的結果,如圖3所示。根據圖3a所示的參數λ與聚類后子類數c的關系,圖3b所示的誤差平方和Je與聚類后子類數c的關系,選取參數λ=0.88,聚類后聚為3個子類,這一點與圖1中樣本簇分布的趨勢一致。

(a)參數λ與子類數關系(b)子類數與誤差平方和關系圖3 仿真數據聚類結果

根據聚類的結果,分別采用單超球體一類分類器和多超球體一類分類器進行學習,兩種算法中涉及的懲罰因子C與高斯核參數σ,均采用文獻[12-14]中提到的粒子群優化算法對其進行參數自適應優化。兩種算法在最優參數下得到的識別率如表1所示。其中,T為正類訓練樣本數;T1為正類測試樣本數;T2為負類測試樣本數;N為支持向量個數;R1為正類識別率;R2為負類識別率;R為平均識別率,R=(R1+R2)/2。

表1 多超球體一類分類器與單超球體一類分類器對仿真數據的實驗結果

表1所示結果表明,當訓練樣本呈聚類特征分布時,多超球體一類分類算法相對于單超球體一類分類算法具有優越性。

3.2 UCI標準數據集實驗

為了進一步驗證該算法的可行性。本文選取UCI數據庫中的Sonar這個兩類數據集產生兩個單類數據來驗證。獲取的Sonar數據集包含兩類,分別記為Sonar1、Sonar2。首先對獲取的數據在信息量保持0.95的情況下,得到主成分分析(principle component analysis,PCA)特征壓縮后的兩類樣本數據。圖4a與圖4b分別是部分Sonar1和Sonar2數據取最大3維主分量的可視化分布圖,從一定程度上反映了高維數據簇分布的趨勢。

和仿真實驗中一樣,分別針對每一類樣本集,隨機選取其中的2/3樣本作為正類訓練樣本,剩余的1/3同類樣本作為正類測試樣本,另一類的1/3樣本作為負類測試樣本。圖5、圖6分別是對Sonar1及Sonar2采用最大樹聚類法(α取0.2),對應聚類子類數10以內的結果。因此Sonar1、Sonar2分別?。簠郸?0.87、聚類后聚為3個子類以及參數λ=0.88、聚類后聚為3個子類。

(a)Sonar1 樣本三維分布圖

(b)Sonar2 樣本三維分布圖圖4 Sonar數據集的可視化分布圖

(a)參數λ與子類數關系(b)子類數與誤差平方和關系圖5 Sonar1聚類的結果

(a)參數λ與子類數關系(b)子類數與誤差平方和關系圖6 Sonar2聚類的結果

同時采用粒子群優化算法對多超球體一類分類器與單超球體一類分類器兩種算法中涉及的懲罰因子C與高斯核參數σ進行參數自適應優化,兩種算法在最優參數下得到的識別率如表2所示。

從表2可以看出,Sonar1中多超球體的平均識別率要比單超球體的平均識別率提高了近15%,而Sonar2中兩種方法的平均識別率比較接近,這是由于Sonar2的數據聚類特征不是很明顯,這與圖4b的三維可視圖的分布是相符的。對標準數據多超球體一類分類器首先考慮了數據內部的簇分布情況,其對正負類樣本的平均識別率總體上與單超球體一類分類器相比均有所提高,可見該算法的有效性。

3.3 轉子故障診斷

借助ZT-3多功能轉子實驗臺以及DH5922動態信號測試分析系統,在不同的轉速下采集了不平衡、不對中、碰摩以及油膜渦動4類轉子故障樣本:不平衡25個,不對中22個,碰摩29個,油膜渦動31個。

表2 多超球體一類分類器與單超球體一類分類器對標準數據集的實驗結果

本文將實驗提取的4類轉子故障的樣本數據進行頻譜分析,得到信號頻譜后,對頻譜進行歸一化處理,然后直接對頻譜數據在信息量保持率為95%的情況下進行PCA特征壓縮。分別對壓縮后的4類特征樣本集建立其對應的多超球體一類分類器:不平衡對應所有類別、不對中對應所有類別、碰摩對應所有類別、油膜渦動對應所有類別。建立每個模型時,分別對每一類故障數據隨機選取其中2/3的樣本數據作為正類訓練樣本集,將剩余的1/3樣本作為正類測試樣本集,將其他各故障的1/3樣本組合成負類測試樣本集,依照本文提出的基于最大樹聚類的多超球體一類分類器進行學習。

圖7~圖10所示為采用最大樹聚類法(α均取0.6),分別對四種轉子故障的訓練樣本集進行聚類的結果。圖7b中10個子類以內聚為n個子類與n+1個子類間的誤差平方和的差距很小(小于0.001),因此對于不平衡樣本,聚類后的子類個數仍為1。因此根據圖7~圖10所示聚類后參數λ與子類數c的關系、子類數c與誤差平方和Je的關系,分別對每一類故障選擇的參數λ以及所得的子類數是:不平衡——0.98,1;不對中——0.99,2;碰摩——0.99,2;油膜渦動——0.98,2。

(a)參數λ與子類數關系(b)子類數與誤差平方和關系圖7 不平衡樣本聚類結果

(a)參數λ與子類數關系(b)子類數與誤差平方和關系圖8 不對中樣本聚類結果

(a)參數λ與子類數關系(b)子類數與誤差平方和關系圖9 碰摩樣本聚類結果

(a)參數λ與子類數關系(b)子類數與誤差平方和關系圖10 油膜渦動樣本聚類結果

根據聚類后的結果采用本文提到的多超球體一類分類器建立模型,同時與常用的單超球體一類分類器比較了實驗結果。同樣對兩種算法均以粒子群優化算法優化各算法中所涉及的懲罰因子C與高斯核參數σ。在最優參數下所得到的識別率如表3所示。從表3的實驗結果可知,由于不平衡樣本經最大樹聚類后仍聚為一個子類,故對于不平衡樣本的單超球體一類分類算法即可看成是其多超球體一類分類算法的特例,兩者結果一樣。其他三類故障樣本經聚類后均聚為兩個子類:不對中樣本采用多超球體一類分類算法不僅支持向量個數比單超球體一類分類法少了,且其對應的識別率也提高了;碰摩樣本使用多超球體一類分類法后在支持向量個數增加的情況下,識別率有了提高;油膜渦動樣本對應的多超球體一類分類法雖然支持向量個數增加了,但是最后的識別率同樣達到了100%。由此可見,該算法相對于常用的單超球體一類分類法在識別率上表現了其有效性。

表3 多超球體一類分類器與單超球體一類分類器對轉子故障的識別率

4 結語

本文從考慮數據內在分布的角度出發研究了一種基于最大樹聚類的多超球體一類分類算法。首先對經PCA特征降維后的訓練樣本集采用最大樹聚類算法實現聚類,得到對應的內在分布簇形成的各子類;然后對各簇子類分別進行一類支持向量機分類器訓練,并且利用粒子群優化算法獲取最優參數,得到各子類對應的超球體;最后建立由各子類對應的超球體而形成的多超球體一類分類模型。分別將該方法應用于仿真數據、UCI標準數據集以及轉子故障數據這三個實例中,實驗結果表明,當樣本數據呈簇類分布時,尤其是聚類特征比較明顯時,該方法相對于常用的單超球體一類分類方法具有可行性及有效性。

[1] Juszczak P. Learning to Recognise:a Study on One-class Classification and Active Learning[D]. Delft: Delft University of Technology, 2006.

[2] Camci F, Chinnam R B. General Support Vector Representation Machine for One-class Classification of Non-stationary Classes[J]. Pattern Recognition,2008, 41: 3021-3034.

[3] Tsang I W,James T K,Li S.Learning the Kernel in Mahalanobis One-class Support Vector Machines[C]//Proceeding of the International Joint Conference on Neural Networks.Vancouver,Canada,2006:1169-1175.

[4] Tax D. One-class Classification: Concept-learning in the Absence of Counter-examples[D].Delft: Delft University of Technology,2001.

[5] 譚真臻, 陳果, 孫麗萍. 基于Hilbert譜圖特征的航空發動機轉子故障智能診斷[J].機械科學與技術,2010, 29(9):1177-1181.

[6] 馮愛民,陳松燦. 基于核的單類分類器研究[J].南京師范大學學報(工程技術版),2008,8(4):1-6.

[7] 戴蒙,林家駿,劉云翔.基于FCM聚類的多超球體一類分類數字圖像隱藏信息[J].中國圖像圖形學報,2008,13(10):1918-1921.

[8] Wang D, Yeung D S, Tsang E C C. Structured One-class Classification[J].IEEE Trans. on Systems, Man, and Cybernetics-Part B:Cybernetics,2006,36(6):1283-1294.

[9] 肖健華. 智能模式識別方法[M]. 廣州: 華南理工大學出版社, 2006.

[10] 楊夢寧,楊丹,張強勁.基于最大樹法的模糊圖像分割方法[J].計算機科學,2005,32(8):190-191.

[11] Duda R O,Hart P E,Stork D G.模式分類[M].李宏東,姚天翔,等,譯.2版.北京:機械工業出版社,2003.

[12] Chapelle O, Vapnik V, Bousquet O, et al. Choosing Multiple Parameters for Support Vector Machines[J]. Machine Learning,2002,46(1):131-159.

[13] 王東,吳湘濱.利用粒子群算法優化SVM分類器的超參數[J].計算機應用,2008,28(1):134-135.

[14] 邵信光,楊慧中,陳剛.基于粒子群優化算法的支持向量機參數選擇及其應用[J].控制理論與應用,2006,23(5):740-743.

主站蜘蛛池模板: av一区二区三区在线观看| 亚洲精品无码成人片在线观看| 欧美精品一区二区三区中文字幕| 色婷婷在线影院| 性欧美在线| 亚洲精品麻豆| 欧美日韩免费观看| 5388国产亚洲欧美在线观看| 国产视频a| 宅男噜噜噜66国产在线观看| 亚洲欧美色中文字幕| a级毛片网| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲综合日韩精品| 久久国产精品嫖妓| 青青国产在线| 自慰高潮喷白浆在线观看| 蜜桃视频一区| 91色老久久精品偷偷蜜臀| 国产精品一区二区无码免费看片| www欧美在线观看| 色网站免费在线观看| 91久久偷偷做嫩草影院免费看| 欧美成人国产| 日本午夜三级| 久久鸭综合久久国产| 在线观看视频99| 试看120秒男女啪啪免费| 亚洲愉拍一区二区精品| 国产中文在线亚洲精品官网| 国产精品页| 香蕉视频在线观看www| 国产亚洲男人的天堂在线观看| 一区二区在线视频免费观看| 国产黄色爱视频| 国产精品亚洲片在线va| 国产一级精品毛片基地| 欧美一区二区三区国产精品| 乱人伦中文视频在线观看免费| 乱码国产乱码精品精在线播放| 久久精品国产精品一区二区| 亚洲最大福利网站| 欧美成人午夜影院| 国禁国产you女视频网站| 国产伦精品一区二区三区视频优播| 亚洲精品无码在线播放网站| 黄片在线永久| 亚洲一区二区三区国产精华液| 在线高清亚洲精品二区| 亚洲综合久久成人AV| 国产手机在线小视频免费观看 | 精品欧美一区二区三区在线| 视频一区视频二区日韩专区| 亚洲区欧美区| 97国产精品视频自在拍| 玖玖免费视频在线观看| 无码啪啪精品天堂浪潮av| 一区二区三区成人| 免费国产不卡午夜福在线观看| 国产日韩欧美一区二区三区在线| 国产精品视频a| 亚洲熟女偷拍| 99精品高清在线播放| 国产午夜福利亚洲第一| 国产精品jizz在线观看软件| 午夜啪啪福利| 性色一区| 99中文字幕亚洲一区二区| 国产精品精品视频| 国产91久久久久久| 日韩在线成年视频人网站观看| 国产欧美在线观看视频| 国产亚洲欧美在线中文bt天堂| 色天天综合久久久久综合片| 久久综合色视频| 国产网站黄| 日韩不卡免费视频| 波多野结衣在线se| 亚洲精选无码久久久| 99久久国产综合精品2020| 久久久精品无码一二三区| 欧美成人精品高清在线下载|