999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于加權合成少數類過采樣技術的故障診斷

2016-01-02 09:18:47韓志艷
計算機技術與發展 2016年9期
關鍵詞:故障診斷分類故障

韓志艷,王 健

(渤海大學工學院,遼寧錦州 121000)

基于加權合成少數類過采樣技術的故障診斷

韓志艷,王 健

(渤海大學工學院,遼寧錦州 121000)

合成少數類過采樣技術(Synthetic Minority Oversampling Technique,SMOTE)是一種著名的過采樣方法,但是它沒有考慮樣本的分布和潛在的噪聲數據。為了改善SMOTE的性能,提出了加權合成少數類過采樣技術(Weighted Synthetic Minority Oversampling Technique,WSMOTE)。WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群,不同的群組擁有不同的采樣價值,然后根據采樣價值的不同加權合成樣本。WSMOTE在處理類別不平衡數據時具有優異的性能,并在半導體制造過程的監控數據仿真中得到了驗證。

故障診斷;類別不平衡;SMOTE;過采樣技術

0 引言

近年來,半導體制造工業一直保持較高的增長速度。半導體制造是一個非常復雜的生產過程,由數百個步驟構成,其中晶元制造是其最關鍵的一步。晶元制造工藝包括一系列步驟,以在晶元表面覆蓋特殊的材料層。在這個復雜的過程中,一些很小的缺陷就可以使最終的產品測試失敗。因此,為了滿足半導體工藝的質量要求,故障診斷與分類研究成為當前的熱點問題[1]。

如今,隨著數據收集和采集技術被廣泛應用于半導體制造過程中,如何使用大量的已收集到的數據來有效地描述生產過程,極大地促進了基于數據驅動的故障診斷方法的研究工作。最近一些基于模式識別的故障診斷方法被提出以解決半導體制造過程中出現的非線性和多批次軌跡問題。例如,He等[2]提出在半導體工業的故障檢測中使用k-最近鄰(KNN)規則來完成故障分類。Verdier等[3]同樣應用了KNN規則,但他們提出的方法使用自適應馬氏距離來代替傳統的歐幾里得距離。然而,在半導體故障診斷過程中的數據類別不平衡特性,給這些方法的應用帶來了困難,由于與正常工況的數據相比,故障工況的數據常常難以獲取,所以工業現場中收集的監測數據常常具有嚴重的類別不平衡特性。在這種情況下,傳統的分類器傾向于將數據歸類于多數類(正常工況),以得到更高的總體準確率而忽視了少數類(故障工況)的準確率。然而,在故障診斷中,最重視的往往是少數類(故障工況)的分類準確率。在解決這一問題的方法中,重采樣技術最為常用,特別是合成少數類過采樣技術(SMOTE)引起了研究者的廣泛關注[4]。Chawla的實驗研究表明,SMOTE能夠比其他采樣方法取得更好的效果[5]。該文在SMOTE的基礎上,提出了一種加權合成少數類過采樣技術(Weighted Synthetic Minority Oversampling Technic,WSMOTE),通過有選擇的過采樣少數類樣本來平衡兩類樣本在數量上的差距。

1 合成少數類過采樣技術

合成少數類過采樣技術(the Synthetic Minority Oversampling Technique,SMOTE)是一種主要的過采樣技術,主要用來解決在分類問題中出現的樣本分布不均衡。該算法的思想是合成新的少數類樣本,以獲得均衡的樣本分布。合成策略是對每個少數類樣本x,搜索k個少數類最近鄰樣本;若向上采樣的倍率為n,則在其k個最近鄰樣本中隨機選擇n個樣本,記為y1,y2,…,yn;在少數類樣本x與yj(j=1,2,…,n)之間隨機線性插值,構造新的少數類樣本pj。

其中,rand(0,1)表示(0,1)內的一個隨機數。

圖1是一個SMOTE算法的范例。

如圖所示:xi為某一個少數類樣本,xi1,xi2,xi3,xi4分別為xi的四個近鄰,r1,r2,r3,r4為生成的四個新的人造數據。

2 加權合成少數類過采樣技術

SMOTE是一種著名的過采樣方法,但是它沒有考慮樣本的分布和潛在的噪聲數據。為了改善SMOTE的性能,文中提出了加權合成少數類過采樣技術(WSMOTE)。

由于基于流形假設的局部拓撲結構既受到類間的不平衡的影響又受到類內不平衡的干擾,因此WSMOTE算法分別從類內和類間兩個層面研究樣本的分布和潛在的噪聲影響。在本節中,類間不平衡是指樣本的多數類的數目不同于少數類的數目的情況;類內不平衡是指同一類樣本是由許多不同的子群組成,而這些子群的重要性是不同的。

同SMOTE相似,WSMOTE通過產生合成樣本解決類間不平衡問題。在處理類內不平衡時,WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群再加權合成樣本來解決。

如圖2所示,點q和r分別是近鄰的類間樣本xq和xr,N(xq)和N(xr)是它們各自的近鄰,其對應的鄰域并寫作 N(xq,xr),其中 N(xq,xr)=N(xq)∪N(xr)。顯然,xq和 xr的關系處于 N(xq,xr)的約束下。當xq和xr是類內近鄰樣本,鄰域并也可以用同樣的方式定義。

在鄰域并中,從局部類別分布上看,由于N(xq,xr)對xq和xr間關系的約束能分解為N(xq)和N(xr) 對xq和xr各自的約束。如果Nw(xr)≠?且Nb(xr)≠?,其中?是空集,Nw(xr)和Nb(xr)分別表示xr的類內鄰域和類間鄰域,可以令xr是一個邊界樣本。如果樣本xr的近鄰都位于Nb(xr)里,即Nw(xr)≠?,這樣的樣本可以假定是孤立樣本。如果一個樣本被同類近鄰包圍,即Nb(xr)≠?,令xr是內部樣本。因此,根據局部類別分布與樣本所屬類別的數據量大小,樣本可劃分到六個不同子集中:

ANy:由大類和中等類的孤立樣本所組成的噪聲樣本集;

ALmg:大類和中等類的邊界樣本集; ALin:大類和中等類的內部樣本集; ASiso:小類的孤立樣本集; ASmg:小類的邊界樣本集; ASin:小類的內部樣本集。

在樣本集中,每個樣本僅僅屬于一個集合,這六個子集的并集構成了整個樣本集。圖2給出了特征空間的一個場景示例,其中方塊、圓塊和三角形分別代表大類、中等類和小類的樣本。樣本xq和xr分別受N(xq) 和N(xr)約束,xq和xr之間的關系受N(xq,xr)約束。根據樣本子集的定義,樣本可以如下歸類:ASin={a},ASmg={b},ASiso={c},ALin={ALin1∪ALin2∪ALin3∪…},ALmg={ALmg1∪ALmg2∪ALmg3∪…},并且ANy={d,e}。

不同的局部分布類型對具有不同的采樣價值。內部樣本代表了一個特定類別的典型屬性,所以可以看作標準樣本。和內部樣本不同,邊界樣本在特征空間中離類間樣本很近,因此有更高的誤分可能性。因為孤立樣本與異類樣本更相似,所以有最高的誤分可能性。因此,WSMOTE根據不同的策略選擇生成合成樣本。具體規則如下:算法隨機地從ASin集合中選擇樣本的k近鄰產生合成樣本,從ASmg集合中選擇樣本最近鄰產生合成樣本,對ASiso集合不合成任何樣本,移除ANy集合中的樣本。

3 仿真實驗及結果分析

文中使用SECOM數據集驗證WSMOTE算法的有效性。首先介紹了不平衡數據分類性能的評估方法。然后,簡要介紹了SECOM數據集。最后,分析了在SECOM數據集中獲得的仿真結果。

3.1 不平衡數據分類性能評估方法

在故障診斷實踐中,由于正常工況數據容易獲得,而故障工況數據難以獲得,導致訓練數據廣泛存在類不平衡情形[6-8]。當處理類分布不平衡數據時,由于多數類占優勢,分類邊界偏置于優勢數據,經典分類算法面臨對少數類預測能力下降的問題,從而影響整體預測性能。

表1所示的混淆矩陣表達了樣例分類的分布情況。混淆矩陣是計算若干分類器性能度量的基礎。

對于兩類問題,通常稱少數類為正類,稱多數類為負類,正確率Acc和錯誤率Err為:

正確率Acc和錯誤率Err是常用的分類器性能度量,但是,這兩個度量對類不平衡敏感,過于偏置多數類。在處理不平衡數據時,使用Acc或Err將會導致性能比較的錯誤結果[9]。

以下度量由混淆矩陣派生,也是其他度量的基礎:

真正率:

真負率:

假正率:

假負率:

顯然,分類器想要在兩個類別中均取得良好的分類性能,單靠其中某一個性能指標是不能勝任的,需要把其中某些指標結合起來,形成一種新的評價基準。

3.2 SECOM數據集簡介

文中使用的SECOM數據集[10]是從真實的半導體制造生產線上獲取的相關數據。SECOM數據集包含2個文件,數據文件包含1 567個樣本,每個樣本包含591個特征,標簽文件包含每個樣本的分類標簽和采樣時間。如同多數采自工業現場的數據,數據集中很多特征對應著空值或常值,這一情況需要在數據預處理階段進行處理。

3.3 結果和分析

在數據預處理階段,由于SECOM數據集中的某些特征包含空白值或常值,共刪除了137個特征,這些特征符合80%的數據記錄丟失或為常值,在剩余的454個特征中,使用10倍交叉驗證技術驗證用于比較的各種模型算法。所以,首先把SECOM數據集分成訓練數據集和測試數據集,訓練數據集包含從原始數據集中隨機選擇的94個故障樣本和1 037個正常樣本,測試數據集包含250個樣本,其中,故障樣本104個,正常樣本146個。WSMOTE中的ASin取值為3。

為了比較SMOTE+PCA(SPCA),WSMOTE+PCA (WPCA),SMOTE+FDA(SFDA),WSMOTE+FDA(WFDA),SMOTE+MFA(SMFA),WSMOTE+MFA(WMFA)的性能,在SECOM數據集分別使用它們進行特征選擇,進行對比研究。其中,SPCA,SFDA和SMFA是首先使用SMOTE進行類別數據再平衡后再和主元分析(Principal Component Analysis,PCA)[11-13]、費舍爾判別分析(Fisher Discriminant Analysis,FDA)[14]、邊際費舍爾分析(Margin Fisher Analysis,MFA)[15]相結合產生的特征提取算法;WPCA,WFDA和WMFA是首先使用WSMOTE進行類別數據再平衡后再和PCA,FDA和MFA相結合產生的特征提取算法。圖3分別比較了六種算法的多種性能指標。

從圖3可以看出,在六種算法中,WFDA擁有最佳的分類性能,因為它能夠滿足對一個好的特征選擇算法的期望,即擁有高的TPR,TNR和Acc,擁有低的FPR和FNR。而且,所有使用了WSMOTE算法的特征選擇方法在故障樣本的識別性能上均優于使用SMOTE算法的特征選擇方法。它表明,WSMOTE算法可以通過有選擇地增加故障樣本的數量,改進訓練數據集的樣本多樣性,從而改善特征選擇算法的性能。但是,有時使用WSMOTE算法的模型會降低多數類(正常樣本)的分類性能,這是由于想在兩個類別中同時獲得更優的性能是一件困難的事情,因此在實施這一算法時應綜合考慮多方面因素。

4 結束語

在SMOTE的基礎上,提出WSMOTE算法用于解決故障診斷過程中因故障數據難以獲得而出現的數據類別不平衡問題。該算法分別從類內和類間兩個層面研究樣本的分布和潛在的噪聲影響。同SMOTE相似,WSMOTE通過產生合成樣本解決類間不平衡問題。在處理類內不平衡時,WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群,不同的群組擁有不同的采樣價值,然后根據采樣價值的不同加權合成樣本來解決。WSMOTE在處理類別不平衡數據時具有優異的性能,并在半導體制造過程的監控數據仿真中得到了驗證。

[1] Bleakie A,Djurdjanovic D.Feature extraction,condition monitoring,and fault modeling in semiconductor manufacturing systems[J].Computers in Industry,2013,64(3):203-213.

[2] He Q P,Wang J.Fault detection using the k-Nearest neighbor rule for semiconductor manufacturing processes[J].IEEE Transactions on Semiconductor Manufacturing,2007,20(4): 345-354.

[3] Verdier G,Ferreira A.Adaptive mahalanobis distance and knearest neighbor rule for fault detection in semiconductor manufacturing[J].IEEE Transactions on Semiconductor Manufacturing,2011,24(1):59-68.

[4] Chawla N V,Hall L O,Bowyer K W,et al.SMOTE:synthetic minority over sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.

[5] Chawla N V.C4.5 and imbalanced datasets:Investigating the effect of sampling method,probabilistic estimate,and decision tree structure[C]//Proceedings of the workshop on learning from imbalanced datasets.Washington D C:[s.n.],2003:17-23.

[6] Chawla N V.Data mining and knowledge discovery handbook [M].Berlin:Springer,2010:857-886.

[7] 王和勇,樊泓坤,姚正安.SMOTE和Biased-SVM相結合的不平衡數據分類方法[J].計算機科學,2008,35(5):174-176.

[8] Cebe M,Gunduz-Demir C.Qualitative test-cost sensitive classification[J].Pattern Recognition Letters,2010,31(13): 2043-2051.

[9] Elazrneh W,Japkowicz N,Matwin S.Evaluating misclassifications in imbalanced data[C]//Proc of the 17th European conference on machine learnin.Berlin:Springer,2006:126-137.

[10]McCann M,Li Y,Maguire L.Causality challenge:benchmarking relevant signal components for effective monitoring and process control[C]//Proc of JMLR.Canada:[s.n.],2008: 277-288.

[11]Wang T,Xu H,Han J,et al.Cascaded h-bridge multilevel inverter system fault diagnosis using a PCA and multiclass relevance vector machine approach[J].IEEE Transactions on Power Electronics,2015,30(12):7006-7018.

[12]Ding S,Zhang P,Ding E,et al.On the application of PCA technique to fault diagnosis[J].Tsinghua Science and Technology,2010,15(2):138-144.

[13]Wang N,Yuan Z H,Wang D.Improving process fault detection and diagnosis using robust PCA and robust FDA[C]//Proc of WRI world congress on computer science and information engineering.USA:IEEE,2009:54-59.

[14]Tang X C,Yuan L.Monitoring and fault diagnosis using fisher discrimnant analysis[C]//Proc of the international conference on machine learning and cybernetics.USA:IEEE,2007:1100-1105.

[15]Tsang I W,Kocsor A,Kwok J T Y.Large-scale maximum margin discriminant analysis using core vector machines[J].IEEE Transactions on Neural Networks,2008,19(4):610-624.

Fault Diagnosis Method Based on Weighted Synthetic Minority Oversampling Technique

HAN Zhi-yan,WANG Jian
(College of Engineering,Bohai University,Jinzhou 121000,China)

The Synthetic Minority Oversampling Technique(SMOTE)is a famous oversampling method,whereas it doesn’t consider the distribution of samples and latent noises in the data.In order to improve the performance of SMOTE,a modified method,the Weighted Synthetic Minority Oversampling Technique(WSMOTE),is proposed.WSMOTE introduces the neighborhood union to classify the samples into several groups,and different groups have different importance.Then,WSMOTE generates synthetic sample according to the different importance.The proposed method has a better performance when dealing with class imbalance data and it is demonstrated through its application to the semiconductor wafer fabrication process.

fault diagnosis;class imbalance;SMOTE;oversampling technique

TP391.4

A

1673-629X(2016)09-0043-04

10.3969/j.issn.1673-629X.2016.09.010

2015-10-28< class="emphasis_bold">修回日期:20

2016-02-24< class="emphasis_bold">網絡出版時間:

時間:2016-08-23

國家自然科學基金資助項目(61403042,61503038);遼寧省教育科研計劃項目(L2013423)

韓志艷(1982-),女,博士,副教授,研究方向為情感識別、語音識別。

http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1359.042.html

猜你喜歡
故障診斷分類故障
分類算一算
故障一點通
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
奔馳R320車ABS、ESP故障燈異常點亮
因果圖定性分析法及其在故障診斷中的應用
故障一點通
江淮車故障3例
基于LCD和排列熵的滾動軸承故障診斷
主站蜘蛛池模板: 国产福利一区二区在线观看| 国产成人久久综合一区| 久久夜色精品国产嚕嚕亚洲av| 久久无码免费束人妻| 538国产视频| 色综合中文字幕| 国产国模一区二区三区四区| 亚洲V日韩V无码一区二区 | 9999在线视频| 内射人妻无套中出无码| 欧美日韩激情在线| 国产簧片免费在线播放| 国产va在线观看免费| 久久婷婷人人澡人人爱91| 91成人免费观看在线观看| 国产精品密蕾丝视频| 日本免费新一区视频| 欧美a级在线| 四虎成人在线视频| 免费国产在线精品一区| 色综合久久综合网| 人妻免费无码不卡视频| 四虎免费视频网站| 国产精品开放后亚洲| a级毛片免费看| 亚洲人成日本在线观看| 中文字幕欧美日韩| 久久美女精品国产精品亚洲| 国产在线精品99一区不卡| 国产激情影院| 成人a免费α片在线视频网站| 久久精品免费看一| 日本欧美视频在线观看| 亚洲综合色区在线播放2019| 一级毛片中文字幕| 午夜高清国产拍精品| jizz国产视频| 国产 在线视频无码| v天堂中文在线| 天堂中文在线资源| 乱系列中文字幕在线视频| 亚洲第一综合天堂另类专| 国产成人区在线观看视频| 亚洲国产综合第一精品小说| 999精品视频在线| 91精品免费久久久| 亚洲自拍另类| 成年免费在线观看| 波多野结衣在线一区二区| 黄色网页在线播放| 亚洲女同一区二区| 亚洲天堂视频在线观看免费| 九色视频线上播放| 嫩草影院在线观看精品视频| 九色视频线上播放| 伊人网址在线| 99久久精品免费视频| 亚洲国产日韩视频观看| 亚洲黄网在线| 毛片手机在线看| 欧美天堂在线| 日本亚洲国产一区二区三区| 亚洲永久色| 国产特一级毛片| 中文字幕在线播放不卡| a天堂视频| 日韩成人在线一区二区| 伊人久久大线影院首页| 99视频在线观看免费| 欧美a在线| 亚洲天堂免费在线视频| 国产成人无码Av在线播放无广告| 免费无码网站| 中文字幕第4页| 亚洲三级视频在线观看| 欧洲亚洲一区| 91年精品国产福利线观看久久 | AV色爱天堂网| 国产在线视频福利资源站| 免费国产无遮挡又黄又爽| 人妻无码一区二区视频| 香蕉视频在线观看www|