李 元,李美萱,張 成,馮立偉
(沈陽化工大學 信息工程學院,遼寧 沈陽 110142)
基于局部臨近標準化的FD-KNN故障檢測
李 元,李美萱,張 成,馮立偉
(沈陽化工大學 信息工程學院,遼寧 沈陽 110142)
針對方差相差大的多模態故障診斷數據問題,提出一種基于局部臨近標準化(local nearest neighborhood standardization,LNNS)的k近鄰故障檢測方法( fault detection -k-nearest neighbor rule,FD-KNN)。首先,計算每個樣本的局部近鄰,采用近鄰特征實現標準化,克服傳統標準化方法Z-score將多模態數據看成一個整體而使數據不準確問題;其次,計算每個樣本間距離,建立局部臨近標準化距離模型,通過臨近距離確定控制限。最后,在半導體生產過程中進行仿真應用研究,通過實驗結果的比較與分析表明了所提方法的有效性。
多模態;局部近鄰;k近鄰;故障檢測
多模態生產過程是指由于外界環境等條件的變化和生產方案的變動或是過程本身固有特性等因素,導致生產過程具有多個穩定工況[1-3]。由于生產策略不同,使得實際工業過程有多個運行模態,在這類多模態過程中,過程數據的均值與協方差結構將隨著模態的不同而發生變化。傳統的主元分析法(principal component analysis, PCA)[4-6]在多模態過程故障診斷應用中,將所有的樣本作為一個整體對待,忽略了類別屬性,而它所忽略的投影方向有可能剛好包含了重要的可分性信息,并且PCA對非線性過程的過程監視具有局限性,在多模態過程中不能給出滿意的監控效果。
為解決多模態過程監控與故障檢測問題,HE等[7]提出了一種k近鄰故障檢測方法(FD-KNN),通過計算各訓練樣本的距離分布,確定統計控制限,進行過程的監視與故障檢測[8-9]。在過程數據樣本中,假設輸入樣本被認為是正常的,但如果其距離小于控制限,則為故障數據點,這種方法可以很好的解決具有多模態的數據問題。但當不同模態數據分布密度相差很大時,可能會漏報一些故障數據。傳統標準化方法Z-score,是將不同模態作為一個整體對待,這樣就忽略了各個模態方差相差很大的情況,從而造成檢測故障不準確。對于方差相差較大的多模態情況,采用局部臨近標準化,可以避免由于錯誤標準化對數據的影響和導致的故障漏報和錯報問題。
本文結合多種故障診斷方法在不同狀態下進行的故障檢測的表現及問題[10-12],針對具有方差相差較大的多模態情況,提出了采用局部臨近標準化樣本,并基于FD-KNN方法建立故障檢測模型。首先,對每一個樣本采用局部臨近的均值和標準差進行標準化,然后對標準化后的樣本[13-14],利用FD-KNN方法確定控制限,最后在半導體生產過程中進行仿真研究,實現在多模態過程中的故障檢測。
設X的原始數據矩陣的n個樣本(行)和m個變量(列)。計算X的協方差矩陣R:

(1)
并且對R進行SVD分解:
R=VΛVT。
(2)
其中Λ是特征值對角陣,且按降序排序的特征值(λ1≥λ2≥…≥λm≥0);ν是R的特征向量。選擇負荷矩陣P∈Rm×k的列,將X降維。則樣本在低維空間(主元空間)的投影包含在得分矩陣中。
對任意一個樣本向量X都可以分解為

(3)
(4)
得分矩陣T的表達式為:
T=XP。
(5)
由(3)和(4)可得:

(6)
可以得到殘差矩陣E:

(7)
所以,原始樣本X可以寫成:

(8)
最主要的是選取主元k的值。用求取累計方差百分比(Cumulative Percent Vaviance,CPV)的方法,來確定主元的個數。

(9)
其中λi是X的協方差矩陣的特征值,A為總的特征值個數。當CPV值大于期望值時,所求的k值即為主元個數。當利用正常的X完成主元模型建立后,就可以對新的數據進行故障檢測。
2.1 基于FD-KNN的故障檢測
HE等[5]提出了FD-KNN算法,給出了一種根據計算訓練樣本間的距離來確定控制限,從而判斷校驗數據的故障點。文獻中將樣本與其訓練樣本中的k個近鄰之間距離的平方和作為監控統計量,并通過非中心直方分布來估計其控制限。

(10)

2.2 局部近鄰標準化(LNNS)方法
在訓練集X∈Rn×m中,對訓練集中的每個樣本xi, i=1,2,…,n計算樣本間的歐式距離,確定k個近鄰。這k個近鄰組成xi的一個新鄰域樣本,記為N(xi)。即:

(11)

(12)
其中,i=1,2,…,n。xik表示X中樣本到xi的第k個近鄰樣本,d(xi,xik)表示樣本xi到第k個樣本的距離。對訓練樣本xi進行如下標準化得到:

(13)

圖1 模型建立和故障檢測過程
對待檢測的新樣本xj標準化時,從訓練樣本中確定前k個近鄰,組成xj的新的近鄰樣本M(xj),進行如下標準化得到:

(14)
其中,mean(M(xj))表示樣本xj在訓練樣本中鄰域均值,std(M(xj))表示樣本xj在樣本訓練樣本中鄰域標準差。
2.3 局部近鄰標準化樣本FD-KNN故障檢測
模型建立和故障檢測過程如圖1所示。
2.3.1 模型建立
1) 計算樣本間的臨近距離,找到每個樣本的鄰域,用局部近鄰標準化方法對數據進行標準化;
2) 采用FD-KNN算法,計算每個樣本的前k個近鄰距離;

(15)
其中dij表示第i個樣本到第j個樣本的歐式距離;

2.3.2 故障檢測
1)對測試數據按照局部近鄰標準化方法標準化,求標準化后的測試數據與訓練數據之間的前k個距離;
選取兩個數值變量服從正態分布的簡單例子。訓練樣本中包含兩個模態,兩個模態的方差差距很大,

圖2 原始樣本數據圖
從而使得其中一個模態的樣本間距很大,而另一個模態的樣本間距很小。設置了4個正常分布的故障點和1個距離樣本間距很小的故障點。分別用PCA、FD-KNN和LNNS-FD-KNN三種方法對待測點進行檢測。設置的原始樣數據點如圖2所示。
對于非線性多模態情況,PCA檢測不出其中的故障點(如圖3所示)。
根據原始樣本圖,可以看出模態1的樣本比較密集,而模態2的樣本相對稀疏。如果按照FD-KNN算法,得出的臨界點會根據兩個模態的平均值來計算,這樣就相當于拉大了模態1樣本間的距離。由于故障點到模態1的距離太近,故障5檢測不出來,如圖4所示。
但同一組測試數據,本文提出的LNNS-FD-KNN的方法可以很好的避免這種情況(如圖5),故障點5可以被檢測出來。這也說明了本文提出的方法好于FD-KNN方法。

圖3 基于PCA的故障檢測

圖4 基于FD-KNN的故障檢測

圖5 基于LNNS-FD-KNN的故障檢測
4.1 數據采集
采集數據來自半導體生產中鋁堆蝕刻工藝過程。數據集來自于3個不同試驗,包括128個晶片數據。其中包括107個正常晶片數據和21個故障晶片數據。在107個正常晶片數據中隨機選擇6個和21個故障晶片組成校驗集,剩下的101個正常晶片構成訓練集[7],本文只使用其中的38個變量,這些變量與產品生產過程的最終狀態密切相關。
4.2 仿真實驗結果
首先將半導體數據進行標準化處理后,再對這些數據運用各種算法。本文只對比PCA、FD-KNN以及LNNS-FD-KNN三種算法。實驗結果如圖6~8所示。

圖6 PCA檢測結果分析

圖7 FD-KNN檢測結果

圖8 LNNS-FD-KNN檢測結果

檢測方法未被檢測出的故障點數目PCA16FD-KNN12LNNS-FD-KNN2
從圖7可以發現,通過FD-KNN方法雖然可以檢測出很多故障點,但是仍檢測不出3,6,2,5,8,11,15,18,21故障點。
各種方法檢測出的故障結果如表1所示。由于數據來自3個不同試驗,所以本例是一個多模態的問題。首先是使用PCA方法,選擇3個主元建立主元模型,21批次的故障檢測出4批次;使用FD-KNN,檢測出9批次;而用本文提出的LNNS-FD-KNN方法,只有2批次檢測不到,大大提高了檢測準確率。主要原因是采用近鄰標準化方法,使得樣本間距離計算的更為精確。
針對多模態非線性間歇過程,采用局部近鄰的均值和標準差來替換全樣本的均值和標準差對數據進行標準化處理,然后利用FD-KNN處理多模態問題來確定控制限,對半導體批次過程進行仿真研究,并與PCA和FD-KNN兩種檢測方法進行對比,驗證所提方法具有更好的故障檢測能力。
[1]周東華,李鋼,李元.數據驅動的工業過程故障診斷技術[M].北京:科學出版社,2011.
[2]KANO M,MIYAZAKI K,HASEBE S, et al, Inferential control system of distillation compositions using dynamic partial least squares regression[J].Journal of Process Control,1998,10(2-3):157-166.
[3]MARTIN E,MORRIS A.Non-parametric confidence bounds for process performance monitoring charts[J].Journal of Process Control,1996,6(6) 349-358.
[4]DONG D,MCAVOY T J.Nonlinear principal component analysis:Based on principal curves and neural networks[C//American Control Conference,IEEE,1994(2):1284-1288.
[5]DONG D,MCAVOY T J.Batch tracking via nonlinear principal component analysis[J].AIChE Journal,1996b,42(8):2199-2208.
[6]QIN S J,VALLE S,PIOVOSO M.On unifying multi-block analysis with applications to decentralized process monitoring[J].Journal of Chemometrics,2001,J15(15):715-742.
[7]HE Q P,WANG J.Fault detection using k-nearest neighbor rule for semiconductor manufacturing processes[J].IEEE Transactions on Semiconductor Manufacturing,2007,20(4):345-354.
[8]WANG G Z,LIU J C,LI Y. Fault diagnosis using kNN reconstruction on MRI variables[J]. Journal of Chemometrics,2015,29(7):399-410.
[9]WANG G Z,LIU J C,LI Y,et al. Fault detection based on diffusion maps and k-nearest neighbor diffusion distance of feature space[J]. Journal of Chemical Engineering of Japan,2015,48(9):756-765.
[10]HE X,WANG Z,LIU Y,et al.Least-squares fault detection and diagnosis for networked sensing systems using a direct state estimation approach[J].IEEE Transactions on Industrial Informatics,2013,9(3):1670-1679.
[11]HE X,WANG Z,WANG X,et al.Networked strong tracking filtering with multiple packet dropouts:Algorithms and applications[J].IEEE Transactions on Industrial Electronics,2013,61(3):1454-1463.
[12]郭小萍,姜芹芹,李元.近鄰標準化樣本核特征量驅動的間歇過程故障檢測[J].計算機與應用化學,2014,31(10):1157-1161. GUO Xiaoping,JIANG Qinqin,LI Yuan.Local nearest neighborhood standardization sample about sample nuclear drive characteristics of intermittent process fault detection[J].Computer and Applied Chemistry,2014,31(10):1157-1161.
[13]YU J,QIN S J. Multimode process monitoring with Bayesian inference:Based finite Gaussian mixture models,Aiche Journal,2008,54 (7):1811-1829.
[14]LEE J,KANG B,KANG S H. Integrating independent component analysis and local outlier factor for plant-wide process monitoring[J].Journal of Process Control,2011,21(7):1011-1021.
(責任編輯:傅 游)
FD-KNN Fault Detection Based on Local Nearest Neighborhood Standardization
LI Yuan, LI Meixuan, ZHANG Cheng, FENG Liwei
(College of Information Engineering, Shenyang University of Chemical Technology, Shenyang, Liaoning 110142, China)
For large variance of multi-mode fault diagnosis data, this paper presents thek-nearest neighbor fault detection method (FD-KNN) based on local nearest neighborhood standardization (LNNS). Firstly, the local nearest neighbor of each sample was calculated and the local nearest neighborhood feature was used to achieve data standardization so as to overcome the inaccurate data produced by the traditional standard method of Z-score because it took the multi-mode data as a whole. Secondly, the distance between samples was calculated and a local nearest neighborhood standardization distance model was established to determine the control limits based on local distance. Finally, simulation study was conducted in the process of semiconductor manufacturing and the effectiveness of the proposed method was verified by analyzing comparing the experimental results with those of other methods.
multi-mode; local nearest neighborhood;k-nearest neighbor; fault detection
2017-04-04
國家自然科學基金項目(61673279,61490701);遼寧省教育廳重點實驗室項目(LZ2015059,510.99);遼寧省教育廳一般項目(L2015432)
李 元(1964—),女,遼寧沈陽人,教授,博士,主要從事過程控制、數據驅動的故障診斷方面的研究. Email: li-yuan@mail.tsinghua.edu.cn. 李美萱(1989—),女,遼寧錦州人,碩士研究生,主要從事數據驅動的故障診斷方面的研究.
TP277
A
1672-3767(2017)05-0001-06
10.16452/j.cnki.sdkjzk.2017.05.001