劉文靜, 謝彥紅, 李 元
(1.沈陽化工大學 信息工程學院, 遼寧 沈陽 110142; 2.沈陽化工大學 數理系, 遼寧 沈陽 110142)
多變量統計過程控制已被廣泛應用于過程監控領域[1-5].以上的拓展和改進算法相對傳統的監控方法提高了故障檢測效果,但都只考慮工業過程的線性和非線性情況,或是高斯和非高斯情況.現代工業生產是一個復雜的過程,實際的工業過程不僅存在線性和非線性,還存在高斯和非高斯混合的問題.
Tax等人提出支持向量數據描述(SVDD)方法[6],該方法是建立在支持向量機(SVM)思想的基礎上,有非常強的單類數據處理能力.該算法可以很好地處理過程混合信息且不受非高斯和非線性的限制.隨著研究的深入,學者們逐漸將該方法應用于過程監控領域[7-11].雖然SVDD方法有許多優點,但是從SVDD的算法可以看出,SVDD是一個最優規劃的問題,在求解過程中需用核函數來進行數據計算.隨著樣本個數的增加,算法的計算量會呈現指數增長.如此,當需要計算的數據很龐大時就會產生維數災難.為克服這一缺點,可以考慮降低樣本集樣本數或維數.Lin[12]等提出簡化SVM的算法,但該算法對單分類的SVDD算法不太實用.Kim[13]等提出基于K值聚類局部支持向量的SVDD學習模型,但是K值的選擇有待進一步討論.近年來基于PCA降維的SVDD方法逐漸發展起來.戚元華[14]等將PCASVDD方法應用于天然氣管道泄漏的檢測中,實現對天然氣管道泄漏的可靠檢測.李冠男[15]等將PCASVDD方法應用于冷水機組的故障檢測中,獲得較高的冷水機組故障檢測效率.Wang[16]等將PCASVDD方法應用于多級間歇故障監測過程,避免硬劃分和分類錯誤的問題.PCASVDD算法對以上單模態過程故障檢測取得了較好的檢測結果.但是,隨著市場經濟的發展,為了增加企業的競爭優勢、改變產品策略、提高質量,生產過程運行多種模態.通常情況下,PCASVDD故障檢測算法是前期利用Z-SCORE 方法處理數據,然后在主元空間應用SVDD算法進行故障檢測.由于Z-SCORE算法的影響,前期數據處理階段不能剔除數據的多模態結構,導致主元空間數據仍然保持多模態結構.當故障發生在模態之間時,故障檢測結果并不理想.為了解決這一問題,本文提出一種名為NND-PCASVDD的多模態過程故障的檢測方法.該方法在前期數據處理階段即可剔除多模態結構,保證過程變量服從單峰分布,為后面SVDD進行故障檢測提供良好的數據基礎.
主元分析[17]將多變量數據從高維空間投影到反映數據變化方向的各個方差方向上,取其中方差較大部分作為主元部分,舍去較小部分以達到降維目的,它能夠用較少的變量來表征原始數據多變量特征信息.其工作原理如下:
X∈Rn×m代表原始數據,n個樣本,m個變量.通常情況下需要先對X作Z-SCORE標準化處理,之后對X作正交變換,將X分解為主元重構子空間和殘差子空間.
(1)

支持數據向量描述[6-7](Support Vector data description,SVDD)的基本思想是數據集X={xi,i=1,2,…,N},通過某種非線性函數Φ:X→F將原始空間的數據投射到高維特征空間{Φ(xi),i=1,…,N},在高維征空間中找到一個幾乎包含所有數據樣本的最小體積超球體.a是超球體的球心,R1是超球體的半徑.考慮到測量誤差或者噪音等干擾引起的離群點影響,引入松弛變量ζi;C是懲罰參數.此問題可描述為:
s.t.‖Φ(xi)-a‖2≤
R12+ζi,ζi≥0
(2)
上述問題可轉化為解決相應的對偶問題:
(3)
其中α是拉格朗日因子.
用核函數K(xi,xj)代替內積〈Φ(xi)·Φ(xj)〉可以將低維空間的數據向高維空間進行投射:
(4)
利用規劃問題求解可以求出αi,如果0<αi (5) 對于新的樣本xnew,其到超球體球心的距離可表示為: (6) 如果Dnew (7) 算法的檢測流程如圖1所示. 圖1 算法流程Fig.1 Modeling and testing flow chart (3) 在差分集中應用PCA進行數據降維; (4) 對降維之后的差分樣本集通過公式(5)計算超球半徑R1. 對于一個新的測試樣本xnew: Ge[19]等提出了一個典型的多模態模型,很多學者用此模型檢測算法對復雜數據的有效性.為證明NND-PCASVDD方法的有效性,本文采用此模型來檢測NND-PCASVDD算法的效果,模型結構如公式(8)所示. (8) 模型包括5個變量x1、x2、x3、x4和x5.s1和s2是潛在變量;e1、e2、e3、e4和e5是5個相互獨立的噪聲,均服從均值為0、標準差為0.01的高斯分布.兩個設計的模態如公式(9)所示. 模態1s1uniform(-10,7) s2N(-15,1) 模態2s1uniform(2,5) s2N(7,1) (9) 兩種模態下分別產生400個樣本組成正常訓練樣本集.兩個測試樣本集由公式(9)產生.設定以下故障:系統運行在模態1下,T=401時刻起給x5加一個幅值為4的階躍信號. 選取前2個變量方向作為主元方向.Z-SCORE標準化多模態數據不能剔除主元空間數據的多模態結構,而NND方法能夠剔除主元空間數據的多模態結構. 圖2、 圖3展示了這兩種算法的處理效果(PC1為第一主元,PC2為第二主元,虛線表示圓).圖4、圖5、圖6為3種方法對故障的檢測結果. 通過檢測圖可以看出當階躍故障發生在兩個模態之間時,SVDD方法及PCASVDD幾乎不能檢測出故障.這是因為SVDD及PCASVDD前期都是利用Z-SCORE方法處理數據,由圖2可以清楚地看出當故障發生在兩個模態之間時,Z-SCORE方法不能剔除主元空間數據多模態結構,導致SVDD在檢測故障時將故障數據當做正常數據包在球內.NND剔除多模態同時將正常數據與故障數據分離,SVDD前期能夠利用正常數據建立適當的模型,后期進行有效地故障檢測. 圖2 Z-SCORE處理后主元空間Fig.2 Principal component space after Z-SCORE processing 圖3 NND差分后主元空間數據Fig.3 Principal component space after NND difference 圖4 SVDD檢測結果Fig.4 SVDD detection results 圖5 PCASVDD檢測結果Fig.5 PCASVDD detection results 圖6 NND-PCASVDD檢測結果Fig.6 NND-PCASVDD detection results 本文所應用的半導體數據[20-21]來源于美國德州儀器公司的半導體生產過程實際數據.選取17個過程變量用于故障檢測方法對比的仿真實驗.選取101個正常批次來建模,其中正常校驗批次為6個,故障批次為21個.每個批次是不等長的,持續時間在95~112 s之間變化. 解決間歇過程批次不等長問題,傳統的統計分析方法通常都是采用最短長度法.這種方法簡單,但使數據軌跡的過程信息大量丟失,并且使點對點數據的相關性降低,導致此數據的可靠性降低.為了提高不等長間歇過程故障診斷的性能,本文采用統計模量分析算法對多模態數據進行預處理[22],所有的統計特征將會組合成一個(1×2m)維的特征向量,然后對統計模量進行差分運算. 圖7、圖8、圖9為3種方法對27批數據的檢測結果(6批檢驗,21批故障),可以看出SVDD及PCASVDD并沒有將所有的故障檢測出來.這是因為利用Z-SCORE沒能剔除數據的多模態結構,無法保證SVDD建立適當的模型.因此,不能繼續利用Z-SCORE處理多模態數據. 圖7 SVDD檢測結果Fig.7 SVDD detection results 圖8 PCASVDD檢測結果Fig.8 PCASVDD detection results 圖9 NND-PCSVDD檢測結果Fig.9 NND-PCASVDD detection results 針對PCASVDD方法對工業過程運行的多模態故障檢測效果不理想的問題,本文分析了正常數據與故障數據的空間分布,提出基于NND-PCASVDD的多模態工業過程故障檢測方法.運用近鄰差分方法對數據進行預處理,剔除由于中心不同而存在的多模態形式.應用PCA方法對差分后的單模態數據進行特征提取,解決大樣本情況下的計算復雜度問題.通過仿真實驗證明了NND-PCASVDD方法的有效性及可行性.本方法繼承了PCASVDD降低計算復雜度的優點;同時通過NND預處理技術解決了傳統SVDD及PCASVDD對多模態過程故障檢測效果不佳的問題,提高生產過程的可靠性.3 最近鄰差分主元分析支持向量數據描述算法(NND-PCASVDD)


4 NND-PCASVDD算法多模態故障檢測

4.1 建模階段

4.2 故障檢測
5 仿真研究
5.1 數值例子





5.2 半導體生產過程



6 結 論