嚴文武, 潘豐
(江南大學輕工過程先進控制教育部重點實驗室,江蘇無錫214122)
基于ICA概率密度指標的過程監控
嚴文武, 潘豐*
(江南大學輕工過程先進控制教育部重點實驗室,江蘇無錫214122)
基于獨立成分分析的多變量統計過程監控一般采用PCA方法的監控指標進行過程監控,并沒有充分利用ICA方法特性。根據ICA分離得到的成分相互獨立這一特性,提出了一種概率密度監控指標。用核密度估計的方法估計各成分概率密度,從而得到所有成分的聯合概率密度,再根據聯合概率密度判斷過程狀態是否異常。通過TE過程仿真表明,新的概率密度指標與傳統指標相比,能檢測出更多的故障點,監控效果更加有效。
獨立成分分析;概率密度;監控指標;故障;TE過程
隨著數據時代的來臨,工業過程中大量的數據被采集并存儲,但這些過程數據很多都未充分利用,導致“數據豐富,信息匱乏”現象的出現。因此,多變量統計過程監控和故障診斷技術受到學術界和工業界的廣泛重視,并在化工生產過程中得以應用[1]。其中最為普遍的是主成分分析(Principal Component Analysis,PCA)和偏最小二乘(Partial Least Squares,PLS),并在化工、生物、制藥等領域得到迅速發展[2-4]。
傳統的PCA和PLS方法僅僅利用了低階統計信息(均值和方差),然而在工業過程中常常存在非高斯信息,均值和方差無法全面描述其統計信息。基于PCA方法的前提是假設過程變量滿足高斯分布且獨立同分布,然而很多時候并不能完全滿足這些假設;PCA只能去除相關性,并不能保證其獨立性,同時一些觀測數據中的隱變量也得不到有效估計[5]。因此,PCA和PLS方法有時效果并不是很理想。
基于獨立成分分析(Independent Component Analysis,ICA)的多變量統計過程監控方法是由PCA方法進一步發展而來,該方法不要求變量滿足高斯分布,能夠有效地利用信號中高階統計信息,提取的成分相互獨立,更好地反應過程特征,從而更有效地進行過程監控。
基于ICA的多變量統計過程監控方法已有大量的文獻對其加以改進。2009年,張曉玲等[6]提出基于非線性多向ICA的間歇過程監控方法;2010年,Yingwei Zhang等[7]提出一種基于PSO-ICA的非高斯過程故障檢測方法,改善了ICA算法的分離效果;2011年,陸寧云等[8]提出基于時延SDG和ICA的多工況過程故障預測方法;2014年,李召等[9]提出基于小波去噪結合CVA-ICA的故障檢測方法,主要針對工業過程含噪和隨機干擾問題。
大多ICA監控方法的改進主要集中在對ICA算法自身的改進,少有針對ICA監控指標的改進。與傳統PCA方法采用SPE和T2統計量類似,一般的ICA方法采用I2,I2e和SPE 3個統計指標進行過程監控[10],但沒有充分利用ICA分離的成分相互獨立這一特性。文中根據獨立這一特性,各成分聯合概率密度等于各單一成分概率密度的積,由此,提出一種概率密度監控指標(稱作概率密度指標,記為P),并通過TE過程仿真驗證其有效性。
獨立成分分析(ICA)是信號處理領域在20世紀90年代后期發展起來的一種新處理方法,Kano等[11]首先提出了基于ICA的過程監控方法。
假設有d個觀測變量x1,x2,…,xd可用m個未知獨立成分s1,s2,…,sm通過線性組合表達。觀測變量矩陣表示為x=[x1,x2,…,xd]T,獨立成分矩陣表示為s=[s1,s2,…,sm]T,兩者間有如下關系:

其中,A=[a1,a2,…,am]∈Rd×m是未知混合矩陣。ICA的基本問題就是根據已知觀測數據x估計出混合矩陣A和獨立成分s,等同于找一個解混矩陣W估計獨立成分:

ICA基本原理如圖1所示。

圖1 ICA基本原理Fig.1 Basic p rincip le of ICA
求解獨立成分的方法有很多,一般采用FastICA算法[12]。在計算之前要先對數據進行預處理,標準化數據后用PCA對x進行白化處理,消除數據間的二階相關性,從而可集中分析高階統計量。對x的協方差矩陣進行特征值分解:

對x白化后有

其中白化矩陣

將式(1)代入式(4)有

其中,B=QA=Λ-1/2UTA,B為單位正交陣。對式(5)左乘BT可得

結合式(2)可知,W=BTQ,即只要求出B就能得到解混矩陣W,B可由FastICA算法求得。
單變量統計過程監控時,正常狀態下大量數值集中分布在其均值附近,越遠離均值分布越少。根據樣本統計原理設置控制限,超出控制限范圍,就認為過程異常[13]。
多變量統計過程監控時,PCA方法采用SPE和T2統計量進行監控,而一般ICA方法監控[14]也采用類似統計量指標I2,SPE:

其中,Wd為W中影響s較大的d行,余下的幾行為We。由于ICA提取獨立成分的順序是未知的,選擇獨立成分可以根據W行向量二范數大小進行排序,較大行作為Wd,較小行作為We。
上述指標來源于傳統PCA多變量統計過程監控,沒有充分利用ICA分離得到的成分相互獨立這一特性。由于ICA方法提取的成分是相互獨立的,則s聯合概率密度可以通過下式求得:

式中:p(si)表示第i個獨立成分的概率密度;m為總的獨立成分個數。
由s聯合概率密度可以得到全部獨立成分的聯合分布,這是一個多維空間分布。對比單變量統計過程監控,此處正常狀態s數據大量分布于某一空間點(分布中心)附近,越遠離這個空間點s數據分布越少。同理,根據樣本統計原理可以設置控制限,超出控制限空間范圍,認為過程異常。
為了實現ICA概率密度指標的過程監控,需要解決兩個問題:①如何得到每個獨立成分si的分布,即概率密度;②控制限空間范圍的確定。
對于問題①,每個獨立成分的概率可以通過核密度估計求得。給出一組給定樣本數據X1,X2,…, Xn,則采用核密度估計方法的變量總體的概率密度為

其中,h為帶寬(平滑參數);K為核函數。一般而言,核函數K的選取對核密度估計好壞的影響遠小于帶寬h的選取。文中核函數K選取常用的高斯核:

帶寬h的選取是影響核密度估計精度的關鍵因素。h越小,估計結果越局限于觀測數據附近;h越大,估計結果越平滑,當h不斷增大,估計結果趨近于平均分布。通常h的好壞以均方誤差衡量,文中采用Silverman的拇指法則(一種經驗法則)計算最優帶寬h

式中:σ為樣本標準差估計;n為樣本數。
對于問題②,多維空間的控制限空間范圍沒有很好的方法求解,即使求得這一空間也難以表示,不方便應用。
設置信度為(1-α),由于概率密度越遠離分布中心值越小,則控制限空間范圍的邊界對應某一密度值Pα,該值滿足以下條件:

式(14)表示所有小于Pα的概率密度積分為α。同樣Pα也很難簡單地通過公式求得,所以提出一種簡單的方法估計Pα。當樣本能充分反應其分布特性時,有下式:

其中,n為樣本總數;num(P<Pα)為樣本中概率密度小于Pα的個數。Pα的值可以簡單地用樣本中P值較小的a×100%處值近似代替。當樣本較小時,可能出現代替值>Pα的情況,這時可以適當減小。
記P為概率密度指標,Pα是該指標的控制限。當P≥Pα時,認為狀態正常;當P<Pα時,認為狀態異常。其中,α的取值并不固定,可以根據實際情況進行調整,一般取0<α≤0.05較為合適。
使用P指標繪制監測圖時,由于Pα和故障狀態P值都非常小,在圖中很難看清,不直觀。為了改善P監測圖的直觀性,取(-ln P)為縱坐標,控制限取(-ln Pα),然后再繪制P監測圖,故障部分將被突出,直觀性得到大大改善。
基于ICA概率密度的過程監控主要分為離線建模和在線監控兩大部分。具體流程如圖2所示。

圖2 監控過程Fig.2 M onitoring p rocess
離線建模:對正常數據預處理后進行ICA分析,得到分離矩陣W和獨立成分s,然后用核密度估計方法求得所有獨立成分s的聯合概率密度p(s),最后確定控制限Pα。其中Pα的值并不固定,該值的確定需要考慮具體的實際工況并結合實際效果作相應調整。
在線監控:在線數據根據已知分離矩陣W得到獨立成分s,再根據離線建模概率密度p(s)求得對就P值,最后根據設定的Pα判斷狀態是否正常。
Tennessee Eastman(TE)過程基于實際工業過程,是一個標準測試過程。此過程被廣泛作為連續過程的策略、監視、診斷的研究平臺,有大量的文獻引用它作為數據源進行相關研究[15-17]。該過程包括41個測量變量和12個控制變量,預設有21個故障,具體見文獻[18]。
此次仿真選取500組正常狀態下的前16個測量變量進行ICA建模,并對比各指標性能。控制限取分別取95%和99%。實際結果表明,這兩種控制限對傳統指標影響較小,對P指標影響較大。當取95%時,P指標故障誤報數較高。以下實驗,控制限都取99%(對于P指標,取正常狀態從小到大排1%處值,此處為500組從小到大排第5個處的值)。
每種故障測試給出960組數據,前160組為正常狀態數據,后800組為故障狀態數據。以故障5為例,圖3~圖6分別為故障5的SPE,I2和P監測情況。

圖3 故障5SPE的監測曲線Fig.3 SPEchartofFault5

圖4 故障5I2的監測曲線Fig.4 I2chartofFault5

圖5 故障5的監測曲線Fig.5 chartofFault5

圖6 故障5P的監測曲線Fig.6 PchartofFault5
故障5總共有960個樣本,故障在第160個樣本后引入。4幅監測圖中虛線為控制限,超出控制限的被認為是故障點。對于SPE,I2和監測圖,分別檢測的故障點數為199,159和140個。在圖6中,大約第161到第300個樣本間,其P值基本接近0,經處理后,(-lnP)值過大,未在圖中顯示。圖6經過統計,全部故障區間檢測到256個故障點。P指標相對于其他幾個指標能檢測到的故障點數更多,對故障更為敏感。
對每種故障的800個故障數據進行監測,表1給出了各故障不同指標檢測到的故障點數。

表1 各故障不同指標檢測的故障點數Tab.1 Numberoffaultdetectionbydifferentindicators foreachfault
由表1可以看出,P指標檢測到的故障點數相對其他3個指標要多一點,尤其是某些相對難于檢測到的故障。如故障4、故障9和故障15,P指標檢測到的故障點數約是SPE,I2和的2~3倍。
表2給出了每種故障160個正常狀態時誤報的點數。
由表2可以看出,P指標誤報數與傳統指標誤報數相近,但其檢測到的故障點數明顯要多于傳統指標(即故障漏報較少)。
文中根據ICA分離的成分相互獨立這一特性提出了一種基于ICA的概率密度指標P,并在TE仿真中證實了其有效性。該指標相比傳統指標能檢測到更多的故障點,故障檢測率相對較高,該指標有一定的實際意義。概率指標也可應用于一些改進的ICA過程監控方法中,同樣也能取得較好效果。
由于沒有確切的科學證明指標肯定優于傳統ICA指標,所以在使用時可以考慮結合傳統指標共同參考,以達到較好的效果。

表2 各故障不同指標檢測的故障誤報點數Tab.2 Number of false alarm by different indicators for each fault
[1]YIN S,DING SX,Haghani A,et al.A comparison study of basic data-driven fault diagnosis and processmonitoringmethods on the benchmark Tennessee Eastman process[J].Journal of Process Control,2012,22(9):1567-1581.
[2]周東華,李鋼,李元.數據驅動的工業過程故障診斷技術——基于主元分析與偏最小二乘的方法[M].北京:科學出版社,2011.
[3]LIU Q,CHAITY,QIN SJ,etal.Progress of data-driven and knowledge-driven processmonitoring and fault diagnosis for industry process[J].Control and Decision,2010,25(6):801-807,813.
[4]Joe Qin S.Statistical processmonitoring:basics and beyond[J].Journal of Chemometrics,2003,17(8/9):480-502.
[5]王海清,宋執環,王慧.PCA過程監測方法的故障檢測行為分析[J].化工學報,2002,53(3):297-301.
WANG Haiqing,SONG Zhihuan,WANG Hui.Fault detection behavior analysis of PCA based processmonitoring approach[J]. Journal of Chemical Industry and Engineering,2002,53(3):297-301.(in Chinese)
[6]張曉玲,田學民.基于非線性多向ICA的間歇過程監控方法研究[J].系統仿真學報,2009(11):3365-3369.
ZHANG Xiaoling,TIAN Xuemin.Monitoringmethod based on nonlinearmulti-way ICA for batch process[J].Journal of System Simulation,2009(11):3365-3369.(in Chinese)
[7]ZHANG Yingwei,ZHANG Yang.Fault detection of non-Gaussian processes based on modified independent component analysis [J].Chemical Engineering Science,2010,65(16):4630-4639.
[8]陸寧云,王磊,姜斌.基于時延SDG和ICA的多工況過程故障預測方法[J].控制工程,2011,18(4):632-635.
LU Ningyun,WANG Lei,JIANG Bin.A fault prognosismethod based on time-dalayed SDG and ICA for multi-mode industrial processes[J].Control Engineering of China,2011,18(4):632-635.(in Chinese)
[9]李召,楊英華,李智輝.基于小波去噪結合CVA-ICA的故障檢測方法的研究[J].儀表技術與傳感器,2014(4):80-84.
LIZhao,YANG Yinghua,LI Zhihui.Fault detection based on wavelet de-noise and CVA-ICA[J].Instrument Technique and Sensor,2014(4):80-84.(in Chinese)
[10]Lee JM,Yoo C K,Lee IB.Statistical processmonitoring with independent component analysis[J].Journal of Process Control, 2004,14(5):467-485.
[11]Kano M,Tanaka S,Hasebe S,etal.Monitoring independent components for fault detection[J].AIChE Journal,2003,49(4):969-976.
[12]Hyvarinen A.Fast and robust fixed-point algorithms for independent component analysis[J].IEEE Transactions on Neural Networks,1999,10(3):626-634.
[13]錢夕元,荊建芬,侯旭暹.統計過程控制(SPC)及其應用研究[J].計算機工程,2004,30(19):144-145.
QIAN Xiyuan,JING Jianfen,HOU Xuxian.Research of statistical process control(SPC)and its application[J].Computer Engineering,2004,30(19):144-145.(in Chinese)
[14]樊繼聰,王友清,秦泗釗.聯合指標獨立成分分析在多變量過程故障診斷中的應用[J].自動化學報,2013,39(5): 494-501.
FAN Jicong,WANG Youqing,QIN Sizhao.Combined indices for ICA and their applications tomultivariate process fault diagnosis [J].Acta Automatica Sinica,2013,39(5):494-501.(in Chinese)
[15]ZHANG Hui,FANG Huajing,LIShaxia.Fault diagnosis of the TE process based on discrete hidden Markov model[C]//2013 25th Chinese Control and Decision Conference(CCDC).Guiyang:IEEE,2013:4343-4346.
[16]徐圓,劉瑩,朱群雄.基于多元時滯序列驅動的復雜過程故障預測方法應用研究[J].化工學報,2013,64(12): 4290-4295.
XU Yuan,LIU Ying,ZHU Qunxiong.A complex process fault prognosis approach based on multivariate delayed sequenxes[J]. CIESC Journal,2013,64(12):4290-4295.(in Chinese)
[17]ZHANG Yingwei,ZHANG Yang.Fault detection of non-Gaussian processes based on modified independent component analysis [J].Chemical Engineering Science,2010,65(16):4630-4639.
[18]Chiang L H,Braatz R D,Russell E L.Fault Detection and Diagnosis in Industrial Systems[M].London:Springer-Verlag,2001.
(責任編輯:邢寶妹)
Probability Density Index Based on ICA for the Process M onitoring
YANWenwu, PAN Feng*
(Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi214122,China)
The process monitoring method with multivariate statistics based on independent component analysis(ICA)takes the process monitoring with indexes of PCA.It does not take full use of the features of ICA. According to the characteristic of themutual independence of the components separated with ICA,this paper proposes a processmonitoring index called the probability density index.The index estimates the probability densities of each componentwith the kernel density estimation in order to obtain the joint probability density.Then the joint probability density is used to judge whether the process state is abnormal.By the TE process simulation,it can make a conclusion that the new probability density index detects more fault points and is more effective comparing with the traditional indexes.
independent componentanalysis,the probability density,monitoring index,fault,tennessee eastman process
TP 277
A
1671-7147(2015)03-0283-06
2014-11-05;
2014-12-10。
國家自然科學基金項目(61273131);江蘇省產學研前瞻性聯合創新項目(BY2013015—39)。
嚴文武(1989—),男,江蘇常州人,控制理論與控制工程碩士研究生。
*通信作者:潘 豐(1963—),男,江蘇蘇州人,教授,博士生導師。主要從事工業過程優化控制研究。
Email:pan_feng_63@163.com