彭必燦,張正道
江南大學輕工過程先進控制教育部重點實驗室,江蘇無錫 214122
基于稀疏主元分析的過程監控研究
彭必燦,張正道
江南大學輕工過程先進控制教育部重點實驗室,江蘇無錫 214122
工業過程監控是一種確保產品質量的有效方法[1]。過去的20年里,多元統計方法在工業過程監控領域獲得了廣泛的應用,并取得了許多科研成果[2]。最常見的多元統計方法有主元分析(PCA)和最小二乘法(PLS)[3]等。
PCA是一種基于數據驅動的過程監控方法,并成功應用于各種化工過程[4-5]。由于不需要過程變量的精確數學模型,且能從大量雜亂無章的數據中提取出有效的信息,PCA方法簡化了過程監控的操作程序,并提高了過程監控的效率[1-4]。PCA方法有兩個理想化的假設:主元能夠俘獲數據的最大變化,以及最小的信息損失;主元間是獨立的,因而一個主元與其他主元不相關[5],這兩個假設成為主元分析改進方法的切入點。通過引入T2和SPE的監控指標,PCA及其改進方法能進行故障檢測,并具有較低的誤檢率和漏檢率[6-15]。隨著研究的深入,相關的過程監控方法獲得了快速的發展,并成功解決過程監控領域的諸多問題。核主元分析方法的提出,解決了非線性過程的監控問題[16];動態主元分析方法的提出,解決了過去時刻的變量對當前時刻過程監控的影響問題,增強了系統的動態特性[17];高斯混合模型的提出[14],解決了非高斯分布數據的過程監控問題。這些方法優化了過程監控的模型,并改進了監控性能,卻也有局限性。比如在大的工業系統中,由于存在較多的過程變量,傳統的過程監控方法往往計算量較大,進而影響計算效率和過程監控的實時性。稀疏化的思想成了解決大數據問題的有效方式,這種思想最早出現在Jilliffe的著作中[4]。Zou構建了稀疏約束函數,并成功將稀疏化思想引入到PCA中[18-19]。由于PCA進行投影時,在數據的方差最大化方向中,并非所有的變量都對方差具有同等的貢獻,具體到主元的負荷向量中,即為:對方差貢獻越小的變量,對應的負荷系數越小。稀疏化的PCA就是通過限制負荷向量中非零系數的個數而獲得,即求解約束函數并獲得稀疏的負荷向量,從而得到最優化的稀疏主元[6-7,20]。
本文研究了一種稀疏主元分析的過程監控新方法。該方法將稀疏性引入到PCA模型中,并建立了新的回歸模型,利用lasso約束函數優化主元,從而求解得到稀疏化的主元,進一步提出了稀疏的監控指標。在仿真階段,通過構建稀疏主元分析模型,研究了模型的穩定性,進而進行TE過程的實驗,結果表明,該方法能夠增強模型的穩定性,減小主元和監控指標的計算量,進一步提高參數的計算效率和過程監控實時性,最終能夠實現及時有效的故障檢測。
構建向量Xj和Z的線性回歸模型,進而引出lasso約束函數。假定樣本的采樣數為n,變量p為傳感器數目,采樣n次后得到樣本矩陣X,任意選取Xj相關的主元列向量,定義為Z:

式中,λ為非負的參數,γj為對應的回歸系數向量。lasso約束函數最初由Tibshirani在1996年提出,Efron進一步證實其為分段的線性函數[18]。式(3)中,在樣本最小殘差平方和之后,增加了一個新的約束式,即最小回歸系數的絕對值之和。隨著λ的增大,回歸系數的絕對值之和將會越來越小,回歸系數最終將收縮為0。
由式(3)可知,在lasso的估計作用下,估計結果中的非零系數最多只有min(p,n)個。當p>>n時,lasso的估計函數易收斂,原因在于lasso函數只是孤立的選擇各個觀測變量,卻忽略了變量之間貢獻的有序性。因此,Zou和Hastie提出lasso函數的改進模型[18-19]。假設有兩個非負的參數λ1和λ2,約束函數en的估計算法如下:

式中,若λ2的值為0,則式(4)回歸為原始的lasso約束算法。相比式(3),由于增加了另外的參數λ2,lasso不再只是單獨考察各個孤立的觀測變量,更要考慮變量間相關性,并能選出最無關聯的變量。若有p>n,令參數λ2>0,此時式(4)中的參數估計算法將覆蓋所有變量,文獻[18]證明了改進算法的優越性。
3.1 主元的稀疏性約束函數
將lasso約束函數引入到主元模型中,得到稀疏主元的約束性算法。假設此時的主元負荷向量為αk,樣本數據集為X,其方差矩陣S為:

當t值減小時,較多的負荷向量系數將會收縮到0,因此t的大小影響主元的稀疏程度。定義一個簡單的PCA模型,并對其進行回歸分析,得定理1[18]。
定理1假設Y為樣本數據的主元矩陣,Yj為Y的列向量,即為第j個主元,若存在參數λ>0,則約束的估計函數為:

定理1可參照公式(3)推導,目的是將PCA模型轉化為回歸函數模型,定理中的參數λ為回歸分析中的約束參數,并能用于主元的重構。引入另外的非負參數λ1,參考公式(4),定理1的擴展如下:

3.2 SPCA算法
由定理1可知,主元的稀疏化算法主要分兩步,一是對PCA進行稀疏化的回歸分析;二是利用約束參數μj估計稀疏后的主元。為了進一步研究稀疏主元分析算法,引入定理2[18]。
定理2令Xi表示矩陣X的第i個行向量,μi為μ的行向量,參數向量a和b的定義為:

將定理2推廣到k個主元的情況,得定理3[19]。
定理3選取樣本的前k個主元,其中α和β為參數矩陣,且維數都為p×k,Xi仍為矩陣X的行向量,βj為β的列向量,若存在參數λ>0,且αTα=Ik,推廣定理2,得:

若令β=α,即回歸為傳統的PCA方法。將式(14)進一步改進,考慮k個主元的稀疏性,參考式子(4),當α仍然滿足ααT=Ik時,得到函數式:

對稀疏主元分析的算法進行總結,得到k個主元的優化收斂算法步驟如下:
(1)求解樣本矩陣的k個主元,參數矩陣α的初值為μi(i=1:k)。
(2)對于固定的α值,參考定理3和公式(17),在參數j=1,2,…,k時,計算稀疏約束的另一個參數β:

(3)求解出參數β后,參考定理4和公式(18),求解此時對應的參數α。對β值進行奇異值分解,有:

利用式子(21)計算α,并再一次更新α。
(4)重復(2)~(3),反復更新參數α和參數β,直到β收斂為止。
(5)參照式子(9),利用收斂后的最終β進行歸一化,并求解最終的k個主元,得到稀疏最優解:

其中Sign為符號函數,而此時參數α對應為固定值。通過對SPCA算法的分析,得其流程圖如圖1。

圖1 SPCA算法流程圖
3.3 SPCA方法的過程監控
在利用SPCA方法進行過程監控時,由于建立了稀疏模型,需要對傳統的監控方法進行改進,并利用TE過程數據進行仿真研究。根據傳統的SPE定義,改進后的SPE計算式如下:

式中,α和β為稀疏參數,閾值Qα的計算式如下:

其中Cα是置信度為(1-α)的正態分布點,式中參數h0和θi的定義如下:

式中參數Fα(a,n-a)是一種F分布,且置信度為(1-α),自由度為α,分位點為a和n-a。得到監控指標計算式后,選取TE過程數據[21]對SPCA算法進行仿真研究。SPCA模型的過程監控步驟如下:
(1)從TE過程數據集中獲取采樣數據,并按正常條件下模型的均值和方差進行標準化,得到訓練和測試的樣本數據。
(2)給定訓練數據集,利用lasso約束函數對樣本數據載荷矩陣進行稀疏化,并求解最優的稀疏參數α和β。
(3)給定測試數據集X,更新參數α和β,并利用式(24)計算稀疏化后的主元,詳細過程參見SPCA的收斂算法。
(4)計算測試數據的SPE和T2統計量。
(5)監視SPE和T2是否超過正常條件下的建模值。
4.1 SPCA模型的穩定性研究
選擇文獻[18]中的數據集對PCA和SPCA模型的穩定性進行對比研究,數據集中每個變量的維數為1 500,500個變量構成測試數據集。設定此時的噪聲規則,即為:0到1之間的隨機數。選取主元的個數為3,利用matlab進行實驗仿真,設定0~1 s內采樣500次,作為500個變量,3個主元分別為3種函數,圖2中用不同顏色加以區分。利用仿真圖進行對比研究,其中圖2(a)為PCA方法的主元貢獻圖,圖2(b)為SPCA方法的主元貢獻圖。

圖2 PCA與SPCA的主元貢獻分析
對比圖2(a)、(b),由于離橫坐標軸近的變量對函數的影響小,可視其對主元的貢獻小,而離橫坐標軸遠的點對函數的影響大,可視其對主元的貢獻大。通過圖2(a)、(b)的對比研究,加入噪聲后,傳統PCA方法中貢獻較小的變量波動明顯,表明其對主元產生影響,如圖2(a)中的橫坐標軸附近的波動較大;改進后的SPCA方法中,只有貢獻較大的變量對主元有較大影響,而貢獻小的變量對主元幾乎無影響,如圖2(b)中的橫軸附近幾乎無波動。產生這種現象的原因為:SPCA模型稀疏化了載荷矩陣,并求解約束函數而得到優化后的主元,減少了無關變量對主元的影響。仿真結果表明,相對于傳統的PCA模型,SPCA模型呈現出較好的穩定性,進一步需研究SPCA模型的過程監控效果,并利用TE過程數據進行仿真對比。
4.2 SPCA方法的TE過程監控
將SPCA方法的過程監控指標應用到TE過程,并利用仿真結果評價這種方法的性能。TE過程數據是一組工業過程仿真數據[15],由美國Eastman化學公司的Downs和Vogel在1993年提出,大量的文獻引用其作為數據源,來進行控制、優化、過程監控和故障診斷等研究。
TE過程實際上模仿了真實的化工過程,共有5個主要的操作單元,分別為:反應器、冷凝器、氣液分離器、循環壓縮機、汽提塔,其流程圖如圖3。

圖3 TE過程流程圖
選取TE過程數據對SPCA模型進行訓練,數據集包括480組采樣數據,每組采樣數據有22個變量。再利用測試數據更新SPCA的模型參數,計算新的監控指標,并記錄下實驗結果。此時的方差貢獻率設定為0.9,統計閾值的置信度α設定為0.97,得到PCA與SPCA方法的SPE和T2的統計監控圖如圖4。
圖4(a)~(b)為PCA方法的故障檢測效果圖,樣本數據共采樣480次,采樣的時間間隔為3 min,得到480個樣本。其中圖4(a)和(b)分別為PCA的T2和SPE統計圖,曲線對應為監控指標值,并且虛線為控制限。當有監控值超出控制限時,判定該樣本時刻系統發生故障。而圖4(c)和(d)也分別對應SPCA方法的T2和SPE的監控指標。對比PCA和SPCA方法的監控效果,當分別利用PCA模型和SPCA模型監控時,T2統計圖都在250到300個樣本間超出控制限,判斷該樣本時刻內系統發生故障,需利用SPE監控指標進行進一步的對比研究。計算測試樣本的SPE值,并進行對比圖的詳細分析,觀測到PCA的監控圖在270個樣本時刻明顯超出控制限,判斷該樣本時刻系統出現故障,而SPCA監控圖在250個樣本時刻明顯超出控制限,判定故障出現在250個樣本時刻。分析PCA方法和SPCA方法的監控效果,PCA方法在監控圖上出現了一定程度的時間延遲,產生這種現象的原因為:SPCA方法稀疏化了建模數據,減少了模型參數和監控指標的計算量,縮短了計算時間,并提高了計算效率,進而提高了故障檢測的實時性。進一步得出結論:PCA方法和SPCA方法的TE過程監控結果明顯,都能夠檢測出系統故障,然而SPCA方法的實時性稍好。為了進一步驗證SPCA方法的計算效率,分別測量PCA方法和SPCA方法的計算時間,并對結果進行對比研究。
選取一組測試數據進行故障檢測,利用Matlab計算TE過程監控的程序運行時間,得到PCA模型和SPCA模型的監控計算時間,結果對比如表1。

圖4 PCA與SPCA方法的監控效果對比

表1 SPCA與PCA計算時間對比
對比表中的數據,SPCA方法對測試數據的監控計算時間為0.942 s,相比PCA的1.364 s較為減少,運算效率得到提高,表明SPCA方法對監控模型具有一定的優化作用,通過減小參與計算的數據量,進一步提高運算效率和過程監控的實時性。
本文提出了一種基于SPCA模型的過程監控新方法。首先對樣本數據的主元進行稀疏化建模,減少了無關變量對方差的干擾,進而提高了模型的穩定性。由此構建稀疏的監控指標,建立稀疏模型的SPE和T2統計量,并對PCA方法和SPCA方法的過程監控效果進行對比研究。通過模型的仿真效果對比,表明了SPCA監控方法能減小模型和監控指標的計算量,縮短過程監控的計算時間,并提高監控的實時性,是一種有效的狀態監控方法。
[1]Chiang L H,Russell E L,Braatz R D.Fault detection and diagnosis in industrial systems[M].New York:Springer-Verlag,2001:15-25.
[2]Bishop C M.Pattern recognition and machine learning[M]. New York:Springer-Verlag,2006:559-599.
[3]Ding S.Model-based fault diagnosis techniques[M].New York:Springer-Verlag,2008:13-49.
[4]Jolliffe I T.Principal component analysis[M].2nd ed.New York:Springer-Verlag,2002:167-195.
[5]Qin S J.Statistical process monitoring:basics and beyond[J]. Chemometrics,2003,17:480-502.
[6]向馗,李炳南.基于稀疏主元分析的微伏級T波交替幅度量化[J].生物醫學工程學雜志,2012,29(5):954-982.
[7]劉中杰,莊麗葵,曹云峰,等.基于主元分析和稀疏表示的SAR圖像目標識別[J].系統工程與電子技術,2013,35(2):282-286.
[8]徐毅,趙東娟,梁久禎.二維類增廣PCA及其在人臉識別中的應用[J].計算機工程與應用,2012,48(1):202-204.
[9]陳勇,梁軍.基于PCA的多變量控制系統的故障監測與診斷[J].工程設計學報,2002,9(5):257-260.
[10]趙忠蓋,劉飛.基于稀疏核主元分析的在線非線性過程監控[J].化工學報,2008,59(7):1773-1777.
[11]肖應旺,徐保國.改進PCA在發酵過程監測與故障診斷中的應用[J].控制與決策,2005,20(5):571-574.
[12]王海清,宋執環,王慧.PCA過程監測方法的故障檢測行為分析[J].化工學報,2002,53(3):297-301.
[13]許仙珍,謝磊,王樹青.基于GMM的多工況過程監測方法[J].計算機與應用化學,2010,27(1):17-21.
[14]Benaicha A,Mourot G,Benothman K,et al.Determination of principal component analysis models for sensor fault detection and isolation[J].International Journal of Control,2013,11(2):296-305.
[15]Chen Tao,Sun Yue.Probabilisticcontributionanalysis forstatisticalprocessmonitoring:amissingvariable approach[J].Control Engineering Practice,2009,17(4):469-477.
[16]薄翠梅,李俊,陸愛晶,等.基于核函數和概率神經網絡的TE過程監控研究[C]//第26屆中國控制會議論文集.北京:北京航空航天大學出版社,2007,5:511-515.
[17]Treasure R J,Kruger U,Cooper J E.Dynamic multivariate statistical process control using subspace identification[J]. Journal of Process Control,2004,14:279-292.
[18]Zou Hui,Hastie T,Tibshirani R.Sparse principal component analysis[J].Journal of Computational and Graphical Statistics,2006,15(2):265-286.
[19]Zou Hui,Hastie T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society,2005,67(2):301-320.
[20]向馗,李炳南.主元分析中的稀疏性[J].電子學報,2012,40(12):2525-2532.
[21]Downs J J,Vogel E F.A plant-wide industrial process control problem[J].Computer and Chemical Engineering,1993,17(3):245-255.
PENG Bican,ZHANG Zhengdao
Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China
Principal Component Analysis(PCA)is a multivariate statistical technique,with a range of applications in data processing and dimensionality reduction.Over the past two decades,PCA method has also been widely applied to various kinds of industrial processes for process monitoring and fault diagnosis with some successes.Due to the increasing volumes of data,process monitoring methods which are based on PCA approaches suffer many limitations,such as great calculation loads and poor real-time performance.In this paper,a new method called Sparse Principal Component Analysis(SPCA)is developed in process monitoring,using the lasso(least absolute shrinkage and selection operator)to produce modified principal components with sparse loadings.And the SPCA can be formulated as a regression-type optimization function to achieve the main elements of choice.Furthermore,the fault detection is then performed by a detection index using model parameters,and the sparse principal component analysis is used in the Tennessee Eastman process(TE processes)monitoring for simulations.Compared with the traditional principal component analysis method,this SPCA approach builds a model based on the sparse modeling data.Therefore it can reduce the amount of calculations and improve the real time performance.As the SPCA model is applied to simulate with real data,the results show that it has better effectiveness in TE processes.
least absolute shrinkage and selection operator(lasso);Sparse Principal Component Analysis(SPCA);state monitoring;Tennessee Eastman(TE)processes
主元分析(principal component analysis)是一種多元統計技術,在過程監控和故障診斷中具有廣泛的應用。針對過程監控中數據量大的特點,提出一種稀疏主元分析(sparse principal component analysis)方法,通過引入lasso約束函數,構建稀疏主元分析的框架,將PCA降維問題轉化為回歸最優化問題,從而求解得到稀疏化的主元,并提高了主元模型的抗干擾能力。由于稀疏后主元相關的數據量減少,利用數據建立過程監控模型,減少了計算量,并縮短了計算時間,進而提高了監控的實時性。利用田納西伊斯特曼過程(TE processes)進行實驗仿真,并與傳統的主元分析方法進行對比研究。結果表明,新提出的稀疏主元分析方法在計算效率和監控實時性上均優于傳統的主元分析方法。
最小絕對收縮和選擇算子(lasso);稀疏主元分析;狀態監控;田納西伊斯特曼(TE)過程
A
TP306+.3
10.3778/j.issn.1002-8331.1307-0368
PENG Bican,ZHANG Zhengdao.Process monitoring research based on sparse principal component analysis. Computer Engineering and Applications,2014,50(18):240-245.
國家自然科學基金(No.61374047);中央高校基礎研究項目(No.JUSRP51322B,No.JUSRP111A49)。
彭必燦(1988—),男,碩士研究生,研究領域為控制工程、故障診斷;張正道(1976—),通訊作者,男,博士,副教授,研究領域為狀態監控與故障診斷、故障預報。E-mail:wxzzd@hotmail.com
2013-07-29
2013-10-15
1002-8331(2014)18-0240-06
CNKI網絡優先出版:2013-12-19,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1307-0368.html