朱守博 趙忠蓋 劉 飛
(江南大學物聯網工程學院 輕工過程先進控制教育部重點實驗室)
在現代工業過程中, 多元統計過程監控(MSPM)方法得到了廣泛應用,包括基于主成分分析(PCA)[1]、偏最小二乘(PLS)[2]及典型變量分析(CVA)[3]等監控方法。 其中,基于PCA的故障檢測與診斷技術能夠有效地檢測過程變量,但是根據過程變量與質量變量間的相關關系判斷質量指標和過程運行狀態更為重要[4]。 CVA的建模目標是使兩組變量間的相關系數最大化, 而PLS則尋求兩組變量之間的協方差最大化。 PLS集合了CVA和PCA的基本功能, 在質量相關的故障檢測領域獲得了大量的成功應用[5,6]。
PLS的目的是提取過程變量和質量變量的特征信息,并使兩者間的相關性最大[7]。 因此,過程變量的主成分中可能包含了大量與質量變量無關的信息,同樣地,質量變量的主成分中也可能包含了大量無法由過程變量估計的信息[8]。 另一方面,PLS不像PCA那樣以降序的方式提取輸入空間中的方差。 因此,殘差中可能會包含大量的有用信息, 并不符合采用Q統計量進行監控的條件[9]。
為了解決以上問題,高效潛結構投影(EPLS)方法將過程數據分解為質量相關部分和質量無關部分, 并使用PCA對質量無關部分做進一步分解,保證空間分解的完備性。EPLS模型最終生成3個子空間:質量相關子空間、質量無關子空間和殘差子空間[10]。 其中質量相關子空間對輸出的預測有全部貢獻,質量無關子空間包含與輸出正交的部分,殘差子空間只包含過程數據的干擾或噪聲。基于EPLS模型,監控方法可以對上述3個子空間的信息分開進行評估,提高了故障檢測的準確率。
另一方面,在實際的工業過程中,由于傳感器故障、格式錯誤及非代表性采樣等原因,很多樣本數據往往不完整,給數據驅動建模帶來了挑戰[11]。 迭代算法(IA)是一種常用的解決缺失性難題的手段[12,13]。 Smirnov M Y等將PCA和PLS分別集成到IA方法中實現對缺失數據的建模[14,15]。 筆者引入IA算法, 提出一種缺失數據下的EPLS算法——IA-EPLS。 該方法通過不斷地迭代完成EPLS建模:用估計的缺失數據建立EPLS模型,然后基于該EPLS模型重新估計缺失數據。兩個步驟交替迭代進行,直到收斂,即可得到EPLS模型和重構數據集。 筆者還將該方法應用到故障檢測中,構建EPLS生成的3個子空間的監控指標, 通過一個數值仿真和田納西伊士曼(TE)過程仿真證明該方法的有效性。
PLS的目的是提取過程變量和數據變量的主元,并使兩者的相關性最大。 假設給定過程數據矩陣X∈RN×m,質量數據矩陣Y∈RN×p(其中,N為樣本數,m為過程變量數,p為質量變量數)。 用非線性迭代偏最小二乘法(NIPALS)將(X,Y)投影到低維空間:

其中,T=[t1,t2,…,tA]為得分矩陣;P=[p1,p2,…,pA]和Q=[q1,q2,…,qA]分別是X和Y的負載矩陣;A為PLS的主元個數, 通常由交叉驗證確定;E和F分別對應X和Y的殘差。
在NIPALS算法中,將W=[w1,w2,…,wA]定義為權重矩陣, 由于無法直接由原始過程數據X得到T,所以引入R=[r1,r2,…,rA],滿足T=XR,且有:

基于PLS的監控通常使用T2和Q統計量。 對于一個新的樣本xnew,可計算其得分tnew和相關統計量:

PLS通過兩個子空間對過程進行監控仍然會面臨一些問題。 原因在于:主元子空間仍然包含與Y正交的部分,這不利于檢測;PLS強調了X對Y的解釋作用,并沒有在過程變量矩陣中按方差降序提取主成分。 為了解決這些問題,EPLS首先將過程空間分解為兩個正交子空間:與質量相關的子空間X^ 和與質量無關的子空間X~。其中質量相關子空間不包含正交Y的成分。 其次,對X~進一步進行主元分析, 產生質量無關子空間和殘差子空間。
EPLS模型如下:


EPLS算法將過程數據空間分解地更加簡潔和完整。
考慮過程變量數據中包含缺失項:

其中,X#表示缺失的測量數據,X*表示觀測到的測量值。 相應地,系數矩陣M的計算式為:

因此, 系數矩陣M僅由X*決定。 在EPLS建模中,如果過程變量出現缺失數據,則該變量所在的所有測量值均無法用于建模,導致大量過程數據信息丟失,甚至無法準確建立模型。 在IA-EPLS中,IA的中心思想是在每次迭代中估計缺失的值。 IA的每次迭代由兩步組成。 在初始化缺失數據(通常為零,或對應列的已知值的均值,或對應行和列的均值)后,第1步根據實際數據估計出模型參數; 第2步, 利用現有模型的實際數據和參數,計算缺失數據的期望值。 IA的收斂準則是連續兩次迭代過程中缺失數據的估計值小于一定的閾值。 IA-EPLS算法的步驟如下:
a. 按行和列的均值初始化缺失數據;
b. 初始化X和Y;
c. 計算系數矩陣M;

i. 從初始X和Y中減去缺失部分的估計值,計算誤差平方和,然后除以缺失采樣的個數;
j. 如果計算結果小于指定的閾值, 如10-4,則滿足收斂條件,轉向步驟k,否則轉向步驟b;

在上述算法中,用EPLS模型得到的期望值填補缺失數據,構建新的數據集,并擬合新的EPLS模型。 迭代結束后,得到最終的模型可以表示為質量相關和質量無關部分:




其中,ξ和f分別為故障方向變量和故障大小。
采用500個正常工況下的采樣數據建立IAEPLS模型:設置缺失數據分別為樣本的10%、20%和30%,隨機分布在輸入數據和輸出數據中。另有驗證數據500個樣本,其中前250個采樣點為正常數據,后250個樣本為故障數據。 基于IA-EPLS方法的檢測結果如圖1所示(紅線為閾值)。

圖1 缺失數據占比為10%、20%和30%下基于IA-EPLS的故障檢測結果

TE過程是一個開放的仿真系統,被廣泛用于過程監控方法的驗證研究中[18~20]。 TE過程由5個操作單元組成:化學反應器、冷凝器、壓縮機、汽液分離器和汽提塔, 包含41個過程變量(XMEAS(1~41))、12個控制變量(XMV(1~12))和21種故障類型 (IDV (1~21))[21,22]。 選擇22個過程變量(XMEAS(1~22))和11個控制變量(XMV(2~12))作為輸入矩陣X;過程變量XMEAS(35)作為輸出變量[23]。 每個測試樣本經過960次采樣,其中故障在第161個樣本處引入,訓練數據集由正常工況下的500個樣本組成。 在仿真中,一定比例的缺失數據被添加到訓練數據集中。由于在實際情況下,缺失數據通常是未知的, 常用的填補方法是均值填補法,因此訓練數據集中缺失的元素被視為零。


圖2 缺失數據占比為20%下基于IA-EPLS的故障檢測結果
為了便于比較,EPLS方法用平均值替換缺失數據實現最終的監控模型。 該部分共設計3組仿真實驗, 缺失數據的比例分別為10%、20%和30%。 基于IA-EPLS和EPLS方法對故障IDV(1)的檢測結果分別如圖3、4所示(紅線為閾值)。 從兩圖中可以看出, 缺失數據下基于IA-EPLS的故障檢測方法比EPLS效果更好。隨著缺失數據比例的增加,基于IA-EPLS的方法保持了較高的故障檢測率(FDR),而基于EPLS方法的故障檢測率逐漸降低。 此外,在表1中總結了不同缺失數據比例下兩種方法的FDR。


圖3 缺失數據占比為10%、20%和30%下基于IA-EPLS的IDV(1)故障檢測結果


圖4 缺失數據占比為10%、20%和30%下基于EPLS的IDV(1)故障檢測結果

表1 不同缺失數據比例下IA-EPLS和EPLS對IDV(1)的故障檢測率
針對缺失數據的情況,筆者提出了一種基于IA-EPLS的質量相關故障檢測方法。 IA-EPLS算法將EPLS集成到IA框架中,成功地構建不完整數據的數學模型,并將其應用于質量相關的故障檢測中。通過數值案例和TE過程驗證了所提方法的有效性, 未來的工作是基于IA-EPLS研究相關的故障診斷和識別方法。