王浩東,王昕,王振雷,曹晨鑫
(1 華東理工大學化工過程先進控制和優化技術教育部重點實驗室,上海200237; 2 上海交通大學電工電子實驗教學中心,上海200240)
隨著時代的發展,人們對生產過程自動化程度的要求也隨之提高。生產系統在使用初期一般具有良好的運行性能,但由于儀表失準、傳感器故障、執行機構磨損等因素的影響會使生產系統出現生產性能下降的情況,造成產品質量下降和生產成本提高等問題。因此一個高效準確的性能評估方法對生產效率的提升和企業經濟收益的提高至關重要。
1989 年,Harris[1]提出基于最小方差控制(MVC)的性能評估方法,并將其作為評估單輸入單輸出(SISO)系統性能下限,這一研究成果標志著性能評估研究方向的誕生。1996年,Harris等[2]把單變量最小方差基準的性能評估方法推廣到多變量控制系統中。之后,學者們針對不同控制系統特性設計了符合實際工況的性能評估基準,如廣義最小方差(GMV)基準[3]、線性二次型高斯(LQG)最優控制基準[4]、用戶自定義基準[5]等。這些評估方法大多依賴于機理建模和先驗知識,而實際過程的精確數學模型往往難以得到,限制了這些方法的實際應用。
針對以上問題學者們提出一種基于數據驅動的建模方法,該方法的原理是從過程數據中挖掘出研究需要的信息,其優點在于減少了對機理模型的依賴且過程數據容易獲得。Qin 等[6-7]提出一種基于數據的協方差基準來評估多變量系統的性能。2012 年,Qin[8]總結了數據驅動在過程監測與故障診斷上的應用和未來發展方向,引起了學者們的廣泛關注。
現代工業生產過程往往具有復雜多變、過程變量眾多以及數據非線性等特點,從而無法進行準確的性能評估。為了解決復雜工業過程性能評估的問題,多元統計過程監控(multivariate statistic process monitoring,MSPM)方法應運而生,其中典型代表有主元分析(principal component analysis,PCA)、偏最小二乘(partial least squares,PLS)[9-12]。Liu 等[13-14]采用PCA 特征提取方法提取每個性能級的主要變化信息,以此建立性能級離線模型,根據在線數據特征匹配結果進行性能評估。但PCA 屬于無監督建模方法[15],所以缺乏標簽變量的引導,該評估方法的抗干擾能力較弱。PLS 屬于有監督建模方法,為使其適應數據的非線性特征,Yan 等[16]采用基于核函數PLS 模型進行仿真預測,但該方法中核函數及其參數通常由經驗和反復試驗確定,因此浪費大量時間和資源。曹晨鑫等[17]采用局部加權潛結構映射(LWPLS)與神經網絡相結合的方法,不但改善了數據間的非線性關系而且提高了訓練數據與性能等級的匹配精度,但神經網絡存在需調節參數多、過擬合等問題,難以達到良好的評估效果。
因此,本文提出一種基于多數據空間非線性迭代偏最小二乘和高斯過程回歸(multi-space nonlinear iterative partial least squares and Gaussian process regression,Ms-NIPLS-GPR)的化工過程性能分級評估方法。首先利用Ms-NIPLS 算法對不同穩態性能等級數據進行非線性特征提取,然后以此建立高斯過程回歸離線模型。在線評估時,提取滑動時間窗內數據的特征子空間作為離線模型的輸入,對模型輸出應用變遺忘因子數據處理技術并結合構造的過渡性能系數來判斷當前過程的性能等級和性能狀態。最后,使用PCA-NN、Ms-PLS-NN、Ms-NIPLS-GPR 方法對乙烯裂解過程數據進行分析評估,驗證本文性能評估方法的可行性和準確性。
多數據空間是一個包含多個不同性能等級數據的集合。多數據空間NIPLS-GPR 方法適用于分析多變量間的非線性關系,其原理是利用Ms-NIPLS 來適應過程數據間的非線性關系,通過提取不同性能等級數據在數據標簽引導下的特征子空間,從而剔除不能解釋標簽數據變化的過程變量,并在相關過程變量和數據標簽之間建立非線性映射模型。
NIPLS 是一種改進PLS 內部模型的算法,彌補傳統線性PLS 模型在實際應用中的不足。目前,PLS 的非線性擴展方法主要分為兩類,一種是引入核函數[18-20],將數據間的非線性關系線性化,再通過線性PLS 建模,該方法對于核參數選擇要求較高。故采用改進PLS 內外模型的非線性擴展方法[21-22]。NIPLS 通過迭代方式構建PLS 模型,計算量較小,有利于在線評估。
對于單數據空間,假設過程變量X ∈Rn×m包含n 個樣本,m 個過程變量,質量變量Y ∈Rn×p包含p個質量變量。NIPLS算法執行過程如下:
對X、Y 進行零均值、單位方差標準化處理,令i = 1,X1= X。

A 代表NIPLS 方法提取潛變量的個數,可由交叉驗證法得到[23]。使用NIPLS 算法對(X,Y)進行非線性迭代分解,分解形式如下:

式中,T、P、E分別為輸入矩陣X的得分矩陣、負載矩陣、殘差矩陣,Q、F分別為輸出矩陣Y的負載矩陣、殘差矩陣,TPT則代表與輸出矩陣Y 變化相關的特征子空間。
高斯過程回歸是一種通過推斷訓練數據集中的輸入向量與目標輸出向量函數關系f,從而確定目標輸出條件分布的機器方學習法,具有泛化能力較好、模型超參數自適應、方法易實現等優點[24-25]。對于給定訓練數據集D ={(xi,yi)|i = 1,2,…,n}=(X,Y)(其中xi代表第i個樣本輸入,yi代表第i個樣本輸出),回歸模型可以表示為


由式(2)~式(4)可得輸出值y的先驗分布為

式中,I 為單位陣,K = K(X,X) = k(xi,xj)n×n為對稱的協方差矩陣,k(xi,xj)刻畫了xi和xj之間的相關性。所以訓練樣本輸出y與測試樣本輸入x*所對應的輸出y*的聯合分布為

式中,K*= K(X,x*)= K(x*,X)T為訓練數據集X與測試樣本x*之間的協方差矩陣,K**= k(x*,x*)為測試樣本x*的自協方差。
由貝葉斯原理可得輸出值y*的后驗概率分布為

由于不同性能等級數據集對應的特征子空間存在不可忽視的差異性,所以本文提出Ms-NIPLSGPR方法。首先利用NIPLS算法對每個性能等級數據集進行特征提取以準確區分各個性能等級的特征,然后在提取的特征子空間與數據標簽間建立高斯過程回歸模型。
假設有C個數據空間,那么第i個輸入輸出空間為Xi∈Rni×m、Yi∈Rni×p,i = 1,2,…,C,m、p 為過程變量、質量變量個數,ni為不同數據空間采樣點個數。
具體的算法步驟如下。
(1)對多個數據空間使用NIPLS算法

(2)訓練GPR模型
①協方差函數選取:通常選用平方指數協方差函數(CovSEsio)

式中,M = diag(ell2),ell 為方差尺度,sf2為信號方差,參數的集合hyp ={lg(ell),lg(sf)}為超參數;
②超參數初始化:設置超參數的初始值;
③超參數優化:利用優化邊際可能性算法(minimize)對超參數進行優化,優化后的參數為hyp ={l,σf};
④模型訓練:似然函數選用利用高斯似然函數likGauss;推理函數選用infGausslik,用于計算后驗概率。
(1)工業過程數據中往往存在一些離群值,這些離群值在一定程度上會影響離線模型的精度,因此在離線建模前有必要將這些遠離數據中心的樣本點從訓練模型中剔除。某一過程變量與其數據中心相似度的計算公式為

(2)根據工程經驗將歷史數據中運行性能穩定且區分度高的樣本劃分到不同性能等級的數據空間中,其標簽用一組二進制數表征。通常情況下,3~4 個性能等級比較合適。當訓練數據屬于等級i,那么其標簽(由高位到低位)的第i位為1,其余為0。例如,本文將訓練數據劃分為三個性能等級:最優[X1∈Rn1×m,Y1= 100]、中等[X2∈Rn2×m,Y2= 010]、較差[X3∈Rn3×m,Y3= 001]。
(3)為消除變量的量綱和單位的不同給建模帶來的不良影響,需要對訓練數據進行零均值、單位方差標準化處理。
圖1為離線建模的流程圖,建模步驟如下:
(1)采集訓練數據,進行離群值剔除、性能級分組、數據標準化一系列數據預處理。
(2)利用Ms-NIPLS 算法提取不同性能級訓練數據的特征子空間,即(,),i = 1,2,3。

圖1 性能等級數據離線建模過程Fig.1 Offline modeling process of performance grade data
考慮到過程擾動對在線樣本數據的影響很大,所以在線評估時很難依據單個樣本對當前生產過程做出準確評價[26],故本文采用大小為H 的滑動時間窗作為基本評估單元,Xon,k=[xon,k(k - H +1),…,xon,k(k)]T。那么模型預測輸出為

式中,f(·)為訓練GPR模型得到的非線性映射;Yon,k=[y1,on,k,y2,on,k,…,yC,on,k]∈RH×C為k 時刻評估單元對應的GPR 輸出,其中yi,on,k=[yi,on,k(k - H +1),…,yi,on,k(k)]T,i = 1,2,…,C,為GPR的第i個輸出。
在基本評估單元內,當前k時刻性能與前H - 1時刻性能的相似性程度不同,所以不能單純采用均值策略。本文采用變遺忘因子[27-28]加權計算策略,第i個輸出通道在遺忘因子βj下的樣本均值為




定義一個過渡態評估閾值ε,當|Convk|≤ε 時,表明數據窗口中樣本性能無明顯變化,性能等級與前一時刻保持不變。而|Convk|>ε時,則表明k時刻數據窗口中樣本性能發生改變,性能狀態為兩穩態等級之間的過渡性能狀態。
在線評估過程的具體步驟總結如下。
(1)采集k 時刻的數據,與前H-1 時刻樣本數據組成一個長度為H 的數據窗口,根據訓練數據的均值和標準差對其進行標準化處理得到Xon,k。
(2)采用Ms-NIPLS提取特征子空間Xon,kPi。
(3)采用式(13)計算特征子空間對應的輸出yon,k∈RH×C,并進一步計算,i = 1,2,…,C 和Convk來量化k時刻的性能等級和性能狀態。
性能等級和性能狀態評估策略如下:
Case2 如果Case1不滿足,且|Convk|>ε,則表明過程運行狀態為過渡態。
Case3 如果Case1不滿足,且|Convk|≤ε,則表明當前過程受不確定因素影響較大,過程運行評估結果與上一時刻的評估結果一致。
裂解爐是乙烯裝置的核心設備,實時評估裂解爐運行狀態對生產效益的提高至關重要[29-30],而裂解爐生產過程裂解反應機理復雜,變量間存在強非線性,很難利用機理模型進行性能評估。為此,本文利用Ms-NIPLS-GPR 方法對裂解爐運行過程進行在線評估,使得裂解爐盡可能以最優性能運行。
采集裂解爐生產過程中的18個過程變量(表1)和1個質量變量——單程高附加值產品收率。本文中訓練數據包含1014 組樣本,根據工程經驗,訓練數據被分為3 個性能等級:最優[X1∈R407×18,Y1=100]、中 等 [X2∈R383×18,Y2= 010] 和 較 差[X3∈R224×18,Y3= 001]。測 試 數 據 集Xtest共 包 括1250 組測試樣本,其性能的變化趨勢為:最優→過渡→中等→過渡→較差。裂解爐過程模型簡圖如圖2所示。

圖2 乙烯裂解爐工藝Fig.2 Ethylene cracking furnace process

表1 乙烯裂解爐過程變量Table 1 Ethylene cracking furnace process variables
圖3說明了GPR 輸出(y1,y2,y3)需要經過時間窗和變遺忘因子處理的必要性。圖中藍色曲線代表測試樣本與最優性能等級的相似度,紅色曲線代表測試樣本與中等性能等級的相似度,黃色曲線代表測試樣本與較差性能等級的相似度。從圖3中可以看出,(y1,y2,y3)曲線波動幅度大,說明單個測試樣本無法準確說明當前過程運行狀態。算法中相關參數設置如下:在線評估的數據窗口長度H = 20;GPR模型超參數初值設置hyp ={0,0};穩態評估閾值α =0.85,過渡態評估閾值ε = 0.25。

圖3 不經過滑動時間窗的數據采樣點各通道輸出情況Fig.3 The sample curves of the channel outputs without the sliding data window
為了驗證Ms-NIPLS-GPR 評估方法的準確性,將基于PCA-NN、Ms-PLS-NN 的建模方法作為對比實驗。圖4~圖6中的橫向點劃線為測試樣本的評估閾值α,評估曲線超過α 則認為當前過程運行在該性能等級;縱向點劃線樣本區域表示實際過程中過渡態的樣本范圍。圖中(a)~(c)為相應方法得到的評估曲線,分別表示測試樣本與最優、中等、較差性能等級的相似度。從仿真結果可以看出,基于Ms-NIPLS-GPR 方法的評估曲線波動較小,Ms-PLS-NN方法次之,而PCA-NN 的評估曲線波動較大。對于PCA-NN 而言,由于缺乏標簽變量的引導,所以無法準確提取性能特征,抗干擾能力較弱;對于Ms-PLS-NN 而言,傳統線性PLS 方法也無法完全提取非線性數據的特征;同時神經網絡還具有調節參數多、過擬合等缺點,所以這兩種方法在最優、較差性能等級段上有不同程度的誤判,主要誤判處已在圖4和圖5中用圓圈標明。
圖7~圖9 分別是在線評估結果根據式(15)、式(16)計算得到的過渡性能系數變化曲線。由仿真結果及評估策略可以得出如下結論:PCA-NN 方法將較差性能穩態部分誤判為過渡態;Ms-PLS-NN、Ms-NIPLS-GPR 兩種方法得到的過渡性能系數曲線相似,但基于Ms-NIPLS-GPR 方法得到的曲線在穩態部分表現得更加平穩且對于過渡狀態的識別靈敏度更高,受噪聲影響較小。

圖4 基于PCA-NN的在線評估結果Fig.4 PCA-NN-based online assessment results

圖5 基于Ms-PLS-NN的在線評估結果Fig.5 Ms-PLS-NN-based online assessment results
表2 展 示 了PCA-NN、Ms-PLS-NN 和Ms-NIPLS-GPR 方法得到的評估結果與實際情況的對比,通過定義評估準確率(評估正確樣本數量與總樣本數量的百分比)來判斷方法的優劣。從對比結果可以看出,相較于對比方法PCA-NN 和Ms-PLSNN,基于Ms-NIPLS-GPR 計算得到的評估準確率分別提高了8.8%、4.88%,證明了本文評估方法的準確性。

圖6 基于Ms-NIPLS-GPR 的在線評估結果Fig.6 Ms-NIPLS-GPR-based online assessment results

圖7 基于PCA-NN的在線評估過渡性能系數曲線Fig.7 Performance transition coefficient curve based on PCANN online assessment method

圖8 基于Ms-PLS-NN的在線評估過渡性能系數曲線Fig.8 Performance transition coefficient curve based on Ms-PLS-NN online assessment method

圖9 基于Ms-NIPLS-GPR 的在線評估過渡性能系數曲線Fig.9 Performance transition coefficient curve based on Ms-NIPLS-GPR online assessment method

表2 在線評估結果與實際情況對比Table 2 Comparison of online assessment result and actual
針對乙烯裂解爐生產過程中過程變量與質量變量間的非線性及無關變化量難以剔除的問題,本文以多個連續性能相近的數據集作為研究對象,提出了基于Ms-NIPLS-GPR 的在線性能評估方法。離線建模階段,通過Ms-NIPLS 算法對過程輸入和輸出進行分解,在適應過程數據間非線性關系的同時還最大化剔除無關變化量,提高了高斯過程回歸離線模型的精度;在線評估階段,給出了性能等級狀態評估策略,在給出當前過程運行性能等級的同時判斷當前過程運行狀態。最后,通過比較PCANN、Ms-PLS-NN 與Ms-NIPLS-GPR 三種方法的評估準確率來說明本文評估方法的可行性和準確性。