羅明英, 王 帆, 譚 帥, 侍洪波
(華東理工大學化工過程先進控制和優化技術教育部重點實驗室,上海 200237)
?
基于關鍵變量的OPLS預測方法
羅明英,王帆,譚帥,侍洪波
(華東理工大學化工過程先進控制和優化技術教育部重點實驗室,上海 200237)
產品的最終質量主要是由生產過程中的關鍵變量決定的,因此,回歸模型的質量預測能力與過程變量的選擇密切相關。本文提出了一種新的基于關鍵變量(CV)的OPLS預測方法(CV-OPLS),用于輸出變量較多過程的質量預測。首先,根據關鍵變量選取準則,為每個質量變量選取建模所需的關鍵過程變量。為了減少最后需要建立的模型個數,將由質量變量及其相應的關鍵過程變量組成的數據陣進行重組,并用OSC算法去除重組后的數據陣中與質量變量無關的干擾信息。然后,對校正后的數據陣建立PLS模型,求取相應的模型回歸系數,得到最終的質量預測結果。與傳統的PLS及OPLS方法相比,該方法能夠在保證模型較好預測精度的前提下,有效地簡化模型結構。最后,通過Tennessee Eastman(TE)過程的實驗仿真驗證了CV-OPLS方法的有效性。
回歸模型; 關鍵變量; OPLS算法; 質量預測
過程數據分析的一個主要任務是從經驗或歷史數據中建立回歸模型并用于產品的質量預測。近年來,多元回歸建模技術迅速發展,已被成功用于定量化提取自變量與因變量之間的因果關系,例如主成分回歸(PCR)[1]、偏最小二乘(PLS)[2-3]、獨立成分回歸(ICR)[4]等。其中,PLS方法是一個廣為人知并應用成熟的有效工具。PLS可以有效地解決變量相關的問題,適用于變量較多且耦合嚴重的工業過程建模[5],并廣泛應用于過程監控和故障診斷等領域[6-7]。隨后,很多復雜的、擴展的最小二乘方法也被提出并加以利用,如文獻[8]提出的針對多階段間歇過程的兩層PLS方法; 文獻[9]提出的針對非線性和時變化工過程的選擇性集成局部偏最小二乘算法(SELPLS)等。
回歸模型預測能力的好壞與過程變量的選擇密切相關。作為一種重要的知識提取工具,變量選擇的重要性已在許多文獻中作了相應的闡述[10-11]。產品的最終質量主要是由生產過程中的關鍵變量決定的,與質量無關的過程變量的變化對于質量預測來說是系統波動噪聲,它們的波動會引起回歸模型質量預測精度下降,建模前應當把它們剔除。目前已有的關鍵變量選取策略有:前向選取、后向選取、步進回歸等[12-13],采用的方法都是逐一搜索所有可能的過程變量。這些方法在過程變量較多的情況下會造成巨大的計算負擔,不利于實際應用。為了克服上述方法的缺陷,文獻[14]提出了一種新的關鍵變量選擇策略,能夠簡單、有效地從回歸模型中剔除那些與質量無關的過程變量,達到簡化模型結構并提高預測精度的目的。對于輸出變量較多的生產過程來說,每個質量變量建模所需的關鍵過程變量一般是不同的,在為它們挑選完關鍵過程變量后,為了得到每個質量變量的預測結果,需建立多個不同的回歸模型。這樣雖然減少了每個模型的建模所需變量,但是卻增加了最后所需建立的回歸模型個數,計算復雜度也相應增加,不利于實際生產中的應用。
此外,在多變量過程數據X中通常都包含與質量變量Y不相關的系統變化,這些變化對Y的預測沒有幫助。為了改進這個問題,Wold等[15]提出了正交信號修正(OrthogonalSignalCorrection,OSC)算法,基本思想是去除X中與Y正交的變化,之后對修正后的X數據進行PLS回歸,從而得到更好的PLS模型。Trygg等[16]提出了基于非線性迭代偏最小二乘(NonlinearIterativePartialLeastSquares,NIPALS)算法[17]的正交PLS(OPLS)算法,不需要迭代計算,從而使計算量大大減少。本質上來說,OPLS是一種預處理算法,將數據X中與Y無關的成分濾除。對于被過濾數據X的PLS建模可以得到更為簡單的模型。
鑒于此,本文提出了一種新的基于關鍵變量的OPLS建模方法(CV-OPLS),用于輸出變量較多的過程質量預測。首先,根據關鍵變量選取準則,為每個質量變量選取其建模所需的關鍵過程變量。按照重組關鍵變量矩陣的方法,將由質量變量及其相應的關鍵過程變量組成的數據陣進行重新整合,并用OSC算法去除重組后的數據陣中與質量變量無關的干擾信息。然后,對校正后的數據陣建立PLS模型,求取相應的模型回歸系數,得到最終的質量預測結果。與傳統的PLS及OPLS建模方法相比,該方法能夠在保證模型較好預測精度的前提下,有效地簡化預測變量組以及減少模型個數。最后,通過TennesseeEastman(TE)過程的質量預測仿真,驗證了該方法應用于過程建模及質量預測的有效性和優越性。
OSC算法的基本思想是:在使過程變量x與質量變量y相關時,提前剔除自變量中那些與因變量相關性較小甚至不相關的數據信息,即采用正交投影的方法從x中剔除與y正交的量。將OSC與PLS方法相結合,即OPLS算法。Trygg等[16]提出了改進的OPLS算法,其正交成分可直接通過NIPALS算法得到,可以減少計算量,避免模型出現過度擬合的現象。具體方法步驟如下(以單輸出變量為例,多輸出變量的情況類似可得):
首先將原始數據進行歸一化處理,得到數據陣{x,y}。
(1) 計算權值向量:wΤ=yΤx/(yΤy);
(2) 將w歸一化:w=w/‖w‖;
(3)t=xw/(wΤw);
(4)PΤ=tΤx/(tΤt);
(5) w⊥=p-w;
(6) 將w⊥歸一化:w⊥=w⊥/‖w⊥‖;

將正交信號校正后的xΟ與y組成為新的數據陣{xΟ,y},帶入線性PLS算法以建立回歸模型。假設兩者具有以下的線性相關性:
(1)
其中:H為模型誤差矩陣;C為回歸系數矩陣,可通過NIPALS算法[17]得到。
(2)
式中:P和Q分別為X和Y的負載矩陣; W為x的權系數矩陣。于是對于新樣本xnew的回歸預測值為
(3)

2.1方法簡介
傳統的PLS方法在建模時沒有進行過程變量的選取,將那些與質量無關的過程變量的變化引入回歸模型,會造成質量預測精度的下降。同時,考慮到對于輸出變量較多的生產過程來說,每個質量變量建模所需的關鍵過程變量一般是不同的,因此,有必要在建模前為每個質量變量挑選相應的關鍵變量。
一般的PLS方法只是建立一個回歸模型進行質量預測。本文為了增強模型中過程變量與質量變量之間的因果關系,提高預測精度,先為每個質量變量挑選其建模所需的關鍵過程變量,然后再分別建模進行回歸預測。由于每個質量變量挑選出的關鍵變量一般是不同的,所以最后得到的由每個質量變量與其相應的關鍵變量組成的數據陣也不同。為了得到每個質量變量的預測結果,需要建立多個回歸模型進行預測。這樣雖然簡化了每個模型的預測變量組,但是卻增加了最后所需建立的回歸模型的個數,計算復雜度也相應地增加,不利于實際生產中的應用。本文提出了一種將關鍵變量矩陣進行重新組合的方法,能夠在保證模型有較好預測精度的同時,盡量簡化模型以及減少模型個數。
2.2選取關鍵變量
假設訓練數據陣{X(n×m),Y(n×d)}已去均值標準化,其中,n為樣本個數,m為過程變量個數,d為質量變量個數。為每一個質量變量挑選建模時所需的關鍵過程變量。
首先定義每個過程變量xj(n×1)(對應X(n×m)的第j列)對于第k個質量變量yk(n×1)(對應Y(n×d)的第k列)的相關貢獻率指標[14]如下:
(4)
其中:下標j表示過程變量; k表示質量變量; 函數r()計算了2個變量間的相關系數。
此外,僅僅依據相關貢獻率指標并不能確切可靠地表征模型的預測能力。為了進一步評估這些過程變量的質量預測能力并最終確認它們是否應該作為關鍵變量用于回歸建模,引入驗證回歸模型能力的預測均方誤差指標[18]:
(5)


(3) 將排序后的過程變量一個一個循環加入到建模變量中,并依次計算得到新的PLS回歸模型。為了簡單起見,每次回歸模型中統一保留2個潛成分即可。利用測試數據求取新的MSEk值,并與之前沒有加入該變量時的預測精度進行對比,如果MSEk指標下降,說明該變量的加入有助于改善模型的預測能力,則保留該過程變量為關鍵建模變量,繼續搜索下一個過程變量; 否則停止,在此之前的回歸模型作為最終的質量預測模型。
通過上述變量選擇步驟,最終為每個質量變量僅僅保留它所需的少數的關鍵過程變量,消除了無關因素的不利影響,達到了簡化回歸模型的目的,并強調了回歸模型的泛化預測能力。
2.3重組關鍵變量矩陣
按照上述挑選關鍵變量的方法,即可得到每個質量變量相應的關鍵變量矩陣。以第k(1≤k≤d)個質量變量為例,假設其相應的關鍵變量矩陣為xck(n×jk),其中,jk代表關鍵變量個數。這樣就得到d組不同數據陣,分別為{xc1(n×j1),y1(n×1)},{xc2(n×j2),y2(n×1)},…,{xcd(n×jd),yd(n×1)}。如要得到每個質量變量的預測結果,就需建立d個不同的回歸模型進行預測。為了在保證模型有較好預測精度的同時,盡量簡化模型以及減少模型個數,本文提出根據每個關鍵變量矩陣的變量重疊程度對其進行重組的設想。
首先,對每個關鍵變量矩陣xc1(n×j1),xc2(n×j2),…,xcd(n×jd)的變量組成進行觀察,將其中有變量重疊的矩陣放在一起,對矩陣中關鍵變量求并集,組成新的個數更少的關鍵變量矩陣xcA1(n×jA1),xcA2(n×jA2),…,xcAr(n×jAr),同時,將其相應的質量變量也并在一起,組成新的質量變量矩陣yA1(n×dA1),yA1(n×dA2),…,yAr(n×dAr)。然后,就可以將重組后的關鍵變量矩陣xcA1,xcA2,…,xcAr與其相應質量變量矩陣yA1,yA1,…,yAr組成r組新數據陣,即{xcA1(n×jA1),yA1(n×dA1)},{xcA2(n×jA2),yA1(n×dA2)},…,{xcAr(n×jAr),yAr(n×dAr)},其中,r(r 舉例說明,假設y1相應的關鍵變量矩陣xc1=[x1,x2,x3],其中x1,x2,x3分別對應原輸入變量矩陣X(n×m)的第1,2,3列; y2相應的關鍵變量矩陣xc2=[x2,x3,x4],其中x2,x3,x4分別對應原輸入變量矩陣X(n×m)的第2,3,4列。xc1,xc2中都包含第2和第3個過程變量,把這2個關鍵變量矩陣并在一起,得到一個新的關鍵變量矩陣xcA1=[x1,x2,x3,x4]。同時,將其相應的質量變量y1,y2也并在一起,得到一個新的質量變量矩陣yA1=[y1,y2]。此時,就將原先的兩組數據陣{xc1,y1}和{xc2,y2}重組成了一組新的數據陣{xcA1,yA1}。 按照上述將關鍵變量矩陣進行重新組合的方法,最終得到的數據陣組數會大大減少,那么,所需建立的回歸模型個數也會相應減少。另外,考慮到由于關鍵變量矩陣的重組可能會造成模型預測精度下降的問題,在最后建模前,先對每組數據陣進行OSC預處理,去除關鍵變量矩陣中與輸出質量變量不相關的冗余成分,進一步增強模型中關鍵變量對質量變量的解釋能力,以達到既簡化模型結構又保證模型預測精度的目的。 本文采用復相關系數R2指標[19]來評估回歸模型的預測性能。其計算公式為 (6) 4.1實驗設置 將本文提出的方法應用于TE過程的質量預測中,并與傳統的PLS及OPLS方法進行對比,驗證該方法的有效性。為了公平地對比各種方法的預測性能,仿真過程中每種方法的訓練集和測試集以及挑選的潛變量個數都相同。 4.2TE過程簡介及實驗數據選取 TE過程是一個典型的多變量復雜化工生產過程,目前已被廣泛作為控制算法的測試和性能評估的仿真平臺[20-22]。該過程主要由5個操作單元組成,分別為:連續攪拌式反應釜、冷凝器、氣液分離塔、汽提塔和離心式壓縮機。過程包括12個控制變量、22個連續測量變量和19個非連續測量成分變量。仿真過程中的采樣間隔均為3 min。本文選取的訓練集和測試集分別為兩組正常數據,每組數據包含500個采樣點。11個控制變量作為回歸建模的輸入數據陣,實驗中分析的質量變量來自于22個連續測量變量,選取其中對于整個反應過程具有重要意義的5個變量作為模型的輸出[23]。具體的輸入、輸出實驗數據選取結果如下:x1,物流A進料量,kmol/h;x2,物流D進料量,kmol/h;x3,物流E進料量,kmol/h;x4,物流A、C總進料量,kmol/h;x5,壓縮機回收閥開度,%;x6,排放閥開度,%;x7,分離器罐液流量,kmol/h;x8,汽提器液體產品流量,kmol/h;x9,汽提器水流閥,%;x10,反應器冷水流量,m3/h;x11,冷凝器冷卻水流量,m3/h;y1,物料A流量,kmol/h;y2,排空速率,r/min;y3,汽提塔液位,%;y4,汽提塔底部流量,kmol/h;y5,汽提塔上部蒸汽流量,kmol/h。 圖1 CV-OPLS方法示意圖Fig.1 Illustration of the CV-OPLS method 4.3預測模型仿真及結果分析 圖2 關鍵變量選擇的CV指標Fig.2 CV criterion of critical variable selection表1 y5的關鍵變量選擇結果 Table 1 Critical variable selection result of y5 序號回歸建模過程變量MSE190.04188826,90.04179232,6,90.0416744所有11個0.043304 按照相同的方法依次計算出所有質量變量的關鍵變量選擇結果,結果如表2所示。 表2 關鍵變量選擇結果 通過對表2中每個關鍵變量矩陣的變量組成進行觀察,發現y1,y2,y5這3個質量變量所對應的關鍵變量有重疊,因此把它們放在一起求并集,組成一組新的關鍵變量矩陣和質量變量矩陣。同理,y3和y4這兩個質量變量相應的關鍵變量有重疊,也把它們并在一起進行重組。這樣最后就只得到2組關鍵變量矩陣和相應的質量變量矩陣,具體的重組結果見表3。 表3 重組后的關鍵變量選擇結果 為了進一步提高每對數據陣中x對y的解釋能力和相關度,對于重組后的兩組數據陣{x(500×5),y(500×3)}和{x(500×3),y(500×2)},在進行PLS建模前先對其進行OSC預處理,然后再將校正后的數據陣分別帶入PLS算法進行回歸分析,求取每個質量變量最終的預測結果。為了驗證CV-OPLS方法的有效性,表4給出了其與傳統的PLS及OPLS方法的預測性能對比結果,表中黑體表示預測結果的最優值。 表4 不同方法的預測性能指標結果 對比表4中3種建模方法的R2指標,可以看出3種方法均可取得較好的預測效果。由于本文提出的CV-OPLS方法能夠剔除對于質量預測貢獻較小的過程變量,過濾掉無關的冗余信息,并大大減少所需建立的回歸模型個數,因此比傳統的PLS及OPLS模型更簡單實用,而且精度可靠。 此外,為了彰顯本文所提方法的先進性,表5給出了CV-OPLS方法與OPLS方法在線預測時算法執行時間的對比結果。 從表5中可以看出,兩種方法都能取得較為滿意的算法執行效率。雖然本文提出的CV-OPLS方法在離線建模時比傳統的OPLS方法的算法略顯復雜,但在線應用時,兩者的算法執行時間相差不大。由于CV-OPLS方法可以獲得更高的預測精度,所以比傳統的OPLS方法更為實用。 表5 不同算法的執行時間對比結果 圖3給出了CV-OPLS方法對實驗中測試集的質量預測仿真結果。 本文提出了一種新的回歸建模方法(CV-OPLS),應用于多輸出變量過程的關鍵變量選擇及質量預測。與傳統的PLS建模方法相比,該方法能夠有效地簡化預測變量組,為每個質量變量僅保留建模所需的關鍵過程變量,增強了過程變量與質量變量之間的因果關系,并強調了模型的泛化能力。同時,該方法大大減少了最后需要建立的回歸模型個數,并在建模前去除了關鍵變量中與質量變量無關的干擾成分,保證了回歸模型較好的預測精度。此外,通過對Tennessee Eastman (TE)過程的實驗仿真,比較了本文提出的CV-OPLS算法和傳統的PLS算法對TE過程多輸出變量情況下的回歸建模預測效果,實驗表明CV-OPLS方法不僅模型結構簡單實用,而且具有較好的擬合能力和泛化的預測能力。 圖3 CV-OPLS方法的質量預測結果Fig.3 Quality prediction results of the CV-OPLS method [1]GE Zhiqiang,SONG Zhihuan,GAO Furong.Mixture probabilistic PCR model for soft sensing of multimode processes[J].Chemometrics and Intelligent Laboratory Systems,2011,105 (1):91-105. [2]HOSKULDSSON A.PLS regression methods[J].Journal of Chemo-metrics,1998,2 (3):211-228. [3]FACCO P,DOPLICHER F,BEZZO F,etal.Moving average PLS soft sensor for online product quality estimation in an industrial batch polymerization process[J].Journal of Process Control,2009,19 (3):520-529. [4]GE Zhiqiang,SONG Zhihuan,WANG Peiliang.Probabilistic combination of local independent component regression model for multimode quality prediction in chemical processes[J].Chemical Engineering Research and Design,2014,92 (3):509-521. [5]JIA Runda,MAO Zhizhong,WANG Fuli.KPLS model based product quality control for batch processes[J].CIESC Journal,2013,64 (4):1332-1339. [6]GODOY J L,VEGA J R,MARCHETTI J L.A fault detection and diagnosis technique for multivariate processes using a PLS-decomposition of the measurement space[J].Chemometrics and Intelligent Laboratory Systems,2013,128(15):25-36. [7]HU Yi,MA Hehe,SHI Hongbo.Robust online monitoring based on spherical-kernel partial least squares for nonlinear processes with contaminated modeling data[J].Industrial & Engineering Chemistry Research,2013,52 (26):9155-9164. [8]GE Zhiqiang,SONG Zhihuan,ZHAO Luping,etal.Two-level PLS model for quality prediction of multiphase batch processes[J].Chemometrics and Intelligent Laboratory Systems,2014,130(2):29-36. [9]SHAO Weiming,TIAN Xuemin.Adaptive soft sensor for quality prediction of chemical processes based on selective ensemble of local partial least squares models[J].Chemical Engineering Research and Design,2015,95:113-132. [11]MEHMOOD T,LILAND K H,SNIPEN L,etal.A review of variable selection methods in partial least squares regression[J].Chemometrics and Intelligent Laboratory Systems,2012,118 (3):62-69. [12]KLEINBAUM D G,KUPPER L L.Applied Regression Analysis and Other Multivariable Methods[M].Third Edition.Beijing:China Machine Press,2003. [13]KUTNER M H,NACHTSHEIM C J,NETER J.Applied Linear Regression Models[M].Fourth Edition.Beijing:Higher Education Press,2005. [14]趙春暉.多時段間歇過程統計建模、在線監測及質量預報[D].沈陽:東北大學,2008. [15]WOLD S,ANTTI H,LINDGREN F.Orthogonal signal correction of near-infrared spectra[J].Chemometrics and Intelligent Laboratory Systems,1998,44 (1):175-185. [16]TRYGG J,WOLD S.Orthogonal projection to latent structures (O-PLS)[J].Journal of Chemometrics,2002,16 (3):119-128. [17]DAYAL B S,MACGREGOR J F.Improved PLS algorithms[J].Journal of Chemometrics,1997,11 (1):73-85. [18]ZHAO Chunhui,GAO Furong.Multiphase calibration modeling and quality interpretation by priority sorting[J].Chemical Engineering Science,2011,66 (21):5400-5409. [19]ZHAO Luping,ZHAO Chunhui,GAO Furong.Phase transition analysis based quality prediction for multi-phase batch processes[J].Chinese Journal of Chemical Engineering,2012,20 (6):1191-1197. [20]DOWNS J H,VOGEL E F.A plant-wide industrial process control problem[J].Computers Chemical Engineering,1993,17 (3):245-255.. [21]DONG Jie,ZHANG Kai,HUANG Ya,etal.Adaptive total PLS based quality-relevant process monitoring with application to the Tennessee Eastman process[J].Neurocomputing,2015,154:77-85. [22]LAU C K,KAUSHIK GHOSH,MOHD A H.Fault diagnosis of Tennessee Eastman process with multi-scale PCA and ANFIS[J].Chemometrics and Intelligent Laboratory Systems,2013,120(2):1-14. [23]杜萬亮.基于獨立成分分析的多元回歸方法研究[D].沈陽:東北大學,2009. OPLS Prediction Method Based on Critical Variables LUO Ming-ying,WANG Fan,TAN Shuai,SHI Hong-bo (Key Laboratory of Advanced Control and Optimization for Chemical Processes,Ministry of Education,East China University of Science and Technology,Shanghai 200237,China) The final quality of product is mainly decided by those critical variables in production process,so the quality prediction ability is closely dependent on the selected process variables.This paper proposes a critical-variable-based OPLS prediction method,CV-OPLS model,for the quality prediction of industrial processes with multi output variables.First,according to the selection criteria of critical variables,we choose critical process variables for each quality variable in modeling.In order to reduce the number of final models,the data matrix composed of quality variable and its critical variables is recombined,in which disturbing variation irrelevant with quality variable will be removed by means of OSC method.And then,PLS models are formed on the corrected data matrix,and the regression coefficients are computed such that the final quality prediction results are obtained.Compared with the traditional PLS and OPLS,the proposed method can effectively simplify model structure and attain superior prediction performance.Finally,the feasibility and effectiveness of the CV-OPLS method are further verified through experiments in Tennessee Eastman (TE) process. regression model; critical variable; OPLS method; quality prediction 1006-3080(2016)04-0529-08 10.14135/j.cnki.1006-3080.2016.04.014 2015-10-12 國家自然科學基金(61374140,61403072) 羅明英(1990-),女,河南禹州人,碩士生,主要研究方向為故障檢測、診斷及工況監控。 通信聯系人:侍洪波,E-mail:hbshi@ecust.edu.cn TP277 A3 基于CV-OPLS的質量預測


4 實驗仿真








5 結 論
