顏丙云,于 飛
(青島科技大學自動化與電子工程學院,山東 青島 266061)
工業工廠中的傳感器,為過程監控提供了大量的測量數據。工業生產過程中惡劣的測量環境、昂貴的設備儀器和時間滯后性等因素,導致了一些關鍵變量難以直接測量[1]。近年來,軟傳感器在工業生產過程中的廣泛應用有效地解決了這一問題。軟傳感器的核心是建模,通常分為基于機理的建模和基于數據驅動的建模[2]。基于機理的建模由于需要特定的化學原理而不適用于復雜的非線性過程,而基于數據驅動的建模是通過測量易于測量的變量(輔助變量),建立輔助變量和難以測量的變量之間的數學模型,從而實現用輔助變量來估計難以測量的變量的目的[3-5]。該方法不需要了解太多的過程知識,因而被廣泛應用[2]。常用的基于數據驅動的建模方法有主成分回歸(principal component regression,PCA)、偏最小二乘回歸(partial least squares,PLS)、人工神經網絡(artificial neural networks,ANN)和支持向量機(support vector machines,SVM)等。
即時學習是非線性過程中常見的軟測量建模方法[6]。相比于全局模型和傳統的局部模型,即時學習能夠很好地解決工業過程中的強非線性和時變性。即時學習通過從歷史數據中,找到與查詢變量模態最匹配的數據樣本并進行局部建模,從而得到較高的預測精度[7]。因此,相似性樣本的選擇是即時學習能否取得良好的建模效果關鍵因素。相似性樣本的選擇往往基于數據樣本之間的距離計算,忽略了變量之間的關系。文獻[8]探討并驗證了基于回歸系數和相關系數的兩種變量加權方法能夠取得更好的預測結果。在計算距離后,還需要指定樣本的權重值。而不同的權重函數,所得到的權重值不同。同一權重函數的權重值指數的次數不同,模型的預測結果就會不同。因此,本文將探討不同權重函數和權重系數的指數次數對模型預測精度的影響。
本文結構安排如下。第1章簡單介紹了與輸出相關的給變量加權的算法的研究;探討了基于與輸出相關的變量權重的不同階次。第2章分別通過一個數值例子和一個實際例子的仿真,分析預測結果。第3章探討了基于與輸出相關的變量的不同權重函數對預測精度的影響,分別進行了數值和實際工業過程仿真。第4章給出了本文的結論。
傳統的即時學習方法在進行變量選擇時往往只考慮了輸入變量之間的關系,而忽略了輸入變量和輸出變量之間的關系。變量選擇相關性的重要程度往往直接影響預測結果的準確性。文獻[8]總結了兩種與輸出相關的變量加權的方法。研究表明,將輸入變量和輸出變量之間關系考慮在內的變量的選擇方法的預測精度明顯高于傳統的建模方法。
基于即時學習與輸出相關的變量加權的算法是在傳統的局部加權最小二乘(locally weighted partial least squares,LW-PLS)算法的基礎上考慮了輸入變量和輸出變量之間的關系。一種方法是用回歸系數作為權重給變量加權,另一種方法是用相關系數作為權重給變量加權。這兩種算法的詳細步驟見文獻[8]。在LW-PLS中,輸入數據XN×M和輸出數據YN×L儲存在歷史數據庫中。當需要預測查詢變量xq的輸出時,首先要計算查詢變量xq和數據庫中的樣本數據xn(n=0,1,…,N)的相似性,然后局部PLS將會用來進行輸出預測。相似性樣本ωn的選擇通常采用歐氏距離,而基于與輸出相關的相似性樣本的選擇是在歐氏距離的基礎上進行計算的,具體如下所示[8]。
(1)
(2)
Θ=diag(θ1,θ2,…,θM)
(3)
式中:φ為局部調節參數,通過調節φ來確定最優預測精度;N為數據庫中數據樣本的數量;M和L分別為輸入變量和輸出變量的維度;Θ為權重矩陣;θM為M維輸入變量的權重系數;diag為取對角矩陣。
在基于與輸出相關的給變量加權的基礎上,探討了基于與輸出相關的變量權重的不同階次對預測精度的影響。具體算法步驟如1.1節和1.2節所示。
① 標準化輸入數據XN×M和輸出數據YN×L并計算歐氏距離。
(4)
式中:Θ矩陣為最原始的單位矩陣。
②應用局部回歸方法,獲得最初的回歸模型,詳細步驟參見文獻[9]。
(5)
③計算新的權重矩陣Θ。
Θ=diag[θ1(0)p,θ2(0)p,…,θM(0)p]
(6)
(7)
式中:p為指數的偶數次;dn(1)為根據輸入變量與輸出變量之間的相關性程度來計算得到的距離值;Θ的元素還可以取回歸系數的絕對值[10],即指數次數為0。
④再次采用局部回歸方法,獲得新的回歸模型:
(8)
⑤計算均方誤差M。
(9)
⑥改變指數次數p,轉至執行步驟③,直至p=10。
①標準化輸入數據XN×M和輸出數據YN×L,并計算歐氏距離。
(10)
式中:Θ為最原始的單位矩陣。
②根據歐氏距離,選擇相關局部數據點。
d≤c
(11)
式中:c為一個可調常數,c越大,選擇的局部數據點越多。
③計算輸入變量和輸出變量的相關系數ρyxM。
④計算新的權重矩陣Θ。
(12)
(13)
⑤應用局部回歸方法,獲得回歸預測模型。
(14)
⑥計算均方誤差M。
(15)
⑦改變指數次數p,轉至執行步驟④,直至p=10。
本節主要探討了用回歸系數和相關系數的不同階次作為權重時,對預測結果的準確度的影響。
相似性測量在即時學習中起著非常重要的作用。與輸出相關的相似性的選擇能明顯提高模型的預測精度[8]。權重系數的階次不同,樣本數據在模型中所占比重不同,對模型的預測結果就不同。換言之,與查詢變量和輸出變量相關性越強,樣本數據的權重越大;與查詢變量和輸出變量相關性越弱樣本數據,權重越小,模型的預測精度就越高。
本節分別通過一個仿真例子和一個實際工業例子,探討權重階次對模型精度的影響。
2.2.1 數值仿真
本例一共產生了六個輸入變量。六個獨立變量均由隨機高斯分布隨機產生,輸出為前三個輸入變量的非線性函數關系。輸入和輸出的具體設置如下[9-11]:


圖1 兩種算法在數值例子中的預測結果Fig.1 Prediction results of the two algorithms in numerical examples
從圖1可以看出,不論是基于相關系數,還是回歸系數的給變量加權的算法中,取權重系數的4次冪作為權重都能夠取得最好的預測結果。仿真證明,并不是指數的次數越高,預測的結果就越好。指數的次數為4是最適合該數值例子的指數次數。
2.2.2 硫回收單元
硫回收單元是煉油廠中控制硫排放的重要裝置[12]。在硫回收單元中,酸性氣體流在排放到大氣之前需要去除環境中的污染物,同時,要對硫元素進行回收[7]。硫回收單元的基本結構流程如圖2所示。

圖2 硫回收單元的基本結構流程圖Fig.2 Basic structure flow chart of sulfur recovery unit
為了控制過程空氣的進料比和檢測過程的運行,需要對平臺排放尾氣中的H2S和SO2氣體濃度進行測量分析。然而,在線分析儀的可靠性會隨著時間的推移而降低,并且設備的維護和檢修也耗時耗力。所以,軟測量技術可以建模,以預測這兩種氣體的濃度。為了測量這兩種氣體的濃度,5個輔助輸入變量分別為MEA區氣體流量、MEA區第一空氣流量、MEA區第二空氣流量、SWS區氣體流量和SWS區空氣流量[12],輸出變量分別為H2S濃度和SO2濃度。
本節以H2S的濃度為例,一共從硫回收單元的過程中采集了800個數據。兩種算法在實際過程中的預測結果如圖3所示。

圖3 兩種算法在實際過程中的預測結果Fig.3 Prediction results of the two algorithms in the actual process
從圖3可以看出,在硫回收單元中,由于過程的復雜性和非線性,在測量過程中也可能存在異常值。在基于相關系數的給變量加權的方法中,權重系數的絕對值變量加權的預測結果最好。在基于回歸系數給變量加權的方法中,權重系數的指數次數為2的預測結果最好。模型的預測結果與權重系數的指數次數有關系,但并不是指數次數越高越好。在異常值比較多的復雜非線性過程中,取權重系數的絕對值或者指數次數較低的情況下的預測結果反而更好。
在LW-PLS中,相似性樣本的選擇是即時學習的關鍵問題,進行相似性樣本的選擇時不僅要考慮輸入變量之間的相關性,還要考慮輸入變量和輸出變量之間的相關性。本節所用的距離計算公式為歐氏距離,給變量加權的方法為基于相關系數的加權方法和基于回歸系數的加權方法。而在進行距離計算后,往往還要指定各個樣本的權重。權重函數一般為距離的函數,并且隨著距離的增大,歷史樣本和查詢樣本之間的相似性應該越來越小,所以其權重系數也應該越來越小。接下來將探討一些常見的權重函數對模型預測精度的影響。
距離反映了歷史樣本和查詢樣本之間的相似性大小。權重函數根據距離的大小來分配權重,使得與查詢變量相似性大的歷史樣本的權重大,與查詢變量相似性小的歷史樣本的權重小甚至趨于零,從而減少無關樣本數據的影響、提高模型的預測精度。常見的權重函數圖像如圖4所示。

圖4 常見的權重函數圖像Fig 4 A common image of a weight function
在本節中,分別通過一個仿真例子和一個實際工業例子來探討不同的權重函數對模型預測精度的影響。
3.2.1 數值仿真
本數值例子采用文獻[11]中所用例子,輸入輸出都有時變特征。本例共產生400個采樣數據。其中,每個樣本包含6個輔助變量x1~x6和一個輸出變量y。前3個輔助變量分別由3個隱變量z1、z2和z3生成,三隱變量均隨機產生于均勻分布區間[0,1]。輔助變量的具體設置如下[12]:
(16)
式中:N(0,0.1)為均值為0、方差為0.1的高斯正態分布。
為了仿真工業過程中的輸入輸出時變特性變化,將輸出變量定義為:
(17)
從式(17)可以看出,在這個數值實例中,過程存在變量關系非線性和特性時變等特征。
為了建立模型和輸出預測,本例中共采集了400個數據。其中,200個數據作為歷史數據用來建立模型,另外200個數據用來進行模型的驗證。表1給出了數值例子中4種權重函數在不同算法中的均方誤差。

表1 數值例子中4種權重函數在不同算法中的均方誤差Tab.1 Mean square error of the four weight functions in different algorithms in the numerical examples
從表1可以看出,對于具有時變特性的非線性過程,無論是傳統的LW-PLS算法,還是改進的基于回歸系數給變量加權的LW-PLS算法,權重函數為反比例函數的模型的預測精度都要高于其他三種權重函數的模型。這可以說明給權重函數為反比例函數的模型設置合適的參數在一定程度上可以解決過程時變特性的問題。而在基于相關系數的給變量加權的LW-PLS中,高斯函數作為權重函數的模型的預測結果要好于其他函數作為權重函數的模型。
3.2.2 硫回收單元
硫回收單元的基本原理如2.2.2節所示。本文以H2S的濃度為例。為了建立和驗證模型,一共從過程中采集了800個數據。其中500個數據用來進行模型建立,300個數據用來進行模型驗證。反復調節模型參數r,直至取得最佳的預測結果。表2給出了硫回收單元中4種權重函數在不同算法中的均方誤差。

表2 硫回收單元中4種權重函數在不同算法中的均方誤差Tab.2 Mean square error of four weight functions in different algorithms in sulfur recovery unit
如表2所示,在硫回收單元中的預測結果與數值例子中的一致,無論是在傳統的LW-PLS,還是基于回歸系數給變量加權的LW-PLS中,權重函數為反比例函數模型的算法預測精度都高于其他算法。而在基于相關系數給變量加權的LW-PLS中,高斯函數為權重函數的算法在這幾種權重函數中仍然是預測精度最高的。
本文在基于與輸出相關給變量加權即時學習的算法基礎上,分別探討了同一權重函數權重的不同階次和不同權重函數對模型的預測精度影響。模型的預測結果與權重系數的指數次數存在一定的關系。在一定范圍內,權重的指數次數變高,模型的預測精度可能會提高。但這并不意味著指數次數越高越好。在異常值比較多的復雜非線性過程中,取權重系數的絕對值或者指數次數較低的情況下的預測結果反而更好。
對于常見的幾種權重函數,在具有時變特性的復雜非線性工業過程中,傳統的LW-PLS和基于回歸系數給變量加權的LW-PLS中,權重函數為反比例的模型的預測精度都要高于其他幾種權重函數的模型,說明給權重函數為反比例函數的模型在一定程度上可以解決過程時變特性的問題。而在基于相關系數的給變量加權的LW-PLS中,高斯函數作為權重函數的模型的預測結果要好于其他函數作為權重函數的模型。