顧俊發,許明陽,馬方圓,林治宇,紀成,王璟德,孫巍
(1 北京化工大學化學工程學院,北京100029; 2 中化泉州石化有限公司,福建泉州362103)
在化工生產中,某些關鍵變量可以直接或間接地反映過程的運行狀態,對于操作人員判斷裝置的運行情況十分重要。但受測量手段或儀表故障等因素的影響,這些關鍵變量可能出現無法實時獲取或讀數異常的問題。此時,軟測量技術可以通過提取歷史數據中關鍵變量與其他變量間的關系,建立回歸模型,實現對關鍵變量的預測[1]。在建立軟測量模型時,輔助變量和回歸方法的選取會直接影響到模型的預測效果[2]?;み^程中變量眾多,如果將所有相關變量全部作為輸入建立軟測量模型,不僅會導致數據的冗余,增加模型運算量,也會造成模型的預測準確率降低[3]。目前常利用Person 系數等線性相關度量準則分析過程變量與軟測量目標變量間的關系,選擇合適的輔助變量[4],然后利用線性回歸模型提取變量間關系,建立軟測量模型,實現對關鍵變量的實時預測。常見的線性回歸方法有嶺回歸、偏最小二乘法等[5],其優點在于計算簡單且可解釋性強,對穩態過程具有較強的適用性[6]。但在實際化工生產中,裝置并非一直處于穩態過程,而且絕大多數變量間的關系十分復雜,為非線性關系。相比于利用線性相關度量選擇變量建立線性模型,如果能夠在綜合考慮變量間線性和非線性關系的基礎上建立軟測量模型,則應能夠實現對目標變量更好的預測。
最大信息系數(maximal information coefficient,MIC)是一種基于信息論的度量標準,利用互信息和網格劃分的方法來計算變量間的相關度,同時考慮了變量間的線性和非線性關系,具有適用性廣、計算簡單等優點,適用于非線性回歸模型的變量選取。同時,支持向量回歸(support vector regression,SVR)方法是一種常用的非線性回歸方法,在結構風險最小化原則基礎之上發展起來,能夠根據數據信息在模型學習能力和復雜度之間尋求最優性能,以獲得良好的推廣能力,有較強的泛化能力,能夠對目標變量做出較為準確的預測[7]。
基于此,本文提出了一種基于MIC 的支持向量回歸軟測量方法,利用最大信息系數度量過程變量與軟測量目標變量間的相似度,選擇合適的輔助變量,避免了全部變量作為輸入所造成的數據冗余。在此基礎上,利用支持向量回歸方法提取輔助變量與軟測量目標變量間的關系,建立軟測量模型,實現對軟測量目標的預測。該方法被應用于存在儀表故障的某催化重整裝置進料換熱器熱端壓降的軟測量中,結果表明該方法可以有效地實現對壓降的預測,實現對儀表故障時的數據校正。
最大信息系數是Reshef 等[8]于2011 年首次提出的一種基于互信息理論的最大信息系數,它可以有效監測變量間的線性或非線性關系,是較好的衡量變量間相關性的指標。
1.1.1 常見相關性度量方法對比 常見的相關性度量方法及其特點如表1所示,從表中不難看出,與其他常見的相關性度量方法相比,MIC 方法具有適用范圍廣、魯棒性強、計算復雜度低等優點[9-11]。

表1 相關性度量方法Table 1 Correlation measurement algorithm
1.1.2 MIC 原理 MIC 利用互信息和網格劃分的方法來進行計算,其中互信息可以看作是一個變量中包含的關于另一個變量的信息量,互信息計算公式如式(1)所示:

其中,p(x,y)為x,y之間的聯合概率。給定一個有限的有序數據集,如式(2)所示:

將集合D 中x,y 構成的散點圖進行(a,b)的網格劃分,然后查看當前的散點在各個方格的落入情況,分別計算每個網格中的互信息,網格的劃分方式還有很多種,選取不同方式下互信息的最大值,得到最終的MIC,計算公式如式(3)所示:

其中,a, b 是在x, y 方向上劃分格子的個數,B為網格劃分的上限值。
支持向量回歸是一種基于統計學理論的機器學習方法,在解決非線性問題上有很好的效果,被廣泛應用于工業界各個領域[12]。
1.2.1 常見軟測量方法比較 基于數據驅動的軟測量方法主要包括線性方法與非線性方法兩大類。常見的線性方法包括偏最小二乘法(PLS)、嶺回歸方法(Ridge),其優點是計算簡單,可解釋性強,適用于穩態過程[13-17]。常見的非線性方法包括支持向量回歸(SVR)、神經元網絡等,其優點在于能夠適用于復雜的非線性過程[18-20]。常見的軟測量回歸方法及其優缺點如表2 所示,化工過程中經常伴隨著狀態調整,為非穩態過程,存在著線性與非線性關系。支持向量回歸具有非線性優勢,且有較強的泛化能力,優勢明顯。
1.2.2 SVR 原理 對于如式(4)所示給定訓練集樣本M,希望得到一個回歸模型使得f(x)與y 盡可能接近,w、b是待確定的回歸參數,假設能容忍f(x)與y之間最多有ε 的偏差,SVR 問題可以轉化為如式(5)所示:

其中C 是正則化參數,le是不敏感損失函數,如式(6)所示。

引入松弛變量ξi和ξ*i后,式(5)可重寫如式(7)所示。

引入拉格朗日乘子μi后,將其轉化為對偶問題。

令L 對w, b,ξ,ξ*的偏導數為0,即可對w 和b 進行確定[21]。得到最終的SVR解形式如式(9)所示:

1.2.3 核函數引入 上述情況是線性可分的,對于線性不可分情況,可以將樣本從原始空間映射到一個更高維的特征空間,使得樣本在這個空間線性可分,但是特征空間維數可能很高甚至是無窮維的,直接計算是十分困難的,為了避免這個障礙,引入了核函數[22-23]

通過核函數就可以用原始空間數據的計算結果來計算特征空間上的內積,避免了上述的障礙。這樣SVR解形式就可以改寫為式(11)所示形式。

基于最大信息系數的支持向量回歸(MICSVR)算法框圖如圖1 所示,首先通過對原始數據各變量間MIC 值的計算,確定與目標變量相關性較強的輔助變量。在確定輔助變量之后將數據歸一化劃分為訓練集與測試集,接著對模型進行訓練優化模型參數,得到最終模型并對測試集進行測試。

表2 常見軟測量方法Table 2 Soft measurement method

圖1 MIC-SVR算法框圖Fig.1 The diagram of MIC-SVR algorithm
1.4.1 決定系數(coefficient of determination,R2) 在回歸模型中用于評估預測值和實際值的符合程度, R2越接近于1,符合程度越高[24],計算公式如式(12)所示:

其中,f(x)是預測值,y 是實際值,y*是實際值的平均值,RSS是殘差平方和,TSS是總平方和。
1.4.2 均方根誤差(root mean square error,RMSE) 用來衡量觀測值同真值之間的絕對偏差[25],計算公式如式(13)所示:

1.4.3 相對誤差率(relative error rate,S) 用于衡量觀測值與真實值之間的相對偏差[26],計算公式如式(14)所示:

其中,f(x)是預測值,y 是實際值,y*是實際值的平均值。
國內某大型石化公司的催化重整裝置,重整進料換熱器的熱端壓降可以間接地反映出換熱器內部的結垢情況,當換熱器內部的結垢多時則需要進行在線沖洗,如果不能夠及時在線沖洗,輕則會影響換熱效率,增加企業的運行成本,嚴重時可能會導致生產安全事故的發生[27-28]。但在實際生產中,測量儀表可能存在儀表錯誤的情況,這會導致操作人員無法判斷換熱器的運行狀態,因此對于換熱器壓降的實時預測以及及時的數據校正顯得尤其重要。因此考慮對熱端壓降進行MIC-SVR 軟測量模型的建立。
首先根據實際工業過程選取了27 個與換熱器熱端壓降相關的變量,計算各個變量與重整進料換熱器熱端壓降的MIC值,如表3所示。

表3 最大信息系數計算結果Table 3 The result of MIC
取各個計算結果的均值,將MIC 值大于均值的變量篩選出來,共得到12個變量,如表4所示。
2.2.1 模型參數 模型參數主要包括兩部分:一個是核函數參數;二是超參數懲罰因子C 和不敏感損失系數ε[29-30]。
2.2.2 參數的確定 首先將所選數據集進行歸一化,將歸一化的數據按照7∶3 的比例劃分為訓練集和測試集。
本次所選用的核函數是高斯核函數,如式(15)

表4 輔助變量表Table 4 Auxiliary variable table
所示:

其本身參數只有一個δ,構造一個從0.01~10 的長度為20 的等比數列,探究δ 值在哪個范圍內測試集效果較好,結果發現δ 在0.1~1 之間效果最好,再構造一個從0.1~1的長度為20的等差數列進行更為精準的參數確定,得到最終的δ=0.24。
接著對模型的超參數進行確定,將懲罰因子C和不敏感損失系數ε進行排列組合確定最佳的超參數組合,最終確定C=6.952,ε = 0.015。由此熱端壓降的MIC-SVR軟測量模型建立完畢。
將測試集數據代入建立好的軟測量模型,對壓降進行預測,得到預測值與真實值情況如圖2所示,R2=0.8569,RMSE=0.2770,S=0.25%,擬合效果較好。

圖2 測試集預測結果Fig.2 The prediction of test data
采用相同的數據集,不同的建模方法對比結果如表5 所示,從表中可以看出SVR 預測結果要好于傳統的PLS 方法,在采用了MIC 方法選取輔助變量之后PLS和SVR預測結果均有顯著提升。
在實際生產過程當中,熱端壓降出現儀表異常的情況,但儀表讀數的準確性對于整個生產過程顯得尤為重要,現對儀表異常情況進行軟測量并進行數據校正,保證生產過程數據的準確性。如圖3 所示為儀表發生超量程異常的情況,此預測結果可以實現對儀表數據的校正。

表5 不同算法預測結果Table 5 The prediction of different algorithms

圖3 儀表異常情況預測結果Fig.3 The prediction of faulty sensor
本文針對實際過程當中,由于儀表故障而無法實時獲取數據的問題。提出了MIC-SVR 軟測量方法,并與線性方法PLS進行比較,結果表明非線性的SVR 更適合于復雜的工業過程。另外與未經變量選擇的模型也進行了對比,結果表明經過變量選擇的模型優于未經變量選擇的模型,說明在建模過程中進行變量選擇可以提高模型的泛化能力和降低模型的復雜度。最后將MIC-SVR 應用于存在儀表故障的某催化重整裝置進料換熱器熱端壓降的軟測量中,實現了對異常儀表的數據校正。
符 號 說 明
b——閾值
C——懲罰因子
f(x)——預測值
I——互信息
MIC——最大信息系數
m——觀測值數量
p(x,y)——x,y之間的聯合概率
R2——決定系數
RMSE——均方根誤差
RSS——殘差平方和
S——相對誤差率
SVR——支持向量機回歸
TSS——總平方和
w——權重向量
y——真實值
α,μ——拉格朗日乘子
ε——不敏感損失系數
ξ——松弛向量