秦慶濤,顧海航
(1.上海理工大學機械學院,上海 200093;2.鹽城工學院機械學院,江蘇 鹽城 224000)
522636581@qq.com;2237298110@qq.com
汽油是小型車輛的主要燃料,而汽油燃燒產生的尾氣對大氣環境有嚴重影響。辛烷值(RON)是反映汽油燃燒性能的最重要指標,RON的降低會提高經濟效益。化工過程中的建模大多是通過數據關聯或機理建模的方法來實現的,由于制備汽油工藝過程的復雜性及設備的多樣性,其操作變量(控制變量)之間具有高度非線性和相互強耦聯的關系,而且傳統的數據關聯模型中變量相對較少,機理建模對原料的分析要求較高,對過程優化的響應不及時,因此效果并不理想。針對RON損失的優化問題,本文首先基于隨機森林變量重要性評分(VIM)模型進行數據降維,然后對降維后的數據采用二次特征篩選方法篩選出10 個建模主要變量,綜合考慮變量之間非線性和相互強耦聯性,最后基于多變量自回歸對數線性方程建立RON損失預測模型。
本文研究涉及325 個數據樣本,每個數據樣本包括若干個原料性質、待生吸附劑性質、再生吸附劑性質、產品性質等變量及另外354 個操作變量,一共有367 個變量,這里我們利用隨機森林來對數據進行特征篩選。

通過以上建立的模型,我們對隨機森林模型參數的整個計算過程進行分析后,不斷調整模型的各項參數配置,如表1所示。

表1 模型的各項參數配置Tab.1 Parameters configuration of the model
為了進一步提升隨機森林評分效果,我們通過設置特征加權系數使隨機森林回歸達到一個考慮更多要素程度的狀態。最終我們確定權重在0.004以上的有33 個變量,如表2所示。

表2 模型的主要變量權重系數Tab.2 The main variable weight coefficients of the model
為了更加深入地分析這些變量的重要性評分,我們使用隨機森林算法測試數據并列出評估結果表,如表3所示,該表主要包括MSE、MAE、R和MAPE等。

表3 隨機森林算法測試數據評估結果表Tab.3 Result table of random forest algorithm test data evaluation
目前并沒有特定的降維方法解決本題復雜的數據問題,雖然大批學者也紛紛提出了對VIM進行改進或者新的計算VIM的方法,但并沒有從根本解決VIM在變量篩選時出現的問題。因此,針對操作變量之間相互強耦聯性,使用非參數Spearman(斯皮爾曼)秩和檢驗法及Granger(格蘭杰)因果關系檢驗法對候選的33 個因素與RON進行檢驗,以確定主要變量。
在兩組數據均沒有重復觀測值的情況下,Spearman相關系數的公式為:




采用變量進行檢驗,得到RON與各變量間的Spearman檢驗結果,如表4所示。

表4 Spearman檢驗結果(部分結果)Tab.4 Results of Spearman test results (partial results)
通過Spearman檢驗,我們剔除氮氣進裝置流量、氫油比等23 個變量,保留剩下的10 個變量,分別是燃料氣進裝置流量、除氧水進裝置流量、E-101D殼程出口管溫度、D-125液位、D-123壓力、預熱器空氣出口壓力、R-101下部床層壓降、P-101B入口過濾器差壓、ME-112過濾器壓差以及精制汽油出裝置硫含量。所以,這10 個變量將作為影響RON損失的主要因素或變量。
對上述10 個變量與RON之間的因果關系進行辨別與檢驗。為此,本文運用Granger因果關系檢驗法對各變量及RON之間進行檢驗,結果表明各數據皆為平穩性數據。
在給定顯著性水平a=5%的情況下,燃料氣進裝置流量是RON的原因;除氧水進裝置流量是RON的原因;E-101D殼程出口管溫度是RON的原因;ME-112過濾器壓差是RON的原因;D-125液位是RON的原因;D-123壓力是RON的原因;預熱器空氣出口壓力是RON的原因;R-101下部床層壓降是RON的原因;P-101B入口過濾器差壓是RON的原因。其中值得注意的是,硫含量與RON互為因果,即硫含量是RON的原因,且RON是硫含量的原因。假設上述說法不成立,并逐一進行反證。Granger檢驗結果如表5所示。

表5 Granger因果檢驗結果Tab.5 Results of Granger causality test
為了考查各主要變量相對RON的重要程度,本文將接著對通過Spearman檢驗的變量進行路徑分析。
通過使用Spearman相關系數檢驗,可以得到經過篩選的影響RON的10 個變量。但是這些變量之間存在潛在的相互關系和層次關系,所以這里我們使用路徑分析方法來確定各變量之間的多層因果關系及其相關強度。

借助一個線性模型

可用標準化的使用方法和常用記號寫為:



圖1 路徑圖Fig.1 Path diagram

圖2 偽相關路徑圖Fig.2 Pseudo correlation path diagram
這里我們允許在這個關系中再次出現誤差,利用標準化變量,上面路徑圖的線性模型成為:

路徑分析包括兩個主要部分:(1)路徑圖;(2)分解相關系數為簡單路徑和負荷路徑的路徑系數之和。這些特征使我們能夠直接或簡潔地去度量一個變量對另一個變量的效應。
以RON與各個主要變量的相關系數矩陣為基礎,建立路徑分析模型,得到路徑如圖3所示。

圖3 RON與各變量的相關路徑圖Fig.3 Correlation path diagram of RON and each variable
由于篇幅有限,本文在此處列舉兩個模式的計算結果,如表6和表7所示。

表6 RON路徑計算結果Tab.6 Results of RON path calculation

表7 硫含量路徑計算結果Tab.7 Results of sulphur content path calculation
通過隨機森林獲取了2017/4/17 8:00:00—2020/5/26 8:00:00影響RON的33 個操作變量的基本統計數據,并對數據進行了處理。通過對問題的具體分析及合理的假設,先使用非參數的Spearman秩和檢驗法分別對RON與各變量的相關性進行檢驗,將不能通過檢驗的變量剔除,10 個變量通過非參數Spearman秩和檢驗。
能通過數學上的非參數Spearman秩和檢驗,影響RON的主要變量分別為燃料氣進裝置流量、除氧水進裝置流量、E-101D殼程出口管溫度、D-125液位、D-123壓力、預熱器空氣出口壓力、R-101下部床層壓降、P-101B入口過濾器差壓、ME-112過濾器壓差及精制汽油出裝置硫含量。本文利用路徑分析的方法對變量RON的相關程度進行了分析,分析的結果為:精制汽油裝置中的含硫量及燃料進氣裝置的流量對RON都有顯著的影響。
在考慮變量間互相影響的情況下,本文建立了以時間遞推的差方方程。


上述這組方程組是本文的通用模型,但由于該模型的建立需要依賴差分方程中合理系數的確定,為了確保模型沒有明顯誤差,采取最小二乘法求取系數的近似精確解,并對模型的可行性進行論證。

所以x是方程的最小解。


于是,根據以上得到的數據,利用最小二乘法就可以得到模型中所有系數,這樣便可以得到完整的模型。
(2)模型系數求解算法
由上文的分析論證,可以得到計算差分方程組系數的方法。由此,下文給出計算差分方程系數的計算公式和步驟:
對于每個方程的求解有相同的方法,每一次計算一個差分方程的系數,步驟如下:
Step 1:根據搜索得到的數據,可以得到不同時刻不同變量的數值矩陣、。
Step 2:根據第一步得到的數據建立超定方程組,使用MATLAB軟件求解差分方程組的系數,計算系數公式為:

Step 3:記錄計算結果=+1,進入下一個差分方程組的計算。判斷是否<,若是則轉入Step 1,否則轉入Step 4。
Step 4:輸出結果,作圖比較擬合效果。
計算差分方程組算法的流程如圖4所示。

圖4 系數計算流程圖Fig.4 Flowchart of coefficient calculation
通過以上算法,編寫MATLAB程序就可以實現差分方程系數的求解。



注意:對于其他變量對應的方程,>的概率均大于0.01。


表8 方程組的系數矩陣Tab.8 Coefficient matrix of the equations
為了檢驗擬合的效果,我們采用MATLAB編程來實現2017/4/17 8:00:00—2020/5/26 8:00:00的所有實際數據與擬合數據的比較。擬合圖如圖5—圖15所示。

圖5 RON真實值與預測值的擬合情況比較Fig.5 Comparison of fitting between real value and predicted value of RON

圖6 燃料氣進裝置流量真實值與預測值的擬合情況比較Fig.6 Comparison of fitting between real value and predicted value of the flow rate of the fuel gas inlet device

圖7 除氧水進裝置流量真實值與預測值的擬合情況比較Fig.7 Comparison of fitting between real value and predicted value of the flow rate of deoxygenated water inlet device

圖8 E-101D殼程出口管溫度真實值與預測值的擬合情況比較Fig.8 Comparison of fitting between real value and predicted value of E-101D shell side outlet pipe temperature

圖9 D-125液位真實值與預測值的擬合情況比較Fig.9 Comparison of fitting between real value and predicted value of D-125 liquid level

圖10 D-123壓力真實值與預測值的擬合情況比較Fig.10 Comparison of fitting between real value and predicted value of D-123 pressure

圖11 預熱器空氣出口壓力真實值與預測值的擬合情況比較Fig.11 Comparison of fitting between real value and predicted value of air outlet pressure of preheater

圖12 P-101B入口過濾器差壓真實值與預測值的擬合情況比較Fig.12 Comparison of fitting between real value and predicted value of differential pressure of P-101B inlet filter

圖13 R-101下部床層壓降真實值與預測值的擬合情況比較Fig.13 Comparison of fitting between real value and predicted value of pressure drop in lower bed of R-101

圖14 ME-112過濾器壓差真實值與預測值的擬合情況比較Fig.14 Comparison of fitting between real value and predicted value of differential pressure of ME-112 filter

圖15 精制汽油出裝置硫含量真實值與預測值的擬合情況比較Fig.15 Comparison of fitting between real value and predicted value of sulfur content in refined gasoline outlet unit
通過MATLAB計算獲得的RON,以及10 個主要變量的實際值與預測值之間的誤差率都較小,分別為4.308%、1.206%、3.112%、2.203%、1.006%、1.018%、2.106%、0.890%、3.019%、1.109%和3.090%。故我們可以看出,通過建立RON的多變量自回歸VAR模型得到的方程組的解擬合效果非常好。
針對RON損失的優化問題,本文采用二次特征篩選方法,從367 個操作變量中篩選出10 個建模主要變量,綜合考慮變量之間非線性和相互強耦聯性,最后基于多變量自回歸對數線性方程建立了RON損失預測模型,通過該模型預測的汽油精制過程后,各變量的真實值和預測值擬合度高,可見模型精度很高。