楚慶玲,平振東,于明加,唐 鑫
(長安大學,陜西 西安 710064)
汽油是目前小型汽車使用最多的燃料,汽車尾氣排放對空氣污染尤為嚴重。我國也高度重視汽車尾氣排放問題[1]。汽油的清潔對于環境保護尤為重要。其中,烯烴是汽油中的高辛烷值組分,辛烷值是交通工具所使用的燃料抵抗震爆的指標。為解決車用汽油調和問題,在盡可能保持汽油辛烷值的同時,降低汽油中的硫和烯烴含量,為應對國Ⅵ車用汽油標準問題提供一定的指導[2]。
機器學習的迅速發展為建立學習模型提供了許多有效的算法[3-10]。周小偉等人[3]采用多元線性回歸和BP神經網絡建立了復雜反映辛烷值的預測模型;經測試,BP神經網絡的性能較好。朱曉等人[4]研究了化學物質的結構與性能之間的關系,利用支持向量機算法建立了基于分子結構的辛烷值預測模型;結果表明,該模型具有較好的預測能力,為烷烴馬達法辛烷值的預測提供了新的思路。孫忠超等人[5]將改進的支持向量機和BP神經網絡模型應用于烯烴、烷烴的數據預測,建立了汽油中環烷烴和芳烴辛烷值預測的數學模型。計算結果表明,在樣本較少的情況下,BP神經網絡的預測性能略優于改進的支持向量機算法;當樣本數增加到40個時,兩者的性能有所改善,且沒有顯著差異。
本文采用最大信息系數篩選特征變量,選取代表性好、獨立性高的主變量,采用徑向基函數(RBF)神經網絡預測辛烷值損失,并通過實驗驗證算法的適用性和可行性。
本文采用中石化高橋石化實時數據庫和LIMS實驗數據庫中的數據,收集2017年4月至2020年5月近三年共354個操作位點數。2017年4月至2019年9月,數據采集頻次為3 min/次,后續時間使用采集頻次為6 min/次。原料、產品和催化劑數據來自于LIMS實驗數據庫,數據時間范圍為2017年4月至2020年5月。其中原料及產品的辛烷值是重要的建模變量,該數據采集頻次為每周兩次。
原始數據中包含大量的缺省值和異常值。缺省值處理過程中,對于只含有部分時間點的位點,如果數據中殘缺部分較多,且無法補充,則刪除;若325個樣本中位點數據全部為空值,則刪除;對于部分數據為空值的位點,用其前后兩個小時數據的平均值代替。異常值處理過程中,根據拉依達準則(3σ準則)進行異常值的處理。首先對被測量變量進行等精度測量,得到x1, x2, ..., xn,計算出被測變量的算數平均值x:

以及剩余誤差vi:

按照貝塞爾公式算出標準誤差σ:

若某個測量值xb的剩余誤差vb(1≤b≤n)滿足:

最終剔除含有粗大誤差值的異常值xb。
在預處理的數據中,兩小時內的平均值與目標辛烷值對應,其中出現大量的次要數據與冗余數據,且各個操作變量之間具有高度非線性和相互強耦聯的關系,所以本文選用可以處理非線性數據的相關性分析—最大信息系數(MIC),衡量兩個變量X和Y之間的關聯程度,即線性或非線性的強度,通過相關性的強弱完成數據的降維操作。

圖1 數據降維思路結構圖
1.3.1 最大信息系數(MIC)
最大信息系數是一種不需要對數據分布做任何假設的評估變量間函數關系和統計變量的相關性算法[7]。給定有序對數據集D={(xi, yi), i=1, 2, ..., 3},如果將X軸劃分出x個格子,Y軸劃分為y個格子,得到一個x×y的網格劃分G,將數據集D中的點落入到G中格子的比例看作其概率分布D|G[8]。對于一個固定的數據集D,不同的網格劃分則得到不同概率分布D|G,給出最大化信息如下:

對式(5)進行歸一化處理,以便進行不同的維數之間的比較,固定取值區間[0,1],則有:

此時,定義數據集D中兩個變量x、y的MIC公式如下:

其中B(n)表示需要搜尋的網格數量,一般設定B(n)=n0.6。
1.3.2 數據耦合性
對數據中的354個操作變量分別做MIC分析,得到各個操作變量之間對應的相關性系數。變量之間的相關性系數越大,證明變量之間的相關性越強。重點研究產品性質中硫含量和研究法辛烷值(RON)與其他變量的相關性系數大小關系,將其分別對應的變量進行相關性系數大小的排序,選取相關性系數強度在前100的變量,完成數據的初次降維。
將一次降維后的變量進行重新分析,進行二次篩選,如圖2所示。變量二次降維過程重點分析相關性系數相近的操作變量之間是否存在高度耦合的情況。通過分析操作變量之間的相關性系數大小,確定變量之間的耦合程度。若相關性系數較高,則說明數據之間存在高度耦合的情況,需要對其進行分類、篩選,在同一類型的數據中選取具有代表性的操作變量作為主要操作變量。根據這個原則,對一次篩選的100個變量進行相關性耦合度分析;將相關性系數高于0.3作為篩選主要變量的依據,并對數據進行提取,得到最終的結果。

圖2 數據降維流程
輸入變量具有高度非線性和強耦合性,因此適合建立的是一個非線性數學模型;又因為實際數據量較大,所以本文選擇徑向基函數(RBF)神經網絡建立辛烷值損失預測模型。
1.4.1 徑向基函數(RBF)神經網絡
RBF神經網絡通常只有三層,包含輸入層、徑向基函數神經元的隱含層和輸出層。圖3所示是一個有多輸入、單輸出的RBF神經網絡拓撲結構。

圖3 RBF神經網絡拓撲圖
第一層輸入層:將外部數據輸入到神經網絡中,其節點是由信號源節點組成。設X=(x1, x2, ..., xn)∈Rn,為RBF神經網絡的n個輸入樣本值,即數據降維后的28個主要操作變量,xn=28為RBF神經網絡的第n個輸入信號矢量。
第二層隱含層:中間層計算輸入矢量xi與樣本矢量ci的歐式距離,對輸入數據做非線性變換。節點的多少直接影響RBF的泛化能力,多數量節點的優點是結果更加準確,但會降低執行效率。令φ(·)為隱含層節點的激活函數,則有:

其中:||xi-ci||2為歐氏距離;σi為第i個基函數中心的寬度;ci是第i個節點的中心值。
第三層輸出層:這是前兩者的線性組合,即從倉儲空間到輸出層空間的變換是線性的,且有:

其中:yi為輸出層第k個節點的輸出;wi為權值。
RBF神經網絡辛烷值損失預測模型具體執行步驟如下:
第一步:數據的選擇。在上一節樣本特征數據挖掘與提取分析中,有354個操作變量。首先分析變量之間的相關性,得到28個主要變量,其中包括17個可操作變量和11個不可操作變量;然后將其作為BP神經網絡預測辛烷值損失的輸入,輸出為產品中的辛烷值。
第二步:數據歸一化處理。為提高網絡訓練的精度和速度,樣本輸入進模型之前,先根據離差標準化將輸入和輸出值進行歸一化處理,得到最終輸出后將數據進行反歸一化,便于辛烷值損失的求解。歸一化公式為:

第三步:初始化。確定RBF神經網絡輸入層的各個變量和隱含層節點數。
第四步:開始訓練。將28個主要操作變量的數據輸入到RBF神經網絡進行訓練,計算訓練出的結果與實際辛烷值的誤差,不斷修正,直至達到設定誤差范圍結束。
第五步:測試RBF神經網絡。將25個樣本數據輸入到訓練好的辛烷值損失預測模型中,輸出最終結果,與真實值進行擬合。
第六步:計算辛烷值損失,通過模型中預測出的產品辛烷值推導出預測的辛烷值損失:

其中:RON_loss表示辛烷值損失;I_RON表示原料中辛烷值;P_RON表示產品中的辛烷值。
1.4.2 辛烷值損失預測模型的評估
為了進一步驗證模型的準確性,選取決定系數R2為評價指標,對預測模型進行評估。
統計學里R2表示決定系數,R2的計算方法為:

其中:SSR為回歸平方和;SST為總平方和;SSE為殘差平方和。
R2的主要特點:(1)決定系數是非負的統計量;(2)取值范圍:0≤R2≤1;(3)R2是隨機抽樣且變動的隨機變量,是樣本觀測值的函數。為此,對可決系數的統計可靠性也應進行檢驗。
原始操作變量經過一次降維和二次降維的處理后,最終確定所有的非操作變量和17個可操作變量,共計28個建模主要變量,對這28個變量進行相關性分析。篩選的建模所需主要變量如下:
(1)原料性質變量:硫含量、辛烷值、飽和烴體積分數、烯烴體積分數、芳烴體積分數、溴值、密度(20 ℃)。
(2)待吸附劑性質變量:待吸附焦炭質量分數、待吸附硫質量分數。
(3)再吸附劑性質變量:再吸附焦炭質量分數、再吸附硫質量分數。
(4)其他變量:反應過濾器壓差、精制汽油出裝置流量、原料進裝置流量累計、-S-ZORB.FT_1204.PV、廢氫排放累計流量、火炬氣排放累計流量、原料進裝置流量、累計1、EH101出口、K-101A排氣壓力、K-101A進氣壓力、K-101A進氣溫度、E203重沸器管程出口凝結水流量、加氫裂化輕石腦油進裝置累積流量、汽油產品去氣分累積流量、8.0MPa氫氣至循環氫壓縮機入口、8.0MPa氫氣至反吹氫壓縮機出口、D101原料緩沖罐壓力。
本文確定模型的輸入為上一步確定的28個主要操作變量,輸出為辛烷值損失。由于主要操作變量影響產品的辛烷值,它們之間具有較強的相關性,其損失與主要操作變量并無較強的相關性,所以對模型的輸出加以更改,將產品辛烷值作為輸出變量,再根據原料中的辛烷值與產品中辛烷值的關系,求出辛烷值損失。經過對模型的不斷改進,最終得到較為準確的損失預測值。
如圖4所示,模型輸出為辛烷值損失,決定系數R2=0.242 68。改進模型輸出,再次進行預測,如圖5所示,將預測的辛烷值與產品辛烷值進行擬合,決定系數R2=0.964 8,數據擬合效果較上一步的模型效果有明顯的提升。根據式(11)發現,辛烷值損失的預測效果更加精確。

圖4 RBF神經網絡模型預測產品辛烷值損失

圖5 RBF神經網絡模型預測產品辛烷值
本文使用中石化高橋石化實時數據庫及LIMS實驗數據庫對辛烷值損失進行預測。首先分析數據特性,處理缺省值和異常值;其次對所有變量進行MIC分析,對變量進行篩選,完成數據一次降維,在此基礎上根據數據的強耦合性,對數據進行二次降維,篩選出主要變量作為預測模型的輸入;最后,選用RBF神經網絡對辛烷值損失進行預測,評估結果表明,曲線擬合精度高,預測結果良好。