金晶亮,溫晴嵐,張霰月,李晨宇
(1. 南通大學 理學院,江蘇 南通 226019;2. 南京航空航天大學經濟與管理學院,江蘇 南京 211106)
近年來,隨著中國經濟社會的不斷發展,汽油消費量呈現快速增長趨勢,空氣污染逐漸嚴重,解決環境污染問題迫在眉睫[1]。為此,中國制定了日益嚴格的汽油質量標準以降低其對環境的污染程度[2]。國內原油大部分來自中東地區的含硫和高含硫原油,在滿足汽油質量的同時,為了使其清潔化,需要降低汽油中的硫、烯烴含量,同時盡量保持其辛烷值(RON)[3]。辛烷值是反映汽油燃燒性能的重要指標,現有技術在對催化裂化汽油進行脫硫和降烯烴過程中,普遍降低了辛烷值。因此,在當前技術條件限制下,對催化裂化汽油精制處理是環境保護部門交通部應對環境污染問題的一種可行方案[4]。
脫硫技術中,S-Zorb技術作為典型的反應吸附脫硫技術,最有希望實現零硫目標[5]。有大量數據證明該技術具有脫硫率高(可將硫脫至10 μg/g 以下)、辛烷值損失小、操作費用低等優點,但其中辛烷值仍有損失,且產品硫質量分數有進一步的下降空間。為了降低汽油辛烷值的損失,一般通過改進裝置工藝設計和優化工藝操作條件等機理建模的方法來實現[6]。圍繞脫硫技術的機理建模問題,學者們開展了一系列研究: Bezverkhyy等在實驗室條件下,利用熱重分析方法討論了噻吩在吸附劑上的反應動力學,并將其劃分為三個階段: 快速吸附階段、表面反應控制階段以及固相擴散階段[7];賈華宇等提出了一種基于過程機理的反應器建模方法,將催化裂化汽油劃分為五個集總,在此基礎上建立了反應動力學模型、辛烷值關聯模型等。此外,考慮到傳統群優化算法參數估計耗時較長等缺點,提出了一種改進的鯨群算法,并成功應用于S-Zorb模型[8]。然而,在具體指導工業生產過程中,相關的實驗室模型出現了數據過于保守、與工業數據不吻合等一些不足[9]。
本文從數據挖掘和運籌優化等多角度探究汽油清潔化的工藝改進路徑: 通過數據挖掘技術提取影響辛烷值損失的關鍵變量,進而建立辛烷值損失預測模型,基于該模型優化每個樣本的操作條件。力求在保證汽油產品進一步脫硫效果的前提下,盡量降低汽油辛烷值損失,實現汽油產品的清潔化。
結合本文的研究目標,汽油清潔化需要保證汽油產品硫質量分數滿足一定標準的情況下,盡量使汽油產品的辛烷值損失小。工業裝置為了平穩生產,優化后的主要操作變量往往只能逐步調整到位。本文以辛烷值損失為目標函數,產品硫質量分數要求以及操作變量變化范圍作為約束條件,建立兩階段優化模型,從而在滿足各約束條件的情況下,力求實現辛烷值損失達到最小。其中,第一階段為辛烷值損失優化模型,即求解辛烷值損失最小時,各操作變量所需達到的最優值;第二階段為操作變量優化模型,即操作變量通過一定的調整步數達到其最優取值。
第一階段辛烷值損失優化模型的具體形式如式(1),式(2)所示:
minfRON損失值(j)=BPRON(xA,xi, j)
(1)
(2)
式中:i——操作變量;j——樣本;xA——非操作變量;xi, j——本階段的優化變量,即第j個樣本的第i個操作變量;fRON損失值(j)——本階段的優化目標,即第j個樣本的辛烷值損失目標;Defi——第i個操作變量的下界;Infi——第i個操作變量的上界;w(S)max——硫質量分數標準上限;BPRON(xA,xi, j)——辛烷值損失神經網絡預測函數;BPS(xA,xi, j)——脫硫值神經網絡預測函數。
第二階段為操作變量優化模型,其具體形式如下:
(3)
(4)

為了實現上述兩階段優化模型,需要通過調整相應的操作變量來達到優化目的。一般的催化裂化汽油精制過程中,變量數量往往超過樣本數量,直接使用全部變量進行建模會導致模型中變量飽和,因此需采用降維方法從操作變量中篩選出建模主要變量。通常實現降維的主要方法有主成分分析法,但由于煉油工藝過程的復雜性及設備的多樣性,操作變量之間具有高度非線性和相互強耦聯的關系,通過線性回歸方法無法準確識別變量之間的交互作用且不利于模型實現,且非線性回歸的函數表達式不易發掘。鑒于梯度下降回歸樹(GBDT)具有學習速度快、預測精度高、模型適應性強等特點,通常用于非線性變量之間的預測,本文利用GBDT初步建立辛烷值損失的預測模型,通過計算對預測變量的重要度篩選出建模的主要變量,供后續問題研究使用。
GBDT由三部分組成: 決策樹DT(decision-making tree)、學習策略GB(gradient boosting)和衰減(shrinkage),由多棵決策樹組成,所有樹的結果累加起來就是最終結果。GBDT的含義是用GB的策略訓練出DT模型。模型的結果是一組回歸分類樹組合(CART)。GBDT的思想是不斷擬合殘差,使殘差不斷減少,模型最后輸出一個樣本在各個樹中輸出的殘差總和[10]。
GBDT能夠自動刻畫多組特征間的交互作用,對于非線性變量之間的學習也具有較高的精確度,該模型提供了每個特征(變量)的重要度,自變量的重要度越高,其對預測變量的解釋性越好,通常變量的重要度作為特征選擇的決策參考[11]。特征E的全局重要度通過該特征在單棵樹中的重要度的平均值來衡量,如式(5)所示:
(5)
式中:M——樹的數量。
特征E在單棵樹中的重要度如式(6)所示:
(6)

通過GBDT可以篩選出模型所需要的主要操作變量,但為了實現模型優化,還需辛烷值預測函數和脫硫值預測函數。盡管GBDT具有預測精度高的特點,其本質是具有多棵回歸樹集成的隨機森林模型,該模型的預測值是由有限離散值構成,函數圖像呈現出“鋸齒”狀,從工藝操作的實際背景來看,鋸齒狀的函數特征不利于識別操作變量微小調整對辛烷值損失降低的影響。反向傳播網絡(BP神經網絡)無論在網絡理論還是在性能方面都比較成熟[12],其突出優點就是具有很強的非線性映射能力和柔性的網絡結構。網絡的中間層數、各層的神經元個數可根據具體情況任意設定,并且隨著結構的差異其性能也有所不同[13]。
從結構上看,BP神經網絡是一種典型的多層前向型神經網絡,具有1個輸入層,數個隱含層(可以是1層,也可以是多層)和1個輸出層。層與層之間采用全連接的方式,同一層的神經元之間不存在相互連接。理論上已有證明: 具有1個隱含層的3層網絡可以逼近任意非線性函數[14]。神經網絡結構以2-3-2BP網絡模型為例,結構如圖1所示。

圖1 2-3-2BP神經網絡結構示意
為了衡量優化模型的預測效果,需要對優化模型的訓練和測試的表現進行量化評估。因此,需要引入統計學中的決定系數R2來量化模型的表現。R2也稱為擬合優度,反應了因變量的波動有多少比例可以由自變量的波動所描述,即表征因變量的變異中有多少百分比可由自變量來解釋[15-16]。擬合優度系數檢驗法中的R2越大,代表擬合優度越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比越高。
一般來說,R2在0~1的閉區間上取值,但在實驗中,有時會遇到R2為無窮大的情況,這時R2的計算公式如式(7)所示:
(7)
式中:SSR——回歸平方和;SSE——殘差平方和;SST——總離差平方和。三者存在式(8)關系:
SST=SSR+SSE
(8)
SST,SSR,SSE的計算公式如下:
(9)
(10)
(11)

某石化企業在運營過程中積累了大量歷史數據[17],其汽油產品辛烷值損失平均為1.37個單位,而同類裝置的最小損失值只有0.6個單位,故有較大的優化空間。基于該石化企業催化裂化汽油精制裝置中采集的325個數據樣本,依據數據預處理的方法,對數據庫中325個樣本及354個操作變量進行數據清洗,得到包含349個操作變量的306個樣本數據。進一步在GBDT模型中,選取辛烷值損失為預測變量,7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質以及另外349個的操作變量作為自變量,按照上述方法建立辛烷值損失的預測模型,共得到360個變量的重要度。將每個變量按照特征重要度的大小進行排序,并依次將特征重要度進行累加,得到累計重要度,相關結果見表1所列。

表1 變量重要度
在表1中,操作變量PC_1001A.PV具有最高的重要度,為0.098 7。當累計重要度達到0.9時,預測模型含有30個變量,包括操作變量和非操作變量,由于篇幅限制,非操作變量溴值(重要度0.015)和產品辛烷值(重要度0.01)等未在表中展示。當累計重要度達到0.9時,對應的30個變量具有一定代表性,可以使辛烷值損失預測模型具有較高的精度。其中,產品辛烷值也具有較高的重要度,但該變量是工藝生產中的產出變量,無法事先監測并調整該變量,故本文不考慮將其作為主要建模變量之一。溴值也是在汽油生產過程中無法調控的變量,本文也將其剔除出主變量。經過篩選,本文最終選取剩余的28個操作變量作為后續問題的主要變量。
3.2.1辛烷值損失預測結果
根據2.2節中的BP神經網絡算法,創建3層BP網絡,并對模型涉及的7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質和通過GBDT回歸算法降維后得到的操作變量做預測。首先,根據降維后的原始數據產生訓練集和測試集;其次,提取其中80%的樣本數據作為訓練集,20%的樣本數據作為測試集;接著,設置網絡訓練參數,其中隱層第一層和第二層節點數分別為6和3,輸出維數為1,兩層傳輸函數均為tansig,輸出層傳輸函數為trainlm;最后設置訓練次數為1 000次,訓練目標為1×10-8,經過117次訓練,建立了辛烷值損失模型。最終得到的辛烷值真實值、預測值以及預測誤差見表2所列,由于文章篇幅有限,僅展示部分數據。
基于摩擦納米發電機的自驅動微系統…………………………………………………陳號天,宋宇,張海霞 24-5-28

表2 辛烷值預測效果對比
從表2中發現: 辛烷值的誤差率均在1.0%以下,說明利用神經網絡的方法建立的模型可以較好地預測出辛烷值。為給出進一步檢驗,本文將進一步驗證模型的合理性。
3.2.2辛烷值損失結果驗證
根據2.3節中R2的計算方法,結合regress函數可以獲得R2的值為0.946 29,即辛烷值回歸模型的擬合優度較優,說明辛烷值的波動有94.63%能被自變量的波動所描述,即辛烷值的變異中有5.37%可由其他非主要因素來解釋。
辛烷值預測結果和真實值對比如圖2所示,從圖2中可以很直觀地看出真實值和預測值曲線的重合率很高,其中星和圓圈代表的點覆蓋率很高。因此,該神經網絡模型預測的擬合效果比較理想。

圖2 測試集辛烷值預測結果對比示意(R2=0.946 29)
圖3反映的是訓練過程中的梯度、阻尼因子(Mu)和泛化能力參數的變化,從圖中可以發現本次訓練的網絡性能較好,并且有一定的上升趨勢,說明節點數選取恰當。

圖3 測試集辛烷值網絡性能示意
圖4為網絡訓練的誤差曲線,反映了網絡訓練的訓練效果,其中第5次訓練時均方誤差(MSE)達到最小隨即訓練終止。

圖4 測試集辛烷值訓練階段參數變化示意
辛烷值各參數回歸直線相關系數如圖5所示,散點在回歸直線附近十分密集,說明擬合數據與真實數據之間相關性很強,即模型擬合精度高、擬合效果較好。

圖5 辛烷值各參數回歸直線相關系數示意
3.3.1脫硫值預測結果
為滿足實際問題中產品硫質量分數盡量低的條件,需要抽象出硫質量分數變化的曲線函數。與辛烷值預測類似,根據2.2節中BP神經網絡算法,調試出3層BP網絡,運用Matlab軟件編程對模型求解。首先,根據降維后的原始數據產生訓練集和測試集;其次,提取其中80%的樣本作為訓練集,20%的樣本作為測試集;接著,設置網絡訓練參數,其中隱層第一層和第二層節點數分別為6,3,輸出維數為1,兩層傳輸函數分別為tansig和purelin,輸出層傳輸函數為trainlm;最后設置訓練次數為1 000次,訓練目標為1×10-8,經過11次訓練,得到最終的硫含量預測模型。
硫質量分數預測值和原樣本數值對比見表3所列,由于篇幅有限,僅展示部分樣本。

表3 硫質量分數真實值與預測值的對比
從表3中發現,用神經網絡的方法建立的模型可以較好的預測出硫質量分數值,同時本文將進一步驗證模型的合理性。
3.3.2脫硫值結果驗證
與辛烷值驗證方法類似,同樣采取擬合優度值對模型進行驗證。通過計算得到R2的值為0.649,即硫質量分數值回歸模型的擬合優度較好,說明硫質量分數值的波動有近64.9%能被自變量的波動所描述,即脫硫值的變異值有35.1%可由其他非主要因素來解釋。
w(S)預測結果和真實值對比如圖6所示,從圖6中可以看出該神經網絡模型預測的w(S)結果擬合較優,效果較為理想。

圖6 測試集硫質量分數預測結果對比示意(R2=0.648 79)
圖7反映的是訓練過程中的梯度、Mu和泛化能力參數的變化。從圖7中可以看出本次訓練的網絡性能較好,并且有一定的上升趨勢,說明節點數選取恰當。

圖7 測試集硫質量分數網絡性能示意
圖8為網絡訓練的誤差曲線,反映了網絡訓練的效果,其中第8次訓練時均方誤差達到最小隨即訓練終止。

圖8 測試集硫含量訓練階段參數變化示意
脫硫值各參數回歸直線相關系數如圖9所示,觀察驗證集、測試集以及樣本總量和總體數據集的相關系數可知,散點在回歸直線附近十分密集,表明擬合數據與真實數據之間存在很大的相關性,即模型的擬合精度高、擬合效果較優。

圖9 脫硫值各參數回歸直線相關系數示意
3.4.1第一階段操作方案優化結果
本文利用上述兩階段優化模型以及非線性單目標算法進行求解,SH/T 0689—2000《輕質烴及發動機燃料和其他油品的流硫含量測定法(紫外熒光法)》對國六汽油中硫的質量分數要求不大于10 μg/g,為了給企業裝置操作留有空間,進一步實現脫硫效果,本文將產品的硫質量分數上限w(S)max調整為5 μg/g,得到各個樣本的最優操作方案。由于篇幅限制,本文僅列出辛烷值損失降幅及最優操作變量的部分結果。
經過本文主要變量操作方案優化模型的優化,總計295個樣本辛烷值損失降幅可達30%以上,其中共計11個樣本辛烷值損失降幅為0~30%,共計68個樣本辛烷值損失降幅為30%~99.9%,共計227個樣本辛烷值損失降幅接近100%。樣本辛烷值損失降幅及最優操作變量見表4所列。

表4 樣本辛烷值損失降幅及最優操作變量

續表4
從表4中可以發現,各樣本的操作變量的最優值均有不同且各主要操作變量每次允許調整幅度值也不同,因此需單獨對每個樣本進行二階段優化,不同樣本有著不同的優化方案。
3.4.2第二階段操作變量優化方案
第一階段優化求解的結果為306行28列的矩陣,即求解的結果包含了每一個樣本的每一個主要操作變量xi的最優取值,共8 568個解;第二步優化需要逐步調整第一階段優化中的8 568個解對應的原始變量值,且每個變量的調整幅度Δi不一樣,需要分變量進行調整。若maxNi, j為第j個樣本的第i個變量所需調整的最大次數,則第二階段優化求解的結果為306×28×maxNi, j的空間。


表5 133號樣本操作變量優化方案
3.4.3汽油辛烷值和硫質量分數的變化軌跡
為方便模型的可視化展示,本文根據3.4.2中的主要操作變量優化調整方案對133號樣本,運用Matlab調用2.2節中BP神經網絡預測模型中的BPRON(xA,xi, j)函數求出每一次調整的汽油辛烷值和硫質量分數,繪制出變化軌跡圖。汽油辛烷值和硫的質量分數調整變化如圖10所示,從調整的過程中,可以看出汽油辛烷值和主要操作變量呈現出非線性關系,在前30步調整過程中辛烷值變化明顯,第30步以后辛烷值水平趨于穩定。因此,在實際操作過程中,考慮到實際操作成本,調整至第30步即可。
由圖10看出,經過71步調整仍然滿足產品硫質量分數不大于5 μg/g的要求。
由圖10中汽油辛烷值和硫的質量分數調整變化曲線可知,該優化方案在保證汽油產品進一步脫硫效果的前提下,能夠確保汽油辛烷值的損失維持在較小范圍內,從而實現汽油產品的清潔化。

圖10 汽油辛烷值和硫的質量分數調整變化示意
本文利用GBDT模型篩選出主要操作變量,通過降維方法進行預測,不僅計算效率較高,且能保證主要操作變量的預測精度;通過BP神經網絡模型預測辛烷值,誤差率均在1.0%以下,R2為0.946 29,可以發現: 三層神經網絡能夠以任意精度逼近非線性連續函數,這使得其特別適用于內部機制復雜的問題,即BP神經網絡具有較強的非線性映射能力; 建立了包含兩個階段的主要變量操作方案優化模型,并通過算例分析給出了具體優化結果和操作變量優化方案,驗證了主要結論: 在汽油產品硫的質量分數達標的前提下,可以有效降低辛烷值損失,同時確保實際工藝改進的可操作性;相對于辛烷值損失預測,有待進一步提高產品含硫量的預測精度。