





















摘要為降低硫、烯烴含量及辛烷值損失,保證汽油清潔化生產,基于S Zorb裝置運行積累的數據,首先利用Lasso算法初步篩選建模變量,并基于BP神經網絡計算指標因子貢獻度,進一步篩選出15個主要變量用于建立辛烷值損失預測模型;其次對比分析4種模型,得出BP神經網絡預測精度更優,更適合作為辛烷值損失預測模型,并經過10折交叉驗證得到均方誤差(MSE)均值為0.027 193,R2均值為0.904 87,驗證了該模型的可靠性;最后在控制油品硫質量分數不大于5 μg/g的前提下,結合多元線性回歸對主要變量進行優化調控.結果表明,需同時改變多個變量才能使辛烷值損失降幅大于30%,多元線性回歸模型預測精度較好,能按照一定比例對主要變量進行正反向調控.本文還可視化展示了優化過程中辛烷值和硫含量的變化軌跡.
關鍵詞BP神經網絡;多元線性回歸;Lasso算法;辛烷值損失預測;優化調控
中圖分類號TP183;TP273 文獻標志碼A
0 引言
汽車的普及使用增加了人們交通出行的便捷性,但也隨之加重了環境受污染的程度.現如今日益嚴峻的健康和環境問題促使各國都在重新考慮汽油中各種化合物的質量標準,清潔措施的重中之重就是降低汽油中的硫、烯烴含量.在催化裂化為核心的重油輕質化工藝進行脫硫和降烯烴過程中,普遍會降低汽油辛烷值.辛烷值(RON)是反映交通工具所使用燃料(汽油)燃燒性能的最重要指標.一般來說,提高汽油中辛烷值的占比,將會有效提高其抵抗震爆的性能,而抗爆性能的高低是體現汽油燃燒性能的主要指標.而煉油生產過程中辛烷值的損失將導致油品經濟效益的驟然下跌,每增加1個單位的精制汽油辛烷值損失,每噸汽油銷售價格將降低150元.例如在一個每年生產100萬t精制汽油的S Zorb裝置中,如果能夠使辛烷值損失降低0.3個單位,銷售經濟效益將提升4 500萬元.因此,降低催化裂化汽油精制脫硫裝置中辛烷值的損失具有重要的理論價值和現實意義.
在現有的研究文獻中,針對汽油精制過程中辛烷值的研究可總結為三種:一是討論使用汽油物理特性測試數據通過線性建模分析來快速測定汽油辛烷值.丁怡曼等[1]利用紅外光譜法結合偏最小二乘法構建PLS模型來對113個樣品進行汽油辛烷值的預測;Kardamakis等[2]利用近紅外光譜法收集了249個汽油數據樣本,構建辛烷值和苯含量分析的定量預測模型,同時對比分析了C_PLS法和D_PLS法的模型求解效果.二是針對汽油各種組成成分或者原子團對辛烷值貢獻進行定性和定量分析,并構建其關系之間的擬合模型.黃水望等[3]利用氣相色譜法和偏最小二乘法構建汽油詳細組分和辛烷值之間關系的數學模型,模型測定結果與實際偏差范圍在0~1.1個單位之間,預測性能和精度較好.Ghosh等[4]利用氣相色譜技術測定不同型號汽油的辛烷值,構建烴類貢獻度大小不同的多元線性回歸模型,明確烴類組成對汽油生產調和辛烷值的影響.但不管是根據汽油物理特性數據還是各組成成分或原子團進行預測分析,都不可避免地要使用到相關實驗測試設備,而且儀器的運轉和維護需要耗費較高的費用,實驗測試效率較低.三是利用主成分分析、相關分析、偏最小二乘法、逐步線性回歸等方法研究汽油的其他理化質量指標和抗爆性能指標辛烷值之間的關系,得出相關關系式來測定不同汽油的辛烷值.熊春華等[5]以乙醇汽油和車用汽油為研究對象,分析其抗爆性能指標與其他理化指標的關聯,采用逐步線性回歸和相關分析來建立方程關系式,研究表明各理化指標產生的影響均不相同,需遵循相關規律來配合實際生產.
截至目前,利用各種理論測量方法來進行化工過程建模預測汽油辛烷值的相關研究工作取得了一定的進展,但這些傳統研究方式一般都是簡單的數據關聯或機理建模,所構建模型中涉及的操作變量數量相對較少,相關變量分析存在明顯缺陷,使得辛烷值的預測分析結果與實際相比存在較大的誤差.而現階段催化裂化精制汽油所需的生產設備多種多樣,加工技術及工藝過程非常復雜,各操作變量之間具有嚴重非線性和影響因素相互強耦聯的特點,若繼續采用以往的研究方式將出現過程優化響應時效性較差、變量優化成效一般的情況.
因此,本文考慮到現有化工過程監測和控制硬件設備技術的發展,將利用采集到的中國石化公司多年來催化裂化生產精制汽油保留下來的大量歷史數據,結合數據挖掘技術發現隱藏在深層的重要信息.同時,因為神經網絡技術強大的函數映射能力和高度非線性描述能力等優點,它已經被廣泛應用于化工過程非線性系統建模領域.本文在利用Lasso算法初步篩選變量后,選擇利用BP神經網絡計算指標因子貢獻度,得出主要變量用于構建汽油辛烷值損失預測模型.經過模型效果分析對比決定使用BP神經網絡模型來預測辛烷值,并把BP神經網絡和多元線性回歸模型相結合來對主要變量進行優化調控,對優化調整過程中辛烷值和硫含量變化進行可視化展示,以提升汽油品質為企業的煉油生產過程提供可靠的理論操作借鑒.
1 數據收集和清洗
1.1 數據來源
本文采集到的實驗數據來自于中國石化上海高橋石油化工有限公司催化裂化汽油精制脫硫裝置運行多年保留下來的歷史數據 [5-7].關于汽油精制生產工作,該公司建立了2個規模可觀的數據庫,即PHD和LIMS實驗數據庫.有關實驗建模的原料、產品和催化劑等性質數據均可以每周2次的頻率從這2個實時數據庫中采集得到.為了確保實驗和分析等方面的有效性與準確率,本文將數據采集時間跨度范圍擴充到3年,即從LIMS數據庫中獲取2017-04—2019-09和2019-10—2020-05這2個時間段的生產信息.而操作變量數據可從PHD數據庫中獲取,2次數據采集時間的頻次不同,分別是每3 min 1次和每6 min 1次.采集到的原始實驗數據樣本一共有325個,每個數據樣本中都有367個特征變量,包括7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質等不可操作變量以及另外354個操作變量.為了使數據處理和分析更加系統化,可以按時間戳將其進行降序排列,并結合數據挖掘技術應用到化工過程建模中,得到隱藏在這些數據之后的更多更重要的信息.
1.2 數據清洗
1)刪除全部為空值的位點.遍歷全部數據樣本,篩選出共有19個操作變量數據全部為空值,故刪除上述位點.
2)對樣本數據節點進行過濾,刪除2個由于殘缺數據過半而無法補充完整的變量位點.
3)對于樣本中其余值為零的數據,使用控制前后2 h的數據平均值替代.
4)根據汽油精制工藝要求及操作經驗可以得出操作變量的最大最小取值范圍,對于7個超出此范圍的變量數據進行剔除.
5)運用拉依達準則(3σ準則)判斷數據是否存在粗大誤差,剔除此類誤差數據.利用MATLAB計算誤差并比較發現樣本原始數據中不存在異常值,無需剔除.
6)由于研究需以辛烷值作為目標數據,而辛烷值的測量比較麻煩,一周僅2次,樣本較少,無法與操作數據樣本相匹配,且測量結果存在滯后,故最終樣本數據取為辛烷值測量時間前2 h的數據平均值.計算完成數據預處理后,替換原始收集到的樣本數據.
2 二步法篩選建模的主要變量
2.1 基于Lasso的變量初步篩選模型
為了更有效地對工程技術應用效果進行分析,需要根據實際催化裂化汽油精制過程所得到的325個樣本數據,先對367個變量進行降維,剔除一些次要的對辛烷值損失影響不大的標量,篩選出一定數量的主要變量,以便后續能精準有效地建立辛烷值的損失預測模型.Lasso線性模型在變量選擇方面的精度比逐步回歸法和嶺回歸法等能更精確、更全面地篩選出主要影響變量,其最大優點在于可以直接將不重要變量的系數直接壓縮為0,而不保留所有變量[6-10].因此,采用Lasso對367個影響變量進行初步篩選,通過比較解釋變量與被解釋變量之間相關性的大小,刪除不重要變量并保留主要變量,降低影響變量之間的多重共線性,使其相互獨立,從而提高解的空間穩定性并進一步使得模型的泛化能力增強.
2.1.1 Lasso線性回歸模型的建立
運用Lasso方法初步篩選變量的步驟如下:
1) 特征標準化.觀察367個變量發現其量綱并不一致,為了避免量綱對研究結果的影響,需要利用極差標準化法對數據進行標準化處理.
2) 建立Lasso線性回歸模型.由于研究樣本中有367個自變量和1個因變量,可根據線性回歸模型建立以下關系式:
式中,α0為常數項,α1,α2,…,α367為回歸系數,ε為隨機擾動項.
該模型中未知參數α的Lasso估計的定義為
其中,t≥0為調和參數.
3) 選擇最佳的調整參數.對于控制回歸系數壓縮量的問題,在估計時可以通過調和參數t來實現,經過若干步驟之后可得不同t值下的所有Lasso估計值.在研究中,可選擇10折交叉驗證法對參數進行調整從而選擇出最佳的調整參數.
4) 篩選出重要變量.對367個變量進行Lasso回歸之后,得出一定數量回歸系數不為0的變量,即為第1步所要篩選出的重要變量,其余回歸系數為0的變量就會在Lasso線性回歸模型中刪除掉,被刪除掉的可能是導致變量之間存在多重共線性的不重要變量.
2.1.2 Lasso模型初步篩選變量的結果分析
運用Stata軟件對辛烷值損失的367個影響因素進行初步篩選,通過lassopack命令實現Lasso回歸,并使用10折交叉驗證方法對模型的參數進行調整以達到最佳的狀態.根據運行結果可以發現當Lamda = 1.373 349 8時,模型的均方預測誤差(MSPE)值達到最小,如圖1所示.
根據Lasso所估計出的變量系數是否非零來篩選變量,其中系數非零的影響變量被保留下來作為主要變量,且它們之間的多重共線性已經得到一定的削減.經降維篩選過后的主要變量如表1所示,按照從左到右對辛烷值損失影響程度大小進行排列.
2.2 基于BP神經網絡-指標因子貢獻度排名的變量篩選優化
2.2.1 BP神經網絡-指標因子貢獻度模型的建立
采用Lasso線性回歸模型對367個變量進行初步篩選后得出n個主要影響因素,而這些因素對辛烷值損失影響程度的大小可以通過權重大小來決定.因此,需要進一步優化辛烷值損失的有效變量操作方案.鑒于BP神經網絡模型可以通過數據逼近任意線性連續的函數,這一特點與原料性質、待生吸附劑性質、再生吸附劑性質、產品性質、操作變量對辛烷值損失影響方式的特點相吻合.所以選擇BP神經網絡模型進行n個主要變量的計算,并將其指標數值作為神經網絡的輸入層,將損失的辛烷值作為輸出層.此外,輸入層主要變量對輸出層辛烷值損失的影響,是由輸入層對隱含層的影響和隱含層對輸出層的影響這2個部分組成的,如圖2所示.因此,輸入層n個主要影響變量指標對輸出層辛烷值損失的影響權重需綜合上述2個部分來進一步計算得出,過程如下:
1) 假設各輸入變量對各隱含層變量都有一定程度的影響,這些影響的程度可通過輸入層作用到隱含層的權重反映.權重計算公式為
式中:a0表示每個輸入層主要變量對隱含層的影響權重之和;aij表示輸入層n個主要變量指標對隱含層中各個變量的權重,其中i和j分別表示輸入層和隱含層的節點;∑njwij表示單個輸入層節點對隱含層中所有變量的影響大小之和,i取整數.
2) 計算隱含層對輸出層辛烷值損失的影響程度.由于輸出層僅有辛烷值損失一個指標,所以隱含層對輸出層的影響權重等價于隱含層中各個變量與輸出層節點的權重之比,其計算公式為
式中:bkl為隱含層對輸出層影響權重的比例,k和l分別表示隱含層和輸出層的節點;bk為隱含層中單個變量對輸出層的權重;∑mkbk表示隱含層全部變量對輸出層權重之和,k取整數.
3) 計算輸入層中n個具體主要影響變量指標對輸出層的影響權重,計算公式為
式中,Si為輸入層中單個的具體主要影響變量對輸出層的影響權重.
4) 計算輸入層中每個指標對輸出層影響大小之比例,計算公式為
式中,P0表示所有輸入層各個指標權重之和,Pi為輸入層各個具體主要影響變量指標對輸出層辛烷值損失影響的占比.
經過對BP神經網絡模型的不斷調整,最終設置n個輸入層、1個隱含層,將隱含層節點數設為10、輸出層為1,此設置方式可以使得誤差達到最低,如圖2所示.
2.2.2 BP神經網絡-指標因子貢獻度排名結果分析
基于BP神經網絡的指標因子貢獻度計算模型,得出基于Lasso方法初步篩選的61個有用變量對辛烷值損失的影響貢獻度.根據貢獻度的大小確定最終留下的主要變量,并用于分析辛烷值損失.而選擇的個數可以參考確定獨立篩選法SIS中的方法[11],選取n/log n個,其中n為61.結合實際情況計算選取15個最主要影響變量,它們對辛烷值損失貢獻度排序如圖3所示,圖3中序號對應的影響變量名稱參見表1.圖3中CD表示影響變量對辛烷值損失貢獻度大小.其中,原料辛烷值(a2)和產品辛烷值(a9)2個變量對辛烷值損失的影響貢獻度最大,遙遙領先于其他變量,而辛烷值損失值就是由這2個值計算得出的[12].由此可見,基于BP神經網絡的指標因子貢獻度計算模型來反映變量對辛烷值損失的影響貢獻程度,符合工程的實際應用,具有一定的科學性.
3 基于BP神經網絡的辛烷值損失預測模型
3.1 構建辛烷值損失預測模型
利用篩選得出的15個主要變量進行建模預測辛烷值損失,考慮使用多元線性回歸、灰色預測、隨機森林回歸、BP神經網絡4種常見建模方法,計算不同方法的均方誤差(MSE)與決定系數(R2),對比不同方法的模型精度,進而選擇誤差最小的模型作為辛烷值損失預測模型.
1) 多元線性回歸的擬合過程通常利用最小二乘法來逼近,一般假設變量間存在線性關系,如式(10)所示.回歸分析時,需要計算回歸系數bk,使得計算的因變量與原始數據間的誤差最小.
2) GM(1,N)模型與GM(1,1)模型類似,區別在于輸入變量個數為N個.基于篩選得到的15個主要影響變量,則N為15,輸出變量1個,因此適用于GM(1,N)預測模型.首先對特征數據序列X(0)1和相關因素序列X(0)2,…,X(0)N進行計算,生成一次累加序列X(1)i,i=1,2,…,N,再對該序列中兩兩鄰近數取平均生成值序列Z(1)1,然后根據上述序列建立灰色微分方程:
3) 隨機森林回歸是一個用CART算法構建的沒有剪枝的分類決策樹的集合,輸出采用單棵樹輸出結果的均值.根據每棵決策樹的權重ωi(x,θt)(t=1,2,…,k)取每棵決策樹觀測值的均值作為最終的結果.
4) BP神經網絡具有較好的非線性映射能力,RON損失預測中影響因素眾多,盡管通過Lasso回歸及貢獻度排序篩選了一部分變量,但剩余15個主要變量間的關系依舊不明確,對RON損失的影響也不清晰,利用該方法的非線性映射可以較好地擬合絕大多數變量與辛烷值損失的關系.此外,神經網絡的魯棒性較佳、容錯能力強,變量數據的部分缺失或者異常并不會導致模型產生誤差[13].
利用BP神經網絡映射15個主要變量與辛烷值損失的關系,通過對325個樣本訓練的擬合預測判斷模型精度,進而決定該算法是否可以用于辛烷值損失預測.利用Matlab自帶工具箱nftool對數據進行處理,把降維得出的15個主要變量作為輸入層變量,輸出層即為辛烷值損失.設置隱含層個數為10,訓練算法選用最小二乘優化算法(Levenberg-Marquardt).BP神經網絡結構如圖4所示.
3.2 模型求解與比較分析
利用多元線性回歸、灰色預測、隨機森林回歸、BP神經網絡4種方法建立辛烷值預測模型,使用Matlab軟件進行求解從而找出預測精度最優的模型.通過多次測試設置、調試好各個模型參數后,對樣本進行模型訓練,計算均方誤差(MSE)以及決定系數(R2):
通過上述模型預測的RON損失檢驗結果如表2所示,BP神經網絡預測模型的MSE最小,決定系數R2最接近于1,模型精度要優于其他3個模型,故采用BP神經網絡模型預測辛烷值損失.
3.3 BP神經網絡辛烷值預測模型驗證分析
通過對比4種預測模型后,選用BP神經網絡模型作為辛烷值損失預測模型,并將對此使用10折交叉驗證的方法來判斷結果的可靠性.即隨機抽取10份樣本,把其中1份樣本作為測試集,其余9份作為訓練集,如此循環10次,使得每份樣本都能作為一次測試集.對隨機建立的10個訓練集來計算10個模型,對測試集分別得到10個均方誤差(MSE)、決定系數(R2),再求出10個模型的MSE均值以及R2均值.
從表3的10折交叉驗證結果可知,MSE均值為0.027 193(接近0),R2均值為0.904 87(接近1),故認為BP神經網絡的預測精度較高,符合預期.但上述10份樣本的模型訓練精度低于用全部325個樣本進行訓練所得模型,因樣本數較少,模型訓練時不可控因素較多,故10個訓練模型僅用于驗證BP神經網絡預測方法的適用性,而不用于最終的辛烷值損失預測模型.
本文的辛烷值損失預測模型將原始樣本中的70%數據序列(227個樣本)用于模型訓練,15%的數據序列(49個樣本)用于模型驗證,剩余15%的數據序列(49個樣本)作為模型測試集.基于BP神經網絡的辛烷值損失預測模型誤差結果如圖5所示.
根據BP神經網絡建模過程可知,該模型在第8次迭代時達到最優精度,此時驗證集的MSE為0.001 182,訓練集和測試集的誤差都較小.圖6是對每個樣本實際值與模型預測輸出值誤差建立的直方圖,圖中誤差集中在0附近,有76.3%的樣本誤差位于-0.01和0.01之間.除142號樣本外,其余樣本誤差絕對值均小于0.1,所有樣本誤差平均值為-0.001 009 44.模型訓練結果如表4所示,訓練集、驗證集、測試集的MSE都足夠小,接近于0,且R2都大于0.99,接近于1,故認為該預測模型可用于汽油辛烷值損失預測工程中.
圖7是各數據集的輸出值與辛烷值損失實際數據的比較,可以發現模型輸出值能較好地擬合原始數據,同樣可驗證利用BP神經網絡模型在15個主要輸出變量基礎上預測辛烷值損失的精度較高.
4 主要變量操作方案的優化
根據已建立的辛烷值損失預測模型,并分析了S Zorb裝置產品的歷史脫硫數據,計算得知所有油品的硫質量分數平均值是4.75 μg/g.為保證汽油產品脫硫效果,歐VI和國VI標準中汽油產品硫質量分數不得大于10 μg/g,但為了給企業裝置操作留有空間[14],要求在實際生產中產品硫質量分數不大于5 μg/g.在此前提下,利用已知數據樣本對主要變量進行優化,從而使辛烷值損失降幅達到理想狀態.
首先探索單一變量的改變對基于BP神經網絡建立的辛烷值預測模型的影響.使用控制變量法使其他變量保持不變,只改變單一變量取值,進而預測辛烷值的損失.在此基礎上,為使辛烷值損失降幅達到30%,利用上文所構建的多元線性回歸模型對需要調控的操作變量進行處理.在優化處理過程中原料性質、待生吸附劑性質、再生吸附劑性質保持不變,因此主要調節15個主要影響變量中的11個操作變量,通過添加調節系數進行變量調控.最后提出具體的優化操作條件,使辛烷值損失降到最低.
4.1 基于BP神經網絡的主要變量優化調控模型
使用控制變量法探究單一變量對BP神經網絡建立辛烷值預測模型的影響.首先篩選出硫質量分數不大于5 μg/g的樣本共268個,再隨機抽取10個樣本進行優化.預測模型的主要變量共15個,其中操作變量11個,其取值范圍以及調整幅度值如表5所示,使用Matlab建立循環語句,保持其他變量不變,將單一變量由取值范圍的最低值以調整幅度值為間隔變化至取值范圍的最大值.利用前文建立的BP神經網絡模型預測辛烷值損失,具體過程如圖8所示.
圖9是對10份樣本分別控制9個操作變量的取值:再生器頂底差壓、F-101輻射室出口壓力、穩定塔底出口溫度、D-201含硫污水排量、加氫裂化輕石腦油進裝置流量、干氣出裝置流量、S_ZORB AT-0010、D-109吸附劑料位、R-102床層吸附劑料位密度等.基于前文模型預測出的辛烷值損失變化曲線,由于D-109壓力、非凈化風進裝置壓力2個變量取值范圍較小,調整幅度值相對較大,導致循環次數過少,因此未在圖中表示.分析圖9發現,單一控制穩定塔底出口溫度升高,辛烷值(RON)損失預測值明顯下降,且溫度低于120 ℃左右時,下降幅度較大,此后溫度繼續升高對RON損失的影響較小.除了該變量外,單一控制其他變量并不能對RON損失預測值產生明顯影響,或影響不穩定,如改變D-201含硫污水排量時,4個樣本的損失值無明顯變化,3個樣本損失值明顯上升,一個樣本損失值小幅度波動,還有2個樣本損失值呈下降趨勢.
基于以上分析,研究認為僅僅改變單一變量取值并不能影響RON損失值,更不能達到辛烷值損失降幅大于30%的生產要求,所以需要考慮同時改變多個變量,優化操作條件,從而達到盡量降低辛烷值損失的目的.由于神經網絡算法屬于“黑箱方法”,在研究時只能得出輸入輸出變量,無法了解內部結構,若利用該算法同時對多個變量進行優化較為復雜.而多元線性回歸模型的預測精度僅次于BP神經網絡,且算法簡單、易操作,更適合同時對多個變量進行優化,故將利用該模型預測辛烷值損失并優化主要操作變量.
4.2 基于多元線性回歸的主要變量優化調控模型
多元線性回歸模型體現的是多個解釋變量和被解釋變量之間的關系問題,利用篩選得出的15個最主要影響變量和1個因變量,建立以下關系式:
式中:α0為常數項;α2,α9,…,α11為回歸系數.
此外選擇擬合優度檢驗法對該模型進行計算驗證.擬合優度的含義是樣本具體觀察數值在回歸線附近聚集的緊密程度.一般選用R2判斷多元線性回歸擬合優度.而擬合優度是在分解總離差平方的基礎上測算出來的.其中總離差平方和計算公式為
其中,SSE為殘差平方和,SSR為回歸平方和,SST為總離差平方.計算公式如下:
其中,是樣本觀察值均值,是估計值.決定系數R2便是通過回歸平方和占總離差平方和的比例,計算公式為
決定系數R2反映線性回歸方程的擬合程度,表示解釋變量和被解釋變量之間存在的回歸關系可以用來解釋所有偏差中的百分比.R2取值范圍為[0,1],趨近于1,擬合效果越好,越趨近于0效果越差[15].
為使辛烷值損失降幅達到30%,對需要調控的操作變量進行處理.在優化處理過程中原料性質、待生吸附劑性質、再生吸附劑性質保持不變,即在11個操作變量前添加調節系數來進行調控,基于多元線性回歸模型的變量調控模型表達式為
在最小二乘法準則的指導下,對各個調控系數進行參數估計.將產品硫質量分數不大于5 μg/g的樣本數據代入式(20),得到方程組:
通過多次測試設置并調試好各個模型參數后,對樣本進行模型訓練,然后利用所得模型預測辛烷值損失,運用上文所述相關誤差檢驗公式,計算得出MSE為0.000 26,R2為0.995 1,模型精度較好,故可采用多元線性回歸模型預測辛烷值損失和優化操作變量.
根據最小二乘法估算出來的調節系數數值大小和正負性來對變量進行調控.對再生器頂底差壓和R-102床層吸附劑料位密度按照一定的比例進行反向調控,對D-109壓力、F-101輻射室出口壓力、穩定塔底出口溫度、D-201含硫污水排量、非凈化風進裝置壓力、S_ZORB AT-0010和D-109吸附劑料位按照一定的比例進行正向調控,那么辛烷值損失降幅就會達到甚至超過30%.
5 優化調整過程的可視化展示
工業生產在對汽油進行精制過程中,需要對催化裂化汽油進行脫硫和降烯烴,進而提高汽油的燃燒性能.然而由于生產條件、機器設備各方面的限制,無法將各操作變量一次性提高至最優值,故需要逐步平穩調整.由于所收集到的133號樣本與其他企業的大部分S Zorb裝置生產數據相似,所以主要針對133號樣本數據進行分析[16].為充分了解并分析操作變量優化過程中汽油辛烷值與硫含量的變化趨勢,首先需要建立硫含量預測模型,由上文中預測模型誤差對比發現,BP神經網絡算法精度最高,故可利用該方法構建硫含量預測模型.操作條件的優化通過操作變量在取值范圍內按照一定幅度的逐漸變化實現,并在主要操作變量基礎上預測辛烷值損失及硫含量,繪制出調整過程中產品性質的變化軌跡[17].
5.1 構建硫含量預測模型
與基于BP神經網絡辛烷值損失預測模型相類似,采用Matlab軟件工具箱nftool處理變量數據,輸入層為15個主要影響變量,輸出層為硫含量,隱含層節點數為10,變量數據為原有數據中硫質量分數小于等于5 μg/g的樣本,一共268個.其中70%樣本數據作為訓練集,15%樣本數據作為驗證集,剩余15%樣本數據為測試集,從而建立基于BP神經網絡的硫含量預測模型(圖10).模型的MSE為0.059 3,與辛烷值損失預測模型相比誤差較大,但仍在允許誤差范圍內,因此該模型可用于硫含量預測[18].
5.2 主要變量優化的可視化分析
關于操作變量的優化條件,已在本文第4章中詳細闡述,可以得出再生器頂底差壓(用變量1代替)、F-101輻射室出口壓力(用變量2代替)、非凈化風進裝置壓力的大幅度變化,D-109壓力(用變量3代替)、穩定塔底出口溫度(用變量4代替)、S_ZORB AT-0010(用變量5代替)的小幅度優化會對降低產品的辛烷值損失產生影響[19].
圖11為改變變量1和變量2所預測得出的產品硫質量分數變化軌跡.由圖11可以發現,樣本的硫質量分數預測結果波動較大.在變量1位于[30,35],變量2位于[-0.3,-0.2]范圍內時,硫質量分數取極小值;變量1接近于上限,變量2接近于下限時,硫質量分數取極大值;同時變量1極小,變量2極大時,硫質量分數也是小范圍的極大值.
圖12為改變變量1和變量2所預測得出的產品辛烷值損失變化軌跡.三維曲面圖較為平滑,符合上文的分析結果,同時可以發現變量1為極小值,變量2為極大值時,辛烷值的損失預測結果最小.
圖13表示其他變量不變時,133號樣本的D-109壓力(變量3)分別為取值范圍的上、下限時,改變變量4和變量5取值預測出的硫含量變化軌跡.當變量3取下限時,產品硫含量較低,但兩者變化趨勢大體相同,都在變量4取值最大時達到極小值.
與圖13相類似,圖14是不同D-109取值下辛烷值損失預測值的變化軌跡,可知變量3的不同取值不會影響辛烷值損失的變化范圍,但改變了辛烷值損失的變化軌跡.變量3取下限時,辛烷值損失在變量4較低時達到極小;而變量3取上限時,恰恰相反辛烷值損失在變量4較低時達到極大[20].
6 結論
通過對S Zorb裝置運行積累的數據進行建模分析,得出以下幾個結論:
1) 對于催化裂化汽油精制脫硫裝置運行積累的大量數據,挑選建模變量時利用了二步篩選法.首先基于Lasso線性模型對多個影響變量進行初步篩選,基于此使用BP神經網絡的指標因子貢獻度計算模型確定參與化工建模的主要變量.綜合利用了2個篩選模型的優勢,第1步去除變量的多重共線性,第2步進一步保證留下的影響變量對辛烷值損失有足夠的貢獻度,兩者結合使得篩選得出的變量不僅更精簡而且與因變量關系更加緊密.
2) 在構建辛烷值預測模型時把神經網絡和多元線性回歸模型相結合,首先將基于最小二乘優化算法(Levenberg-Marquardt)的BP神經網絡模型用于辛烷值損失預測,其精度和可操作性較高,能夠更加準確地預測辛烷值損失.而在優化調控階段,將神經網絡模型和多元線性回歸模型同時用于影響變量的調控,兩者優勢互補并探索出一個有效的變量優化模式.
3) 為充分了解并分析操作變量優化過程中汽油辛烷值與硫含量的變化趨勢,分析誤差對比得知神經網絡算法精度最高,即建立基于神經網絡的硫含量預測模型.操作條件的優化通過操作變量在取值范圍內按照一定幅度的逐漸變化實現,并在主要操作變量基礎上預測辛烷值損失及硫含量,可視化展示了優化調整過程中產品性質的變化軌跡.
4) 研究所構建的降低汽油精制過程中的辛烷值損失模型能明顯降低石油企業煉油生產過程辛烷值的損失,并保證產品的脫硫效果,有效地解決了普通化工建模操作變量少、嚴重非線性及相互強耦聯的問題,可以為石油企業的S Zorb裝置生產實際操作提供合理的指導.而后續研究中可根據實際生產的實時性,在預測汽油辛烷值時利用自適應在線極限學習機模型,從而更有效地保證油品質量,提高生產效率,增加經濟效益[21].
參考文獻
References
[1] 丁怡曼,薛曉康,范賓,等.基于PLS-紅外光譜的汽油辛烷值測定方法研究[J].化學研究與應用,2021,33(5):863-867
DING Yiman,XUE Xiaokang,FAN Bin,et al.Determination of gasoline octane number based on PLS-infrared spectroscopy[J].Chemical Research and Application,2021,33(5):863-867
[2] Kardamakis A A,Pasadakis N.Autoregressive modeling of near-IR spectra and MLR to predict RON values of gasolines[J].Fuel,2010,89(1):158-161
[3] 黃水望,趙曉鋒,郭振,等.氣相色譜法計算汽油的研究法辛烷值[J].廣州化工,2018,46(1):145-146,186
HUANG Shuiwang,ZHAO Xiaofeng,GUO Zhen,et al.Determination of research octane number of gasoline by gas chromatography[J].Guangzhou Chemical Industry,2018,46(1):145-146,186
[4] Ghosh P,Hickey K J,Jaffe S B.Development of a detailed gasoline composition-based octane model[J].Industrial amp; Engineering Chemistry Research,2006,45(1):337-345
[5] 熊春華,田高友.汽油抗爆性能指標與其他理化指標關聯研究[C]//中國汽車工程學會燃料與潤滑油分會第十四屆年會論文集.沈陽:遼海出版社,2010:126-132
XIONG Chunhua,TIAN Gaoyou.The correlations study of antiknocking properties with other physical-chemical properties of gasoline[C]//Proceedings of the 14th Annual Meeting of Fuel and Lubricant Branch of Chinese Society of Automotive Engineering.Shenyang:Liaohai Publishing House,2010:126-132
[6] 楊帆,周敏,金繼民,等.智能優化算法及人工神經網絡在催化裂化模型分析中的應用進展[J].石油學報(石油加工),2020,36(4):878-888
YANG Fan,ZHOU Min,JIN Jimin,et al.Research progress on application of intelligent optimization algorithm and artificial neural network in FCC model analysis[J].Acta Petrolei Sinica (Petroleum Processing Section),2020,36(4):878-888
[7] 歐陽福生,游俊峰,方偉剛.BP神經網絡結合遺傳算法優化MIP工藝的產品分布[J].石油煉制與化工,2018,49(8):98-104
OUYANG Fusheng,YOU Junfeng,FANG Weigang.Optimizing product distribution of MIP process by BP neural network combined with genetic algorithm[J].Petroleum Processing and Petrochemicals,2018,49(8):98-104
[8] 楊帆,周敏,戴超男,等.基于人工智能算法的催化裂化裝置汽油收率預測模型的構建與分析[J].石油學報(石油加工),2019,35(4):807-817
YANG Fan,ZHOU Min,DAI Chaonan,et al.Construction and analysis of gasoline yield prediction model for FCC unit based on artificial intelligence algorithm[J].Acta Petrolei Sinica (Petroleum Processing Section),2019,35(4):807-817
[9] 張玉瑞,陳微微,周曉龍,等.一種改進的調合辛烷值模型預測汽油研究法辛烷值[J].石油煉制與化工,2016,47(6):42-46
ZHANG Yurui,CHEN Weiwei,ZHOU Xiaolong,et al.RON prediction by improved model for blended gasoline[J].Petroleum Processing and Petrochemicals,2016,47(6):42-46
[10] 王天宇,劉忠保,黃明富,等.采用人工神經網絡方法建立加氫裂化反應體系模型[J].石油煉制與化工,2015,46(8):90-95
WANG Tianyu,LIU Zhongbao,HUANG Mingfu,et al.Modeling VGO hydrocracking process by BP-ANN technology[J].Petroleum Processing and Petrochemicals,2015,46(8):90-95
[11] 朱燚丹,陳興榮,李秋萍.基于信息增益率的超高維變量選擇[J].統計與決策,2021,37(22):18-21
ZHU Yidan,CHEN Xingrong,LI Qiuping.Ultra-high dimensional variable selection based on information gain rate[J].Statistics and Decision,2021,37(22):18-21
[12] 楊軼男,任曄,毛安國,等.影響催化裂化裝置汽油辛烷值變化的技術因素分析[J].煉油技術與工程,2019,49(6):32-35
YANG Yinan,REN Ye,MAO Anguo,et al.Analysis of technical factors affecting gasoline octane number in catalytic cracking unit[J].Petroleum Refinery Engineering,2019,49(6):32-35
[13] 劉禹含,曹萃文.基于LightGBM的催化重整裝置產品預測及操作優化相關性分析[J].石油學報(石油加工),2020,36(4):756-766
LIU Yuhan,CAO Cuiwen.Product prediction technology and optimal operation correlation analysis for catalytic reforming unit based on LightGBM[J].Acta Petrolei Sinica (Petroleum Processing Section),2020,36(4):756-766
[14] 胡碧霞,張紅光,盧建剛,等.汽油辛烷值近紅外光譜檢測的改進極限學習機建模方法[J].南京理工大學學報,2017,41(5):660-665
HU Bixia,ZHANG Hongguang,LU Jiangang,et al.Novel modeling method based on improved extreme learning machine algorithm for gasoline octane number detection by near infrared spectroscopy[J].Journal of Nanjing University of Science and Technology,2017,41(5):660-665
[15] 鄭斌,孫洪霞,王維民.基于隨機森林回歸的汽油研究法辛烷值預測[J].石油煉制與化工,2020,51(12):69-75
ZHENG Bin,SUN Hongxia,WANG Weimin.Prediction of gasoline research octane number based on random forest regression[J].Petroleum Processing and Petrochemicals,2020,51(12):69-75
[16] Kubic W L,Jenkins R W,Moore C M,et al.Artificial neural network based group contribution method for estimating cetane and octane numbers of hydrocarbons and oxygenated organic compounds[J].Industrial amp; Engineering Chemistry Research,2017,56(42):12236-12245
[17] Abdul J A G,van Oudenhoven V,Emwas A H,et al.Predicting octane number using nuclear magnetic resonance spectroscopy and artificial neural networks[J].Energy amp; Fuels,2018,32(5):6309-6329
[18] Razavi-Far R,Hallaji E,Farajzadeh-Zanjani M,et al.Information fusion and semi-supervised deep learning scheme for diagnosing gear faults in induction machine systems[J].IEEE Transactions on Industrial Electronics,2019,66(8):6331-6342
[19] Yang X B,Zheng X L,Gao H J.SGD-based adaptive NN control design for uncertain nonlinear systems[J].IEEE Transactions on Neural Networks and Learning Systems,2018,29(10):5071-5083
[20] Yuan X F,Huang B,Wang Y L,et al.Deep learning-based feature representation and its application for soft sensor modeling with variable-wise weighted SAE[J].IEEE Transactions on Industrial Informatics,2018,14(7):3235-3243
[21] 韓萬龍,范崢,薛崗,等.利用BP人工神經網絡預測天然氣中重組分對凈化裝置的影響[J].石油與天然氣化工,2018,47(6):1-6
HAN Wanlong,FAN Zheng,XUE Gang,et al.Effects prediction of heavy components in natural gas on purification unit by BP artificial neural network[J].Chemical Engineering of Oil amp; Gas,2018,47(6):1-6
Octane number prediction based on BP neural network and multiple linear regression
XU Meixian1 ZHENG Yan1 ZHOU Ruolan1 ZHANG Ruyi1
1College of Automobile and Traffic Engineering,Nanjing Forestry University,Nanjing 210037
Abstract In order to reduce the sulfur and olefin and the loss of octane number so as to promote the clean production of gasoline,an octane number loss prediction model is established based on data accumulated by the S Zorb device.First,the Lasso is used to screen out the modeling variables,then the index factor contributions are calculated by the BP neural network,based on which 15 main variables are screened out to build the model.Second,four modeling approaches are compared and analyzed,which shows that the BP neural network has better prediction accuracy thus is more suitable to model the octane number loss.The ten-fold cross-validation produces the average MSE value of 0.027 193 and the average R2 value of 0.904 87,verifying the reliability of the model.Furthermore,the main variables are optimized and adjusted by multiple linear regression under the premise that the sulfur content is not greater than 5 μg/g.The results show that multiple variables need to be adjusted simultaneously to reduce the octane number loss by more than 30%.The multiple linear regression model has good prediction accuracy and can adjust main variables positively or negatively according to a certain proportion.The trajectories of octane number and sulfur content are also visualized in the paper.
Key words BP neural network;multiple linear regression;Lasso algorithm;octane number loss prediction;optimized regulation
收稿日期2022-04-26
資助項目國家自然科學基金(71701099,71501090);江蘇省高等學校自然科學研究項目(17KJB580008)
作者簡介許美賢,女,碩士生,主要從事復雜工業過程建模、數據挖掘、人工智能算法的研究.xumeixian3210@163.com
鄭琰(通信作者),女,博士,副教授,主要從事復雜工業過程建模、機器學習的研究.yzheng_x@163.com