劉禹含,曹萃文
(華東理工大學 化工過程先進控制和優化技術教育部重點實驗室,上海 200237)
催化重整工藝是非常重要的石油加工工藝,用于生產高辛烷值汽油或芳香烴等,同時該工藝副產的大量氫氣是加氫工藝最重要的氫氣來源。催化重整分為半再生式重整、循環再生式重整和連續再生式重整。本研究的某煉油廠的催化重整裝置是連續再生式重整裝置,統一簡稱為催化重整裝置。目前,對催化重整裝置反應過程及實時產品預測的建模方法主要分為兩大類:第一類使用機理建模方法建立集總動力學模型[1-7];第二類是基于數據驅動的方法建模[8-19]。
使用集總動力學方法對催化重整裝置進行反應過程和產品預測建模,最早于1959年由Smith[1]提出了4集總模型。2007年,王均炎等[2]建立了催化重整的集總動力學模型,基于Aspen HYSYS建立了催化重整過程的穩態模型,進行了靈敏度分析,為過程的監控和優化提供了參考。2012年,梁超等[3]基于集總理論和反應機理建立了考慮烷烴、環烷烴和芳烴間關系的反應器模型。2016年,劉子媛等[4]建立了14集總反應動力學模型用于預測催化重整產品組成。2015年,劉鵬飛[5]針對半再生催化重整裝置,使用Aspen HYSYS建立了反應和分離模型并進行優化分析。李斌等[6]建立了連續催化重整的18集總27反應的動力學模型對產物進行了預測。2018年,Babaqi等[7]建立了36集總55反應的集總動力學反應機理模型,并將該模型用于監控重整過程參數。這類方法如果集總組分和集總動力學方程建立得越全面,則模型精度越高,反應過程及產品預測越準確。但是如果集總數目太多會使反應網絡非常復雜,計算工作量龐大,即使采用先進的Aspen HYSYS軟件進行運算,運算速度仍然較慢,在線應用十分困難。
基于數據驅動的方法進行軟測量建模則具有運算速度快的優點。秦秀娟等[8]使用BP神經網絡建立催化重整汽油辛烷值預測模型。郭彥等[9]采用BP神經網絡和主成分分析法建立催化重整裝置的收率預測模型。賀宗江[10]利用機理方法、線性擬合方法和一階TSK模糊神經網絡算法分別對催化重整裝置的芳烴收率建立軟測量模型。孫自強等[15-16]利用BP神經網絡建立催化重整裝置的辛烷值和反應器結焦量軟測量研究。Abdalla等[17]使用前饋神經網絡對催化重整生產過程建立模型。2016年,張凌波等[18]提出一種改進的教學算法優化BP神經網絡,建立了催化重整裝置的催化劑含炭量的預測模型。2016年,雙翼帆等[19]使用建立多模型包括支持向量機、神經網絡等軟測量建模方法,建立了脫氯前氫氣純度的在線計算模型。這些方法拋開機理方程,以裝置運行的歷史數據和實時數據為基礎,用數據驅動模型建立重整裝置的相關輸入參數與輸出產品之間的聯系,運算速度快,可以在線應用。但是模型的準確性依賴于數據的全面性,常規工況下采集的有限數據集無法實現這個“全面性”的任務,從而使數據驅動的模型精度產生偏差。
隨著機器學習在數據預測和分類方面的成功應用,新的數據驅動方法,如卷積神經網絡[20]、XGBoost[21]、LightGBM[22-23]等,得到飛速發展。如何將機理建模與數據驅動兩種方法的優勢結合為裝置的在線優化操作提供理論支撐,已成為理論界和工業界共同關注的一個重要的研究課題。
數據驅動建模的關鍵影響因素是完備的數據集和合適的建模方法。實際生產中工況和獲得的數據量很有限,為了提升建模的精度和速度并改善該問題,筆者首先使用Aspen HYSYS軟件建立了與有限實際生產數據相吻合的連續催化重整裝置的20集總動力學模型的機理模型,并在軟件中考慮了多種生產可能性,擴展生產數據的范圍,得到了更加完整的裝置產品預測訓練數據集。然后,與已有研究成果中常用的BP神經網絡作為對比,在Python平臺上采用訓練速度快、預測精度高、適合非線性過程建模的LightGBM決策樹模型[23]對某煉油廠的催化重整裝置進行了數據驅動產品預測建模。并運用交叉驗證,以均方根誤差(RMSE)、解釋方差得分(EVS)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)4個指標來評價預測模型,考察其預測的準確度。
某大型煉油廠的催化重整裝置由4級反應器和催化劑再生器組成。反應器主要進行催化重整反應;催化劑再生器主要進行催化劑的再生,反應器和再生器之間由管線連接。來自預處理部分的重整原料依次通過4個反應器逐步進行反應。由于催化重整反應是吸熱反應,反應器間會發生溫降,各反應器間使用加熱爐確保下一反應器的入口溫度。催化重整過程主要有9種基本反應類型,如表1所示。

表1 催化重整反應動力學基礎反應類型
Aspen HYSYS軟件使用的化工流程模擬方法為序貫模塊法,其優點是:可以任意組合單元模擬工藝過程,組分數、塔板數、物流數、循環數均無限制;物性數據豐富,應用領域廣泛,輸入、輸出采用窗口技術和圖形技術,使用方便。因此,經過與實際生產數據的對比測試,筆者在Aspen HYSYS的平臺上構建了20集總催化重整模型,其集總組分劃分如表2所示。

表2 催化重整模型的集總組分劃分
采用Aspen HYSYS V8.4中Refining工具箱的Catalytic Reformer模塊構建催化重整裝置核心反應模型。模型的建立需要反應器的結構參數、催化劑裝填量、原料油分析數據、循環氫比率、反應器操作參數等數據。然后,基于催化重整裝置的工藝和生產數據對構建的模型進行調整校正,并調試收斂。Aspen HYSYS中的催化重整裝置核心反應過程如圖1所示。原料在4個催化重整反應器進行重整反應,產品油和氫氣經空冷器、分離罐完成冷凝和氣、液相的分離。

圖1 Aspen HYSYS中催化重整裝置模型仿真圖
構建模型后,通過數據驅動方法分析優化操作參數,需要大量的數據。由于操作參數的改變對催化重整裝置的產出影響非常大,因而從實際生產中獲得的裝置操作參數變化范圍有限。催化重整裝置產品預測數據集的構建,可以通過在Aspen HYSYS軟件中調整模型裝置的操作參數來模擬生產過程、擴展生產數據。
催化重整裝置中反應部分最重要的操作參數為4個反應器入口溫度和循環氫流量,不同操作參數的調整對產品的影響程度也不同。以煉油廠中一種精制石腦油輸入為例進行分析,確定了對生產結果影響大的5個操作參數,分別是:反應器1、2、3、4的溫度T1、T2、T3、T4和循環氫流量F(Re H2)。催化重整裝置在平穩運行時,反應器1、2、3、4的溫度分別為539 ℃、537 ℃、537 ℃、537 ℃,循環氫流量為4005 m3/h。煉油廠實際數據與Aspen HYSYS軟件模型數據對比情況如表3所示。其中,煉油廠裝置的操作參數包括4個反應器的溫度,戊烷、二甲苯、C6、重整汽油、氫氣的流量,循環氫流量和氫氣的純度。

表3 催化重整裝置的運行穩態數據與Aspen HYSYS模型的計算數據對比
重整裝置實際運行時,近穩態值處波動多,數據量大;而遠穩態時波動較少,數據量較小。因此,在擴展數據集時設定:當反應器溫度在穩態值±2 ℃內時,以0.5 ℃幅度波動;在穩態值±(2~5) ℃范圍時,以1 ℃幅度波動;在穩態值±(5~10) ℃范圍時,以2.5 ℃幅度波動;循環氫流量波動幅度為36 m3/h,以穩態值為中間值共取5個值。
數據集構建在CPU為Intel Xeon E3-1575M v5主頻為3.00 GHz的Dell移動工作站上進行,經過約79 h的計算,在Aspen HYSYS軟件平臺建立的模型上共擴展數據42930組。剔除問題數據后,得到39300組有效數據。表4列出10組有效數據。

表4 催化重整裝置產品預測數據集
梯度提升決策樹(GBDT)是Friedman[24]于2001年提出的功能非常強大的機器學習模型,是基于決策樹的集成學習框架,但其容易過度擬合、訓練速度慢。2017年,Ke等[23]基于GBDT提出了改進的LightGBM,具有以下優點:分布式和高效性、更快的訓練速度和更高的效率、降低內存使用率、更準確、能夠處理大規模非線性數據。LightGBM是微軟公司提供的開源算法,主要針對大規模數據提出的高效率新技術,以損失函數最小為優化策略,可以將傳統GBDT的訓練過程加速20倍以上,同時實現更高的精度[23]。
在Aspen HYSYS軟件得到的催化重整裝置運行各項參數完備數據集的基礎上,筆者采用了訓練速度快、預測精度高、適合非線性過程建模的LightGBM[23]決策樹模型對該催化重整裝置進行了數據驅動產品預測建模。在建模過程中,隨機選取數據集中90%的數據作為訓練數據集,其余10%的數據作為測試數據集,并指定數據集中的反應器1、2、3、4的溫度T1、T2、T3、T4和循環氫流量為特征變量,分別以數據集中的戊烷、二甲苯、C6、重整汽油和氫氣的流量,以及氫氣純度為目標變量,建立了6個單目標的預測模型。此外,基于Python3.6.6平臺建立的LightGBM決策樹模型(單棵樹葉子數量為5,學習率為0.05,數據隨機選擇比率為0.8,其余參數為默認值),是在CPU為 i7-7600HQ 的筆記本完成的。
模型的訓練數據集由模型擴展的39300組有效數據組成。將其等分為10份,每次訓練使用其中1份數據(3930個數據)為測試數據,其余9份數據(35370個數據)為訓練數據。

為考察基于LightGBM產品預測模型的預測精度,同時采用BP神經網絡建立數據驅動產品預測模型,并進行預測精度的對比。基于BP神經網絡模型的結構為3層:輸入層(5個節點)、隱藏層(5個節點)和輸出層(1個節點),并采用隨機梯度下降法訓練BP神經網絡每層節點間的權重。
采用LightGBM和BP神經網絡分別進行10折交叉驗證,并計算了均方根誤差(RMSE)、解釋方差得分(EVS)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)等模型評價指標,計算式分別為式(1)~(4)。
(1)
(2)
(3)
(4)
基于LightGBM和BP神經網絡的預測模型,對催化重整裝置目標變量(包括戊烷、二甲苯、C6、重整汽油和氫氣流量,及氫氣純度)的預測值與實際值如圖2~圖7所示。從圖2~圖7可以看出,相較于BP神經網絡模型,LightGBM模型的6種目標變量的預測值與實際值吻合度更高,說明其擬合精度明顯好于BP神經網絡模型的精度。同時,在裝置的操作參數微小變化時,催化重整裝置的目標變量存在局部跳變現象,波動性非常強。LightGBM利用弱分類器(決策樹)迭代訓練得到優化模型,對波動性強的數據擬合效果好;而BP神經網絡雖然能預測跳變趨勢,但擬合精度較差。
從圖2、圖4、圖5和圖7還可以看到:對于戊烷、C6、重整汽油流量和氫氣純度某些波動大的點,BP神經網絡預測較差,造成了較大的誤差,而LightGBM模型保持較高的預測精度。從圖3和圖6可以看到,對于二甲苯和氫氣流量,BP神經網絡預測值比較集中,不能夠對不同的輸入特征變量(不同工況)做出更精準的預測,區分度不強,而LightGBM模型的預測表現遠遠優于BP神經網絡模型。這表明BP神經網絡從訓練數據中學習到的知識比較差,泛化能力弱,不能達到較好的預測效果。
表5中列出了對LightGBM模型和BP神經網絡模型進行10折交叉驗證后RMSE、EVS、MAE和MAPE的均值。其中,RMSE、MAE、MAPE指標越小,EVS越接近于1,說明模型預測精度越高。由表5可以看到,與BP神經網絡模型的指標值相比,LightGBM模型的RMSE、MAE、MAPE指標更小,而EVS更接近于1。這表明從這4種評價指標來衡量,LightGBM模型的預測精度更高。

圖3 二甲苯流量(F(Xylene))實際值與預測值

圖4 C6流量(F(C6))實際值與預測值

圖5 重整汽油流量(F(Gasoline))實際值與預測值

圖6 產氫量(F(H2))實際值與預測值

圖7 氫氣純度實際值與預測值


表5 預測模型10折交叉驗證后的評價指標
(5)

模型中特征變量向量矩陣:X=[x1,x2,…,xj,…,xn]k×n;其中xj=[x1j,x2j,…,xij,…,xkj]T。其中,x1,x2,…,xj,…,xn代表輸入的特征變量向量;n代表特征變量向量個數。
設第i行的行向量xROWi=[xi1,xi2,…,xij,…,xkj]對應目標變量的值為yi,則模型中目標變量向量矩陣為:y=[y1,y2,…,yi,…,yk]T。


(6)
根據回歸決策樹的計算原理,計算每棵決策樹目標變量值時,目標變量與特征變量之間的函數關系均可以表示為公式(7)。
(7)
(8)
式(8)中,En是n×n的單位矩陣。結合公式(6)則推出:
(9)
(10)
通過分析模型中輸入特征變量對每個輸出目標變量的影響程度值,得到特征變量和目標變量的相關性。圖8給出了模型特征變量與輸出變量的相關性排序,其中T1、T2、T3、T4分別為催化重整裝置反應器1、2、3、4的溫度;F(Re H2)為裝置循環氫流量。由圖8可知:對于戊烷流量,反應器2的溫度影響最大,反應器4和1的溫度影響也較大,而循環氫流量和反應器3溫度的影響明顯小很多;對二甲苯的流量,反應器1溫度的影響最大,反應器4、3、2溫度的影響依次減小,而循環氫流量的影響最小;對于C6的流量,反應器1的溫度影響最大,反應器4的溫度影響次之,反應器2和3的溫度影響稍弱,循環氫流量的影響可以忽略;對于重整汽油流量,反應器4的溫度影響最大,反應器1和2溫度、循環氫流量、反應器3溫度的影響依次減小;對于催化重整裝置產生氫氣的流量,反應器4溫度影響最大,反應器1溫度的影響次之,而循環氫流量的影響也比較重要;對于氫氣純度,反應器2溫度的影響最大,而反應器4、1和3溫度的影響依次減小。

圖8 特征變量對目標變量影響的重要性
在實際生產中,連續催化重整裝置的生產目標存在多種變化的可能性。以裝置各目標產品的輸出量來表達變化可能性時,需要調整操作參數來實時調節裝置的生產。目前,這項工作主要依賴于操作員的經驗。根據本研究的優化操作相關性分析,得到操作參數對目標產品影響度的重要性排序,可以優先調整重要性高的操作參數,進行高效的實時優化操作。
(1)根據實際運行參數,利用Aspen HYSYS軟件構建了連續催化重整裝置的20集總動力學模型,并考慮多種可能性擴展催化重整裝置數據范圍,得到了更加完整的裝置產品預測訓練數據集。
(2)在Aspen HYSYS構建模型擴展數據集基礎上,采用LightGBM決策樹成功構建了催化重整裝置的產品預測數據驅動模型。以RMSE、EVS、MAE、MAPE等4個指標來評價預測模型,結果表明,與采用BP神經網絡構建數據驅動模型比較,LightGBM構建的模型預測準確度更高,并且保持了較快的訓練速度。通過特征變量對目標變量影響大小的相關系分析,明確了特征變量對每一個目標變量影響的重要程度,從而針對不同生產目標得到影響最大的特征變量。