999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost和神經網絡擬合預測模型的辛烷值損失的預測

2021-08-09 11:22:29朱怡欣
智能計算機與應用 2021年3期

朱怡欣

摘 要: 汽油清潔化重點是降低汽油中的硫、烯烴含量,同時盡量保持其辛烷值。降低辛烷值(RON)損失是國內車用汽油質量升級的主要目標之一。本文針對某石化企業的催化裂化汽油精制脫硫裝置運行收集的數據進行處理,探求數據樣本中變量與變量本身、其他自變量及目標變量等之間的相關性,對特征變量進行多階段降維,進而通過XGBoost和LSTM循環神經網絡對汽油辛烷值損失進行建模,通過對預測結果的統計表明該方法在企業辛烷值損失預測中具有較好的表現,為國內車用汽油技術升級提供一定的指導作用。

關鍵詞: 辛烷值損失;XGBoost;LSTM

文章編號: 2095-2163(2021)03-0185-05 中圖分類號:TE621 文獻標志碼:A

【Abstract】The focus of gasoline cleaning is to reduce the sulfur and olefin content in gasoline while maintaining its octane number as much as possible. Reducing the loss of octane number (RON) is one of the main goals of China's automotive gasoline quality upgrade. This paper deals with the data collected from the operation of the catalytic cracking gasoline refinery desulfurization unit of a petrochemical company, and explores the correlation between the variables in the data sample and the variables themselves, other independent variables and target variables, and performs multi-stage dimensionality reduction on the characteristic variables. Furthermore, the gasoline octane loss is modeled by XGBoost and LSTM recurrent neural network, and the statistics of the prediction results show that this method has a good performance in the prediction of enterprise octane loss, which provides a certain guidance for the upgrading of China's automotive gasoline technology.

【Key words】 octane loss; XGBoost; LSTM

0 引 言

汽油作為小型汽車的主要燃料,其燃燒產生的尾氣對環境造成了惡劣的影響。世界各國都制定非常嚴格的汽油標準。隨著國內經濟的迅速發展,汽車保有量在持續增長,汽油的需求量也在逐年加大。因此國內大力發展了以催化裂化為核心的重油輕質化工藝技術,充分利用了原油中的重油資源,將重油轉化為汽油、柴油和低碳烯烴。超過70%的汽油是由催化裂化生產得到,因此成品汽油中95%以上的硫和烯烴來自催化裂化汽油。辛烷值是反映汽油燃燒性能的重要指標,辛烷值每降低1個單位,相當于損失約150元/噸。以一個100萬噸/年催化裂化汽油精制裝置為例,若能降低RON損失0.5個單位,其經濟效益將達到7 500萬元。

1 研究方法與基本假設

1.1 研究方法

首先,研究根據樣本針對不良數據進行預處理,篩選出無關緊要的操作變量,輔助找出主要變量,其次,對預處理數據進行多階段降維,利用了Embedded Feature Selection篩選出在建模過程中貢獻度比較高的變量(特征),作為最終建模變量。經過多階段特征降維后,遴選出了30個變量作為影響最終結果的自變量,選出了產品性質中的硫含量、辛烷值損失作為因變量,上述的32個變量用于對辛烷值損失的模型的建立和求解。在經過325個訓練樣本的訓練后,根據XGBoost和神經網絡兩個擬合預測模型不同的預測能力,使用加權打分的形式進行組合,對最終的辛烷值損失進行預測。

1.2 基本假設

假設各訓練樣本之間相互獨立,不存在強耦合的關系。

假設各樣本內容雖然與真實環境存在一定誤差,但不影響最終結果。

假設在預處理階段剔除的變量,對最終結果的預測不會產生方向性錯誤。

2 XGBoost和神經網絡擬合預測模型

2.1 多階段特征降維

由于原始數據變量較多,工程技術應用中經常需要先降維,這有利于忽略次要因素,發現并分析影響模型的主要變量。所以,文中對預處理后的數據進行了多階段降維,充分考慮到了多方面因素進行變量的選擇。

首先,是業務邏輯降維。根據業務邏輯可以知道辛烷值(RON)損失是原料辛烷值與產品辛烷值的差值,所以在給定原料辛烷值的情況下,就不再將產品辛烷值作為建模特征,否則會出現信息泄露問題。隨后,是標準化降維,利用樣本數據預處理結果,已經刪除了一部分變量。然后,是自變量間相關性降維,考慮到各變量之間的相關性,進行變量的兩兩比較,刪除高度相關的變量,保留高度相關的其中一個變量即可,這樣有利于減少變量維度并且降低變量之間的耦合性。其次,是目標變量與自變量間相關性降維,考慮到辛烷值RON損失作為因變量,其與剩余所有變量的相關性,故對辛烷值RON損失以及其余所有變量進行了兩兩相關性計算,有利于剔除與目標變量無關的變量,最大限度地保留對目標變量有意義的變量。接下來,是方差降維??紤]到變量自身的有效性,對變量進行了方差檢驗,剔除了方差小于0.1的變量,方差越小,表示該變量無法有效地去表征目標變量,在后續建立模型中會產生較大的影響。最后,再利用Embedded Feature Selection篩選出在建模過程中貢獻度比較高的變量(特征),作為最終建模變量。最終保留變量如圖1所示。

2.2 多模型融合下的辛烷值損失預測模型

在預測模型中,需要指出的是,目標變量是辛烷值損失值,而不是產品性質中的辛烷值。從上述的相關性分析中,可以得到產品性質中的辛烷值與原料性質中的辛烷值具有高度相關性,如果利用產品性質中的辛烷值作為目標變量,對于結果而言會存在一定的作弊行為。

經由多階段特征降維處理后得到30個主要變量,本次研究將其認定影響最終結果的自變量,其中每個變量含有325個數據。進一步地,選取產品性質中的辛烷值損失作為因變量,同樣含有325個數據。通過對這含有31個變量的325組數據構建模型,對處于不同操作條件(30個主要變量的不同取值)下的辛烷值損失進行預測。

2.2.1 RMSE和MAE指標介紹

RMSE函數一般用來檢測模型的預測值和真實值之間的偏差。RMSE值越大,表明預測效果越差。

平均絕對誤差(Mean Absolute Error,MAE),即誤差絕對值的平均值,可以準確反映實際預測誤差的大小,其對應數學公式可寫為:

MAE評估的是真實值和預測值的偏離程度,即預測誤差的實際大小。MAE值越小,說明模型質量越好,預測越準確。

2.2.2 辛烷值損失預測模型的建立-XGBoost

XGBoost(eXtreme Gradient Boosting)作為一種對多棵決策樹進行集成學習的算法,其中的決策樹之間具備一定的關聯關系,這和隨機森林有極大的不同。XGBoost 模型中,每棵決策樹都是對前面所有決策樹的預測結果之和與真實值的殘差,其算法過程如下:

(1)假設原始訓練集含有的樣本數為N[1-2],隨機且有放回地從原始訓練集中抽取n個訓練樣本,并將其作為第一棵決策樹的訓練集。

(2)設定每個訓練樣本的特征數都為M,隨機從中抽取m個特征,并將其作為決策樹選擇最優劃分特征的特征集合。

(3)利用這n個訓練樣本和m個特征構建第一棵決策樹,得到第一棵樹預測值。

(4)將第一棵決策樹的預測值與真實值之間的殘差作為第二棵樹的輸入值得到第二棵決策樹的預測值[2]。

(5)重復地將第一棵樹與第K-1棵樹之間的預測結果之和與真實值之間的殘差作為第K棵樹的輸入值[2],實驗循環至達到項目停止的條件,最終得到K棵決策樹,即XGBoost。

(6)利用XGBoost對測試集進行預測得到最終預測結果,即K棵決策樹的預測結果之和。

在XGBoost回歸模型中,樣本Di的最終預測值為各棵決策樹對該樣本的預測結果之和[2],如式(3)所示:

其中,T為第K棵決策樹的葉子節點總數;wt為第K棵樹的第t個葉子節點的預測值[2];γ和δ分別表示對這兩部分的重視程度。

公式(8)表示在欠擬合和過擬合之間尋求平衡。其中,第一部分表示全部樣本的真實值以及預測值的殘差函數,該值越小,欠擬合的概率越低;第二部分表示正則化懲罰項,該值越大,過擬合可能性就越大,因此將該部分盡可能縮小化,可以使最終模型更加簡單,具有更強的泛化能力。同時,XGBoost 中每個葉子節點的預測值是根據貪心策略,通過最優化目標函數求出。

2.2.3 辛烷值損失預測模型的建立-LSTM

循環神經網絡RNN與傳統神經網絡不同的是,RNN通過保存當前隱藏層的信息,并通過隱藏層之間的連接將信息傳遞到下一時刻的隱藏層[1],賦予網絡“記憶”屬性,如圖3所示。但RNN網絡在反向傳播的情況下,對模型的線性關系參數具有長期依賴性[1],序列過長往往伴隨著梯度消失,網絡參數過大等條件將進一步導致梯度爆炸。

LSTM模型是RNN模型的一種衍生,是為了避免RNN存在的長期依賴性問題,LSTM網絡利用時間進行反向傳播訓練,解決了梯度消失問題。LSTM的具體結構如圖4所示。圖4中,ht-1是上一層的輸出,Ct-1是上一個LSTM結構的數據信息,ht是該層的輸出,Ct是該LSTM結構的數據信息。

LSTM基于細胞狀態和門控制對信息實現遺忘和更新,結構中包括輸入門、輸出門和遺忘門,其對應的方程式為:

其中,σ為激活函數,U、W、b分別為模型信息的相關參數和偏倚[1]。

之前隱藏層的“記憶”的保留和遺忘是由遺忘門決定的。式(10)通過激活函數sigmoid,利用ht-1

和當前的輸入xt得到輸出ft,輸出數值在[0,1]之間表示上一個LSTM 結構保留信息的概率[1]。式(11)、式(12)利用sigmoid和tanh兩個激活函數實現了對新信息的選擇保留。式(13)表示為對LSTM 結構保留的信息進行更新,即由ft與Ct-1 取Hadamard積,表示部分保留舊信息;it和Ct取Hadamard積,表示部分保留新信息,將兩者相加來更新LSTM 結構保留的信息Ct。輸出門將式(15)中的tanh激活函數應用于最新LSTM 結構保留的信息,并利用式(14)得到的ot取Hadamard積控制最終的輸出ht。

在得到最終的訓練樣本D后,結合主要變量的長期時間序列的特點,建立了的LSTM循環神經網絡結構如圖5所示[1]。

圖5中,除了當前時刻的變量數據,上一個LSTM結構的隱藏層輸出和LSTM結構所包含的信息一起作為當前LSTM循環神經網絡的輸入[1]。該結構輸出結果不僅傳遞給下一個LSTM結構,還利用隨機失活模塊進一步無差別舍棄部分隱藏層節點,以此預防過擬合現象的出現,同時也能避免LSTM循環神經網絡因過度關注歷史信息而導致新信息輸入時一直出現不滿意結果的現象。XGBoost模型的參數設置見表1。XGBoost擬合對比如圖6所示,LSTM擬合對比如圖7所示。

2.3 XGBoost和LSTM的融合

由以上實驗結果對比可得,XGBoost的訓練結果最好。但考慮到LSTM循環神經網絡的構建是基于時間序列的,考慮到了時間因素,最終值的預測是對相比于XGBoost進行了更深的挖掘而得,且LSTM的訓練結果也很好。因此,本文采用基于XGBoost和LSTM的融合模型對辛烷值損失進行預測,即對XGBoost的預測值和LSTM的預測值進行加權求和,進而得到最終的預測值D^31,如式(16)所示:

設定α=β=0.5,XGBoost的參數設置同表1,訓練樣本與上文相同,融合模型的擬合對比如圖8所示。由圖8可以看出,融合模型的擬合效果并未有XGBoost模型的效果好,但考慮到訓練樣本數據的數量并不多,可能存在過擬合問題,LSTM相較于XGBoost多考慮了時間相關性因素,進行了更深層次的數據挖掘。因此,當前的融合模型雖然擬合效果不如XGBoost,但具有更強的魯棒性和適應性,如果擁有更多的數據量,融合模型的表現會更好。

3 結束語

本文通過2種模型融合對石化企業的催化裂化汽油精制脫硫裝置辛烷值損失程度進行了預測,結果表明該模型在預測精準度上有較好的表現,能夠為有關部門對車用汽油質量升級關鍵技術上提供可靠參考。

參考文獻

[1] ?王煒,劉宏偉,陳永杰,等. 基于LSTM循環神經網絡的風力發電預測[J]. 可再生能源,2020,38(9):1187-1191.

[2] 鄒玉瑩. 基于機器學習的票據轉貼現利率預測研究[D]. 南昌:江西財經大學,2020.

[3] ?楊軼男,任曄,毛安國,等. 影響催化裂化裝置汽油辛烷值變化的技術因素分析[J]. 煉油技術與工程,2019,49(6):32-35.

[4] 馬強,趙昌明. 降低S-Zorb裝置汽油辛烷值損失的優化操作[J]. 當代化工研究,2020(15):43-45.

[5] 劉寶,倪維起. S Zorb裝置汽油辛烷值損失影響因素分析[J]. 齊魯石油化工,2019,47(2):102-104,124.

[6] GERS F A, SCHMIDHUBER J, CUMMINS F. Learning to forget: Continual prediction with LSTM[J]. Neural Computation, 2000, 12(10):2451-2471.

[7] ?ZHANG Dahai, QIAN Liyang, MAO Baijin, et al. A data-driven design for fault detection of wind turbines using Random Forests and XGboost[J]. IEEE Access, 2018,6:21020-21031.

[8] 萬黎, 毛炳啟. Spearman秩相關系數的批量計算[J]. 環境保護科學, 2008,34(5):53-55,72.

主站蜘蛛池模板: 国产特级毛片aaaaaaa高清| 亚洲日韩欧美在线观看| 国产成人精品视频一区视频二区| 激情综合网址| 亚洲人成网18禁| 1769国产精品免费视频| 91精品小视频| 久久综合结合久久狠狠狠97色 | 亚洲一区波多野结衣二区三区| 欧洲熟妇精品视频| 国产丝袜无码精品| 久久国产精品77777| 国内老司机精品视频在线播出| 午夜小视频在线| 欧美在线黄| 丁香亚洲综合五月天婷婷| 色亚洲激情综合精品无码视频| 99国产精品国产| 亚洲欧美日韩高清综合678| 国产精品亚洲专区一区| 国产男女XX00免费观看| 97久久免费视频| 伊伊人成亚洲综合人网7777| 国产青榴视频在线观看网站| 999国产精品| 亚洲AⅤ无码日韩AV无码网站| 在线免费不卡视频| 制服丝袜国产精品| 日韩人妻精品一区| 免费Aⅴ片在线观看蜜芽Tⅴ| 99在线观看视频免费| 国产内射一区亚洲| 日本免费a视频| 中文字幕亚洲无线码一区女同| 中文字幕人妻av一区二区| 蜜桃视频一区二区三区| 色国产视频| 成年人视频一区二区| 九九热精品免费视频| 国产精品福利社| 国产精品网址你懂的| 亚洲三级色| 国产精品分类视频分类一区| 在线精品视频成人网| 在线观看免费人成视频色快速| 亚洲国模精品一区| 国产乱人乱偷精品视频a人人澡| 18禁黄无遮挡网站| 国产一级二级三级毛片| 视频一区视频二区中文精品| 色综合久久无码网| 国产一在线观看| 亚洲成人免费在线| 国产午夜福利在线小视频| 国产色网站| 99这里只有精品6| 国产伦片中文免费观看| 亚洲娇小与黑人巨大交| 99青青青精品视频在线| 丁香五月激情图片| 亚洲a免费| 深爱婷婷激情网| 国产一级在线播放| 亚洲中文字幕久久无码精品A| 久久 午夜福利 张柏芝| 人与鲁专区| 亚洲国产综合第一精品小说| 欧美在线精品一区二区三区| 女人毛片a级大学毛片免费| 欧美精品黑人粗大| 亚洲国产成人精品一二区| 91在线无码精品秘九色APP | 亚洲美女操| 毛片在线区| 一级成人a毛片免费播放| 亚洲中久无码永久在线观看软件| 这里只有精品免费视频| 国产欧美性爱网| 午夜精品久久久久久久2023| 国产高清国内精品福利| 久久国产成人精品国产成人亚洲 | 国产成人精品免费视频大全五级 |