999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林回歸的汽油研究法辛烷值預測

2020-12-02 07:17:08孫洪霞王維民
石油煉制與化工 2020年12期
關鍵詞:模型

鄭 斌,孫洪霞,王維民

(1.中國石化銷售股份有限公司,北京 100728;2.天睿信科技術(北京)有限公司)

辛烷值是表征汽油抗爆性能的重要指標,關系到汽車的油耗、低溫啟動、加速等性能[1]。對成品油銷售企業而言,汽油辛烷值是采購、儲運和銷售過程中重要的質量控制指標。研究法辛烷值(RON)標準測試采用符合ASTM-CFR標準的辛烷值機進行,但其存在價格高、檢驗用量大、耗時長、操作復雜等缺點。除此之外,由于汽油辛烷值與其組分密切相關,利用汽油組分信息進行辛烷值預測的方法得到重視和發展,如拉曼光譜法[2]、近紅外光譜法[3]、中紅外光譜法[4-5]和氣相色譜法[6-7]等。但此類方法多基于光譜、色譜等精密儀器的組分分析結果,對儀器的要求較高。成品油銷售企業覆蓋面廣,質檢室數量眾多,但辛烷值機、光譜儀、色譜儀等精密儀器的配備尚不能實現質檢室全覆蓋,汽油辛烷值檢測一直是質量管理的難點。

汽油辛烷值與其化學組成密切相關,而汽油的理化性質與化學組成也密切相關,因此可以由理化指標來計算汽油的辛烷值。戴詠川等[8]探索了汽油理化指標與辛烷值之間的聯系,建立了由理化指標計算汽油辛烷值的回歸方程式。計算結果顯示,70%的樣品RON計算誤差小于1.2個單位,計算精度略顯不足。近年來,隨著中國石化銷售企業實驗室信息管理系統(LIMS)的建立,實現了質量數據的積累和共享。因此,利用數據庫中海量汽油理化指標數據,探索采用機器學習算法建立汽油辛烷值預測模型實現辛烷值預測成為可能。

利用機器學習算法預測辛烷值的模型大致分為兩類[9-10]:一種是線性模型預測辛烷值,如多元線性回歸分析法(MLR),偏最小二乘法(PLS);另一種是非線性模型預測辛烷值,如人工神經網絡算法(ANN)、支持向量機回歸法(SVM)。隨機森林(Random Forest)是一種廣泛應用的機器學習算法,具有抗過擬合和預測精度高的特點。隨機森林的運算速度快,在處理大數據時表現優異,結果對缺失數據和非平衡數據比較穩健,是取代神經網絡等傳統機器學習方法的新的模型[11]。應用隨機森林算法進行預測在許多領域已得到應用[12-15],但應用隨機森林算法預測汽油辛烷值的研究較為少見。基于這一思路,本研究以汽油常規理化指標為自變量,RON為因變量,提出基于隨機森林回歸算法預測汽油RON的模型,并對所用模型進行驗證。

1 隨機森林回歸算法

隨機森林是由Breiman和Cutler在2001年提出的一種基于決策樹的機器學習算法[11]。隨機森林可以用于分類和回歸。當因變量是分類變量時,是分類,決策樹使用分類樹(一般使用C4.5);當因變量是連續變量時,是回歸,決策樹使用回歸樹(一般使用CART,見圖1)。隨機森林回歸模型,是通過將若干個建立好的決策樹模型所得到的結果進行綜合得到一個模型,最后的預測結果由所有決策樹模型的預測結果平均而得[12]。對應的算法基本步驟如下:

(1)抽樣:從訓練數據集S中,通過有放回的Boostrasp抽樣,生成K組數據集,每組數據集分為被抽中數據與未被抽中數據(袋外數據)2種,每組數據集會通過訓練產生一個決策樹。

(2)生長:通過訓練數據對每個決策樹進行訓練。在每次分節點時,從M個屬性中隨機選取m個特征,依據Gini指標選取最優特征進行分支充分生長,直到無法再生長為止,不進行剪枝。

(3)利用袋外數據檢驗模型的精度,由于袋外數據未參與建模,其能在一定程度上檢驗模型效果與泛化能力。通過袋外數據的預測誤差,確定算法中最佳決策樹數目并重新進行建模。

(4)利用確定的模型對新數據集進行預測,所有決策樹預測結果的平均值即為最終的輸出結果。

隨機森林的每顆決策樹都是對原始記錄進行有放回的重抽樣后生成的。每次重抽樣大約13的記錄沒有被抽取,沒有被抽取的自然形成一個對照數據集。所以隨機森林不需要另外預留部分數據做交叉驗證,其本身的算法類似交叉驗證,而且袋外誤差是對預測誤差的無偏估計[11]。

圖1 隨機森林算法訓練流程

2 基于隨機森林回歸的RON預測模型

2.1 數據來源

本研究用于建模和驗證的數據來源于中國石化銷售企業LIMS的成品油質量數據庫。數據庫中的樣本來自于30多個省級銷售公司入庫的成品油檢驗樣品,樣品來源廣泛,基本涵蓋了國內所有調合工藝的油品。

2.2 變量參數選擇

選取與汽油辛烷值具有相關性的烯烴含量、芳烴含量、氧含量、餾程(10%,50%,90%餾出溫度及終餾點)和密度共8個指標為自變量,RON作為因變量。

2.3 預測模型構建

(1)數據集及預處理。以建模時間(2018年6月)為節點,抽取數據庫中入庫檢測的92號車用汽油和95號車用汽油歷史樣本,選擇所有建模指標(8個自變量和1個因變量)不為空的樣本,利用箱線圖對樣本中的異常數據(超出上下四分位1.5倍四分位差)進行清洗,篩選出17 013個符合要求的樣本作為建模數據集。其中,隨機選取16 641個樣本作為訓練集用于建模,選取372個樣本作為測試集用于評價模型性能。建模數據集中,國Ⅴ汽油樣本和國Ⅵ汽油樣本的比例約為76%∶24%,所有樣本的RON結果均為采用標準試驗方法使用辛烷值機檢測所得。數據集中樣本分布如表1所示。

表1 建模數據集樣本分布

圖2 模型MSE與mtry的關系

圖3 模型預測誤差隨ntree的變化關系

(2)預測模型構建。用基于R語言的隨機森林函數來構建RON預測模型。選取訓練集中的92號車用汽油樣本、95號車用汽油樣本和全部樣本,分別構建92號預測模型、95號預測模型和(92號+95號)一體預測模型。在隨機森林回歸模型中,隨機特征數(mtry)和決策樹的棵數(ntree)是決定模型預測能力的兩個關鍵參數。在大多數情況下,隨機森林模型參數的缺省設置可以給出最優或接近最優的結果[11]。對于分類問題,mtry的缺省值是自變量總數的平方根;對于回歸問題,mtry的缺省值是自變量總數的13。ntree為重抽樣次數,一般當ntree大于500時整體誤差率趨于穩定[16]。以92號模型為例,在ntree默認為500的情況下,采用模型的均方誤差(MSE)作為衡量指標,觀察mtry參數設置對MSE的影響,結果見圖2。由圖2可以看出:在訓練集上,隨著mtry的增加,模型MSE逐漸變小;而在測試集上,隨著mtry的增加,模型MSE先逐漸變大后減小。總體而言,mtry的變化對于模型精度的影響并不十分顯著,考慮在測試集上的預測精度最優,故將mtry設置為2。在訓練集上,92號模型的預測誤差與ntree的關系如圖3所示。由圖3可以看出,模型誤差隨著ntree增加而降低,當ntree達到500時,模型預測誤差已趨于平穩。故最終選擇mtry為2、ntree為500建立3個預測模型。

2.4 模型檢驗與評價

在本研究中,主要采用平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(R2)對模型進行評價和檢驗。計算式如下:

(1)

(2)

(3)

R2用于檢驗回歸模型對實測值的擬合程度,取值在 0~1 之間,R2越接近1,表明擬合效果越好、各自變量對因變量的解釋能力越強。MAE和 RMSE 可以衡量預測值與實測值的差異,MAE 和RMSE 越接近0,模型的模擬能力越好。用R2和RMSE評價模型對訓練數據集的擬合效果,用RMSE和MAE檢驗模型的預測能力。

3 結果與討論

3.1 模型預測精度評價

運用得到的3個預測模型對訓練集和測試集進行預測,計算預測精度,結果見表2。從表2可以看出:在訓練集上,單獨建模的92號預測模型和95號預測模型表現良好,其中,92號預測模型的RMSE達到0.23,95號預測模型的RMSE達到0.20,兩個模型的R2均達到了0.95,具有較高的精度;而訓練集上一體預測模型的表現較差,MAE和RMSE均較大,R2也相對較低。在測試集上,92號預測模型的最大絕對誤差為1.53,MAE為0.44;95號預測模型的最大絕對誤差為1.33,MAE為0.33,均在可接受范圍之內;而一體預測模型的MAE和RMSE均更高,預測效果較差。因此,針對92號和95號汽油,單獨建立預測模型更為合適。3個預測模型在訓練集和測試集上的預測結果分別如圖4和圖5所示。

表2 模型的預測精度統計

圖4 RON預測模型在訓練集上的預測結果

圖5 RON預測模型在測試集上的預測結果

3.2 特征變量重要性評價

隨機森林回歸模型可用方差增量(increase in mean squared error,IncMSE)以及節點純度增量(increase in node purity,IncNodePurity)兩個指標來定性衡量特征變量對目標變量的重要性。IncMSE為采用隨機變量替換某一變量對模型預測結果的影響,若該隨機變量使方差顯著改變,則表示原變量相當重要;IncNodePurity則利用同質性增加原理來衡量變量的重要性[13]。IncMSE 和 IncNodePurity 的值越大,表明該特征變量的重要性越強。表3為模型變量重要性評價結果。由表3可以看出:對于92號預測模型,烯烴含量和氧含量對RON預測的貢獻更大;對于95號預測模型,芳烴含量和10%餾出溫度對RON預測的貢獻更大。

表3 模型變量重要性評價結果

3.3 模型實際應用情況

將建立的92號預測模型和95號預測模型部署在Aster平臺上,對于新進入的汽油樣品,根據牌號選用相應的模型進行RON預測。2019年1月1日起,全國車用汽油標準升級為國Ⅵ標準。為了檢驗模型的適應性,選取了2019年6月和2020年1月檢測的國Ⅵ標準92號和95號車用汽油樣本,對模型預測結果進行分析,見圖6和表4。由圖6和表4可見,隨著油品質量升級汽油調合工藝的變化,92號和95號模型的預測精度較建模初期略有下降,但下降幅度不大,平均絕對誤差(|E|)依然在0.5左右,低于標準試驗方法再現性0.7的要求,仍保持較高的精度。2019年6月和2020年1月的檢測數據中,個別92號車用汽油樣本的預測結果與實測結果誤差超過2.0個單位,最大絕對誤差達到3.5個單位。研究發現,這是由于個別批次92號汽油的實測RON結果超過95,在92號建模數據集中超出92號汽油RON范圍的樣本很少,當超出92號汽油RON要求的樣本進入92號模型時,預測結果與實測結果偏差較大。從圖5和圖6還可以看出,92號模型的RON預測結果大部分落在92.6~93.6范圍內,95號模型的RON預測結果大部分落在95.6~96.6范圍內,該問題發生的原因需要進一步分析。

圖6 國Ⅵ汽油的預測結果

表4 國Ⅵ汽油的預測精度

4 模型預測RON與中紅外光譜檢測RON結果對比

數據庫中有很多汽油樣品在入庫檢驗時采用標準試驗方法和中紅外光譜分析儀兩種方法檢測了RON。因此,在數據庫中抽取了自變量和因變量均不為空且含有中紅外光譜檢測RON結果的92號車用汽油和95號車用汽油樣本500個,隨機森林回歸模型預測的RON結果與中紅外光譜檢測的RON結果如圖7所示。

圖7 模型預測RON與中紅外光譜檢測RON結果對比●—模型預測RON; ■—中紅外光譜檢測RON

表5 不同誤差范圍內的樣品分布

|E|不大于0.7的要求。而中紅外光譜分析儀檢測結果中只有39.4%的樣品|E|在0.7個單位以內。隨機森林回歸模型預測的精度較高,顯著優于目前企業采用的中紅外光譜分析檢測方法。

5 結 論

(1)基于中國石化銷售企業入庫汽油質量數據,應用隨機森林回歸算法,構建92號汽油、95號汽油和一體化的RON預測模型。結果表明,單獨建模的模型預測精度更高。應用92號和95號預測模型對入庫汽油進行RON預測,隨著油品質量升級,模型預測精度略有下降,但總體保持較高精度,可靠性和適應性較好。

(2)對比隨機森林回歸預測模型和中紅外光譜檢測方法,隨機森林預測模型預測RON時84.4%的樣本|E|不大于0.7,預測精度顯著優于中紅外光譜分析儀檢測方法(39.4%的樣本檢測RON的|E|不大于0.7)。

(3)建模數據庫的質量和代表性對于模型準確性至關重要。銷售企業油品來源廣泛、調合工藝復雜,隨機森林回歸預測模型基于銷售企業的成品油質量數據庫,可用于建模的樣本量大、油品來源廣泛、具有較好的代表性,模型具有較優的預測能力。隨著油品生產工藝發生變化,對建模數據庫及時進行更新和維護,更有利于保持高的預測精度。由于常規理化指標較易獲取,隨機森林預測模型為銷售企業汽油辛烷值的質量監測提供了有益的工具。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人在线观看不卡| 国产一级在线观看www色| 亚洲视频在线青青| 国产人成在线视频| 国产免费黄| 久热99这里只有精品视频6| 青青草原国产| 茄子视频毛片免费观看| 波多野结衣一二三| 亚洲欧洲一区二区三区| 97狠狠操| 久草网视频在线| 亚洲日韩Av中文字幕无码| 久久久久国产精品熟女影院| 麻豆精品视频在线原创| 亚洲视频欧美不卡| 欧美精品1区2区| 午夜视频在线观看区二区| 日韩欧美国产中文| 成人综合在线观看| 伊人成色综合网| 国产精品视频3p| 中文国产成人精品久久| 午夜精品影院| aa级毛片毛片免费观看久| 国产精品成人一区二区不卡| 2020国产在线视精品在| 华人在线亚洲欧美精品| 亚洲国产欧美中日韩成人综合视频| 性色一区| 精品一区二区三区无码视频无码| 婷婷伊人五月| 伊人成人在线视频| 一本大道香蕉高清久久| 沈阳少妇高潮在线| 毛片网站免费在线观看| 国产三级毛片| 超级碰免费视频91| 亚洲日韩Av中文字幕无码| 欧美一级特黄aaaaaa在线看片| 久久视精品| 天天躁夜夜躁狠狠躁图片| 色国产视频| 亚洲欧美成人影院| 欧美亚洲日韩中文| 网友自拍视频精品区| 国产精品无码久久久久AV| 91青青在线视频| 国产免费好大好硬视频| 一区二区影院| 无遮挡国产高潮视频免费观看 | 中文成人在线视频| 国产精品久久久精品三级| 国产激情无码一区二区免费| 欧美特黄一免在线观看| www.精品视频| 国产精品无码一二三视频| 伊人久久大香线蕉影院| 草逼视频国产| 亚洲三级a| 国产乱码精品一区二区三区中文| 国产亚洲欧美在线中文bt天堂| 欧美成人二区| 日本欧美视频在线观看| 久久香蕉国产线看精品| 国产一二三区视频| 女人18毛片水真多国产| 亚洲欧洲自拍拍偷午夜色无码| 久久99热66这里只有精品一| 国产欧美日韩另类精彩视频| 婷婷五月在线视频| 欧美一级黄片一区2区| 日本人妻丰满熟妇区| 色婷婷综合在线| 在线欧美日韩国产| 久久国产高潮流白浆免费观看| 亚洲人成网站色7799在线播放| 91亚洲精品第一| 国产精品午夜福利麻豆| 91亚洲精选| 国产视频大全| 亚洲香蕉在线|