鄭 斌,孫洪霞,王維民
(1.中國石化銷售股份有限公司,北京 100728;2.天睿信科技術(北京)有限公司)
辛烷值是表征汽油抗爆性能的重要指標,關系到汽車的油耗、低溫啟動、加速等性能[1]。對成品油銷售企業而言,汽油辛烷值是采購、儲運和銷售過程中重要的質量控制指標。研究法辛烷值(RON)標準測試采用符合ASTM-CFR標準的辛烷值機進行,但其存在價格高、檢驗用量大、耗時長、操作復雜等缺點。除此之外,由于汽油辛烷值與其組分密切相關,利用汽油組分信息進行辛烷值預測的方法得到重視和發展,如拉曼光譜法[2]、近紅外光譜法[3]、中紅外光譜法[4-5]和氣相色譜法[6-7]等。但此類方法多基于光譜、色譜等精密儀器的組分分析結果,對儀器的要求較高。成品油銷售企業覆蓋面廣,質檢室數量眾多,但辛烷值機、光譜儀、色譜儀等精密儀器的配備尚不能實現質檢室全覆蓋,汽油辛烷值檢測一直是質量管理的難點。
汽油辛烷值與其化學組成密切相關,而汽油的理化性質與化學組成也密切相關,因此可以由理化指標來計算汽油的辛烷值。戴詠川等[8]探索了汽油理化指標與辛烷值之間的聯系,建立了由理化指標計算汽油辛烷值的回歸方程式。計算結果顯示,70%的樣品RON計算誤差小于1.2個單位,計算精度略顯不足。近年來,隨著中國石化銷售企業實驗室信息管理系統(LIMS)的建立,實現了質量數據的積累和共享。因此,利用數據庫中海量汽油理化指標數據,探索采用機器學習算法建立汽油辛烷值預測模型實現辛烷值預測成為可能。
利用機器學習算法預測辛烷值的模型大致分為兩類[9-10]:一種是線性模型預測辛烷值,如多元線性回歸分析法(MLR),偏最小二乘法(PLS);另一種是非線性模型預測辛烷值,如人工神經網絡算法(ANN)、支持向量機回歸法(SVM)。隨機森林(Random Forest)是一種廣泛應用的機器學習算法,具有抗過擬合和預測精度高的特點。隨機森林的運算速度快,在處理大數據時表現優異,結果對缺失數據和非平衡數據比較穩健,是取代神經網絡等傳統機器學習方法的新的模型[11]。應用隨機森林算法進行預測在許多領域已得到應用[12-15],但應用隨機森林算法預測汽油辛烷值的研究較為少見。基于這一思路,本研究以汽油常規理化指標為自變量,RON為因變量,提出基于隨機森林回歸算法預測汽油RON的模型,并對所用模型進行驗證。
隨機森林是由Breiman和Cutler在2001年提出的一種基于決策樹的機器學習算法[11]。隨機森林可以用于分類和回歸。當因變量是分類變量時,是分類,決策樹使用分類樹(一般使用C4.5);當因變量是連續變量時,是回歸,決策樹使用回歸樹(一般使用CART,見圖1)。隨機森林回歸模型,是通過將若干個建立好的決策樹模型所得到的結果進行綜合得到一個模型,最后的預測結果由所有決策樹模型的預測結果平均而得[12]。對應的算法基本步驟如下:
(1)抽樣:從訓練數據集S中,通過有放回的Boostrasp抽樣,生成K組數據集,每組數據集分為被抽中數據與未被抽中數據(袋外數據)2種,每組數據集會通過訓練產生一個決策樹。
(2)生長:通過訓練數據對每個決策樹進行訓練。在每次分節點時,從M個屬性中隨機選取m個特征,依據Gini指標選取最優特征進行分支充分生長,直到無法再生長為止,不進行剪枝。
(3)利用袋外數據檢驗模型的精度,由于袋外數據未參與建模,其能在一定程度上檢驗模型效果與泛化能力。通過袋外數據的預測誤差,確定算法中最佳決策樹數目并重新進行建模。
(4)利用確定的模型對新數據集進行預測,所有決策樹預測結果的平均值即為最終的輸出結果。
隨機森林的每顆決策樹都是對原始記錄進行有放回的重抽樣后生成的。每次重抽樣大約13的記錄沒有被抽取,沒有被抽取的自然形成一個對照數據集。所以隨機森林不需要另外預留部分數據做交叉驗證,其本身的算法類似交叉驗證,而且袋外誤差是對預測誤差的無偏估計[11]。

圖1 隨機森林算法訓練流程
本研究用于建模和驗證的數據來源于中國石化銷售企業LIMS的成品油質量數據庫。數據庫中的樣本來自于30多個省級銷售公司入庫的成品油檢驗樣品,樣品來源廣泛,基本涵蓋了國內所有調合工藝的油品。
選取與汽油辛烷值具有相關性的烯烴含量、芳烴含量、氧含量、餾程(10%,50%,90%餾出溫度及終餾點)和密度共8個指標為自變量,RON作為因變量。
(1)數據集及預處理。以建模時間(2018年6月)為節點,抽取數據庫中入庫檢測的92號車用汽油和95號車用汽油歷史樣本,選擇所有建模指標(8個自變量和1個因變量)不為空的樣本,利用箱線圖對樣本中的異常數據(超出上下四分位1.5倍四分位差)進行清洗,篩選出17 013個符合要求的樣本作為建模數據集。其中,隨機選取16 641個樣本作為訓練集用于建模,選取372個樣本作為測試集用于評價模型性能。建模數據集中,國Ⅴ汽油樣本和國Ⅵ汽油樣本的比例約為76%∶24%,所有樣本的RON結果均為采用標準試驗方法使用辛烷值機檢測所得。數據集中樣本分布如表1所示。

表1 建模數據集樣本分布

圖2 模型MSE與mtry的關系

圖3 模型預測誤差隨ntree的變化關系
(2)預測模型構建。用基于R語言的隨機森林函數來構建RON預測模型。選取訓練集中的92號車用汽油樣本、95號車用汽油樣本和全部樣本,分別構建92號預測模型、95號預測模型和(92號+95號)一體預測模型。在隨機森林回歸模型中,隨機特征數(mtry)和決策樹的棵數(ntree)是決定模型預測能力的兩個關鍵參數。在大多數情況下,隨機森林模型參數的缺省設置可以給出最優或接近最優的結果[11]。對于分類問題,mtry的缺省值是自變量總數的平方根;對于回歸問題,mtry的缺省值是自變量總數的13。ntree為重抽樣次數,一般當ntree大于500時整體誤差率趨于穩定[16]。以92號模型為例,在ntree默認為500的情況下,采用模型的均方誤差(MSE)作為衡量指標,觀察mtry參數設置對MSE的影響,結果見圖2。由圖2可以看出:在訓練集上,隨著mtry的增加,模型MSE逐漸變小;而在測試集上,隨著mtry的增加,模型MSE先逐漸變大后減小。總體而言,mtry的變化對于模型精度的影響并不十分顯著,考慮在測試集上的預測精度最優,故將mtry設置為2。在訓練集上,92號模型的預測誤差與ntree的關系如圖3所示。由圖3可以看出,模型誤差隨著ntree增加而降低,當ntree達到500時,模型預測誤差已趨于平穩。故最終選擇mtry為2、ntree為500建立3個預測模型。
在本研究中,主要采用平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(R2)對模型進行評價和檢驗。計算式如下:
(1)
(2)
(3)

R2用于檢驗回歸模型對實測值的擬合程度,取值在 0~1 之間,R2越接近1,表明擬合效果越好、各自變量對因變量的解釋能力越強。MAE和 RMSE 可以衡量預測值與實測值的差異,MAE 和RMSE 越接近0,模型的模擬能力越好。用R2和RMSE評價模型對訓練數據集的擬合效果,用RMSE和MAE檢驗模型的預測能力。
運用得到的3個預測模型對訓練集和測試集進行預測,計算預測精度,結果見表2。從表2可以看出:在訓練集上,單獨建模的92號預測模型和95號預測模型表現良好,其中,92號預測模型的RMSE達到0.23,95號預測模型的RMSE達到0.20,兩個模型的R2均達到了0.95,具有較高的精度;而訓練集上一體預測模型的表現較差,MAE和RMSE均較大,R2也相對較低。在測試集上,92號預測模型的最大絕對誤差為1.53,MAE為0.44;95號預測模型的最大絕對誤差為1.33,MAE為0.33,均在可接受范圍之內;而一體預測模型的MAE和RMSE均更高,預測效果較差。因此,針對92號和95號汽油,單獨建立預測模型更為合適。3個預測模型在訓練集和測試集上的預測結果分別如圖4和圖5所示。

表2 模型的預測精度統計

圖4 RON預測模型在訓練集上的預測結果

圖5 RON預測模型在測試集上的預測結果
隨機森林回歸模型可用方差增量(increase in mean squared error,IncMSE)以及節點純度增量(increase in node purity,IncNodePurity)兩個指標來定性衡量特征變量對目標變量的重要性。IncMSE為采用隨機變量替換某一變量對模型預測結果的影響,若該隨機變量使方差顯著改變,則表示原變量相當重要;IncNodePurity則利用同質性增加原理來衡量變量的重要性[13]。IncMSE 和 IncNodePurity 的值越大,表明該特征變量的重要性越強。表3為模型變量重要性評價結果。由表3可以看出:對于92號預測模型,烯烴含量和氧含量對RON預測的貢獻更大;對于95號預測模型,芳烴含量和10%餾出溫度對RON預測的貢獻更大。

表3 模型變量重要性評價結果
將建立的92號預測模型和95號預測模型部署在Aster平臺上,對于新進入的汽油樣品,根據牌號選用相應的模型進行RON預測。2019年1月1日起,全國車用汽油標準升級為國Ⅵ標準。為了檢驗模型的適應性,選取了2019年6月和2020年1月檢測的國Ⅵ標準92號和95號車用汽油樣本,對模型預測結果進行分析,見圖6和表4。由圖6和表4可見,隨著油品質量升級汽油調合工藝的變化,92號和95號模型的預測精度較建模初期略有下降,但下降幅度不大,平均絕對誤差(|E|)依然在0.5左右,低于標準試驗方法再現性0.7的要求,仍保持較高的精度。2019年6月和2020年1月的檢測數據中,個別92號車用汽油樣本的預測結果與實測結果誤差超過2.0個單位,最大絕對誤差達到3.5個單位。研究發現,這是由于個別批次92號汽油的實測RON結果超過95,在92號建模數據集中超出92號汽油RON范圍的樣本很少,當超出92號汽油RON要求的樣本進入92號模型時,預測結果與實測結果偏差較大。從圖5和圖6還可以看出,92號模型的RON預測結果大部分落在92.6~93.6范圍內,95號模型的RON預測結果大部分落在95.6~96.6范圍內,該問題發生的原因需要進一步分析。

圖6 國Ⅵ汽油的預測結果

表4 國Ⅵ汽油的預測精度
數據庫中有很多汽油樣品在入庫檢驗時采用標準試驗方法和中紅外光譜分析儀兩種方法檢測了RON。因此,在數據庫中抽取了自變量和因變量均不為空且含有中紅外光譜檢測RON結果的92號車用汽油和95號車用汽油樣本500個,隨機森林回歸模型預測的RON結果與中紅外光譜檢測的RON結果如圖7所示。

圖7 模型預測RON與中紅外光譜檢測RON結果對比●—模型預測RON; ■—中紅外光譜檢測RON

表5 不同誤差范圍內的樣品分布
|E|不大于0.7的要求。而中紅外光譜分析儀檢測結果中只有39.4%的樣品|E|在0.7個單位以內。隨機森林回歸模型預測的精度較高,顯著優于目前企業采用的中紅外光譜分析檢測方法。
(1)基于中國石化銷售企業入庫汽油質量數據,應用隨機森林回歸算法,構建92號汽油、95號汽油和一體化的RON預測模型。結果表明,單獨建模的模型預測精度更高。應用92號和95號預測模型對入庫汽油進行RON預測,隨著油品質量升級,模型預測精度略有下降,但總體保持較高精度,可靠性和適應性較好。
(2)對比隨機森林回歸預測模型和中紅外光譜檢測方法,隨機森林預測模型預測RON時84.4%的樣本|E|不大于0.7,預測精度顯著優于中紅外光譜分析儀檢測方法(39.4%的樣本檢測RON的|E|不大于0.7)。
(3)建模數據庫的質量和代表性對于模型準確性至關重要。銷售企業油品來源廣泛、調合工藝復雜,隨機森林回歸預測模型基于銷售企業的成品油質量數據庫,可用于建模的樣本量大、油品來源廣泛、具有較好的代表性,模型具有較優的預測能力。隨著油品生產工藝發生變化,對建模數據庫及時進行更新和維護,更有利于保持高的預測精度。由于常規理化指標較易獲取,隨機森林預測模型為銷售企業汽油辛烷值的質量監測提供了有益的工具。