


本文引用格式:薛云飛.基于機器學習的汽車二氧化碳排放量預測研究[J].自動化與信息工程,2023,44(1):22-26;45.
XUE Yunfei. Research on prediction of automobile carbon dioxide emissions based on machine learning[J]. Automation & Information Engineering, 2023,44(1):22-26;45.
摘要:針對汽車尾氣排放物中二氧化碳(CO2)的排放量測量設備價格昂貴且測量精度低的問題,進行基于機器學習的汽車二氧化碳排放量預測研究。首先,利用斯皮爾曼等級相關系數分析汽車特征之間的相關性,并過濾冗余特征;然后,利用隨機森林算法篩選出影響CO2排放量的4個核心特征;最后,分別基于線性回歸、梯度提升樹、XGBoost、支持向量機4種機器學習算法建立CO2排放量的預測模型,并通過模型效果對比和網格搜索調參,確定最佳的預測模型為基于梯度提升樹算法構建的模型。預測值和真實值的對比結果表明,基于梯度提升樹算法構建的模型具有較高的預測精度,能有效預測不同汽車每公里的CO2排放量。
關鍵詞:機器學習;CO2排放量;斯皮爾曼等級相關系數;隨機森林算法;預測模型
中圖分類號:TP181????????????文獻標志碼:A ?????????文章編號:1674-2605(2023)01-0004-06
DOI:10.3969/j.issn.1674-2605.2023.01.004
Research on Prediction of Automobile Carbon Dioxide Emissions ?Based on Machine Learning
XUE Yunfei
(School of Mechatronics and Vehicle Engineering, Chongqing Jiaotong University,?Chongqing 400074, China)
Abstract:?Aiming at the problem of the high price and low measurement accuracy of the emission measurement equipment of carbon dioxide (CO2) in automobile exhaust emissions, the research on the prediction of automobile carbon dioxide emissions based on machine learning is carried out. Firstly, the correlation between automobile features is analyzed by using Spearman rank correlation coefficient, and redundant features are filtered; Then, the random forest algorithm is used to screen out four core characteristics that affect the emission of CO2; Finally, the prediction model of CO2?emissions is established based on four machine learning algorithms, namely linear regression, gradient lifting tree, XGBoost and support vector machine, and the best prediction model?is determined based on gradient lifting tree algorithm through model effect comparison and grid search parameter adjustment. The comparison between the predicted value and the real value shows that the model based on gradient lifting tree algorithm has high prediction accuracy and can effectively predict the CO2?emissions per kilometer of different automobile.
Keywords:?machine learning; CO2?emissions; Spearman rank correlation coefficient; random forest algorithm; prediction model
0 ?引言
隨著科技和經濟的飛速發展,我國汽車保有量迅速增長,汽車尾氣已成為我國大氣污染物的主要來源之一[1]。汽車發動機工作時,燃油中的碳與氧結合生成的CO2約占汽車尾氣總排放量的20%[2]。CO2會引發溫室效應,影響全球氣候變化,因此對汽車尾氣中
的CO2排放量進行測量是非常必要的。通過測量得到規定條件下汽車的CO2排放量,不僅可以確定汽車是否符合環保檢測尾氣標準,還可以為環境污染管理提供碳排放數據。
目前,測量汽車CO2排放量的方法大都根據光學原理,利用CO和CO2等氣體對不同頻率的紅外光有
不同吸收率的特點進行測量。汽車尾氣的測量設備主要有化學發光分析儀、可移動的四極質譜儀、新型非分光紅外線(non-dispersive infrared, NDIR)設備和改進的氫火焰離子化檢測器(flame ionization detector, FID)等。王剛等[3]針對輕型汽車設計一款便攜式車載排放測試設備,依據非分光紅外法原理測量汽車的CO2排放量,穩態工況下的測量誤差為2.54%。蘇茂輝[4]利用NDIR分析儀來測量汽車尾氣排放物中CO及CO2的濃度,測量誤差穩定在2.5%之內。隋修武?等[5]采用一體化結構設計一套汽車排放瞬態工況法測量用氣體流量分析儀,用于測量汽車尾氣排放物中CO2的濃度值及排放量,測量誤差僅為0.93%。以上測量設備價格昂貴,動態響應差,只能滿足CO2濃度變化微小的工況。隨著人工智能技術的快速發展,有些學者將其應用于汽車尾氣排放量的測量,如李小穎等[6]基于神經網絡建立汽車尾氣排放物中CO的軟測量模型,該模型可在沒有汽車尾氣排放物專用測量儀器時進行CO排放量的測量。受此啟發,本文基于機器學習與數據挖掘技術,利用汽車行駛的信息數據來預測CO2排放量。
1 ?數據描述及預處理
本文的研究數據來源于開放數據平臺Kesci上的2022年加拿大汽車燃油消耗等級數據。該數據集有15個字段,共946條記錄,每條記錄包含唯一的汽車特征,數據集中的汽車特征信息如表1所示。
在Python3.8環境中進行CO2排放量預測的分析和建模,編輯器采用Spyder。將2022年加拿大汽車燃油消耗等級數據導入Python后,先刪除無用特征ModelYear;再采用獨熱編碼方式對5列字符型的離散型特征進行編碼處理,以方便后續輸入模型的分析。
2 ?特征選擇
2.1 ?斯皮爾曼相關性分析
斯皮爾曼相關性分析作為一種常用的描述性分析方法,可檢查特征間的相關性。當特征間的相關性過大時,可能引起模型不穩定,導致模型的魯棒性較差[7]。2個特征的相關性可用相關系數的絕對值來表征。斯皮爾曼根據特征數據的位置順序計算2個特征的相關
系數,不受數據本身影響,計算流程為:
1) 對2個特征X、Y排序;
因為特征中異常值的秩只出現在數據的頭尾,所以斯皮爾曼相關系數降低了異常值對相關性的影響。2個特征之間的相關性等級如表2所示。
由表2可知:當2個特征的相關系數的絕對值在0.8~1.0之間時,說明2個特征呈極強相關;當2個特征的相關系數的絕對值大于0.95時,說明2個特征極度相似,近似呈線性關系。本文設定相關性閾值為0.95,即2個特征的相關系數的絕對值大于0.95時,只保留其中1個。
利用斯皮爾曼相關性分析計算汽車特征之間的相關系數,并以熱力圖的形式將特征之間的相關系數可視化,如圖1所示。
由圖1可知,汽車不同特征之間共有8個相關系數的絕對值大于閾值0.95。可刪除FuelConsumption (Comb(L/100 km))、CO2Rating、FuelConsumption (Comb(mpg))這三列冗余特征。
2.2 ?基于隨機森林算法的特征重要性評分
將刪除冗余特征后的數據按7∶3的比例隨機劃分為訓練集和測試集。其中,訓練集數據有662個樣本,測試集數據有284個樣本。基于隨機森林算法對斯皮爾曼相關性分析后的汽車特征進行重要性評分,只保留重要性評分較高的汽車特征來挖掘影響CO2排放量的核心特征。對于回歸問題,隨機森林內部節點的特征按方差減少的標準來選擇[8]。
由圖2可知,FuelConsumption(City(L/100 km))特征與CO2排放量的相關性最大;在EngineSize(L)之后,汽車特征的重要性變得微乎其微。本文選擇重要性評分較高的4個特征FuelConsumption(City(L/100 km))、FuelConsumption(Hwy(L/100?km))、FuelType、EngineSize(L),即對CO2排放量影響較大的特征進行建模。
3 ?模型構建
本文基于線性回歸、梯度提升樹、XGBoost、支持向量機4種機器學習算法分別建立汽車CO2排放量的預測模型。
線性回歸是利用線性回歸方程的最小平方函數對一個或多個自變量和因變量之間的關系進行建模的一種回歸分析[9]。
梯度提升樹以決策樹為基學習器,對于回歸問題決策樹是二叉回歸樹,其模型可表示為決策樹的加法模型[10],通過負梯度擬合的方式進行迭代,逐漸減小與樣本真實值之間的殘差。
XGBoost作為梯度提升樹的高效實現[11],主要從算法本身、算法運行效率、算法健壯性3個方面做了優化,對每個弱學習器的建立過程做并行選擇,找出合適的子樹分裂特征和特征值。
支持向量機處理回歸問題時,擬合訓練的數學模型可表達為多維空間的某一曲管。如預測值與真實值的差值小于閾值,將不對此樣本點作懲罰;若超出閾值,則計算懲罰量[12]。
在Python3.8環境中導入各個機器學習算法的模塊,利用訓練集的662個樣本訓練各模型,各模型的超參數為默認值;再將測試集284個樣本的特征數據導入訓練好的模型進行預測。
通過對比平均絕對誤差(mean absolute error, MAE)、均方根誤差(root mean square error,?RMSE)、平均百分比誤差(mean absolute percentage error, MAPE)、擬合優度(R-squared,?R2)4個回歸性能評估指標,分析模型在測試集上的效果。4個回歸性能評估指標的計算公式分別為
4個模型在測試集上的回歸性能評估指標如表3所示。
法構建的CO2排放量預測模型的4個回歸性能評估指標均明顯優于其他模型。
對基于梯度提升樹算法構建的模型進行網格搜索調參。因為樹的棵數n_estimators和最大深度max_depth超參數對模型效果的影響較大,所以主要對這2個超參數進行調節。調參時,設置n_estimators的范圍為10~600,步長為10;max_depth的范圍為1~16,步長為1。以RMSE作為調參目標,網格搜索不同參數組合時,該模型在測試集上的RMSE如圖3所示。
由圖3可以看出,網格搜索在第188次超參數組合時,RMSE最小,此時對應的n_estimators為220,max_depth為8。基于梯度提升樹算法構建的模型調參前后的預測結果對比如表4所示。
由表4可知,模型調參后,測試集上的MAE,RMSE和MAPE均有一定程度的減小;可認為當n_estimators為220,max_depth為8,其他參數為默認值時,基于梯度提升樹算法構建的模型就是本文CO2排放量預測的最佳模型。
為了直觀查看樣本預測值和真實值的情況,利用折線將預測值和真實值可視化。基于梯度提升樹算法構建的模型預測值和真實值的對比折線圖如圖4所示。
由圖4可以看出,只有少部分樣本的預測值和真實值存在較小誤差,絕大部分樣本都能準確預測,模型預測效果較優。
4 ?結束語
本文以2022年加拿大汽車燃油消耗等級數據中的CO2排放量作為研究目標,汽車的其他信息數據作為特征,分別基于4種機器學習算法建立了汽車CO2排放量預測模型。預測結果表明,調參后的基于梯度提升樹算法構建的模型具有較高的預測精度。當以克每公里為單位統計CO2的排放量時,模型對284個樣本測試結果的均方根誤差僅為4.93,平均百分比誤差僅為0.71%。本文研究可為汽車環保部門測量汽車的CO2排放量提供一種新思路。
參考文獻
[1] 王麗君.西安市機動車污染現狀及防治對策研究[D].西安:西安建筑科技大學,2018.
[2]?王志欣,代長安,張博乾.汽油發動機尾氣的售后治理措施[J].時代汽車,2021,350(2):176-177.
[3] 王剛,錢超,楊國良,等.基于輕型汽車排放測試系統的PEMS測量精度驗證[J].工業計量,2021,31(5):5-9.
[4] 蘇茂輝.汽車排放測量技術與方法研究[D].武漢:武漢理工大學,2006.
[5] 隋修武,李陽,杜玉紅,等.汽車排放瞬態工況法測量用氣體流量分析儀[C]//2008中國儀器儀表與測控技術進展大會論文集(Ⅰ),總第159期,2008-05,中國湖南湘潭:《儀器儀表學報》雜志社,2008:181-184.
[6] 李小穎,侯志祥.神經網絡軟測量技術在汽車發動機排放中的應用[J].交通與計算機,2002(3):46-48.
[7] 劉振江.影響巷道出口溫濕度的單因素分析及正交實驗研究[D].青島:青島理工大學,2019.
[8] 張馨露.基于隨機森林回歸的出租車排放因子影響因素研究[D].沈陽:遼寧大學,2020.
[9] 孔祥強,劉曉東,尚燕平,等.基于多元線性回歸直膨式太陽能熱泵性能預測[J].太陽能學報,2022,43(1):443-449.
[10] 張子薇.基于改進GBDT算法的光伏發電功率預測研究[D].?保定:華北電力大學,2018.
[11] 李澤宇.云計算下基于優化XGBoost的網約車供需預測研究[D].呼和浩特:內蒙古工業大學,2018.
[12] 楊茂,陳新鑫,張強,等.基于支持向量機的短期風速預測研究綜述[J].東北電力大學學報,2017,37(4):1-7.
作者簡介:
薛云飛,男,1997年生,碩士研究生,主要研究方向:數據挖掘與人工智能。E-mail: 1778803707@qq.com