羅紅梅 周逸凡



摘 要:針對電動汽車行駛里程預測問題,采用人工智能與大數據的分析方法對電動汽車的續駛里程進行預測。首先,通過對北京市某款電動汽車的實際運行數據進行預處理分析,篩選出有效的放電小片段,進行特征工程分析;然后,利用微分思想構造出模型的輸入與輸出,建立分類與回歸樹預測模型;為了進一步提高預測精確度,采用隨機森林與梯度提升迭代決策樹兩種不同的模型融合算法對模型進行優化。結果表明,模型融合算法能顯著減少預測結果的均方誤差,能夠很好的預測電動汽車行駛里程。
關鍵詞:行駛里程;放電小片段;決策樹;模型融合
中圖分類號:U469.7? 文獻標識碼:A? 文章編號:1671-7988(2020)13-01-04
Research on the Prediction Method of Electric Vehicle Mileage Based
on Big Data Analysis
Luo Hongmei, Zhou Yifan
( School of Automobile, Changan University, Shaanxi Xian 710064 )
Abstract: In order to solve the problem of electric vehicle mileage prediction, artificial intelligence and big data analysis method are used to predict the driving mileage of electric vehicle. First of all, through preprocessing and analyzing the actual operation data of an electric vehicle in Beijing, the effective small discharge segments are screened out, and the characteristic engineering analysis is carried out. Then, the Classification And Regression Tree (CART) model is proposed by using differential thought. To further improve the performance of the model, a fusion algorithm based on random forest and Gradient Boosting Decision Tree (GBDT) algorithm are proposed, which are used to optimize the model. The results show that the model fusion algorithm can significantly reduce the mean-square error of the prediction results, and can predict the driving mileage of electric vehicles well.
Keywords: Mileage; Discharge fragment; Decision tree; Model fusion
CLC NO.: U469.7? Document Code: A? Article ID: 1671-7988(2020)13-01-04
前言
行駛里程作為電動汽車重要的性能參數之一,近年來引起了廣泛關注。電動汽車某段時間內的實際行駛里程與動力電池衰退情況、行駛過程的特征以及環境因素相關。準確預測電動汽車某一工況下的行駛里程,可以增強駕駛者對車輛續駛里程的信心,提高能量利用率,在能量管理,出行決策制定等方面具有重要意義。
近年來,國內外眾多學者提出了多種方法對行駛里程進行預測。高航[1]從電池物理性能和行車環境入手,基于SOC、最低單體溫度和行駛里程創建多元線性回歸模型,并且增加變量間潛在的非線性關系來優化模型,以此來達到提升模型預測精度的目的,最終建立了更適用于實際工況的梯度提升算法。劉光明等[2]創建電池狀態估計模型來預測電池的剩余電量,使用剩余電量、車輛能耗以及行駛工況來預測續駛里程。陳燎等學者[3]提出了優化的模糊能耗與卡爾曼濾波結合算法,優化后,續航里程的估算精度提高了77%。張憧[4]定性分析出電池剩余可用能量和車輛能耗是影響電動汽車續航里程的主要因素,然后提出一種較為準確地實時預測續航里程的模型。Bolovinou A等[5]將神經網絡、遺傳算法和模糊控制融合到傳統的回歸方法(線性回歸和支持向量回歸)中,而且還在能量消耗模型中加入了時間和位置屬性。Zhang C W等[6]采用改進BP神經網絡估算得到的電池SOC預測精度提高了2%。
現有的研究方法可以歸為兩類,一類是從電池屬性入手,使用傳統的回歸模型對行駛里程進行預測;一類是結合實時環境和電池屬性,使用人工智能方法進行建模預測。本文綜合考慮兩種研究方法,用微分思想構造出模型的輸入與輸出,然后使用 CART(Classification And Regression Tree)、隨機森林和GBDT(Gradient Boosting Decision Tree)等三種模型來進行行駛里程的預測。
1 數據預處理
本文根據新能源汽車國家大數據聯盟發布的北京市某款電動汽車的實際運行數據,電動汽車采集的數據包含了以下類型:實時數據時間,總電壓,總電流,荷電狀態,最高單體溫度值,最低單體溫度值,電機控制器輸入電壓,電機控制器直流母線電流和累計里程。訓練集數據屬性如表1所示。
由于設備與行駛環境的影響,采集的數據存在一定異常與無用數據,需要進行數據預處理。步驟如下:
(1)異常數據的刪除。異常數據主要包括缺失值、離群值和邏輯異常值。對于缺失值采用極大似然填補,對不可填補數據刪除,最后運用3σ法則剔除離群點。處理后的部分數據如表2所示。
(2)放電大片段的劃分。由于原始數據中包括電動汽車充電和放電的數據,可以綜合分析一段數據時間內總電流正負與SOC的增減,即可從原始數據中劃分出放電過程的大片段。
(3)放電小片段的劃分。本文數據的標準采樣間隔為10s,實際的采樣間隔會因為道路狀況及設備的原因,出現大于標準采樣間隔的情況。為提高預測精度,相鄰數據之間的采樣間隔若大于240s,則將其劃分為兩個單獨放電片段。
2 數據挖掘與分析
本文采集的實際運行數據共34萬條,經過數據預處理后,訓練集數據剩余8.4萬條。
以上變量與行駛里程的散點圖如圖1所示。
由圖1可知,電動汽車的行駛里程與電池的荷電狀態和行駛時長具有明顯的線性關系。但采集到的車輛實時soc的精度為1,而需要預測的行駛里程的精度為0.1km,因此無法通過電池的soc精確預測行駛里程;而其他變量與行駛里程之間的關系較為復雜,需要進一步分析。
本文通過Pearson相關系數來度量上述散點圖中各變量與行駛里程的相關程度。相關系數計算公式如式(1)所示。
(1)
式中n為樣本數,xi和yi分別為兩變量的值, 和 分別為x和y對應的均值。若|r|>0.6,則認為其與行駛里程呈強相關關系;若0.4<|r|≤0.6,則認為其與行駛里程呈中等相關;其余呈弱相關或無相關。各采集量與行駛里程的相關系數如圖2所示。
由圖2可知,time、total_voltage、SOC、motor_voltage與mileage呈強相關關系,其他采集量與mileage的pearson的相關系數均較小。因此,僅將以上4個變量作為特征參數來預測行駛里程是不夠的,需要進行特征工程挖掘更多特征。
根據微分思想,一段時間內電動汽車行駛里程應等于各個采樣點之間的行駛里程之和。對于采用時間間隔小于240s的行駛小片段,將其進行“微分”,通過確定各采樣點之間的數據的變化量,從而構建出新的特征。
將第i采樣時刻的time、total_voltage、total_current、temp_max、temp_min、motor_voltage分別記為ti , Vti , Iti , Tbi , Tsi , Vmi。
將i采樣時刻到i+1采樣時刻的采集量作差,得到的變量分別記為:△ti, △Vti, △Iti, △Tbi, △Tsi, △Vmi。以上變量作為模型的輸入記為:
(2)
模型的輸出為第i時刻至第i+1時刻行駛里程的變化量,記為△mi。對于第j個行駛小片段,通過預測i 采樣時刻到i+1采樣時刻的里程變化量,對其求和,得到第j個行駛小片段的里程變化量Mj ( j=1,2,3,…k ),如式3所示。
(3)
再對行駛小片段的里程變化量求和,即得到行駛大片段的行駛里程Mtotal,如式4所示。
(4)
3 行駛里程預測模型的建立
對于采樣間隔小于240s的放電小片段,本文采用CART決策樹算法預測行駛里程。通過計算平均平方誤差來將輸入的特征劃分為不同的空間,最后生成決策樹。
相比于神經網絡,決策樹算法邏輯更加清晰,也較為簡單直觀。將上文中處理后的行駛小片段按照8:2的比例劃分為訓練集與測試集,通過最小二乘準則,使訓練集輸入與輸出的總均方誤差最小化,得到訓練模型,最后通過測試集驗證精度。采用測試集的相對誤差與均方誤差來表征訓練集模型的精度,如式(5)和式(6)所示。其中M為實際行駛里程和,△m*i為實際行駛里程變化量。
(5)
(6)
采用CART決策樹算法預測的預測結果如表3所示。
由表3可知,采用CART決策樹算法預測的行駛里程相對誤差較小,能基本實現行駛里程的預測。
由于CART決策樹屬于貪心算法,會導致過擬合問題,此外上文中采用的單一決策樹,不能很好糾正樣本中偏差及方差,從而導致預測精度的降低。為了進一步提高預測的精度、降低預測偏差,本文分別采用隨機森林與GBDT算法來進行優化。隨機森林算法可以通過對數據集有放回的抽樣,降低單一決策樹的均方誤差,并且能夠減少過擬合現象。而GBDT算法則將決策樹作為弱學習器并分配了權值,從而減少的預測的偏差。采用不同模型的各放電小片段的行駛里程值相對于準確里程值的誤差結果如圖3和圖4所示。
對上文各行駛小片段行駛里程預測結果進行求和,得到采用隨機森林與GBDT算法的總行駛里程預測結果Mtotal如表4所示。
由表4可知,采用隨機森林與GBDT兩種模型融合算法能對單一決策樹預測的行駛里程進行一定優化。兩種算法將均方誤差減少了50%以上,采用GBDT算法的預測結果的相對誤差顯著減少。
4 結論
本文首先通過對北京市某款電動汽車的實際運行數據進行預處理分析,篩選出有效的放電小片段。然后,利用微分
思想構造出模型的輸入與輸出,并采用單一CART決策樹算法建立了預測模型。為了提高預測精度,又采用了隨機森林與GBDT算法兩種不同的模型融合算法。結果表明:
(1)單一CART算法預測的行駛里程值相較于行駛里程的準確值相對誤差達1.4%;
(2)在CART,隨機森林和GBDT算法中,CART的預測精確度最低,隨機森林次之,預測精準度最高的是GBDT模型;
(3)模型融合算法能顯著減少預測結果的均分誤差。其中GBDT算法的相對誤差達0.3%,能夠很好的預測電動汽車行駛里程。
參考文獻
[1] 高航.基于機器學習的純電動汽車的行駛里程預測研究[D].北京: 北京交通大學,2018.
[2] 劉光明.面向電動汽車續駛里程估計的電池剩余放電能量預測研究[D].北京:清華大學,2015.
[3] 陳燎,謝明維,盤朝奉.模糊能耗及卡爾曼濾波的電動汽車剩余續駛里程估算[J].河南科技大學學報(自然科學版),2017,38(01): 28- 33+5.
[4] 張憧.電動汽車續駛里程影響因素及預測研究[D].合肥:合肥工業大學,2018.
[5] Bolovinou A, Bakas I, Amditis A, et al., Online Prediction of an Electric Vehicle Remaining Range based on Regression Analysis[J]. 2014 IEEE International Electric Vehicle Conference (IEVC), 2014, 616-623.
[6] Zhang C W; Chen S R, Gao H B, et al. State of Charge Estimation of Power Battery Using Improved Back Propagation Neural Network [J]. Batteries-Basel, 2018, 4(4), 1-12.