毛為真 李永攀 陸軼祺 解大
1.深圳供電局有限公司 2.上海交通大學電子信息與電氣工程學院
伴隨著電動汽車的迅猛發展,其帶來的問題也逐漸浮現,尤其是對電網帶來的影響已引起電力工作者的關注。大規模的電動汽車接入充放電對電網的負荷平衡、容量規劃以及電能質量等均會產生影響[1]。
不斷增加的充電負荷正在影響著配電網的穩定性及可靠性。對此,很多研究在了解充電負荷變化的前提下,通過調控技術、市場機制以及基礎設施的聯合工作,提出了很多協調充電需求與電網實際情況,實現削峰填谷、調頻、備用等有益功能的方案[2]。通過對充電負荷的預測或跟蹤制定分時電價,從而依靠需求側響應來利用充電負荷平抑電網原本的峰谷負荷[3,4]。根據實時負荷分布宏觀調控電動汽車充電負荷的分布,從而使配電網的網損最小化[5]。不難看出,為了完成電動汽車對電網的平緩接入,充電負荷的預測是首要解決的課題。
在此方面,有不少學者已進行了充分的研究。在研究初期,充電負荷預測多集中于對于電動汽車用戶行為的模擬,具體有結合不同類型汽車、不同停放目的地的停車特性的時空分布預測方法,能夠預測電動汽車充電負荷的時空分布特性[6];根據電動汽車行駛出行鏈的充電負荷預測方法,主要分析充電負荷的季節性、假日性等特征[7];通過基于位置的充電行為表征可以一定程度上預測特定區域內的充電負荷[8]。此類方法雖能完成部分的充電負荷預測功能,但卻很少涉及具體充電站的實時負荷變化情況,也無法確定是否可以應用于電動汽車大量普及后改變的充電系統中。
隨著電動汽車的逐漸普及,充電站逐漸增多,充電數據不斷累積,以及機器學習的快速發展,在充電負荷預測方面的研究方向漸漸轉向大數據方面[9]。通過支持向量機按照人工提取的數據特征,便能初步實現單日充電負荷波動情況的預測。
與之不同,本文使用的隨機森林算法曾被應用于電力用戶側負荷預測,通過隨機森林實現的并行化數據處理模式擁有高效的特點[10]。然而由于實際充電站類型及分布很不規律,充電預測較難涉及全面。涉及隨機森林算法在充電負荷預測上的應用以及具體效果分析的文獻還很少。由于隨機森林算法在缺失數據的數據集以及不平衡的數據集中仍能維持準確度,不容易過擬合的特性,很適合用于充電負荷的短期預測。
本文的創新點:(1)提出了提高預測算法準確度所需要的所有特征參數;(2)應用隨機森林算法實現了對充電負荷的短期準確預測。
隨機森林是一種集成學習方法,它將多個弱學習器決策樹集成,消除特征數據間的關聯性,構成強學習器隨機森林。同時,該算法也因為此集成的方式可以并行化運行。
隨機森林通過隨機地選擇樣本和特征,降低了決策樹之間的相關性。首先,隨機在原始訓練數據中有放回地選取等量的數據作為訓練樣本,其次,在建立決策樹時,隨機地選取一部分特征建立決策樹。這兩種隨機使各個決策樹之間的相關性小,從而減少了決策樹本身發生過擬合時可能帶來的誤差,進一步提高模型的準確性。
本文所用算法為CART(Classification And Regression Tree)算法,即分類與回歸樹,因為CART算法在有缺失數據或變量較多的數據集中表現相比其它算法(ID3、C4.5等)更加穩健。
(1)在一個節點Node上載入數據集D;
(3)若D已經沒有可選特征,則將此時D中樣本個數最多的類別作為該Node的類別;




循環以上7個步驟,生成一顆滿足具體設定目標的決策樹。
回歸樹的生成與分類樹的差別是節點劃分標準以及輸出選擇的不同。其劃分標準為最小二乘法。對于某一特征,掃描其可能的取值,作為二分標準,將劃分為和兩部分,分別在輸出y中找到取值和,直至得到滿足式(5)最小值的二分點,即為對特征的劃分結果。


決策樹生成完成之后,輸入需要進行處理的樣本特征值,便能得到相應的輸出。
直觀理解隨機森林,可以將其視為對原始總體數據樣本的每一個隨機抽樣樣本數據集生成決策樹,并按投票或取平均的策略對眾多決策樹輸出的結果進行統合,作為最終輸出結果。
對城市綠地系統進行科學管理。城市綠化是城市現代化的重要基礎設施之一,應確立生態環境在城市規劃及管理中的首要地位,只有改變城市規劃及管理理念,把綠地系統規劃納入城市總體規劃之中,才能使生態綠地系統規劃變被動為主動,使城市綠地布局趨于合理。
這種隨機抽樣的方法并對結果進行統合輸出的方法被稱為套袋法(Bagging),其具體算法過程如下:
(1)使用Bootstrap的方法,即可重復地從原始樣本集中隨機抽取n個訓練樣本;
(2)有放回地共進行k輪抽取,得到k個訓練集;
(3)對于k個訓練集,分別訓練k個決策樹模型;
(4)對于充電負荷預測這一類問題:由每個模型預測結果的均值作為最后預測結果。隨機森林算法示意圖見圖1。

圖1隨機森林算法示意圖
圖1 可以直觀地理解隨機森林算法。注意到不同充電站不同時間的日充電量有著離散的特性,即其充電量大小非常分散,因此考慮首先對原始的充電數據進行階梯劃分,即根據具體充電量數據的取值范圍劃定區間,從而在消除小干擾的同時將提升隨機森林充電負荷預測算法的有效性和準確度。區間的劃分原則有以下兩種:
(1)每一區間內數據量相同,可以保證劃分后的每一級階梯在歷史數據上占據相同的比例;
(2)區間長度相同,一般分的區間較多,需要大量數據支撐。
對預處理后的數據樣本進行Bagging處理后分為k個數據袋。對每一個數據袋,分別進行回歸決策樹的構建:從起始節點(根節點)開始,通過Cart算法,對回歸類型的以最小化基尼系數(也即不確定性)為目標,不斷二分節點直至達到劃分目標或是設置的最大深度為止。
最終不再二分的節點被稱為葉節點,每一個葉節點被分配一個輸出值,此值的設定與分類決策樹算法不同,使用這個葉節點所包含的樣本數據在階梯化前的平均值作為葉結點的輸出。從根節點開始,(包括根節點)到達任意一個葉節點需要經過的劃分次數被稱為樹的深度。圖1中的樹深度為3。將此劃分過程應用于每一個數據袋中,便實現了隨機森林模型的學習過程。
在進行預測時,將需要預測的數據特征輸入模型,每一棵決策樹將生成獨立的預測結果,而整個隨機森林將以其中包含的所有決策樹的結果平均值作為最終的預測結果。
對于單個充電站的充電負荷預測,針對充電站負荷預測的實際需求,使用1.2節中應用回歸樹生成方法的隨機森林對充電負荷進行預測。設計相應模型的特征屬性,輸入輸出數據信息如表1所示。其中特征屬性包括以下幾類:
(1)日期指標:溫度、濕度等氣候條件對于電動汽車行為的影響其實很難做出一個精確的判斷,因此直接將該類屬性融合于日期中,在大數據下可最小化氣候條件帶來的影響;
(2)15分鐘數:用數值表示重要程度,該指標可以精確至15分鐘時間段內;
(3)當日重要活動指標:可以用數值表示重要程度,該指標可以精確至15分鐘時間段內。重要的活動可能使區域充電負荷激增;
(4)區域繁華指標:繁華指數中的基礎設施指數,該指數將隨建筑物及道路的改建而波動。這是影響電動汽車用戶充電習慣的重要指標;
(5)已充電量:當日現在的15分鐘時間段前,已經給出的電量,很多電動汽車用戶的充電區域以及一段時間內的充電量相對固定,因此記錄每日充電站已累積的充電負荷量也將對當日的剩余負荷預測產生影響。

表1 隨機森林算法輸入輸出數據信息表
整個預測過程的流程圖如圖2所示。處理好原始數據之后,通過Bagging算法獲取k個樣本集,在經由1.2節中的算法生成k個決策樹便構成了隨機森林。借由此森林便能通過預測時間段內的特征輸入輸出預測的充電負荷情況。
2.3.1 誤差分析
對于預測的結果,采用平均絕對誤差百分比(Mean Absolute Percentage Error,MAPE)和均方根誤差(Root Mean Square Error,RMSE)進行評估,誤差計算式分別參照式(7)和(8)所示。

其中,PN(i)和( =1,2,3,…,n)分別為第 個數據點的實際測量值和預測值,n表示用于驗證的數據的長度。

圖2 充電預測算法流程圖
對輸入特征的重要性進行評估,驗證特征輸入的實際有效性。對每一棵回歸決策樹來說,某一特征在某一節點的重要性指該節點分支前后基尼系數的該變量,其定義式可以表示為式(9)。

其中的n和p分別代表節點m生成的兩個子節點。任意一顆決策樹i的特征重要性可以通過對求和得到:

對深圳市2016年至2018年的大量不同規模的充電站點不同時間充電負荷數據進行分析,并針對單個充電站以及不同充電站進行了充電負荷預測仿真,以此對電動汽車負荷目前的情況以及隨機森林算法的應用效果進行分析。
深圳市下轄羅湖區、福田區、龍崗區等10個區,各區占地面積以及充電站分布如圖3所示。充電站在南山區、福田區、羅湖區分布最密集,寶安區與龍崗區則是充電站數量最多的兩個區。南山、福田、龍崗、寶安分別是深圳經濟最為發達的地區,很明顯充電站分布與各區經濟實力有關。如今,市內新能源汽車總量已超過8萬輛。依據《深圳市2017年新能源汽車推廣應用財政支持政策》,政府工作重心轉向電動汽車配套設施的建設。這也預示著電動汽車這一新負荷的分析和調控研究工作,已經進入政府工作的計劃中。

圖3 深圳市轄區充電設施分布
為驗證前文所提到的隨機森林電動汽車充電負荷預測方法的有效性,選取了深圳市南山區的一個容量524kW的充電站兩年內的負荷數據作為算例進行仿真驗證。訓練樣本的特征屬性選擇如表1中的年、月、日、15分鐘數、雙休日標志、節假日標志、活動指標以及已充電量。
3.2.1 15分鐘時間間隔充電數據訓練
將日負荷數據改為每15min充電站的負荷,并添加表1中的15分鐘數樣本特征,將輸出改為每15分鐘一個充電量,其余控制不改變,由此訓練得出的隨機森林模型在10%測試樣本下的預測曲線與實際曲線對比如圖4所示。預測結果:為10.27%,值為5.02。
對模型的訓練便已完成,僅從訓練集中的預測效果看,模型可以實現單一充電站充電預測10%以內的平均絕對誤差。

圖4 充電站充電負荷預測訓練曲線圖
訓練完隨機森林的模型后,便能通過該模型以及2018年6月份新采集到的充電站負荷數據實現其預測的功能,實際處理時將預測的日負荷和日充電次數也納入了輸入特征。對于6月14日至6月26日內的充電數據隨機抽取10項進行充電預測,結果如表2所示。

表2 單一充電站15min充電預測數據表
由于已充電量數據這項特征輸入只有在前一個時間段已經過去后才能獲取,因此使用本算法進行充電預測時,僅實時預測未來15min的充電負荷。由此可見,預測值與實際值很接近,總體為9.76%,為2.27,預測效果符合預期成效。當然,可以使用充電量的預測值作為已充電量部分繼續循環進行未來更多時間段的充電負荷,然而累計誤差將會逐漸變得無法忽略。
本文提出了基于隨機森林算法的電動汽車充電負荷預測分析方法,并通過深圳市的實際充電數據及應用場景進行仿真,得出以下結論:
(1)目前電動汽車行業仍處在發展階段,充電負荷具有小量分散的特性。而經過大量的充電數據分析,可以觀察出電動汽車的充電負荷還具有時間以及空間分布特性。在現有數據的基礎上選擇了有最大區分度的數據特征為隨機森林在充電預測中的應用提供了基礎。
(2)提出的單一充電站充電預測算法在實際記錄的數據基礎上,能有效跟蹤該充電站每15min的預計充電量,根據仿真結果,預測可以達到9.76%,為2.27。可以作為充電預測手段為各種電動汽車充電負荷控制策略提供參考依據。