熊 甜 鄭 松 徐哲壯 謝仁栩 葛永樂
(福州大學(xué)電氣工程與自動化學(xué)院,福州 350108)
用電問題一直是電力企業(yè)面臨的難題,例如竊電問題不僅損害了供電企業(yè)的合法權(quán)益,擾亂了正常的供用電秩序,而且給安全用電帶來了威脅[1]。用電浪費現(xiàn)象普遍存在于工作和生活中,造成巨大能源損耗的同時,影響了我國經(jīng)濟可持續(xù)發(fā)展的能力。因此,在滿足用戶正常的用電需求,創(chuàng)建節(jié)約友好型社會的背景下,如何利用大數(shù)據(jù)實現(xiàn)用電量的分析和預(yù)測具有重要意義。
近年來,國內(nèi)外高校紛紛開始建立校園能耗監(jiān)測平臺,用以監(jiān)督校園用電情況,以此達到節(jié)能減排的目的[2]。另一方面,能耗監(jiān)測平臺也為校園用電量的預(yù)測提供了數(shù)據(jù)支撐,而用電量預(yù)測正是智能電網(wǎng)中的需求響應(yīng)和調(diào)度的重要環(huán)節(jié)[3-6]。
本文基于福州大學(xué)校園能耗監(jiān)測平臺提供的歷史用電數(shù)據(jù),通過機器學(xué)習(xí)方法[7-8]對于福州大學(xué)的用電情況進行分析和預(yù)測。本文基于Azure機器學(xué)習(xí)平臺[9-10]快速構(gòu)建了用電數(shù)據(jù)的分析平臺,并根據(jù)評估數(shù)據(jù)和實驗計算結(jié)果,得出影響用電量的主要因素為最高最低氣溫以及工作日程安排。根據(jù)影響因素的分析結(jié)果,本文進一步提出了基于用電突變氣溫的分段式預(yù)測方法:將用電量數(shù)據(jù)根據(jù)用電當(dāng)日最高氣溫進行分類,進而基于用電突變氣溫將用電量數(shù)據(jù)劃分為兩段分別進行訓(xùn)練和預(yù)測。實際預(yù)測結(jié)果表明,基于用電突變氣溫的分段式預(yù)測方法能夠有效降低預(yù)測誤差,且其預(yù)測精度已經(jīng)能夠滿足大多數(shù)應(yīng)用的需求,能夠為學(xué)校相關(guān)部門以及電網(wǎng)配電部門提供有效的參考[11-12]。
下文分別從數(shù)據(jù)源、基于Azure機器學(xué)習(xí)平臺的數(shù)據(jù)分析方法、校園用電影響因素分析、校園用電預(yù)測等環(huán)節(jié)對于研究工作進行詳細(xì)描述。
本文分析所用數(shù)據(jù)主要有以下兩個來源:
1)天氣數(shù)據(jù)。通過福建省福州市閩侯縣(福州大學(xué)校園所在地)氣象局采集 2016年 4月 1日至2017年3月31日時間段內(nèi)最高溫度和最低溫度的數(shù)據(jù)。
2)歷史用電量數(shù)據(jù)。通過福州大學(xué)校園節(jié)能監(jiān)管平臺(見圖 1)導(dǎo)出對校園內(nèi)每棟樓的能耗統(tǒng)計數(shù)據(jù)。綜合考慮不同人群和樓宇的用電特點,本文選取了福州大學(xué)學(xué)生公寓2號樓(本科男生)、5號樓(本科女生)、36號樓(研究生)和西三教學(xué)樓的用電數(shù)據(jù)進行分析。時間跨度為2016年4月1日至2017年3月31日,用電量數(shù)據(jù)精度為每天。

圖1 福州大學(xué)校園節(jié)能監(jiān)管平臺
本文在Azure ML機器學(xué)習(xí)平臺上分析4組數(shù)據(jù),每組數(shù)據(jù)源為一個4×365的矩陣,其中列特征量分別是日期、日最高溫度、日最低溫度、日用電量4個變量。行特征量代表樣本點,表示當(dāng)前日期下的最高溫、最低溫和用電量的特征值。
本文采用微軟 Azure機器學(xué)習(xí)平臺(microsoft azure machine learning studio, Azure ML)對用電數(shù)據(jù)進行分析。Azure ML是一種面向機器學(xué)習(xí)與大數(shù)據(jù)分析的云服務(wù)平臺[13](Platform-as-a- Service,PaaS),能夠有效提升采用機器學(xué)習(xí)方法進行數(shù)據(jù)分析的效率。該平臺的優(yōu)勢[14]主要有:能夠在單個實驗中一次性嘗試多種模型并比較結(jié)果,有助于找到最適合的解決方案。在同一個試驗中建立多算法模型,對預(yù)測結(jié)果進行對比分析,通過選擇合適的學(xué)習(xí)算法和海量數(shù)據(jù)的訓(xùn)練,從而達到建立預(yù)測模型的目的。
基于Azure ML的數(shù)據(jù)分析流程如圖2所示,主要由導(dǎo)入數(shù)據(jù)、數(shù)預(yù)處理、定義特征、訓(xùn)練模型和模型評價5個基本步驟組成。下文將結(jié)合本文所討論的用電量數(shù)據(jù)進行介紹。

圖2 基于Azure ML平臺的用電量預(yù)測流程圖
在進入Azure ML平臺并選擇新建試驗后,可以采用兩種方式將數(shù)據(jù)導(dǎo)入到試驗中:①手動導(dǎo)入到試驗中;②通過Reader模塊在線與其他數(shù)據(jù)庫匹配讀取。福州大學(xué)校園節(jié)能監(jiān)管平臺并未提供開放的數(shù)據(jù)接口,本文采用手動導(dǎo)入數(shù)據(jù)的方式,數(shù)據(jù)格式必須為CSV格式,通過實驗中的DATASET選項導(dǎo)入。
數(shù)據(jù)預(yù)處理主要分為刪除缺失值、異常值處理、數(shù)據(jù)離散化、歸一化處理等。在本文所獲取的用電量數(shù)據(jù)中,寒暑假與周末的用電量存在特殊性,同時部分歷史用電量存在缺失等問題,會給分析和預(yù)測造成影響。針對這個問題,本文采用了Azure ML的數(shù)據(jù)分割(Split Data)模塊,能夠根據(jù)設(shè)置參數(shù)自動對數(shù)據(jù)集的成分進行篩選,清除掉缺失值與異常值。
導(dǎo)入平臺的數(shù)據(jù)集中,包含著各種特征量,如本文研究涉及的特征量有用電量、最低溫度、最高溫度等。Azure ML通過“select-columns”(選擇數(shù)據(jù)列)模塊篩選出預(yù)測模型的特征變量,并傳遞到下一步機器學(xué)習(xí)算法中進行訓(xùn)練與評估。“selectcolumns”模塊可以直接對數(shù)據(jù)特征進行選擇,不需要在每次試驗結(jié)束后,對數(shù)據(jù)進行重新導(dǎo)入,能夠有效地提高工作效率。
本文研究擬基于天氣數(shù)據(jù)和歷史用電量數(shù)據(jù)構(gòu)建預(yù)測模型,Azure ML針對預(yù)測數(shù)據(jù)提供了大量回歸算法,本文在Azure ML中采用不同的回歸算法模塊對校園用電數(shù)據(jù)進行試驗,選取兩種效果最佳的算法進行對比分析,即最小二乘法的線性回歸(linear-regression)方法[15],以及增強決策樹回歸(boosted decision tree regression)方法[16-18],分別對數(shù)據(jù)進行處理。兩者在處理數(shù)據(jù)結(jié)果上的差異將在本文第4節(jié)進行討論。
數(shù)據(jù)分割(Split Data)模塊將篩選后的數(shù)據(jù)按照默認(rèn)比值 0.75∶0.25拆分為單獨的訓(xùn)練數(shù)據(jù)集和預(yù)測數(shù)據(jù)集,分別用于模型的訓(xùn)練和測試。經(jīng)模型訓(xùn)練(Train Model)模塊擬合出的預(yù)測模型,將導(dǎo)入模型測試(Score Model)模塊中,進而輸入測試集數(shù)據(jù)用于評估模型的性能。
Azure ML提供了模型評估(Evaluate Model)模塊,用于對預(yù)測模型進行性能評估,平臺自帶的評估指標(biāo)包括:受試者工作特征(ROC)曲線、精度/召回曲線或提升曲線、混淆矩陣、曲線下面積(AUC)的累積值等。同時Azure ML還可以將模型測試(Score Model)模塊的測試結(jié)果導(dǎo)出,由外部程序進行分析和處理。
本文首先以福州大學(xué) 36號研究生宿舍樓的用電數(shù)據(jù)集為分析對象,選取當(dāng)日最高氣溫、最低氣溫的天氣數(shù)據(jù)作為影響用電量的主要影響因素。另一方面,根據(jù)大學(xué)的作息特性,將用電量數(shù)據(jù)劃分為:工作日、周末、寒暑假三類。進而在考慮不同天氣數(shù)據(jù)和不同用電量數(shù)據(jù)集的情況下,基于第 2節(jié)所述的操作步驟,在Azure ML平臺中采用增強決策樹回歸(boosted decision tree regression)算法分別建立預(yù)測模型,并對預(yù)測精度進行評估,得到的影響因素評估表見表1。
每棟樓的用電量各不相同,本文的性能分析采用均方根誤差(RMSE)和平均相對誤差(MRE)兩個指標(biāo)同時對于預(yù)測結(jié)果進行分析,即

式(1)、式(2)中,xi表示歷史用電量值,表示用電量預(yù)測值,n表示測試集的數(shù)據(jù)個數(shù)。
由表1的結(jié)果可以看出,寒暑假的用電量與平時存在較大的差異,是否考慮寒暑假的用電量對于用電預(yù)測模型具有很大影響。若不考慮寒暑假的用電量,則可以使預(yù)測的均方根誤差降低約40%。類似地,周末與工作日的用電模式也存在一定差異。與綜合考慮周末和工作日的用電量數(shù)據(jù)得到的預(yù)測模型相比,只考慮工作日用電量的預(yù)測模型可以降低10%左右的均方根誤差。

表1 用電量影響因素分析表
另一方面,最高氣溫和最低氣溫對于用電量預(yù)測都存在影響。在只考慮工作日用電量的情況下,綜合考慮最高氣溫和最低氣溫的影響具有最高的預(yù)測精度。除了36號樓之外,對于其他宿舍樓進行了相同的分析,得到了類似的分析結(jié)論。由于篇幅限制,本文不再列出詳細(xì)數(shù)據(jù)。
根據(jù)上述分析結(jié)果,本文后續(xù)分析將只考慮工作日的用電量數(shù)據(jù),并綜合考慮最高氣溫和最低氣溫的影響。本文后續(xù)部分將進一步探討如何提升用電量的預(yù)測精度。
基于第3節(jié)分析的結(jié)果,本文將2號樓、5號樓、36號樓和西三教學(xué)樓的全年用電量數(shù)據(jù),按照最高氣溫分組并取平均值,得到相同最高氣溫下的平均用電量,如圖3所示。

圖3 相同最高氣溫下的平均用電量
由圖3可以看到,每棟樓的用電量曲線存在一個明顯的拐點。這是因為低溫區(qū)與高溫區(qū)的用電量存在明顯的差異:在低溫區(qū),用電設(shè)備是計算機、照明、熱水器等日常用電設(shè)備,用電量隨著氣溫變化的趨勢不明顯;而在高溫區(qū),空調(diào)等降溫設(shè)備開始投入使用,同時用電量與氣溫存在顯著的相關(guān)性。
根據(jù)以上結(jié)果,本文提出采取分段預(yù)測的方法會得到更好的用電量預(yù)測效果。為了進行分段預(yù)測,本文首先給出用電突變氣溫的計算方法:基于歷史用電量數(shù)據(jù)計算出不同最高溫度下的用電量平均值T,隨后從低溫到高溫逐個根據(jù)以下公式計算Δ,即

式中,k表示當(dāng)前最高氣溫值;nk定義為區(qū)間參數(shù),可取為正整數(shù)。
給定突變參數(shù)閾值θ,若滿足Δ<θ,則認(rèn)定最高氣溫 k為用電突變氣溫。nk和θ 為自定義參數(shù),其不同取值將影響用電突變氣溫選擇的結(jié)果。根據(jù)圖3平均用電量曲線圖式(3)將分析數(shù)據(jù)源的nk取1~5之間的整數(shù),θ 取0~1之間的小數(shù),在Azure ML平臺上對不同的用電數(shù)據(jù)源進行測試分析,得到nk=3,θ =0.6時,數(shù)據(jù)模型的預(yù)測預(yù)測效果最佳,根據(jù)式(3)分別計算出學(xué)生公寓2號樓、5號樓、36號樓和西三教學(xué)樓的用電數(shù)據(jù)突變氣溫見表2。

表2 用電量突變氣溫
從表2可以看出,用電主體與用電環(huán)境之間均存在差異性,使得每棟樓的用電量突變氣溫也不太一樣。福州大學(xué) 2號樓為男生宿舍樓,5號樓為女生宿舍樓,36號為研究生宿舍樓,其用電突變氣溫的差異符合常識中不同性別和年齡對于溫度感受的差異。
基于第4節(jié)的分析,本文提出基于用電量突變氣溫的分段預(yù)測方法,并對其預(yù)測精度進行分析。用電數(shù)據(jù)為福州大學(xué)2號樓、5號樓、36號樓、西三教學(xué)樓。在分段預(yù)測方法中,每棟樓的用電數(shù)據(jù)根據(jù)表2提供的用電突變氣溫劃分為“平穩(wěn)段”和“上升段”兩個部分,分段樣本點見表 3,采用增強決策樹回歸算法對兩部分?jǐn)?shù)據(jù)進行機器學(xué)習(xí)。在相同條件下,將分段預(yù)測結(jié)果與傳統(tǒng)的整段預(yù)測結(jié)果進行對比分析,結(jié)果見表4。

表3 分段樣本點
從表4可以看出,分段預(yù)測能夠有效降低用電量預(yù)測的均方根誤差與平均相對誤差。相比于整體預(yù)測,分段預(yù)測能夠降低13%~27%的均方根誤差,平均相對誤差也能夠控制在 10.8%以內(nèi)。以上結(jié)果證明了分段預(yù)測方法的有效性。
本文中的數(shù)據(jù)分析主要采用的是增強決策樹回歸算法。為了證明該算法的有效性,本節(jié)將該算法與基于最小二乘法的線性回歸算法進行對比。在Azure ML平臺中分別采用這兩種算法基于福州大學(xué)2號樓、5號樓、36號樓、西三教學(xué)樓的用電量數(shù)據(jù)進行了分析和預(yù)測,其預(yù)測結(jié)果的對比見表5。

表5 增強決策樹回歸與線性回歸算法預(yù)測結(jié)果對比
由表5可知,增強決策樹回歸算法得到的預(yù)測模型相比于線性回歸算法得到的預(yù)測模型,其預(yù)測結(jié)果的均方根誤差要小 9.6%~21.7%,平均相對誤差也要減少 1.3%至 4.9%。因此證明了增強決策樹回歸算法具有更好的預(yù)測效果。
本文基于用電數(shù)據(jù)和天氣數(shù)據(jù),通過Azure機器學(xué)習(xí)平臺對于福州大學(xué)校園的用電情況進行了數(shù)據(jù)分析,總結(jié)出了影響用電量的兩大因素:氣溫與工作日程安排。根據(jù)分析結(jié)果,本文進一步提出了基于用電突變氣溫的分段式預(yù)測方法,并通過測試數(shù)據(jù)證明了該方法能夠有效降低用電量預(yù)測的誤差。數(shù)據(jù)分析結(jié)果證明,該方法的預(yù)測精度已經(jīng)能夠滿足大多數(shù)應(yīng)用的需求,能夠為學(xué)校相關(guān)部門以及電網(wǎng)配電部門提供有效的參考。
參考文獻
[1] 陳晶晶, 李紅嬌, 許智. 基于隨機森林的用電行為分析[J]. 上海電力學(xué)院學(xué)報, 2017(4): 331-336.
[2] 王仁祥, 王小曼. 終端用戶分布式新能源接入智能配電網(wǎng)技術(shù)研究[J]. 電氣技術(shù), 2010, 11(8): 58-62.
[3] Stroombergen A, Tait A, Patterson K, et al. The relationship between New Zealand's climate, power,and the economy to 2025[J]. New Zealand Journal of Social Sciences, 2006, 13(1): 139-160.
[4] Wang Zhiyong, Cao Yijia. Mutual information and non-fixed ANNs for daily peak load forecasting[J].Power Sys-temsConference and Expoxision, 2006(5):1523-1528.
[5] 黃海新, 鄧麗, 張路. 基于需求響應(yīng)的實時電價研究綜述[J]. 電氣技術(shù), 2015, 16(11): 1-6.
[6] 曲朝陽, 張率, 劉洪濤. 基于用電影響因素回歸的小區(qū)用電預(yù)測模型[J]. 東北電力大學(xué)學(xué)報, 2015(01):73-77.
[7] 張棪, 曹健. 面向大數(shù)據(jù)分析的決策樹算法[J]. 計算機科學(xué), 2016(S1): 374-379, 383.
[8] 王桂玲, 韓燕波, 張仲妹, 等. 基于云計算的流數(shù)據(jù)集成與服務(wù)[J]. 計算機學(xué)報, 2017(1): 107-125.
[9] 王永康. Azure云平臺對Twitter推文關(guān)鍵字實時大數(shù)據(jù)分析[J]. 電腦編程技巧與維護, 2015(12): 68-72.
[10] Xiao Laisheng, Wang Zhengxia. Cloud computing: A new business paradigmfor E-learning[C]//International Conference on Measuring Technology and Mechatronics Automation (ICMTMA 2011) 3rd, 2011:Shanghai, China.
[11] 王穎, 趙航宇, 趙洪山. 配電網(wǎng)自動化建設(shè)的現(xiàn)狀與若干建議[J]. 電工技術(shù), 2015(11): 82-83.
[12] 何春光, 盧志明, 姜春瑩, 等. 移動式應(yīng)急配變的研制[J]. 電工技術(shù), 2016(2): 6-7.
[13] Brandon Butler. 2017年必須關(guān)注的10大云趨勢[J].計算機世界, 2017(4).
[14] 易植. Windows Azure 新服務(wù), 讓機器學(xué)習(xí)觸手可及[J]. 英才, 2014(9).
[15] 韓陽, 呂由, 潘宇航, 等. SVM、BP神經(jīng)網(wǎng)絡(luò)、線性回歸的比較研究[J]. 河北聯(lián)合大學(xué)學(xué)報(自然科學(xué)版), 2017, 39(2).
[16] Song Y, Wang H, He X. Adapting deep RankNet for personalized search[C]//ACM International Conference on Web Search and Data Mining, 2014: 83-92.
[17] 柯國霖. 梯度提升決策樹(GBDT)并行學(xué)習(xí)算法研究[D]. 廈門: 廈門大學(xué), 2016.
[18] 王天華. 基于改進的 GBDT算法的乘客出行預(yù)測研究[D]. 大連: 大連理工大學(xué), 2016.