基于大數據分析的電力客戶服務需求預測*

2020-08-01 06:39:02朱州

沈陽工業大學學報 2020年4期

朱州

(中國南方電網貴州電網公司信息中心，貴陽 550000)

智慧城市使用物聯網與云技術建立了一個可交互、可感知、可視和可控的城市運行機制及智能生產生活方式[1].智慧城市不僅可以減少成本、節約能源，且能提升效率，改善生活質量.智能電網作為智慧城市的重要組成部分，通過電力數據建立電力服務需求預測模型，保證電力系統的安全穩定運行與統一調度，并可有效地指導電力工程建設規劃[2-4].但傳統的電力需求預測模型只考慮區域平均用電量和最高負荷等電力系統內部數據，未考慮氣象、人口和政策等影響，其預測精度有限，因此，亟需在智慧城市的建設框架下提出新的預測模型與方法[5-6].

近年來，針對電力市場隨機性、多變量和時變性的特點，主要提出了兩方面的電力需求預測方法：一是使用數據挖掘方法分析電力市場外部因素對電力需求的影響，并以其變化趨勢預測市場需求的變化；二是提出新的預測模型來提升預測精度[7].文獻[8]中使用徑向基神經網絡分別建立短期和中長期電力需求模型；文獻[9]結合氣象、日期數據等外部因素，使用最小二乘支持向量機建立了短期電力需求模型，并通過與其他預測方法進行比較來證明其有效性.

雖然上述方法都選用了不同的預測模型和方法對短期和中長期電力需求進行了預測研究，但是仍存在著一些不足：1)部分模型僅根據歷史數據來預測，而沒有關注經濟社會發展因素；2)部分模型只根據主觀判斷來考慮外部因素的影響，而未從海量數據中篩選出關鍵因素.針對以上問題，本文首先依托貴州地區的智能電網大數據，通過挖掘其中的關聯信息，建立了電力客戶的細分模型，然后在該模型基礎上，使用BP神經網絡算法建立了電力客戶的需求預測模型.

1 電力客戶細分模型

本文為建立更智能的需求預測模型，首先將電力客戶進行細分，再使用細分后的數據指導需求預測模型的訓練，所建立的電力客戶細分模型如圖1所示.首先根據人口信息、企業信息、宏觀經濟信息及其相關信息建立數據倉庫，然后對數據進行格式轉換與清洗，并提取出用戶的自然特征和行為特征，最后使用K-means聚類對數據進行挖掘，并對結果進行分析.

圖1 電力客戶細分模型功能圖Fig.1 Function diagram of power customer subdivision model

1.1 數據倉庫構建

隨著數字化技術的廣泛應用，電力客戶數據庫中存儲著大量的自動化辦公系統、監控和財務系統等信息[10]，但這些數據隨著日常業務的進行與時間的推移不斷被添加、刪除和修改，故本文根據電力客戶細分模型的實際需求建立了星型結構的數據倉庫.該數據倉庫結構最大限度地節省了數據存儲空間，保證數據存儲的有效性.本文從個人用戶的角度出發，通過采集其社保信息、個人信息和地域特征等信息來分析電力客戶的電力價值，并建立圖2所示的電力價值組成圖.該圖結合公民的社保信息、個人信息和地域特征，并依據電價值的排序劃分電力用戶區域.

本文從區域商業價值和區域宏觀經濟兩個角度來采集數據，并建立與圖2類似的價值構成數據庫.其中，區域商業價值數據庫從商業實體的角度分析企業信息、商場信息和法人信息來實現數據搜索.區域宏觀經濟數據庫則從地區物價指數、貿易數據和資產投資數據等宏觀信息來分析地區的貿易活動，實現不同層次用電客戶的劃分.

圖2 區域電力價值組成圖Fig.2 Value composition diagram of regional power

1.2 數據清洗與挖掘

由于電力客戶信息存在大量的冗余信息，本文使用東方通TI-ETL軟件對數據進行清洗，得到符合身份證號碼設置、民族和性別的數據，清洗后的數據便于讀取與模型訓練.

得到可讀性更強的數據后，本文根據上文建立的區域電力價值圖、電力客戶的影響力和用電潛力對居民信息進行集成劃分，如圖3所示.使用K-means聚類算法對搜集的數據進行深層次分析，以強化業務協同和資源共享，解決信息孤島問題.為較好區分出不同用電行業與客戶之間的差異，本文在樣本相似性聚類的基礎上，提出使用相關性度量聚類后類別內樣本間的一致性.使用Pearson相關系數法來表示樣本x與樣本y之間的相關系數，其計算表達式為

(1)

圖3 區域居民信息集成劃分結構Fig.3 Integrated partition structure of regional resident information

結合樣本相似度與相關系數，可以得到本文的相似性度量方程為

Eik(x)=μdik(x)+(1-μ)rik(x) (0≤μ≤1)

(2)

式中：Eik(x)為樣本i與類中心k的相似性值；dik(x)為樣本i與類中心k的距離，本文使用平方差距離；rik(x)為樣本i與類中心k的相關系數；μ為權重常數.當μ為1時，相似性度量指標為基于距離的度量；當μ為0時，相似性度量指標為基于相關系數的度量.使用改進后的相似性度量指標后，電力客戶的具體劃分過程如下：

1) 讀取數據得到初始數據集X=NP和客戶組數，其中，N為居民綜述，P為特征維度；

2) 從X中隨機選擇k個樣本作為數據的初始聚類中心；

3) 計算其樣本與各聚類中心的相似性度量指標，并根據其數值將樣本劃分到對應的聚類中心；

4) 利用每一組數據的均值更新聚類中心；

5) 重復步驟3)和4)，直至聚類中心不再更新，得到分組結果.

2 電力需求預測

電力需求預測是根據已有的歷史數據總結其規律，并建立預估模型來預測未來的電力需求.但由于客觀因素與人為因素影響，電力需求通常具有連續性、多變性和季節性，導致無法準確預測客戶的用電需求.本文從電力需求預測的影響因素出發，根據時間、經濟、社會和天氣等因素建立電力需求模型.具體使用的數據指標包括：

1) 宏觀經濟指標.第一產業、第二產業和第三產業的投資總值，制造業、文娛業和基礎建設的投資值等.

2) 歷年電力消費數據.

3) 已經建立的電力客戶細分數據.

4) 政策數據.第一產業、第二產業和第三產業的耗電數據，居民消費和收入數據等.

基于上述數據，本文使用BP神經網絡建立電力需求預測模型.為避免神經元過飽和的問題，文中首先對數據進行歸一化處理，即

(3)

式中：xi0為歸一化數據的第i個特征分量；xmax和xmin為對應樣本的最大值與最小值.

為了更準確地從挖掘到的數據中提取出關聯規則來解決電力需求問題，本文從網絡層數、神經元數目、初始權重設置和學習速率的選擇來介紹具體預測模型的設計方法.

1) 網絡層數.雖然使用更深的神經網絡能提升模型的性能，但也在一定程度上降低了訓練效率.因此，本文設計了一個包含輸入層、隱含層和輸出層的三層神經網絡模型.

2) 輸入層節點數.輸入層用于加載數據，過多的輸入節點數將引入較多的噪聲；而過少的輸入節點數將導致網絡獲取信息能力不足，因此，本文根據輸入數據維度設置網絡的輸入節點數為65.

3) 輸出層節點數.本文分別預測5個區域的用電需求，故輸出層節點的數量設置為5，輸出層用于獲取5個區域的實際用電需求.

4) 隱含層節點數.隱含層節點數確定表達式為

(4)

式中：m、n和h分別為輸入層節點數、輸出層節點數和隱含層節點數；a*為1～10間的常數[11]，因此，本文設置隱含層節點的數量為18.

5) 學習率設置.神經網絡的學習率影響網絡權重的變化情況，設置過大的學習率將導致網絡不穩定；而學習率過小將增加訓練時間，并可能引起局部最小值.因此，為了保證網絡的穩定訓練，本文設置學習率為0.01.

為了避免網絡陷入局部最優解，文中提出了一種改進的附加動量法來調整網絡權重，其對權重和閾值的調節表達式分別為

(5)

式中：w為網絡權重；k為訓練速度；c為動量因子；η為學習率；δi為誤差函數的梯度；b為閾值.

附加動量法即使用動量因子對網絡權值的變化進行加權調節，增加動量因子將使權重向著誤差曲面凹陷區域運動，從而避免網絡權重陷入局部平坦區域.因此，可以通過調節動量因子來幫助網絡跳離局部極小值.根據式(2)可以看出，調整后的閾值在出現較大誤差時應取消本次權重更新，避免網絡陷入較大的誤差范圍.因此，在使用式(2)時應設定條件來決定是否修改網絡權值.本文設置附加動量法的判別依據為

(6)

式中，E(k)為網絡第k次迭代時的平方和誤差.

3 仿真與實驗結果

本文使用貴州電力信息數據構建了宏觀經濟數據庫、區域歷年電力消費數據庫、政策數據庫和電力客戶細分數據庫等數據庫表.在數據庫構建過程中得到符合身份證號碼設置、民族和性別的數據，直接刪除沒有身份信息的數據，然后選取其中有代表性的1 446 000余名住戶和企業的用電信息進行仿真分析.

基于這些數據本文將該市按照行政區劃分為3個類別：工業區、商業區和居民區.根據居民電力用戶基數大和數據繁雜的特點，本文以經濟和社會行為做依據，并關聯企業法人信息來反映用電客戶全貌，根據繳費額度和用電量對電力客戶進行劃分.將電力用戶劃分為：居民生活用電(A類)，大工業用電(B類)，農業生產用電(C類)和商業用電(D類)，電力客戶進行細分的結果如表1所示.

表1 電力客戶細分結果Tab.1 Subdivision results of power customers

為驗證本文所提出的改進聚類算法的有效性，比較了僅使用傳統基于距離的相似性度量方法和本文所提出聚類方法的性能，結果如表2所示.從表2中可以看出，所提出的方法雖然在距離屬性上的表現較差，但能明顯增加樣本間的相關性.

表2 改進前后K-Means聚類算法性能Tab.2 Performance of K-Means clustering algorithm before and after improvement

本文也測試了所提出的神經網絡電力的預測精度.表3為使用某地區2008～2018年的用電數據訓練預測獲得的2019年電力需求誤差百分比.從表3中可以看出，本文算法最大的相對誤差僅6.52%，表明算法可以得到較好的預測結果，能有效地預測電力客戶用電需求.從表3中還可以看出，不區分用戶類別直接預測的最大誤差為10.86%，表明使用電力客戶細分數據后能在一定程度上提升預測精度.

為了驗證本文算法的有效性，本文使用10個不同小區的用電量數據進行訓練和預測，結果如圖4所示.從圖4中可以看出，本文算法的預測值十分接近實際用電量，表明本文算法能取得較高的預測精度.

圖4 10個小區用電量預測結果Fig.4 Forecasting results of electricity consumption from 10 communities

4 結論

本文依托貴州智能電網大數據，從區域商業價值和區域宏觀經濟等角度搜集電力服務數據，并通過挖掘其中的關聯信息，使用K-Means算法建立了電力客戶的細分模型，將客戶劃分為4類.在客戶細分模型的基礎上，設計了BP神經網絡算法來建立需求預測模型，該模型能根據清洗后的數據特征直接預測客戶的需求變化情況.在Matlab平臺上的仿真與測試結果表明，所提出的方法能幫助電網公司更好地理解客戶行為和服務需求，制定營銷策略.