雷光遠,張 濤,唐永聰,梁 特,舒可心
(國網天津市電力公司寶坻供電分公司,天津 301899)
隨著智能電表的廣泛應用,負荷側用戶電力數據得以大量采集,為用電行為感知提供了海量的數據基礎,這些海量數據也將電力系統推向了大數據時代[1]。應用蓬勃發展的人工智能技術,通過對其進行數據挖掘和分析,能夠有效獲知用戶用電特征,為實現負荷預測、指導電力價格制定和提供供給側差異化服務提供依據[2]。在預測方面,通過用戶用電行為聚類分析建立預測模型,疊加各類用戶負荷預測結果可以提高用戶聚合體負荷預測精度[3];在電力營銷服務方面,存在服務模式單一,用戶體驗差的問題,通過電力用戶聚類畫像,制定差異化的營銷服務策略,可以提高電力用戶的滿意度[4]。此外,新能源入網、儲能優化配置、潮流優化、電碳分析等配電網計算,也需要建立合理的實際負荷模型來考慮用電用戶需求。尤其是在高比例新能源接入條件下,面對大量異質靈活資源參與系統運行調節,電力電量平衡面臨挑戰,精準制定負荷數據庫并構建用戶模型是提高需求側響應措施實施的基礎[5?6]。
隨著新型電力系統的信息化、數字化、智能化建設的迅猛發展,大量的分布式設備入網采集海量用戶用電信息,為進一步精細化的電力負荷特征分析提供了新的可能[7]。這些負荷信息數據量大、類型復雜、時間跨度長、價值密度低,但暗含關鍵的負荷用電規律,可利用分類、聚類和統計等方法進行提取,來實現用戶建模、負荷預測、竊電分析等目標。目前對負荷曲線聚類算法的研究已有一些成果[8?9],其中,K?means算法是當前應用廣泛的聚類分析方法之一[10],但其聚類數的選取直接影響聚類結果,并對初始中心點的選取敏感,會造成聚類結果局部最優、收斂速度慢及不穩定等問題[11?12]。模糊C?均值FCM(fuzzy C?means)是一種軟聚類方法[13],與K?means 方法不同,它利用隸屬度的大小來評價數據與聚類中心的關聯關系,而不是直接劃分歸類,但依然無法擺脫聚類數選取難題及可能的局部最優問題[14?15]。因此,要想利用聚類實現用電特性分析,必須解決初值選擇與聚類數選擇兩大難題。近年出現一種新興的蜜獾算法HBA(honey badger algorithm)[16],從數學上構建一個有效的搜索策略來解決優化問題,并且通過控制隨機化方法,即使在搜索過程的最后也能保持足夠的種群多樣性,可實現參數選取的全局優化。因此,本文擬利用HBA實現對FCM 的聚類優化,并確定聚類數選取原則,將其用于用戶用電行為分析[17],獲取代表性強的聚類結果,以此建立用戶用電特征模型。
在分布式電源、電動汽車等規模化接入配電臺區背景下,針對多樣化的用戶用電行為,本文提出一種蜜獾優化模糊C?均值聚類HBA?FCM(honey badger algorithm?fuzzy C?means)的配電臺區用戶用電特征分析方法。首先,針對FCM初始參數隨機生成,造成分類結果容易出現局部最優問題,利用HBA 進行優化選取,提出HBA?FCM 算法;然后,利用戴維森堡丁指標DBI(Davies?Bouldin index)極小值自適應的原則選取最佳聚類數,以確定最終聚類結果;最后,將聚類中心作為不同類型用戶用電特征模型,進行變化特征的計算與分析。
隨著大數據和人工智能技術在配電網中的推廣應用,通過數據挖掘方法有效獲知用戶用電特征,為配電、用電側的需求響應評估、電力價格制定等營銷措施提供數據支撐。然而,配套電力服務既需要考慮用戶需求又要考慮服務成本,較少的用電特征模型難以概括用戶需求,過多的用戶劃分會增加任務量與服務成本。此外用戶模型的特征代表性也會影響效果,因而需要合理地描繪用戶用電特征,掌握典型用戶用電規律。
為有效提取負荷用電特征,本文提出基于HBA?FCM 的配電臺區用戶用電特征分析方法,通過聚類算法優化與聚類數選擇,獲取特征性強和分類數恰當的用戶聚類結果,從而建立用戶用電特征模型,其主要流程如圖1所示。

圖1 主要流程Fig.1 Main processes
對用戶用電數據進行采集,并對其進行標準化處理,以著重展現其變化特征,為聚類分析提供良好數據。采用FCM對電力用戶負荷數據實現聚類,迭代過程中通過隸屬度來計算聚類目標函數,以提高聚類效果。針對FCM 的缺點,對其初值采用HBA進行優化選取,找到聚類目標函數最小的聚類結果,實現多樣性用戶劃分的特征選擇。聚類數采用聚類指標自適應極小值原則確定,以保障電力用戶劃分的合理性,實現多樣性用戶劃分的數量選擇。最后根據優選的聚類結果,將用戶分類,通過最終的聚類中心建立不同類型用戶用電特征模型。從聚類結果中可進一步分析各類型用戶用電特征,展現其峰谷狀況、持續時間、短時變化量等信息,從而為配電網電力調度、電價制定等建立典型用戶需求模型,為分布式電源和儲能優化配置、潮流優化、電動汽車調度等配電網計算提供典型負荷變化特征。
聚類算法主要存在初值選取與聚類數選擇的兩個難題,而結合優化算法可有效解決初值選取導致的聚類結果局部最優問題,通過聚類目標函數的最值搜索,使得聚類結果特征性更強。
FCM 是一種軟聚類方法,與K?means 方法不同的是,它并非直接實現數據分類,而是給出數據與聚類中心的關聯關系的評價,即隸屬度,并通過隸屬度來計算目標函數,以提高聚類效果。
FCM通過迭代求解尋找目標函數Jm的最小值為

通過反復聚類迭代,計算Jm尋找最小值,當2次迭代的Jm差值在一定誤差范圍內時,可輸出最終結果。此過程中還需要更新uij與cj,以獲取最小的Jm,具體計算公式為
式中,ck為第k個聚類中心。
FCM算法具體步驟如下:
步驟1預設聚類數m,最大迭代次數G,容許誤差e,輸入待聚類電力數據;
步驟2由式(3)計算每類的聚類中心cj;


相比其他聚類算法,FCM對電力數據特征的模糊性具有穩定的聚能性與極強的魯棒性。但由于FCM初始的聚類中心是隨機生成的,分類結果容易出現局部最優,從而影響整體的分類結果。因此,本文采用HBA對FCM進行初值選取的優化。
HBA算法借鑒了蜜獾的智能覓食行為,從數學上建立求解優化問題的有效搜索策略,將蜜獾挖掘取蜜方法的動態搜尋行為劃分為探索階段和挖掘階段。此外,使用受控隨機化技術,即使在搜索過程的最后,HBA 仍然保持足夠的種群多樣性,具有較強的局部探索能力。
HBA算法詳細步驟如下。
步驟1初始化階段。初始化蜜獾的數量(候選解的種群數量)及其各自的位置。第i次迭代中蜜鳥的位置可表示為
式中:yi為第i次迭代中蜜鳥的位置,它是N個種群中的候選解;lbi、ubi分別為搜索域的下界和上界;r1為0~1的隨機數。
步驟2定義行動強度Ii。行動強度與目標的集中強度及距離有關,目標越近,味道越強烈,行動越迅速,由平方反比規則可得
式中:r2為0~1的隨機數;L為目標的集中強度;di為目標與第i個蜜獾之間的距離;yprey為目標的位置。
步驟3更新密度因子α,以實現從探索到挖掘的平穩過渡。密度因子α可表示為
式中:λ為遞減影響因子,它是一個≥1的常數;imax為最大迭代數。由此可以看出α隨迭代次數增加而減小,使隨機化程度逐漸降低。
步驟4更新蜜獾的位置。HBA 位置更新過程分為“挖掘階段”和“蜂蜜階段”兩部分。
(1)挖掘階段。在挖掘階段蜜獾的動作類似心形,即
式中:ynew為蜜獾i的新位置;yprey為目標的位置,這是迄今為止發現的最優位置,即全局最優位置;β為覓食參數,它代表蜜獾覓食的能力,恒大于1;r3、r4和r5為0~1 的隨機數;F為改變搜索方向的標志。F的確定方法為
式中,r6為0~1的隨機數。
(2)蜂蜜階段。蜜獾跟隨導蜜鳥到達蜂巢的情況可以模擬為
式中,r7為0~1的隨機數。
為了有效解決傳統FCM 算法初始中心隨機生成,使聚類結果陷入局部最優的問題,通過與HBA結合,進而提升電力信息的聚類效果,本文提出基于HBA?FCM 的聚類算法,以提高聚類準確性。具體步驟如下:
步驟1初始化HBA 最大迭代次數tmax、種群數量n、參數λ和β,以及蜜獾位置y,即FCM 算法的初始中心c;
步驟2利用FCM 算法進行聚類,由式(1)獲取聚類目標函數值;
步驟3由式(9)、(11)更新蜜獾位置ynew,依據目標函數更新獵物位置值,記錄全局最優位置;
步驟4返回步驟2直至迭代次數大于給定閾值,根據最終的蜜獾全局最優位置,計算該條件下的模糊隸屬度矩陣U,確定分類結果并輸出。
配電臺區用戶類型多樣,不同的用戶用電屬性差別較大,因此在聚類分析前需要進行標準化處理,本文采用Z?Score值標準化,即
HBA?FCM算法解決了聚類時初始參數隨機生成,聚類結果容易出現局部最優的問題,但聚類數m需要預先指定。因此,在HBA?FCM 算法獲取聚類結果后,計算體現類內和類間距離的綜合性聚類有效性指標DBI為
式中:Si、Sj分別為ci和cj對應簇的類內平均距離;N(Aj)為簇Aj中所含樣本的個數。
由于指標值越大,表明類間距離越小、類內對象的分散程度越大,即聚類效果越差。因此通過改變聚類數m獲得不同m對應的DBI,選取DBI 極小值所對應的m為最佳聚類數,即自適應極小值原則。
本文所提配電臺區用戶用電特征分析方法的整體流程如圖2所示。首先,收集用戶用電信息,進行標準化處理,獲取用電信息矩陣。然后,設定最大聚類數M,并預設聚類數m=2,利用HBA?FCM算法求解,獲取聚類數為m時的聚類目標函數Jm、模糊隸屬度矩陣U及聚類中心C,通過分類結果計算DBI;判斷聚類指標DBI是否達到極小值,取極小值情況下的聚類數m及其聚類結果輸出,否則增加聚類數再次采用HBA?FCM算法求解。最后,將最優聚類結果的聚類中心作為各類型用戶的用電特征模型,并進行曲線繪制與變化特征計算,展現其變化規律。

圖2 本文方法整體流程Fig.2 Overall process of this article′s method
為驗證本文提出聚類算法的有效性,選取UCI Machine Learning Repository 中的2 個數據集Glass和Wine檢驗算法聚類準確性。在獲取結果后計算總的分類準確率,20次聚類的準確率統計結果如表1 所示。由表1 可以看出,優化后的FCM 算法準確率相對較高,且更穩定地給出聚類結果。

表1 聚類準確率Tab.1 Clustering accuracy
為有效驗證本文方法的有效性,以天津市某智能配電網?智慧城市項目所獲得的電力數據集為數據源,該網絡中接有分布式電源、電動汽車及柔性負荷等,負荷特性復雜。選取其中的248 個用戶提供日用電負荷數據來進行用戶用電特征分析,按1 h間隔選取數據。
對配網用戶用電數據進行數據處理,采用Z?Score 值標準化,形成對應每個配網用戶的表征用電特征數組。設定FCM 算法最大迭代次數為40,HBA最大迭代次數為100,最大聚類數m=15,將用電特征數組輸入HBA?FCM 算法進行計算。HBA?FCM 算法獲取結果的DBI 和聚類目標函數Jm與聚類數的關系分別如圖3和圖4所示。

圖3 DBI 與聚類數的關系曲線Fig.3 Curve of relationship between DBI and clustering number

圖4 聚類目標函數與聚類數的關系曲線Fig.4 Curve of relationship between cluster objective function and clustering number
由圖3可以看出,m=5處DBI取得第一個極小值,同時也是范圍內的最小值,因此選取最佳聚類數為5的聚類結果。此外由圖4可以看出,Jm隨著m的增大而減小,在m=5處為拐點,在此之前下降迅速,而在此之后變化量較小,印證最佳聚類數應取值為5。
在聚類數為5時,采用傳統遺傳算法GA(genet?ic algorithm)對FCM 算法進行參數優化,與HBA 作對比,2種方法迭代過程中的Jm變化曲線如圖5所示。由圖5可見,優化迭代使Jm取得最小值961.26,而HBA 能夠更快的跳出局部最優;在計算速度方面,相同迭代次數下,HBA 算法的整個計算過程用時8.521 s,GA算法的用時8.493 s,二者相差不大。

圖5 迭代過程中的聚類目標函數變化曲線Fig.5 Curve of cluster objective function during iteration
選取聚類數為5的結果輸出如圖6~圖11所示,各類型用戶變化特征與數量如表2 所示。由于用電數據經過預處理,0值表示用電均值,負值表示用電量小于均值,無單位。表2 中,日內變化量為日內負荷最大值與最小值的差值;最大短時變化量為2 h 內負荷變化量的最大值;最大短時變化率為最大短時變化量與日內變化量的比值;平均變化量為日內相鄰兩時間點變化量的平均值,變化量均取絕對值。

表2 各類型用戶變化特征與數量Tab.2 Characteristics and quantity of various types of users

圖6 聚類中心Fig.6 Clustering center

圖7 第1 類用戶Fig.7 Type-1 users

圖8 第2 類用戶Fig.8 Type-2 users

圖9 第3 類用戶Fig.9 Type-3 users

圖10 第4 類用戶Fig.10 Type-4 users

圖11 第5 類用戶Fig.11 Type-5 users
將聚類中心作為各類型用戶用電特征模型,由圖6~圖11可以看出,各類型用戶曲線分布緊密,不同類型差異大,聚類中心特征明顯,代表性強;聚類結果沒有受到極端數據影響,產生某一類數量極少的現象,表明了聚類數選取的合理性與聚類的有效性。
由圖6~圖11 及表2 中各類型橫向比較可以得出:①第3 類和第4 類用戶日內變化量較小,其中,第4 類用戶平均變化量0.089、最大短時變化量0.364 為最小值,說明變化慢、波動小、負荷量處于均值附近用電量較為穩定,以及接近24 h運轉的工廠等用電用戶,不需要進行用電的價格引導;②第1類、第2類和第5類用戶日內變化量較大、波峰明顯,其中,第2類和第5 類呈現相反用電規律;③第5 類用電高峰在傍晚出現,日間工作時段負荷較小,屬于典型的居民用戶形式,而第2 類高峰在凌晨出現,屬于錯峰型用戶,通過與居民用電錯峰,在夜間低電價時段用電來降低電力成本;④第2 類與第5 類波峰處用電量極大,其余時段用電量極小,因而日內變化量大,在用電平衡方面可以實現互補,從而減小調峰壓力;⑤第1 類最大短時變化率達到64.6%,波動最大且變化頻繁,出現明顯的雙峰形態,其峰值處于上、下午的日間工作時間,而在中午休息時段出現一段低谷,夜間負荷最小,屬于常規工作制公司企業用電形態;⑥第3 類和第4 類用電變化量較小的用戶較多,而其他類型用戶較少,但未出現數量極少的現象,這也能夠證明算法能夠有效避免極端數據的影響。因此,通過聚類數選擇劃分合理的用戶群體,將最優聚類結果的聚類中心作為各類型用戶用電特征模型,具有典型性與概括性,可用于配電網計算,實現需求側約束。通過曲線描述、變化特征計算等形式,可進一步掌握更加精細的用戶用電規律,根據負荷峰谷狀況、短時變化量等信息進行電力調度、電價制定等業務。
為有效證明本文聚類方法的優越性,K?means算法結果及未優化模糊C?均值算法獲得的兩個局部最優的聚類結果,與該聚類結果進行對比,聚類結果指標如表3 所示。由表3 可以看出,未優化的FCM的聚類結果目標函數Jm略大于本文算法結果,類內誤差平方和指標與Jm幾乎相等,在小數后數位出現差異;本文算法結果類間距離最大,類內距離非最小但差距不大;在綜合性指標DBI 上,本文算法結果表現得更好,表明采用該聚類結果更合理。

表3 聚類結果指標對比Tab.3 Comparison of indexes for clustering results
本文提出一種基于HBA?FCM算法的配電臺區用戶用電特征分析方法。經案例驗證,該方法能獲取更精準的用戶聚類結果,通過聚類中心建立各類型用戶用電特征模型,并進行用電特征計算、展示與分析,可以得出以下結論:
(1)利用HBA優化FCM的初值選取,能夠有效跳出局部最優且搜索到目標函數值更小的聚類結果,提高聚類效果;
(2)利用DBI自適應極小值的原則可以有效選取最佳聚類數,使聚類中心的特征代表性強;
(3)利用HBA?FCM 算法能獲取更精準的用戶聚類結果,實現將248 個用戶分為特征差異較大的5 類,通過聚類中心建立的各類型用戶用電特征模型代表性強,可用于配電網計算與開展電力服務。