適用于用戶需求響應的負荷數據混合譜聚類算法

2022-11-07 10:49:32唐偉寧

計算機應用與軟件 2022年10期

唐偉寧李欣

1(國網吉林省電力有限公司電力科學研究院吉林長春 130000) 2(國網吉林省電力有限公司吉林供電公司吉林吉林 132001)

0 引言

需求響應(DR)是智能電網的關鍵技術之一，有利于降低峰值負荷，重塑負荷曲線，從而節省對昂貴備用發電機組的額外投資。現有文獻已經對參與需求響應的住宅和商業負荷進行了很多研究[1-3]，典型的負荷曲線對于評估可調度的負荷容量、開發基于價格或基于激勵的DR程序、確定調度方案具有重要意義。負荷聚類即是將眾多的負荷曲線分成幾個典型的類別，近年來，有研究人員提出了多種聚類方法。

常用的聚類方法有基于劃分的聚類算法(包括模糊C-均值和K-均值)、基于層次的聚類算法、基于自組織映射的網絡聚類算法、基于密度的聚類算法和基于模型的聚類算法[4]等。隨著數據挖掘技術的發展，一些新的聚類方法應運而生。為了獲得最優的聚類數，文獻[5]將聚類算法與優化理論相結合，提出了一種基于蟻群優化的聚類方法；文獻[6]提出了支持向量聚類在電力負荷曲線聚類分析研究中的有效應用；分層聚類具有較高的準確率和較低的效率，分區聚類具有較高的效率和較低的準確率，文獻[7]將分層聚類與分區聚類相結合，提出了一種集成聚類算法。然而，負荷形狀變異性在負荷曲線分析中是必不可少的，其反映了用戶的不同行為和特點。傳統的基于歐氏距離測度的聚類方法存在以下缺點：(1) 只考慮點到點之間的距離，缺乏分段趨勢信息，不具備形狀模式識別的能力。換句話說，假設數據點的順序并不重要，當排列時間點時，提供的是同樣的結果，這可能會丟失一些有關剖面形狀圖案的重要信息。(2) 負荷曲線的聚類需要考慮數據集中關注全局屬性的所有維度，隨著數據集維數的增加，距離相似性度量的意義越來越小[8]。

聚類的結果取決于算法和數據的分辨率，然而，很少有聚類方法考慮數據粒度對電力需求曲線分析性能的影響。直接處理原始數據不是一種有效的方法，因為數據可能非常大并且包含許多冗余的細節。傳統上，根據聚類實驗，時間序列負荷曲線數據的近似具有固定的時間分辨率，通常為15、30或60分鐘。因此必須確定一種解決方案，在表示負荷曲線特征的詳細程度和處理數據的必要性之間進行權衡。現有文獻提出了幾種處理時間分辨問題的方法，包括主成分分析法、Sammon映射法、自組織映射法、分段聚合近似法和符號聚合近似法[9]等。這些方法根據數據集的特點采用固定的一致或非一致的時間分辨率，由于基于均值的近似等歸約技術的性質，在某些類型的負荷數據中很可能會丟失一些重要的模式。

本文提出一種新的聚類方法來對負荷曲線進行分組，以實現負荷分組控制或異構聚合負荷建模，主要貢獻有：(1) 提出一種時間分辨率可變的分段聚合近似方法，用于權衡數據細節和數據維數；(2) 將多維度相似的譜聚類算法應用于負荷曲線聚類分析，提高負荷曲線間相似性度量的準確性，保證較高的聚類質量。

1 負荷聚類方法

隨著需求側響應程序的發展和先進計量基礎設施(Advanced Metering Infrastructure，AMI)系統帶來的海量數據，需要應用負荷曲線聚類技術對用戶按用電模式進行分類，并對其整體能耗趨勢進行清晰的評價。本文負荷曲線的聚類主要分為三個階段：負荷數據準備、負荷曲線聚類和將結果應用到DR程序，如圖1所示。

具體包括以下步驟：

(1) 求均值。單個負荷的典型日曲線通常用特定工作日內負荷數據的平均值表示，通過減少異常負荷數據的影響，可以得到典型的用電模式。

(2) 規范化。負荷曲線聚類通常是根據用戶的曲線形狀和歐幾里得距離度量將“相似”的用戶分組在一起。通常在聚類之前對負荷數據進行規范化，以確保距離度量對每個變量的權重相等。

當前兩種常用的規范化方法是：統計規范化和維度規范化。前一種方法，如Z-score方法，根據原始數據的均值和標準差進行規范化，并將數據轉換為標準正態分布；縮放規格化(如Min-Max方法)是對0到1之間的線性壓縮數據的振幅數據進行規范化。由于歐幾里得距離對負荷數據振幅的差異敏感，因此本文采用Min-Max法，對于由n個記錄組成的數據X，定義為：

(1)

(3) 基于信息熵的分段聚合近似。基于信息熵的分段聚合近似(Information Entropy Based Piecewise Aggregate Approximation，IEPAA)算法[8]是用一種新的可變時間分辨率的低維數據來近似高維數據，是對單個用戶典型日負荷曲線基本特征的近似，采用信息熵來度量日負荷曲線的波動程度。

(4) 譜聚類。通過使用譜聚類方法，考慮距離、形狀波動和形狀趨勢，將“相似”的用戶組合在一起。為了驗證本文算法，以商業建筑100臺暖通空調機組的用電數據[9]為例進行分析，圖2為100臺暖通空調機組的典型日負荷曲線。

采樣間隔為5 min，數據四舍五入到最接近的十分之一。對100臺暖通空調機組的典型日負荷曲線進行取平均算法，可以得到一個名為DS的數據集，每個典型的日負荷曲線由288個數據點組成，數據集DS的維數為100×288。

2 基于信息熵的分段聚合逼近

2.1 負荷曲線波動度的測量

采用信息熵度量負荷曲線的波動程度，假設一個數據X包含n個可能的記錄，表示為x1,x2,…,xn，每個記錄的概率分別為p1,p2,…,pn。數據X的信息熵Hn可以定義為：

(2)

信息熵Hn可以反映負荷曲線的波動程度，Hn越大，負荷曲線的波動越大，反之亦然。當p1=p2=p3=…=pn時，熵Hn的最大值Hmax為ln(n)。

平均信息熵可以表示為：

(3)

定義τj為一定時間內第j個負荷曲線的波動程度，則τj可近似為下列方程：

(4)

式中：j=1,2,…,N，N是負荷曲線的數量；ω是比例系數，本文中ω=1；nj是第j個負荷曲線的可能記錄。

定義系數ρ為一定時間內波動度τj=1時的負荷曲線數與負荷曲線總數的比值，ρ可以表示為：

(5)

在下面的IEPAA算法中，將系數ρ與預設閾值σ進行比較，如果ρ大于σ，則認為相應的數據波動較大，應進一步劃分為兩個數據段。

2.2 信息熵分段聚合近似

PAA通過低維數據獲得高維數據的近似值，假設一個數據由n個元素組成，表示為X={x1,x2,…,xn}。X可以用m個元素組成的數據來近似，表示為Y={y1,y2,…,yn}。Y的第i個元素由以下公式計算：

(6)

式中：m

2.3 IEPAA算法的細節

(1) 參數選擇：根據數據值的概率分布計算信息熵，負荷曲線數據四舍五入到最接近的十分之一。負荷曲線分類的最大時間分辨率(Maximum Temporal Resolution，MTR)主要取決于DR程序中的負荷控制持續時間和類型，因此，根據實際情況確定數據的時間分辨率。

(2) 負荷切換事件檢測：在時間窗T內，如果負荷的最大和最小功率之差大于某一閾值，則發生負荷切換事件。將變量S定義為時間窗T內N個負荷曲線的切換事件總數：

(7)

若第i個負荷切換事件發生，則si=1，否則si=0。

(3) IEPAA的主要步驟：圖3是IEPAA算法的流程，其中：K1和K2分別是數據段的數量；σ和Γ是預設閾值；i和j是整數變量。閾值σ和Γ可調，閾值越大，表示其從數據集中刪除的負荷曲線越多，本文將σ和Γ分別設為0.06和4。

采用數據集DS說明所提IEPAA算法的主要過程，包括以下步驟：

1) 初始化DSD=0.1，MTR=5 min，T=30 min，K1=48，i=0。每日負荷曲線的數據長度為288。時間窗T為30 min意味著數據集DS被劃分為48個段，每段維度為100×6。K1為段數，i是一個臨時整數變量。

2) 篩選出適合參與DR響應的負荷曲線。對于每個段，計算總負荷切換事件S，若0

3) 在步驟2)之后，將獲得新的數據集數據，維度為(100-R)×288，臨時變量i重置為0。

4) 將時間窗設置為60 min，這意味著數據集數據被分成24個段。該段被命名為SegA，每段SegA的維度為(100-R)×12。

5) 選擇表示為SegAi的第i段數據。

6) 根據式(5)和式(7)計算SegAi的系數ρ和S，若ρ<σ或S<Γ，則轉到步驟7)，否則轉到步驟8)。

7) 使用12個數據點的平均值近似模擬各曲線的第i個數據段。使用1個數據點代替12個數據點來實現了數據降維。

8) 將SegAi等分為兩段(稱為SegB)。SegB各段的數據量為(100-R)×6。臨時整數變量j設置為0。

9) 選擇表示為SegBj的第j段數據。

10) 根據式(5)和式(7)計算數據段SegBj的系數ρ和S，若ρ<σ或S<Γ，則轉到步驟11)，否則轉到步驟12)。

11) 使用相應的6個數據點的平均值來近似擬合曲線的第j段，通過使用1個數據點替換6個數據點來實現數據降維。

12) 將SegBj分為兩段(命名為SegC)。SegC各段的數據量為(100-R)×3。臨時整數變量k設置為0。

13) 選擇表示為SegCk的第k段數據。

14) 使用3個數據點的平均值近似模擬各曲線的第k段，使用1個數據點代替3個數據點來實現數據降維。

15) 獲取典型數據。

結果表明，該算法采用變差分時間來近似不同波動水平的數據段。

2.4 IEPAA算法的應用

對給定的數據集DS使用本文所提出的IEPAA算法，并獲得一個表征數據集DS1。傳統PAA算法分別以10分鐘和15分鐘的固定時間分辨率在數據集DS上進行計算，以獲得相應的數據集DS2和DS3。

時間序列數據的有效表示不僅要減少數據維數，而且要保持原始數據的顯著特征。引入平均可分辨信息指數(Average Distinguished Information,ADI)來評價IEPAA算法的表示效果。ADI的數據越大，表示算法在保持特征方面的性能越好。

假設Yi，j是二維表示數據集Y的一個元素，其中：i=1,2,…,M；j=1,2,…,L；M表示負荷曲線的總數；L表示負荷數據的長度。數據集Y的ADI定義為：

(8)

DS1、DS2和DS3的ADI分別用式(8)計算，計算結果如表1所示，可見DS1的數據長度小于DS2和DS3的數據長度，這意味著本文所提出的IEPAA算法比傳統的PAA算法具有更好的數據降維效果。DS1的ADI明顯大于DS2和DS3的ADI，證明IEPAA算法在保持數據特征方面比傳統PAA算法有更好的性能。此外，DS1的近似誤差也分別小于DS2和DS3。簡而言之，本文提出的IEPAA算法在負荷曲線數據的表示方面具有明顯的優勢。

表1 IEPAA與傳統PAA的比較

3 譜聚類

3.1 相似性指標

相似性指標對于聚類分析至關重要，這里以第2節定義的數據集DS1為例說明相似性指標。在計算相似性指標之前，對數據集DS1的數據采用中值的方式進行處理使數據平滑。

1) 距離指標：歐幾里得距離通常用于距離指標，兩組負荷數據Yi和Yk之間的歐氏距離de(i,k)表示為：

(9)

式中：i=1,2,…,M；j=1,2,…,L。

2) 形狀波動指標：本文采用相關距離作為形狀波動指標，兩組負荷曲線數據Yi和Yk之間的協方差可以表示為：

(10)

相關距離dc(i,k)定義為：

dc(i,k)=1-cov(i,k)

(11)

3) 形狀趨勢指標：采用最大距離描述形狀趨勢指標，兩組負荷的曲線數據Yi和Yk之間的最大距離表示為：

dm(j)=|yi,j-yk,j|

(12)

式中：s=η×L，η是可根據DR程序調整的系數。

4) 多維度相似性指標：基于距離度量和兩種形狀指標，本文引入了多維度相似性指標。從歐幾里得距離矩陣de的數據集Y中可以分別獲得形狀波動度量矩陣dc和形狀趨勢度量矩陣dm。多維度相似性度量矩陣D定義為：

D=α×de+β×dc+χ×dt

α+β+χ=1

(13)

式中：α、β和χ是可以根據不同的DR程序進行調整的加權系數；矩陣D的維數為M×M。

3.2 譜聚類算法

近年來，譜聚類已經成為目前流行的聚類算法之一[10]，本文采用常用的Ng-Jordan-Weiss(NJW)算法進行譜聚類分析。

(1) 鄰接矩陣構造：采用高斯核函數構造鄰接矩陣W為：

(14)

式中：γ是對聚類至關重要的維度參數。接下來說明如何確定比例參數γ。

步驟1將矩陣D的每一行按降序排序以獲得矩陣D′。

步驟2得到(M-1)×M維矩陣E，其中E(i,k)=D′(i+1,j)-D′(i,j)。

步驟3從矩陣E的每一列中求出最大元素E(im，jm)。

步驟4找到對應的元素D′(im，jm)，其中E(im,jm)=D′(im+1,jm)-D′(im,jm)。

步驟6參數γ可由以下方程式計算：

(15)

式中：ε是相似度量的最大隸屬度。

(2) 最佳聚類數：根據文獻[11]中引入的矩陣攝動理論，用一種新的方法確定最佳聚類數k。主要步驟如下：

步驟1計算鄰接矩陣W的特征值。

步驟2將計算出的特征值按降序排序，得到一個數組λ。

步驟3k=max{i|λ(i)>0.01,i=1,2,…,M}。

(3) 提出譜聚類的步驟。所提譜聚類算法包括以下步驟：

步驟1構造多維度相似度量矩陣D。

步驟2確定高斯核函數的維度參數γ，計算得到M×M維的鄰接矩陣W。

步驟3計算鄰接矩陣W的規范化拉普拉斯矩陣L。

步驟4確定最優聚類數k。

步驟5計算L的第一個k階特征向量u1,u2,…,uk。

步驟6構造一個M×k維的矩陣T，使得u1,u2,…,uk為T中的列向量。

步驟7設si為與L的第i行相對應的向量。

步驟8用K-均值法對點si(i=1,2，…,M)進行聚類。

步驟9得到聚類結果。

3.3 算例分析

以數據集DS1為例，對本文算法進行分析。

(1) K-means聚類：K-means算法[12]是負荷曲線問題中最常用的算法，具有簡單和高效的特點。K-均值聚類的目的是將觀測數據劃分成若干個聚類，以最小化聚類內的平方和。在數據集DS1上執行K-均值算法，Davies-Bouldin指數(DBI)[13]下的最優聚類數為6，如圖4所示。

(2) 譜聚類的應用：多維度相似度量矩陣由歐氏距離、形狀起伏和形狀趨勢組成，加權系數可以根據DR程序進行調整。負荷曲線的形態特征和振幅對DR程序都很重要，然而，負荷預測和負荷建模更多的是關注曲線的振幅而不是形態特征。因此，如果將所提聚類應用于DR程序，建議設置更小的α和更大的β和χ。此外，若將所提聚類方法應用于負荷預測或負荷建模中，則需設置較大的α和較小的β和χ。

算例1：選擇較小的歐氏距離加權系數和較大的形狀波動和形狀趨勢加權系數。多維度相似度量矩陣的加權系數分別設為α=0.2、β=0.4、χ=0.4，最大隸屬度ε=0.01，相應的參數γ=0.160 9。

所提譜聚類算法是在DS1數據集上實現的。最佳聚類數為7，聚類結果如圖5所示。每個聚類C1、C2、C3、C4、C5、C6和C7的曲線號分別為21、8、7、13、11、13和16。

比較圖4和圖5可以發現：

1)
圖4中的聚類C1和C6中的曲線在持續時間和形狀方面具有良好的相似性，而不考慮振幅情況。在圖4中，基于唯一歐氏距離度量的K-均值聚類將這些曲線分類為兩個不同的聚類C1和C6，若暖通空調機組參與了一些基于價格DR程序，則圖4中C1和C6聚類中的曲線可以更好地分類為一個聚類。圖5中，基于多維度度量的譜聚類算法能夠將這些曲線分類一個C1聚類中。

2)
圖4中C5聚類中的曲線對應于圖5中的C3、C5和C7聚類中的曲線。可以發現，圖5中的C3、C5和C7聚類中的曲線具有相似的振幅，但出現時間截然不同，其中的相應負荷具有參與短期DR程序的高可行性。這些曲線因其出現時間不同，應采用不同的負荷控制方案。然而，K-均值算法不能將它們區分開來而是將它們分為了一個聚類。

算例2：選擇較大的歐氏距離加權系數和較小的形狀波動和形狀趨勢加權系數。多維度相似度量矩陣的加權系數分別設為α=0.4、β=0.2、χ=0.2。最大隸屬度ε=0.01，相應參數γ=0.15。

仿真結果如圖6和圖7所示，本文算法在數據集DS1上執行，最佳聚類數為8。聚類C1、C2、C3、C4、C5、C6、C7和C8的曲線數分別為11、13、13、16、15、7、8和6。

對比圖6和圖4，可以觀察到圖6中C5和C8聚類中的曲線對應于圖4中的C6聚類中的曲線。此外，圖4中C5聚類中的曲線對應于圖6中的C1、C4和C6聚類中的曲線。結果表明，通過設置多維度加權系數，本文方法可以較好地對負荷曲線進行分類。

3.4 在DR中的應用

當前兩個主要的DR類別是：基于價格的需求響應和基于激勵的需求響應。對于第一個類別，用戶面臨的是基于市場價格的時變價格；另一方面，根據第二個方案，向用戶提供付款，以激勵其減少用電量。正確有效的負荷曲線聚類對DR非常重要，聚類結果有助于設計合理的DR方案和負荷控制方案。以圖6中的聚類結果為例，通過計算每個聚類中對應曲線的平均值，可以得到8個典型曲線，如圖7所示，其中：C2、C5、C8聚類為平頂曲線；C3聚類為多模峰曲線；C1、C4、C6聚類為短時峰曲線；C7聚類為雙峰曲線。電力公司或負荷集成商可以根據典型曲線圖信息和每種聚類的負荷數量，設計合理的DR方案，并評估參與不同DR的負荷潛力。

傳統的基于單維度距離相似性度量的聚類方法沒有同時考慮距離度量和形狀度量。本文提出的基于多維度相似性度量的譜聚類方法充分考慮了距離和形狀度量，比傳統聚類方法具有更好的聚類效果。

3.5 性能比較

本節將譜聚類算法的性能與原始K-均值聚類算法和改進蟻群聚類算法進行了比較，包括計算時間、聚類穩定性和聚類有效性等。蟻群算法是由Dorigo定義的，其動機是螞蟻系統的智能行為，已被應用于解決很多實際問題。

(1) 計算時間：首先，已知K-均值聚類的輸入是N維歐氏空間中的向量，而譜聚類的輸入是數據之間的相似矩陣。譜聚類的計算復雜度小于K-均值聚類。為了比較計算時間，在DS1數據集上分別進行了30次循環運行的K-均值算法、蟻群算法和譜聚類算法。K-均值聚類、蟻群算法和譜聚類算法的計算時間分別為13.21 s、7.56 s和1.10 s，隨著負荷曲線數目的增加，傳統聚類算法與譜聚類算法的計算時間差異將越來越大。而當住宅和商業負荷參與動態頻率調節等輔助DR過程時，縮短計算時間是至關重要的。

(2) 聚類穩定性：聚類算法的穩定性是指多次運行結果的一致性，而多數聚類算法的多次運行結果通常是不同的。本文討論并比較了K-均值聚類算法、蟻群聚類算法和譜聚類算法的穩定性，圖8給出了DS1的K-均值、蟻群和本文算法的10次運行結果。可以發現，譜聚類算法10次運行結果的一致性要優于K-均值聚類算法。

利用文獻[14]中定義的用于評價聚類算法穩定性的穩定性指數(The Stability Index，TSI)對三種聚類算法進行定量比較。TSI定義為：

(16)

TSI越小，聚類算法的穩定性越好。基于式(16)，在DS1數據集上10次運行的K-均值、蟻群和譜聚類的TSI分別為1.70、1.83和1.00，本文算法的TSI小于K-均值和蟻群聚類算法的TSI。

(3) 聚類有效性：聚類算法的一個目的通常是為了盡快提高同一個聚類中對象之間的相似度，本文采用文獻[15]中定義的聚類算法的有效性指標(The Validity Index，TVI)對目標之間的相似性進行定量評估，TVI越小，聚類有效性越好。加權因子μ=0.5的K-均值聚類、蟻群聚類和譜聚類在DS1上運行時的TVI分別為0.38、0.26和0.15，可以發現，與K-均值和蟻群聚類算法相比，本文算法具有更好的聚類效果。

4 結語

本文將信息熵、分段近似和譜聚類的概念相結合，提出一種適用于制定需求響應策略的負荷數據聚類算法，并在100個商用暖通空調系統中進行驗證。本文得出以下結論：

(1) 基于IE算法的PAA在負荷急劇增加或在短時間內切大量負荷的情況下，可以有效地選擇出適合DR程序的負荷。

(2) 傳統的維度技術往往會丟失大量顯著的特征信息，而基于IE的PAA不僅降低了維數，而且保持了原始負荷數據的基本特性，具有較高的精度。

(3) 改進的譜聚類算法從距離、形態波動特征和形態趨勢特征等方面計算負荷曲線之間的相似性，并采用基于矩陣攝動理論的方法得到聚類數，大大減少了計算量，該方法的綜合聚類質量優于K-均值聚類和蟻群算法聚類。

除需求響應外，聚類結果對電力公司或負荷集成商進行負荷預測、負荷建模和電價設計也具有潛在的實用價值。下一步將研究本文方法在特定DR程序中的實現，如動態頻率調節。

計算機應用與軟件2022年10期

計算機應用與軟件的其它文章: 眾包模式參與下“最后一公里”協同配送研究; 融入混沌與對立學習機制的二進制粒子群特征選擇算法; 面向分類模型學習的樣本類別均衡化方法; 一種基于文件系統特征的SLC緩存方案; 基于布谷鳥算法的物流選址及路徑優化研究; 基于細粒度主題建模的數據到文本生成模型