張瑩梅,楊耿煌,李明林,路光達
(1.天津職業技術師范大學天津市信息傳感與智能控制重點實驗室,天津 300222;2.國網四川省電力公司邛崍市供電分公司,成都 611530)
近年來,在基于電網數據進行模型研究時,均采用聚類的方法對電力數據進行有效分類,從而提高其研究模型的有效性和準確性。由于用電數據維度高,需構建核心指標體系,馮天瑞[1]從指標易獲取性、指標間相互關系和線損貢獻度出發對指標進行篩選,構建核心指標體系,其選擇主觀性強,缺乏必要的理論依據。聶宏展等[2-3]通過主成分分析法(principal component analysis,PCA)解決臺區數據各維度之間的相關性造成的相互影響和冗余,PCA 法可降低數據維度,即用少量的綜合變量取代原始變量,其中少數的綜合變量可以代表原始變量所表征的多數信息,但當主成分的各特征出現正負時,綜合評價函數意義不明確,且臺區的原始數據遭破壞。本文在不改變原始數據基礎上,提出一種低壓臺區變壓器用電數據聚類模型。首先,對臺區原始數據預處理,篩選完備數據;其次,對臺區的用電量、負載率、線損率等原始信息運用近鄰成分分析法(neighborhood component analysis,NCA)進行特征選擇;然后將特征選擇后的主要特征構成數據樣本,應用聚類算法并對比特征選擇前后的聚類結果。最后,選取某市郊區的實際電力運行數據,驗證所提模型的有效性。
特征選擇法的典型優勢是可保留數據的原始特征,并通過剔除無關和冗余信息,降低特征矩陣的維度,簡化運算模型,節省運算時間,提高準確性。除此之外,還可通過該簡化模型的建立,理解典型特征產生的原因。NCA 算法是由Goldberger 等[4]學者提出,以度量方式為馬氏距離的K 近鄰法(K-nearest neighbor,KNN)為基礎,通過不斷優化KNN 分類的準確率來學習轉換矩陣,最終獲得數據降維后的轉換矩陣。此算法主要由NCA 距離測度學習和應用KNN 算法對數據分類兩部分組成。
學習轉換矩陣的過程如下:假設原始數據集中的某2 個樣本為xi(1≤i≤n)和xj(1≤j≤n),這2 個樣本均為列向量。Axi和Axj為2 個樣本的轉換矩陣,行數均為d,列數均為D,其中d 為降維后的維度,D 為原始數據維度。設定pij為映射空間中歐式距離的歸一化指數函數的概率值:

式中:pi為樣本i 能被正確分類的概率;Ci為與樣本i屬于同一類樣本的集合,其中Ci={j|ci=cj}。
最理想的優化結果是使正確分類的點數最多。優化目標函數(fA)為:

上式為連續可維的矩陣函數,該算法的目標是使(fA)最大化。區別函數(fA)對變換矩陣A 產生的梯度規則,通過對(fA)求偏導來優化學習。此問題可應用梯度法求得矩陣A。梯度計算如下:

式中:xij=xi-xj。化簡式(4)可得到式(5)。

由式(5)得到目標函數對轉換矩陣A 的梯度后可設定迭代次數和矩陣A 的初始值A0,利用梯度下降法不斷優化目標函數上限,假設學習率為β,A0可通過式(6)迭代不斷優化學習。

當求得矩陣A 為非方陣時,即D 與d 不相等時,該樣本可實現降維,且其維度為d。當D 與d 相等時,此時并未實現降維,但可實現距離測度學習[5]。使用該分析方法實現距離測度和降維功能時,分類模型無參數,對樣本數據的分布和形狀不做假設,且沒有進行復雜的矩陣運算。目前,該算法已在多個領域中應用,如文本分類[5-6]、人臉識別[7]等。與其他算法相比,其優勢在于分類模型無參數,且對數據的分布和形狀不做假設。
聚類分析[8-9]依據數據自身結構信息對其分類,通過該算法,可將數據分為類別間盡可能分散和類別內盡可能緊密的多個類別。本文應用操作簡單且易于實現的K 均值(K-means)聚類算法[10]實現聚類分析。
K 均值聚類算法通過最小化聚類準則函數[11]的值實現分類,該函數計算每一類別中的數據樣本點到該類別中心之間的距離的平方和。該算法的主要步驟:
(1)設定K 個初始聚類中心,其向量值可任意設定。
(2)將所有需要分類的樣本數據按照最小化聚類準則函數的方式將該樣本分配到K 個類別中的某一類。
(3)重新計算各個類別中聚類中心的向量,并求出各類別中所有樣本數據的均值向量值,以此作為新的聚類中心,聚類準則函數表示為:

式中:Z1(1),Z2(1),…,Zk(1)為K 個初始聚類中心;x為需要分類的某一樣本;k 為迭代運算的次序號,第1次迭代k=1;Sj為第j 個聚類,其聚類中心為Zj;Zj(k+1)為各個聚類中心的新的向量值,即各個聚類簇中的樣本的均值向量。
(4)若重新計算后的聚類中心與原聚類中心不重合,重新運算步驟(2),將各樣本數據再次分類,不斷重復,迭代運算;若聚類中心重合,則該算法收斂,結束運算。
戴維森堡丁指數(Davies-Bouldin index,DBI),又稱為分類適確性指標,是由Davies 等[12]提出的一種用于評判聚類算法質量的指標[12]。DBI 指數值越小,則相同類別內各樣本距離越小,不同類別間樣本的距離越大,其計算公式為:

式中:Si為分散度,即第i 類中樣本點的分散程度;Sj為第i 類別中的第j 個樣本點;Mi,j為第i 類別和第j類別的聚類中心距離;N 為聚類的類別數。分散度為:

式中:Xj為第i 類別中第j 個樣本點;Ai為第i 類的聚類中心;Ti為第i 類中樣本點數目;p 取1,表示各樣本點到中心的距離的均值;p 取2,表示各樣本點到中心距離的標準差,二者均可衡量分散程度。

式中:ak,i為在第i 類別中心點的第k 個屬性值;ak,j為第j 類中心點的第k 個屬性值;Mi,j為第i 類別與第j類別聚類中心的距離。
DBI 指數表示相同類別內的距離和與不同類別外的距離和之比,該指數不斷優化K 值,避免因只計算目標函數而易出現局部最優的現象[13],DBI 指數值越小則相同類別內各樣本點越緊密,不同類別間的差異性越明顯。由此表明,在當前聚類時聚類質量最優。
本研究基于某市郊區12 個月的臺區電力運行數據,原始數據部分臺區存在大量缺失和數據異常問題,應用決策樹歸納分析法[14-15],建立臺區數據決策點:
(1)臺區數據不完整,包括輸入電量、損失電量、低壓用戶數、負荷率、負載率和線損率,日平均負荷缺失≥20%的數據。
(2)線損率小于0 的數據或線損率大于40%的數據。
(3)負載率大于100%的數據。
(4)低壓用戶數小于0 的數據。
(5)日負荷出現多次缺失或日負荷小于0 或日負荷大于60 kW·h 的數據。
將原始數據分別經過以上決策點決策,滿足以上條件的臺區數據剔除,將剩余臺區各月份合并成完整年數據,預處理篩選過程如圖1 所示。

圖1 預處理篩選過程
經上述預處理過程,臺區數目的變化如表1 所示。

表1 臺區數目變化
將表1 中的12 個月份463 個公共臺區數據合并,使得每一臺區均具備12 個月份的數據,包括臺區名稱、輸入電量、損失電量、低壓用戶數、線損率、負載率和負荷率。對每一數據特征求均值,得到各數據特征的年綜合數據,以此作為特征選擇和K-means 聚類算法的輸入數據。
4.2.1 特征選擇樣本測試
選擇150 個測試樣本,工廠樣本、常住居民樣本和非常住居民樣本各50 個,對負載率、線損率、低壓用戶數、每戶用電量、線路損耗和負荷率6 個原始特征指標進行選擇。測試樣本特征權重如圖2 所示。由圖2 可知,影響數據分類的主要因素為每戶用電量,負荷率和負載率對于測試樣本的分類也存在較小影響。因此,以各臺區的每戶用電量作為各臺區分類的主要影響因素。

圖2 測試樣本特征權重
4.2.2 年綜合樣本數據聚類和特征選擇
將年綜合樣本數據的特征量綜合負載率(x1)、綜合負荷率(x2)、綜合線損率(x3)、綜合每戶用電量(x4)、綜合輸入電量(x5)、綜合輸出電量(x6)均作為K-means聚類算法的輸入變量,設定聚類數目為5 類,年綜合全部特征聚類中心及各類樣本數如表2 所示。

表2 年綜合全部特征聚類中心及各類樣本數
由表2 可知,某些特征的分類不明確,如類別2和類別4,特征量x1和x2的聚類中心較緊密,很容易造成分類錯誤。
以測試樣本特征提取后的主要影響因素中的每戶用電量為輸入變量,對其應用K-means 聚類算法,設定聚類數目為5 類,典型特征聚類中心及各類樣本數如表3 所示。

表3 典型特征聚類中心及各類樣本數
由表3 可知,只依據每戶用電量將年樣本綜合數據大體分為5 類時,聚類中心差異較大,能夠較清晰地將不同用電類型的電力用戶分開。依據此分類方法對年樣本綜合數據應用NCA特征選擇,篩選每戶用電量以外的其他影響因素,應用NCA特征選擇時,輸入變量分別為綜合負載率、綜合負荷率、綜合線損率、綜合輸入電量、綜合輸出電量,年綜合樣本特征權重如圖3 所示。

圖3 年綜合樣本特征權重
由圖3 可知,影響數據分類的2 個因素對應圖中的特征2 和特征4,即綜合負荷率和綜合輸入電量。添加以上兩維數據作為K-means 聚類算法的輸入變量,仍設定聚類數目為5,年綜合樣本新聚類中心及各類樣本數如表4 所示。

表4 年綜合樣本新聚類中心及各類樣本數
由表4 可知,對于特征綜合負荷率、綜合輸入電量和綜合每戶用電量均可以有效分類,各類樣本點形成的三維圖如圖4 所示,不同形狀的數據點簇分別代表不同類別。
分別采用聚類算法和NCA 算法評價年綜合全部特征DBI 值以及特征選擇后DBI 值作為聚類輸入變量,DBI 對比值如表5 所示。由表5 可知,由于DBI 值越小,聚類質量越好,故特征選擇后的聚類質量整體高于以年全部特征作為聚類輸入變量的聚類質量。年綜合全部特征DBI 值變化如圖5 所示,特征選擇后DBI 值變化如圖6 所示。

圖4 各類樣本點形成的三維圖

表5 DBI 對比值

圖5 年綜合全部特征DBI 值變化

圖6 特征選擇后DBI 值變化
本文提出了一種基于NCA 的低壓臺區變壓器用電數據的聚類模型,該模型通過NCA特征選擇,將原始特征綜合負載率、綜合負荷率、綜合線損率、綜合每戶用電量、綜合輸入電量、綜合輸出電量,提取出典型特征,即每戶用電量、綜合負荷率和綜合輸入電量,分別以原始特征和典型特征作為聚類分析的輸入變量進行對比分析,并應用DBI 指標評判二者的聚類質量。實例驗證得出:應用NCA特征選擇算法可有效降低數據維度,并使聚類的各類別差異明顯,實現有效分類。經聚類算法評價指標DBI 評判,將特征選擇后典型特征變量作為聚類輸入的結果,明顯優于將年綜合全部特征作為聚類輸入的結果。該結果驗證了所提模型的有效性,并為不同類別臺區的分析提供了新的研究方向。