王家武,趙佃云,晉 京,盧京祥,鄭加麗
(國網山東省電力公司日照供電公司,山東 日照 276800)
調度自動化系統是電力數據傳輸、存儲和利用的主要系統,對數據的正確性有嚴格的要求,從而保證電力系統安全高效運行[1-2]。應用高準確度的數據對電力系統的生產運營和管理具有不可替代的作用,是電力調度自動化系統精準決策的重要保障。然而,數據的準確性和完整性等受到調度自動化系統主子站通道數據傳輸的影響。其中,在調度自動化系統主子站中負荷、電壓、電流等采集量因設備問題、突發事故或者用戶不可預測的突變用電行為產生大量的異常數據和偽異常數據,不僅會對短期實時調度產生影響,還對日前調度和負荷預測的準確度造成影響[3]。在未來智能電網的發展中,電動汽車、移動儲能等柔性設備加入智能電網中,須對這些靈活的柔性設備進行調度和管控,實現日前負荷的準確預測,并基于分時電價的需求響應,調節峰谷差,完成能量的準確高效利用[4-5]。此外,調度自動化系統由大量智能儀表組成,是數據采集的主要設備,因此對調度自動化系統中智能儀表應提出更高的要求,保證數據的完整傳輸[6-7]。因此,正確高質量的數據對電力調度自動化系統的長期運營和規劃具有重要影響。
針對電力系統異常數據辨識問題,國內外學者做了大量的研究。文獻[8]構建了一種矢量學習算法,能夠實現從多組負荷數據中辨識異常數據,有效完成異常負荷辨識,但是將異常數據所在數據組進行整體刪除是不合理的。文獻[9]通過灰色關聯分析挖掘數據周期性規律,對數據進行重組,分析數據因通信損失、儀表故障等問題致使數據不準確的問題。文獻[10]針對信道錯誤、儀表故障、設備停運等因素導致的數據異常與數據缺失問題,采用基于灰色關聯分析和參數估計辨識異常數據,通過優化算法解決參數估計帶來的非線性優化問題以及收斂精度、全局最優解和局部最優解的權衡問題。文獻[11]利用數據時間尺度對比原理對數據進行橫向和縱向對比,針對傳輸數據的完整性和準確性進行辨識,確保傳輸數據的準確可靠。文獻[12]根據數據時間尺度對比對電力系統傳輸數據進行分析。雖然通過數據時間尺度對比能夠得到較準確的對比結果,但是大量傳輸數據橫向和縱向的對比對服務器的計算和處理能力是一個嚴峻的考驗。
相對于K-means 等其他數據劃分類聚類算法,基于密度噪聲空間聚類算法(Density-Based Spatial Clustering of Applications With Noise,DBSCAN)能夠不依賴指定的聚類個數,自動生成相應聚類的簇個數。但是,DBSCAN 算法對于簇的搜索半徑和包含點的個數較為敏感,同時這兩個參數須事先指定。因此,人為制定的參數對于數據聚類的精度影響較大。針對上述問題,須構建參數自適應的算法,避免參數對聚類精度的影響,實現自動高效率的簇的劃分。
此外,用戶的動態用電行為可能表現出與異常數據相似的體征,主要表現在負荷需求和電能使用情況與之前用電習慣不同,而導致的數據發生了突變,并不是設備傳輸導致數據異常。這類數據在本文中定義為偽異常數據,是正常數據,不應該被修正或者排除[13]。因此,這類數據的存在對異常數據的辨識帶來了很大的干擾和挑戰。
針對調度自動化系統主子站通道的數據傳輸中異常數據和偽異常數據的辨識問題,基于參數自適應的密度噪聲空間聚類算法(Parameter Adaptation-Density Based Spatial Clustering of Applications With Noise,PA-DBSCAN)算法和自相關性理論構建調度自動化系統主子站通道的異常數據辨識模型。通過PA-DBSCAN 算法對異常值進行辨識,并基于自相關性理論剔除偽異常數據,避免偽異常數據對數據辨識造成影響。
數據的完整性是數據分析的必要條件,數據的缺失會影響數據的分析,造成漏判或者誤判,影響數據的整體質量。因此,針對缺失的數據,通過拉格朗日內插法進行數據補充[14-15]。缺失數據的增補表達式為
式中:dq為在第q個樣本點缺失的數據;dq-k和dq+l分別為在q-k和q+l樣本點的數據;K和L分別表示缺失數據之前和之后的數據量。
基于PA-DBSCAN 聚類方法能夠將不同密度的數據點劃分為不同的簇,并將簇中包含的數據點大于閥值ξ樣本的對象稱為核心點。
通過計算參數(ε,ξ)描述樣本分布的緊密程度,圖1 和圖2 分別展示了數據點的劃分以及PADBSCAN結構和數據點的分布。

圖1 數據點的劃分

圖2 PA-DBSCAN結構和數據點的分布
DBSCAN 算法的優勢是不須預先指定簇的個數,能夠自動根據樣本的數據分布,實現自動的聚類數目的劃分,完成樣本的分類。DBSCAN 算法流程如圖3所示,算法偽代碼如表1所示。

圖3 DBSCAN算法流程

表1 DBSCAN算法偽代碼
PA-DBSCAN 算法是一種優秀的算法,具有多種優良性質:1)不須像K-means 算法一樣事前設定好聚類個數;2)收斂速度快,不局限于簇的形狀,能夠聚合出多種類型的簇形狀;3)通過參數自動辨識簇的離群數據。
但是,DBSCAN算法也擁有缺點,即參數(ε,ξ)須根據專家知識庫等相關經驗對參數值進行手動設定。不同參數值的設定對于簇的形狀、半徑和聚類中心都具有較大的影響。因此,本文構建PA-DBSCAN 算法,通過高斯核密度估計方法,計算不同數據點的核概率密度值,通過概率密度值為不同的數據點自適應計算ε,彌補DBSCAN算法的參數選取的缺陷。
高斯核密度估計方法是可以不依賴于參數的估計方法,能夠避開參數對隨機事件描述的影響,是一種基于有限樣本實現的非參數估計方法。高斯核密度函數K(x)可以表示為[16]
計算采樣數據中的第i個采樣值對應的概率密度函數f(x)為
式中:n為采集的樣本點的數目;xi為第i個采樣值對應的數據值;h為核函數帶寬。
由式(3)可以看出,核函數的概率密度與樣本的數據量和帶寬h相關。在數據量一定的情況下,h的選擇對于核函數的精度影響較大。h的取值高低,直接影響概率分布函數曲線的走向。依據文獻[17]的試驗結果,選用高斯徑向基函數來設計h的選擇,通過樣本數據標準差σ,來近似估計核密度,實現非參數估計的快速完成,如式(4)所示。
通過式(4)可以計算出每個樣本點的概率密度的大小。概率密度值越大的樣本點,應該被匹配一個更大的搜索半徑ε,而密度值越小的點應該匹配一個較小的搜索半徑ε。根據上述理論,認為搜索半徑和核密度值之間是呈正相關的。因此,構建搜索半徑ε與概率密度函數的關系,其表達式為
式中:a為搜索半徑ε與概率密度函數的相關性系數。
在聚類過程中,總的搜索半徑為[18]
式中:m為樣本點的數據維度。
因此,通過推導相關性系數a可以表示為
在n個樣本點的數據聚類過程中,PA-DBSCAN算法的搜索半徑ε表示為
在單一類型的數據聚類過程中,PA-DBSCAN 算法的搜索半徑ε為
除了確定參數ξ表示在核心點的周圍的數據不少于ξ個。通過數據經驗判定,當ξ等于1時,核心點的周圍就1 個數據點,也就是核心點,這對于數據的聚類沒有意義。當ξ等于2 時,則簇中除了核心點,還有一個邊界點,則邊界點和核心點的定義矛盾,因此,ξ小于等于2 時,簇的結構不成立。因此,ξ必須大于等于3。根據聚類經驗判斷,ξ的數值并不是越大越好,會將噪聲點也包含到簇中。因此,本文依據文獻[19],ξ的表達式為
因為,本文提出的PA-DBSCAN 算法的步驟如下所示。
步驟1:提供樣本數據D以及通過高斯核函數參數自適應確定相應的鄰域參數(ε,ξ);
步驟2:將自適應的參數(ε,ξ)輸入到PADBSCAN算法中,確定樣本的ε-鄰域子樣本;
步驟3:不斷更新確定簇的個數以及簇中包含的樣本點,確定樣本的噪聲點;
步驟4:實現數據聚類,完成異常數據的數據辨識。
首先,構建數據正確性辨識的信息矩陣。假定一個樣本點有n個類型的數據,數據的維度為t,則數據正確性辨識矩陣Dn×t表示為
式中:dn,t為第t個維度的第n個類型的數據。
然后,針對初步篩選后的異常數據中可能存在偽異常的數據的問題,即存在由于突發的工況和用電情況使調度自動化系統電力數據發生突變的正常數據。因此,針對這一類偽異常數據應該從異常數據中剔除,避免數據干擾異常造成數據誤判。所以,采用自相關函數主動捕捉和剔除偽異常數據。數據辨識的信息矩陣的均值和方差Var(D)為
式中:E為方差的期望值;Dj為數據正確性辨識矩陣中第j個維度的列數據。
在數據的平穩傳輸過程中,數據正確性辨識矩陣中第t個維度、第t+l個維度的列數據,Dt和Dt+l之間的協方差表示為
計算Dt和Dt+l之間的相關系數為
對于在一段時間上時間間隔為l的樣本,辨識數據的自相關函數為
不同的時間間隔l對應不同的自相關系數值,通過不斷迭代尋找最優的時間間隔,得到最大的自相關系數ρmax。
在迭代的最優周期中出現的突變數據為偽突變數據,因此這些數據不能認定為異常數據,從而剔除這些數據,應當保留辨識出的偽異常數據。偽異常數據辨識方法流程如圖4所示。

圖4 偽異常數據辨識方法流程
采用2020 年1 月1 日—2021 年6 月30 日期間567天的山東電網某市的區域日用電量負荷數據,負荷數據計量單位為天。為了驗證本文調度自動化系統主子站異常數據辨識模型的有效性,通過人工設定進行人為修改正常數據變成異常數據,并進行標注。從該市35個區域中選取6個區域的數據作為樣本數據。獲取每個區域的567 個電力傳輸數據。此外,通過計算檢測率IDR和誤檢率IFP兩個評價指標對所提出的模型進行評估,用以驗證提出的模型對真實異常數據和偽異常數據的檢測和辨識情況。
式中:VF為檢測異常數據個數;VT為標記的異常數據總數;VG為被檢測為異常的正常數據個數;VU為正常數據總數。
構建的調度自動化系統主子站通道異常數據辨識模型的整體計算流程如圖5 所示。通過K-means和DBSCAN 與本文提出的PA-DBSCAN 算法在IDR和IFP指標上進行數據對比,對比結果如表2和表3所示。

表2 檢測率對比 單位:%

表3 誤檢率對比 單位:%

圖5 異常數據檢測流程
由表2和表3可知,構建的模型在檢測率這一性能方面要優于K-means 和DBSCAN 算法。這是由于模型對于檢測非正態分布的異常數據具備優勢,其并不受數據分布的影響。K-means 和DBSCAN 算法表現較差,是因為負荷數據分布的不確定性影響了鄰近點的k-距離從而影響對聚類中心的計算,導致檢測準確率較低。在誤檢率方面,本文模型誤檢率在1%~5% 之間,相比較K-means 算法具有明顯優勢,而DBSCAN 算法在誤檢率這一性能方面與本文方法的區別性相差不大。
因此,通過計算檢測率和誤檢率結果可以看出,所提出模型在真實異常數據和偽異常數據的辨識方面都有比較理想的效果。對于不同的用電區域,都能夠有效檢測出異常數據,保證了對異常數據辨識的準確性,為調度系統的用電管理和調度決策等提供了更為準確的數據指導。
圖6 和圖7 比較了幾種算法在不同數據規模下的數據檢測率和誤檢率。根據圖6 可知,隨著數據量的不斷增加,本文所提出的算法相比于K-means和DBSCAN 算法仍然具有較高的檢測率。當數據量達到4 000 MB時,K-means算法的檢測率為89.56%,DBSCAN 算法的檢測率為87.68%,而本文提出的PA-DBSCAN 算法檢測率高達為91.57%。因此,通過仿真驗證可以得出本文所提方法的異常數據檢測率較高,具有較好的異常數據檢測能力。

圖6 異常數據檢測率
此外,圖7 展示了K-means、DBSCAN 和PADBSCAN 3 種算法在異常數據誤檢率方面的對比。通過對比可以看出,隨著數據規模的不斷增加,3 種算法的誤檢率都在逐漸上升。當數據量為4 000 MB時,K-means和DBSCAN 算法的誤檢率分別為4.84%和3.46%,而本文提出的PA-DBSCAN 算法誤檢率為3.23%,低于其他兩種算法。由上述討論可以得出,本文所提出的PA-DBSCAN 算法對于調度自動化系統主子站通道異常數據辨識的誤檢率較低,具有比較穩定的檢測能力。

圖7 異常數據誤檢率
在此基礎上,圖8 展示了K-means、DBSCAN 和PA-DBSCAN 算法的平均運行時間仿真結果。圖8表明PA-DBSCAN 算法除了表2 所示結果中展示的在辨識異常數據方面具有穩定正確的效果外,還證明了在保證辨識異常數據精度的同時,能夠確保算法的計算速度,具有高效準確的優點。

圖8 K-means、DBSCAN和PA-DBSCAN 算法的平均運行時間
提出一種基于PA-DBSCAN 算法和自相關理論的調度自動化系統主子站通道的異常數據辨識模型。采用PA-DBSCAN 算法對異常值進行辨識,同時采用自相關性理論分析對偽異常數據進行數據剔除。通過計算檢測率和誤檢率兩個異常數據辨識的相關指標,驗證了所提出的模型在辨識真實異常數據和偽異常數據兩個方面的有效性。實驗結果表明,所提出的模型能夠在保證異常數據辨識精度的基礎上,保證異常數據辨識的高效計算,具有較高的穩定性和實時計算能力,能夠有效避免異常數據篩選中的漏判和誤判情況,保證調度自動化系統主子站通道數據的有效利用,具有較高的實際工程應用價值。