基于數據挖掘的電量異常數據智能識別方法研究

2023-12-14 12:16:26石云輝盧啟芳

自動化儀表 2023年11期

楊婧,石云輝,盧啟芳

(貴州電網有限責任公司計量中心,貴州貴陽 550000)

0 引言

電量異常數據會導致電網系統中的數據出現較大變化,對電網穩定運行產生直接影響,因此應避免電量異常數據產生。而電網異常數據識別是避免電量異常數據產生的主要技術[1-3]。

針對電量異常數據問題,有學者采用大數據技術建立電量異常數據識別模型[4]。該模型采用大數據挖掘Spark模塊采集和處理電表數據;制定了表碼和電量異常數據判定規則;采用大數據直線差值擬合表碼,生成異常數據預警結果。有學者在電量異常數據風險識別過程中引入了概率預測模型[5]。該模型基于狀態空間模型建立用電量結構化模型;采用變分貝葉斯推斷模型進行用電量的概率分布預測,根據預測標準分數實現異常數據的在線識別。以上電量異常數據智能識別方法存在未對識別指標進行降維處理、異常識別指標不合理、使用的識別算法容易陷入局部最優的問題,導致識別準確率較低,難以滿足電量數據安全管理的實際應用需求[6-8]。

數據挖掘算法可以從電量異常數據的歷史數據中尋找電量異常數據的變化規律[9-11]。為了解決電量異常數據識別結果不準確的問題,本文設計了基于數據挖掘的電量異常數據智能識別方法。本文設計識別流程,構建異常識別指標體系;創新性地采用主成分分析算法對識別指標進行線性組合降維處理,構建合理性更高的異常識別綜合指標;基于相關系數矩陣,采用數據挖掘算法確定指標權重;使用數據挖掘技術中的模糊C均值算法進行電量異常特征聚類,融合徑向基神經網絡構建異常識別模型,以提高算法識別的尋優效果、實現電量異常數據智能識別。本文通過仿真試驗分析電量異常數據智能識別效果。試驗結果表明,本文方法能得到較高的電量異常數據智能識別正確率,提高了電量異常數據的智能識別效率。

1 電量異常數據智能識別

1.1 識別方法的工作流程

基于數據挖掘的電量異常數據智能識別方法流程如圖1所示。

圖1 電量異常數據智能識別方法流程圖

圖1流程首先構建電量異常數據識別指標體系,采集相關指標數據,并對數據實施數據清洗、缺失補全以及結構轉換等預處理;然后采用主成分分析算法對電量異常數據指標進行降維處理;最后使用數據挖掘技術,根據降維處理后的數據建立電量異常數據識別模型。

1.2 建立智能識別指標

本文獲取待識別電量數據,設定電量異常標準值,構建電量異常數據識別指標體系。電量異常數據智能識別指標如表1所示。

表1 電量異常數據智能識別指標

1.3 識別指標預處理

電量異常數據識別過程需要分析指標之間的關系。電量異常數據識別指標的主成分分析流程如圖2所示。

圖2 主成分分析流程圖

本文采用主成分分析算法對初始電量異常數據識別指標實施線性組合,以構建新的電量異常數據識別綜合指標。F1表示第一主成分,可令電量異常數據識別綜合指標的方差足夠大。由于方差同F1內所含信息之間成正比,在全部線性組合內選取F1方差最大的指標。如果F1無法描述初始指標包含的全部信息,選取第二個線性組合F2,將其定義為第二主成分。循環上述過程能夠獲取p個彼此間不具備關聯性的主成分。這些主成分的方差依次遞減。在實際電量異常數據識別過程中,一般選取前幾個方差最大的主成分。這樣就減少了電量異常數據識別模型的輸入,提升了電量異常數據識別方法的工作效率。

1.4 識別指標權重確定

電量異常數據識別指標權重確定步驟如下。

①讀取初始電量異常數據識別指標,對其實施標準化處理后,對指標數據進行統計量檢驗、球形檢測。這2種檢測均以相關系數矩陣為基礎。統計量檢驗的取值范圍為[0,1],其值越大,表示電量異常數據識別指標越優。球形檢測需進行相關系數矩陣與單位矩陣間的相關性分析。若指標樣本數據檢驗結果為0.001,代表異常指標間具有相關性。

②確定模型主成分特征值及其貢獻率,選取特征值大于1%的若干個主成分構建評價指標。

③利用數據挖掘法實施因子旋轉,獲取因子載荷矩陣。根據因子載荷矩陣數據,構建電量異常數據智能識別主成分因子模型,計算不同主成分貢獻率的乘積。

④評價一致性矩陣。根據計算權重,評價一致性矩陣為:

R=(txy)n×n

(1)

式中:txy為模型主成分特征值x和y的貢獻率,%;n×n為因子載荷矩陣。

對評價一致性矩陣進行規范化處理,則:

(2)

式中:Rmax和Rmin為權值指標的最大值和最小值;u為因子旋轉系數。

⑤數據挖掘方法根據計算權重設定關聯規則,建立電量異常數據智能識別模型。

1.5 電量異常數據識別模型

本文使用數據挖掘技術中的模糊C均值算法實現電量異常特征聚類。本文采用X={x1,x2,…,xn}表示異常指標樣本。其聚類中心及模糊分類矩陣分別用C=[c1、c2,…,cc′]T、A=[aij]c′×n描述。模糊C均值算法的表達式如式(3)所示。

(3)

式中:n為異常指標j的數量;c為聚類中心;c′為c的數量;aij為指標j的聚類隸屬度。

聚類數量的最優結果可通過模糊聚類有效性指標函數獲取,用Vx描述:

(4)

Vx的值越小,聚類結果越優。本文以最優聚類結果為基準,通過分類提取出與異常特征聚類中心最接近的電量數據,從而獲得電量異常數據特征。

本文利用數據樣本與異常特征的相似性,通過正態分布理論確定識別閾值,以識別電量異常數據。

待識別的電量數據集合用P描述。其隸屬類的特征用Q描述。P中的某識別樣本為p={1,2,…,k},相似性對比因數用y1描述:

y1(p)=P(p)-Q(p)

(5)

異常數據相似性特征符合式(6):

(6)

式中:δ1為y1的均方差;E1為δ1的均值;θ1為相似性識別閾值。

若電量數據符合式(6),則該數據為異常數據。

為了保證異常識別結果的準確性,本文使用徑向基函數(radial basis functions,RBF)神經網絡構建異常識別模型,對樣本集進行訓練,以增強模型的識別能力,從而獲得相似性識別閾值內的最優識別結果。

RBF神經網絡輸出結果用式(7)描述:

(7)

式中:wik為連接權值向量;s為輸出節點k的數量;Ri(k)為RBF。

為了獲得最優值,需增加計算節點數量。各節點構建RBF神經網絡,將訓練樣本均分給各節點實現并行處理,以訓練各節點的RBF神經網絡。為了提高訓練準確率,需優化連接權值向量。優化后的連接權值向量為:

(8)

式中:αi′為節點i′對于全部節點所占比重;wi′為節點權重;m為節點數量。

2 仿真測試

本文采用某市電網18個電量數據采集節點作為研究對象,并將其分別命名為M01～M18。節點分布式環境采用Hadoop框架配置。仿真平臺為多個節點組成Cluster,搭建Hadoop節點集群,集群通信基于多點接口(multi point interface,MPI)庫實現。電量數據集選擇該市電網公司這18個節點的開放數據集數據樣本(共53 GB),寫入Hadoop分布式文件系統(Hadoop distributed file system,HDFS)中。仿真環境配置如下:網絡環境為DDR 20 GB Infiniband;單節點內存為6 GB;節點連接網絡為天河-1A;MPI版本為MPICH-2;處理器為Intel Xeon 64 2.33 GHz;操作系統為Centors 7.0;Hadoop版本為Cloudera Hadoop 5.0。

測試過程為:按照設計的識別流程,構建指標體系;對原始數據進行預處理,采用主成分分析算法對識別指標進行線性組合降維處理;利用數據挖掘算法確定指標權重(貢獻率)并進行指標排序;使用數據挖掘技術中的模糊C均值算法進行電量異常特征聚類,利用RBF神經網絡構建異常識別模型;設定相似度識別閾值,通過模型訓練獲得最優識別結果。本文分別通過指標貢獻率、識別準確性和識別效率測試本文方法的應用性能。

2.1 主成分分析結果

本文以M16為識別對象,對其進行電量異常數據識別。21個評價指標主成分特征值的貢獻率如圖3所示。

圖3 評價指標主成分特征值的貢獻率

由圖3可知,主成分特征值的累計貢獻率達到92.087%。這說明主成分分析能夠體現識別指標的信息,有效實現降維。

2.2 電量異常數據識別結果

本文采用本文方法對18個對象進行電量異常數據智能識別,并進行排序。各研究對象電量異常數據識別結果如圖4所示。

圖4 各研究對象電量異常數據識別結果

本文將電量異常數據相似度識別閾值設定為-0.253～-0.185,取這2個數值的均值,即電量異常數據的識別閾值分界點設定為-0.219。分析圖4可知,M17～M11不存在電量異常數據,而M13～M04具有一定的電量異常數據。這說明本文方法能夠識別各種電量異常數據。

2.3 識別準確性分析

本文將本文方法和文獻[4]方法識別出的電量異常數據與實際情況進行對比,以分析電量異常數據識別準確率。電量異常數據識別準確率結果如圖5所示。

圖5 識別準確率結果

由圖5可知,本文方法識別準確率高于70%,而文獻[4]方法的準確率低于70%。這說明采用本文方法對電量異常數據進行識別的準確性較高。

2.4 識別效率分析

本文進行異常識別效率測試。本文選擇3個電量數據集作為測試對象。各數據集大小分別為1.56 GB、1.89 GB、2.01 GB。數據條數均為700條。本文對不同數據條數下數據識別效率進行測試。數據識別效率的測試結果如圖6所示。

圖6 數據識別效率的測試結果

由圖6可知,本文方法對3個試驗數據集的識別時間均較少。其中:數據量為1.56 GB的試驗數據集的識別時間平均為402.32 ms;數據量為1.89 GB的試驗數據集的識別時間平均為543.25 ms;數據量為2.01 GB的試驗數據集的識別時間平均為596.32 ms。綜上分析可知,本文方法的數據識別速度快,具有良好的識別效率。

3 結論

針對當前電量異常數據智能識別過程存在的問題,如識別時間長、錯誤率高等,本文設計了基于數據挖掘的電量異常數據智能識別方法。該方法采用主成分分析算法對識別指標進行降維處理,構建異常識別綜合指標;利用數據挖掘算法確定指標權重;創新性地融合模糊C均值算法和RBF神經網絡構建電量異常數據識別模型,實現電量異常數據智能識別。試驗結果表明,本文方法能夠準確識別不同電網數據異常現象,為電力數據安全管理提供支持。本文方法具有十分廣闊的應用前景。