王楊琛, 林佳能, 蘇志勇
(國網信通億力科技有限責任公司,福建,福州 350000)
隨著泛在電力物聯網和堅強電網的提出與發展,促進了電力大數據技術的發展,電力大數據具有數據量大,價值密度低的特點,需要挖掘其潛在價值,為系統的狀態評估和故障診斷等業務提供高效可靠的服務[1-2]。電力大數據的質量影響著電力系統的智能化水平,所以對其建立評估模型,從而提高數據的集成和挖掘水平,意義重大[3]。
目前,針對電力數據質量評估的研究并不多見,文獻[4]建立了電力大數據質量評估指標體系,采用MapReduce并行化K-means算法對數據進行預處理,然后采用熵權法求取屬性權重,采用灰色算法判斷數據質量等級。文獻[5]為了提升電網調度系統數據質量,采用公共信息模型對不同系統的數據進行校驗,并采用改進的多源數據提取優質數據,提高了數據的使用價值和數據質量,保證了調度系統安全可靠運行。文獻[6]提出了一種基于Spark的并行K-means算法對電力系統的不良數據進行辨識,以提高狀態估計的準確率。文獻[7]通過對電網的異常數據進行識別,提高了調度數據中心的數據質量[7]。文獻[8]提出了不確定感知數據的自動檢測和修復方法,修正不良數據,提高電纜采集的數據質量和系統安全性。文獻[9]提出了一種分布式數據質量管理方法,基于Hadoop框架,剔除缺陷數據,并儲存在服務器上,提高數據利用價值。文獻[10]建立了數據質量管理中心,從技術和管理兩個方面入手,形成數據質量管理體系,保障了數據的準確性科學性。文獻[11]為了提高電力企業的數據質量,建立了數據質量評價指標體系,采用熵權法和層次分析法建立數據質量評價模型,能夠對電力數據進行準確可靠的評價。
雖然已經存在部分針對電力數據質量評估的研究,但是在泛在物聯網背景下,如何針對大數據環境下的電力數據質量提升的研究還未發現。本文為了改善大數據環境下的電力數據質量,提出了采用灰色熵權法的大數據質量評估研究。
數據質量評估包括數據質量需求,評估業務規則,評估方法,對數據進行等級劃分后,即可進行進一步的措施以提高數據質量。基于Hadoop平臺下的數據質量評價架構如圖1所示。

圖1 大數據環境下數據質量評估架構
經典的K-means算法:樣本表示為X={x1,x2,…,xn},當樣本被分成k(k≤n)類的時候,記作si(i=1,2,…,k)[12]。在n個樣本中去k個聚類中心z1,z2,…,zk。如式(1),
(1)
其中,Ni是si包含樣本數量。
剩余的樣本則根據樣本與聚類中心的距離判斷歸屬于哪一類,如式(2),
(2)
根據距離最小原則,將剩余的樣本進行聚類劃分,迭代循環該過程直到測量函數收斂。測量函數[13]表示為式(3),
(3)
其中,J是所有樣本的均方差之和。
K-means算法在解決數據挖掘問題上具有收斂速度快,聚類精度高的優點,但是在處理電力大數據問題時,由于數據質量分布不均勻,會增加挖掘難度,而且海量數據的計算量會給計算帶來巨大挑戰,所以本文提出了基于MapReduce并行化K-means的求解方法[14]。
設樣本集為D={d1,d2,…,dn},di表示第i個樣本。當被分類為k的時候,聚類中心si(i=1,2,…,k)表示為式(4),
(4)
求取剩余樣本的分類歸屬按照距離最小原則確定歸屬類別。循環迭代計算,直到量測函數收斂。如式(5),
(5)
MapReduce并行化K-means算法的過程可以表示為:① Map過程中求取樣本與聚類中心的距離,按照距離最小的原則對其分類。② Reduce過程中求取各類樣本的平均值作為新的聚類中心。③ 循環迭代,直到量測函數收斂。該過程提高了K-means算法的大數據處理能力。
針對電力大數據的特征,建立了評價指標體系,如表1所示。

表1 電力系統數據質量評價指標體系
通常認為,某個指標的信息熵越小,則該信息熵在綜合評價中的作用越大,所占的權重也應越大[15]。設n類,m個指標形成n×m階評價矩陣G=(gij)n×m,(i=1,2,…,n,j=1,2,…,m)。其中,gij指的是第i類第j個指標的評價結果。指標數據標準化處理后有H=(hij)n×m。第j個指標的熵按式(6)計算,
(6)

定義第j個指標的熵權如式(7),
(7)

根據模糊數據的方法,將數據質量分成優、良、合格、偏差、劣5個等級。數據質量評語集V={優,良,合格,偏差,劣}。p個評審人員對指標打分,打分范圍為[0,10]。則灰色判斷矩陣表示如式(8),
(8)
其中,xij是第j個評審人員對指標Bi的評分。
灰色評價的核心是評價等級和白化權函數。當采用5級評價類別的時候,灰類k的白化權函數fk(k∈{1,2,3,4,5})表示如式(9),

(9)
評價指標關于灰類k的評價系數如式(10),
(10)
則灰色權向量如式(11),
(11)
則向量矩陣Y記作式(12),
(12)
在采用MapReduce并行化K-means算法及灰色熵權法對電力系統數據質量進行評估的時候,評估流程如圖2所示。

圖2 評估方法流程圖
如圖2所示的評估流程如下。
(1)采用MapReduce并行化K-means算法進行數據預處理。將數據分成k類,從而實現大數據集分成若干個小數據集。小數據集里面的樣本相似度較高。
(2)建立評價指標體系,構造評價矩陣。
(3)根據評審專家評分值,構造灰色判斷矩陣X。
(4)采用熵權法確定指標權重W。
(5)求取灰色判斷矩陣的權向量矩陣Y。
(6)根據W和Y,用式(13)求取綜合評價向量Z。
Z=W·Y
(13)
(7)根據最大隸屬度標準對數據質量進行等級劃分,實現數據質量評價。
以天津電力公司采集的電力數據作為實驗對比用數據。數據采集為15 min/次,每天24 h,共2年的電力信息。包括了用電負荷、用戶信息、地理位置等。
Hadoop平臺包括HDFS和MapReduce 2部分,6臺PC機,1臺用于NameNode,剩余的作為DataNode服務。
首先,采用MapReduce并行化K-means算法對居民用電數據進行聚類分析。3類所占百分比如圖3所示。

圖3 各類用戶所占百分比
求取每類用戶各個時刻的用電均值,如圖4所示。圖4中通過對各個時間段的用電量,可以判斷3類用電人群分別為上班族、老年人和商業用戶。

圖4 用電負荷分析結果


表2 指標熵權值
選擇10名專家對電力系統數據質量進行評價,評價結果如表3所示。

表3 電力系統數據質量評價結果
求取5個指標的灰類系數建立灰色權矩陣Y,如表4所示。

表4 指標灰色評價結果
綜合主觀評價和客觀評價結果,求取綜合評價值如式(14)—式(16)。
Z1=(0.285 2,0.333 8,0.274 3,0.079 9,0.026 8)
(14)
Z2=(0.304 5,0.338 7,0.266 6,0.069 1,0.021 2)
(15)
Z3=(0.293,0.339 3,0.273,0.071 8,0.022 8)
(16)
按照最大隸屬度的方法,3類用戶的最大隸屬度為0.333 8,0.338 7,0.339 3。
通過以上分析可知,所采集的電力系統的數據處于良好水平。
在泛在電力物聯網背景下,采集的數據信息越來越龐大,為了對電力系統采集的大數據進行質量評估,建立了MapReduce并行化K-means算法的分類方法,將電力大數據分解成小數據集分析,提出了電力大數據評價指標體系,采用熵權法確定指標權重,采用灰色評估方法得到最終評分。算例仿真,驗證了所提方法可以準確評估電力系統數據的質量。