國網湖南省電力有限公司檢修公司 王麗蓉 章建軍 伍藝佳 易汝軒
隨著電力系統規模擴大,量測技術提升,電力數據迅速增長,我國電力工業領域記錄數據達到PB級。電力大數據成為大數據典型代表,需提取有價值數據快速分析。電力公司積累大量電力系統數據,涵蓋生產管理等方面,由于數據分散性,從中挖掘價值難度大。電力大數據質量直接影響電力系統信息化水平,不斷增長的數據規模要求電力企業進行技術變革,電力大數據質量問題已有一些研究,但高層次電力數據質量管理方面目前缺乏完整評估體系。
近年來基于元數據質量評價層出不窮,各類研究為了解數據質量帶來啟示。目前數據質量定義不統一,大數據時代確保向電力系統提供高質量數據是減少投入的有效途徑[1]。通過數據質量評價有助于了解數據質量方面的能力,為后續采取相應處理方法提供科學依據。開展電力大數據質評研究,構建電力數據質評體系,為智能電網處理奠定基礎。

圖1 電力數據流走向
ISO/IEC 25012將數據質量特性從固有系統描述,依賴系統是系統在特定場景下賦予數據質量特性。數據質量評價指標包括準確性與完整性等,數據質量從內涵分為一般與統計數據質量。電力系統硬件設施由電源等環節構成[2],目前形成涵蓋發輸變配用調等環節負荷控制系統、檢測控制系統、風光功率預測系統等在內的智能自動化系統。以電力調度中心為例闡述系統存在數據質量問題,電力調度數據中心包括電力運行數據、生產管理數據等,電網運行數據約占90%,電力運行產生總負荷電力輸配電運行設備狀態檢測等數據。市場運營數據來自供電公司形成的電力市場網絡,用戶分為企業、工農業與家庭。供電公司是電力市場主體,遵循市場經濟價值規律宏觀調控。市場運營數據來自電力負荷客戶端形成電力市場網絡,根據數據質量要求歸納電力系統數據質量影響因素包括電力市場運行與生產管理等。
信息科技為大數據時代提供技術支撐,大數據提出分為三個階段:自20世紀末到本世紀初為萌芽階段,開始關注日益增大的數據量;本世紀前十年為大數據發展第二階段,大數據形成計算與分布式系統核心技術;2010年后大數據大規模使用期,各種開源云架構平臺向各行業開放,企業可使用特定商業化平臺獲得更多服務,平臺商業化滿足不同用戶要求。
大數據具有典型數據量大、處理速度快等特征,大數據計算模式包括批處理計算、圖計算等,針對性解決特定問題,基于開源代碼衍生更易用的大數據產品。大數據平臺有Hadoop、Storm、Spark等,Hadoop平臺是由Apache軟件基金會提出的開源大數據分布式平臺,可部署在低廉價格計算機群中;分布式文件系統HDFS是Hadoop平臺主要內容,Hadoop平臺海量數據處理性能得到廣泛認可,得到主流企業技術支持[3]。目前Hadoop平臺已有兩代產品,Hadoop項目結構不斷發展,形成豐富的生態系統;Spark最初由加利福尼亞伯克利大學AMP實驗室開發,基于聶村計算機大數據進行計算框架,2013年火花加入Apache孵化器項目迅速發展,Spark2014年打破Hadoop保持基準排序記錄,用1/10的計算資源獲得快3倍的速度,其具有運行速度快、通用性、運行模式多樣等特點。
數據挖掘對象是大數據庫中數據集,GB數量級數據庫比較普遍,使得數據呈現大規模特性,模型搜索空間龐大,無異議模式搜索機率增大,數據挖掘人物是將有效用戶感興趣規則篩選,傳統技術集中于統計學領域,未關注對大規模數據的效率,需對數據挖掘算法進行研究改進,保證算法執行效率。數據庫技術不斷發展,由于大量數據產生,待聚類數據巨大,在大容量硬盤中列出存儲,聚類效率很低。具有高性能大數據聚類算法研究非常必要。
研究人員研發許多算法,具體措施包括利用統計學采樣技術將硬盤大數據集以特定數據結構映射到內存中。基于劃分聚類方法需確定聚類數,逐漸使目標函數誤差值降低,劃分聚類代表算法有K-medoids等。層次聚類算法通過計算不同類數據點相似度創建層次嵌套聚類樹,代表算法有CRUE等。大規模原始數據集不能一次讀入內存完成聚類,可以有效減少數據內存空間占用。BIRCH聚類算法中數據集存儲在聚類特征樹中,聚類方式不考慮原始數據集,BIRCH算法對數據集掃描可得到較好的聚類結果。基于密度聚類法不同于基于距離算法,基于密度聚類法對密度單元計算復雜度大、對數據維度伸縮性較差。
大數據較傳統數據質評具有挑戰性,在數據種類等方面發生變化。數據對質量評估處理要求具有實時性,大數據質評影響數據清洗,需通過內存分析清洗數據。數據質評包括數據質量需求,評估豐富,數據質評需求是對系統數據約束,如交互型系統對實時性要求高,系統對數據長度有要求,評估規則規定精確位數,明確數據質量需求后續確定數據質評方法,完善數據質量量化后對產生結果分析及采取必要措施提高數據質量等。大數據質評可采用Hadoop分布式文件系統,基于MapReduce分布式計算技術解決大數據處理擴展性問題。大數據質量評估框架思想是利用Hadoop文件系統作為存儲架構實現PB級數據評估。
本文采用熵權法建立數據質量評價模型。以南網公司統計營銷數據為例說明電力系統存在數據問題,如很多數據存在漏項等問題,數據問題集中于電價代碼、計量資產等方面,包括系統運行時間長、信息變更不及時。本文結合電力系統存在數據質量問題建立電力數據系統數據質評指標體系,包括數據完整度、及時性等,將其分為目標層A、準則層B、指標層C。
為對數據集質量指標定量描述需采用指標評價算法,分類可使數據集形成參照,評價算法中出現參數以包含完整數據集為準,熵最早由Shannon引入信息論,某指標信息熵Ej小,指標信息熵Ej大在綜合評價中起到作用小。信息熵用于描述信源不確定度,指標j信息熵Ej小,提供信息量多。設n個類別構成n×m階評價矩陣G=(gij)nxm(i=1,2,3…,n;j=1,2,3…m),指標數據標準化處理后得到H=(hij)nxm,定義第j個指標熵權為wj=1-Ej/m-∑Ej,∑wj=1,wj∈[0,1]。按模糊數學理論,采用5級制對被評價事物準確描述,數據質量評語集V={優良,合格,偏差},得到評價對象灰色判斷矩陣X=[x11 x12…xlp;x21 x22…x2p;xml xm2…xmp]。
灰色系統理論中發展灰色評價方法,核心環節是確定灰類等級數,給定灰類k白化權函數fk(k∈{1,2,3,4,5},定義評價指標關于灰類k灰色評價系數σi=∑fk(xij)、權向量矩陣Y=[y11,y12 …y1k;y21,y22…y2k;yi1,yi2…yik]。改進MadReduce計算模型可用于對大數據快速處理,白化權函數可得到待評價數據質量等級劃分。以國網電力公司某城區采集數據為例仿真分析,采集區域2年內用電負荷對數據依據電力系統指標體系進行質評。利用MapReduce并行化K-means聚類算法實現大數據樣本采集處理,提出灰色系統理論判斷數據質量等級評估方法,兼顧指標體系完備性等要求,對大數據質評有助于構建電力數據質量管理體系,制定數據質量管理監控機制。
當前針對電力系統數據質量研究不充分,本文對基于混合petri網電力CPS協同建模深入研究,基于電力大數據特征分析對數據質量影響的指標,借鑒統計學質評模型建立電力數據質評模型,對評估模型進行算理分析。把電力系統數據作為研究對象,從電力大數據特點總結出電力系統數據質評指標,保證指標科學性,提出K-means分類評估方法對數據質評問題求解,以國網電力公司采集數據為例驗證分類評估方法有效性,對數據質評研究具有參考意義。