梅傲琪 張 銳 周立德
(廣東電網有限責任公司東莞供電局,廣東東莞523008)
在信息技術逐漸走向完善的當下,數據不斷膨脹的情況無法避免,在電網數據治理方面,全面分析由現場數據構成的大數據已成為大勢所趨,這也是相關人員紛紛選擇利用由大數據所衍生出的理念和技術,圍繞數據質量對治理體系進行設計的原因。由此可見,本文所研究課題有較為突出的社會價值,應當引起重視。
對電網數據進行治理的初衷是為用戶提供優質服務以及給用戶帶來更符合預期的體驗,而持續增長的電網數據致使用來存儲和分析數據的常規體系面臨著被淘汰的風險,要想使數據提取及分析工作發揮出應有價值,并為調度工作指明方向,優化現有系統是必然選擇。由研究所得結論可知,要想使數據治理及相關工作取得和預期相符的良好效果,最有效的方法便是對大數據進行引入,這是因為由大數據延伸出的技術可使高效檢測數據、離線分析數據等設想成為現實?;诖?,本文選擇以大數據調度為基礎,借助云平臺所擁有的功能,參考數據所表現出的特點,通過分布存儲并處理數據的方式,對大數據容錯性進行凸顯,另外,數據存儲量也會得到顯著增加。與此同時,本文還以分離器為載體,對電網數據所適用調度方法進行了設計,通過將調度方法融入處理框架的方式,確保輸入數據可獲得理想的挖掘及處理質效,檢測精度隨之提升,數據治理自然也會擁有符合預期的精度。
研究表明,若將數據質量視為核心,對電網數據進行治理,與常規數據治理模式間有十分明顯的差異存在,具體表現為:對數據挖掘、云平臺存儲及其他相關技術進行引入。技術人員對治理體系的設計如圖1所示,此體系涵蓋諸多功能模塊,例如數據挖掘/存儲、輸入解析等[1]。其中,輸入解析強調對數據進行解壓縮處理,明確數據所處陣營為實時數據或是歷史數據,判斷數據控制方向為存儲還是應用展示。另外,在傳輸或存儲數據時,通常以壓縮數據為依托,旨在避免大量帶寬、存儲空間被數據占用的情況出現,所引入云平臺,在解壓縮方面,現已擁有相對完善的技術,這也為壓縮數據得到充分利用提供了有力的技術支持。
在數據挖掘方面,本文擬采用以映射規約所衍生出的并行設計,通過篩選并全面評價電網數據的方式,確保所設計治理體系可發揮出應有作用。從本質上說,映射規約是映射、規約的集合體,通常要先分別處理再進行整合,才能滿足大數據所提出的訴求。

圖1 治理框架圖
而數據存儲所依托工具為數據庫,本文所選用數據庫即可借助鍵值對,高效完成標記存儲數據的操作,且擁有理想的存儲質效。另外,這樣做對非關系數據的處理操作,具備較為突出的積極影響,這點應尤為重視。
眾所周知,數據治理的切入點通常為實時數據、歷史數據,這也給調度系統提出了較為嚴格的要求,一方面,要對數據流進行從容應對,另一方面,要擁有分布存儲數據所適用的處理功能,可借助Hadoop等平臺,為分布存儲數據提供融合框架,并為業務處理及后續環節的開展做鋪墊。研究表明,映射和規約都是調度管理不可或缺的步驟,二者往往被用來對數據集合進行分割與并發排序,在落實相關工作時,技術人員應確保映射結果可向規約任務進行實時發送,而規約任務的作用主要是重新融合所接收子集,獲得以原始數據為主要內容的集合,并借助作業跟蹤器完成分析及調度壓縮集合的操作。
下文將以優化治理效果為出發點,以調度技術為依托,綜合考慮數據層次及其他相關因素,對管理過程進行描述,供技術人員參考。
首先,管理層要控制大量數據,在存儲和傳輸數據的同時,對數據集合進行精準分割。
其次,處理層強調以作業跟蹤器為依托,將任務融入計算架構,參考鍵值對所表現出的方式,完成映射及排序現有任務的操作,并向規約操作進行傳輸。隨后,經由規約操作,逐一合并相關子集,以鍵值對為參考,通過逆運算的方式,得到未經處理的真實數據。
最后,挖掘層往往與映射、規約存在密切聯系,通過檢測識別預處理大數據的方式,獲得可被用來衡量電能質量及其狀態的結論。
上文所提映射規約操作,現階段常被用來并行分析及深入挖掘數據,其中,并行操作與大數據調度表現出特征高度契合,對數據集合進行分割時,技術人員往往會選擇對分類器加以運用,現有分類器較多,Naive Bayes的出鏡率較高,一方面,此分類器對參數的依賴性較弱,另一方面,此分類器未對參數完整與否提出要求,穩定性突出。本文用X={x1,x2,…,xn}代表電網數據集合,通過數據計算的方式,明確不同數據特點對應條件概率公式為:

式中:P(Ci)指代基于原始數據所得先驗概率;Ci指代分割子集[2]。
另外,技術人員僅需直接計算,便可明確離散數據所表現出特征,而連續數據的計算流程,通常是先轉化為離散數據,再利用相關公式完成計算。
在借助分類器對數據子集進行分割后,技術人員應對不同任務適用處理和分配加以設計,一般來說,客戶端程序是配置任務的主體,待配置環節結束,再向任務跟蹤器對任務進行下發,確保任意跟蹤器都有需要映射和規約的任務與之對應,并且所產生數據均利用固定文件系統加以保存。
若以分類器為依托,對數據進行全面處理,通常要經歷以下步驟:
第一步為輸入分離,落實該步驟時,技術人員應借助文件處理的方式,使映射規約數據分離,經由分離所得輸入數據,通常由分片大小及位置構成,另外,還應在數據區對原始數據進行系統存儲。
第二步為拆分任務,以貝葉斯公式為依托,明確不同節點對應選擇概率及先驗概率,為參數拆解提供便利,待獲得映射規約任務后,技術人員應借助追蹤器對概率計算流程進行管理,并確保所輸入數據滿足鍵值對特征。
第三步為數據分類,從全局的視角出發,結合上文所介紹公式,對未得到識別數據的選擇概率進行計算,確保任意數據樣本都有分類與之對應。
信息時代的到來,使電網系統擁有了更加廣泛的覆蓋范圍,對數據進行獲取的途徑也不斷增加,在落實數據治理的相關工作時,只有及時轉變觀念,對大數據及所涉及技術進行充分運用,通過建立治理體系的方式,為電網系統提供可靠而安全的運行環境,才能使電力企業乃至整個行業擁有源源不斷的前進動力。
本文擬利用仿真實驗,對數據檢測流程、計算處理環節、最終結果評估分別進行模擬,搭建分布處理平臺,其中,主節點的作用是拆解并分配數據,子節點的功能則是計算與存儲數據,將檢測精度打造成核心評價指標,確保治理成果經由直觀且準確的方式展現。由檢測精度實驗所得曲線(圖2)可知,在數據量不斷增加的前提下,檢測精度的下降趨勢十分明顯且平緩,8×104的數據量,通常對應80%的檢測精度,由此可見,檢測精度和理想水平的差距較小,可被用來對電網數據進行治理[3]。另外,圖2所繪制曲線還表明,檢測過程無震蕩問題存在,這也佐證了“基于數據質量所開展治理工作,擁有良好抗噪能力”的觀點。

圖2 實驗曲線
綜上,在調度和檢測數據不斷增加的當下,持續膨脹的電網數據使治理工作面臨著巨大挑戰,原有模式所取得成績與理想狀態相距甚遠,這便是本文所研究課題的提出背景。事實證明,將數據質量打造成治理核心,以大數據云平臺為依托,經由數據庫存儲相關數據,并對調度方法進行設計與完善,可使電網數據得到深入挖掘和系統解析。
從數據治理的視角來看,大數據所帶來的影響有明顯的兩面性,一方面,使電網運行擁有了強有力的技術支持,另一方面,后續開展的信息處理等工作,無形中被賦予了更高難度?;诖耍夹g人員以數據質量為切入點,結合電網數據所表現特點,對治理工作適用體系進行了設計,投入運行后,此體系所取得成績較為醒目。