云計算是一種將計算資源和相關服務通過互聯網提供給用戶的新型技術,能夠實現計算資源、存儲資源和網絡資源的高度抽象、池化和動態分配,保證用戶根據需求隨時獲取上述資源,無需將精力投入到底層硬件設備的細節中。云計算技術結合了數據多副本容錯、計算節點同構等技術,具備動態伸縮的服務規模,并提高了資源利用的靈活性和成本效益。在電力信息系統中,可利用云計算技術處理規模龐大的電力數據,通過資源的共享和優化,降低電力系統的運營成本和維護成本,采用大數據智能分析技術,滿足數據查詢、數據預處理、數據導入和導出、指標統計、指標監控等基礎功能需求。
近些年來,依托于對電力數據的采集、傳輸、加工、處理、分析,電力行業逐漸構建了智能化、具備預測功能的監測檢修體系,形成了電力信息系統。自系統運行以來,其產生的數據主要有以下幾項特點,一是數據規模龐大,在智能電網加快建設的背景下,電力信息系統產生的數據量呈爆炸性增長,涵蓋了發電、輸電、配電、用電等各個環節,包括實時運行數據、歷史數據、設備狀態數據、用戶用電數據等,呈現出信息價值密度較低的顯著特征;二是數據類型多樣,除了傳統的時間序列動態數據,還包括大量的非結構化數據、半結構化數據,比如圖片、視頻、文本、XML數據等;三是數據質量參差不齊,電力信息系統的數據來源較為廣泛、采集方式多樣,獲取的數據可能存在缺失、錯誤、重復、不一致等問題,同時系統也面臨著數據泄露、非法訪問、惡意攻擊等安全風險,基于上述情況,應加強對電力數據的分析治理,充分挖掘和利用有價值的信息,提升決策效率,推動電力信息系統的數字化升級。
(一)系統體系結構
基于上述技術的局限性,以云計算為基礎,設計一種新型的電力信息系統大數據智能分析系統。設計通過傳感器收集電力數據,并利用前端緩沖、預處理等方式降低存儲壓力。根據業務邏輯完成數據的計算工作,并支持用戶的檢索請求。系統的體系結構主要分為5個模塊,一是系統的基礎模塊,為HDFS(分布式文件),由元數據服務器、附屬服務器構成,用于存儲數據信息。數據塊包含3個副本,不保存在相同節點中;二是系統的框架模塊,由map函數和reduce函數構成,前者用于轉換鍵和數值,后者用于集中處理值集;三是系統的存儲模塊,主要以Hadoop為基礎,提供HiveQL請求語言界面,并編譯為Hive解析器設置的Map-Reduce程序,將數據表格存儲到HDFS中;四是系統的工具模塊,包括SQL轉換、并行ETL工具、索引管理等;最后是系統的監測模塊,用于確認系統運行狀態和數據分析狀態。
(二)基于網格文件的多維索引
電力大數據具有多維區間查詢、查詢維度固定等特點,為了提高索引實效,設計以網格文件(GridFile)為基礎,強調系統的分布式多維索引性能。其中網格文件是一種將多維數據空間劃分為多個網格單元的數據組織方式,可將時間、地點、設備類型等數據作為不同的維度,映射到這些維度構成的多維空間中,劃分為若干個網格單元;多維索引是在多維數據空間上建立索引結構,根據用戶的查詢需求,快速篩選出滿足條件的數據集,可在網格單元內部進行細粒度的查詢操作。采用DGFIndex軟件,基于Hive命令行和HQL解析器進行拓展,得到索引命令后,可依照表名、字段名、查詢條件等進行全面查找和定位,并將獲取的數據上傳到Hadoop計算框架中,計算結束后通過哈希算法保存到DHT結構中。
(三)基于查詢重寫的SQL到HQL自動翻譯工具
電力信息系統大數據智能分析系統中包含大量SQL語句,存在EXISTS關鍵字等HQL,與SQL特性相悖,將電力數據轉移到云計算環境前,需將其譯成等同的HQL語句,設計采用QMapper工具進行轉換翻譯,可在不改變查詢結果的前提下,對查詢語句進行解析、轉換和優化,包括聚合查詢、子查詢、連接查詢等,將SQL不支持或低效的語法和特性轉換為HQL中支持且高效的語法和特性,同時還能處理SQL中特有的日期、字符串等函數,在HQL中找到相應的替代實現。該工具的運行流程為解析SQL語句-啟動查詢重寫器-連接(JOIN)優化器-選擇最優語句-發送至計劃評估器-得到等價的HQL語句。
(四)支持數據更新的混合存儲模型
設計系統的混合存儲模型,以實現電力數據的更新與刪除,該模型將不同類型的存儲介質和技術結合起來,包括高速緩存層、主存儲層和歸檔存儲層等多個層次,各層次之間通過數據遷移和索引優化等技術保障數據的快速訪問和更新。混合存儲架構由主表和附表兩部分構成,前者主要存儲DualTable表數據,后者支持對主表數據的更改,兩表的合并視圖即為當前數據內容。設計增加刪除語義、數據更新等功能,并利用DualTable數據讀取接口,同時訪問兩表。
為了確認電力信息系統大數據智能分析系統設計的有效性,對其進行綜合測試,測試的硬件環境為2000G硬盤、65GB內存、24內核服務器,軟件環境為Linux操作系統、Tomcat服務器、Hadoop軟件平臺、Mysql數據庫等,具體情況如下所示:
(1)數據插入性能。檢測系統是否具備高效存儲數據的能力,將數據插入設為單線程執行,分別統計在導入5、50、500萬條電池數據的模擬系統及設計系統運行數據,具體情況如表1所示,分析表中數據可知,設計系統的插入效率遠高于模擬系統,且隨著數據量的增加,2種系統的差距不斷拉大,證明了上述設計方案的可靠性。


(2)數據查詢性能。對比模擬系統、設計系統的電力數據查詢速度,具體情況如表2所示,可知設計系統的數據查詢效率遠高于模擬系統,查詢時間較為穩定,且千萬級別的數據量并未達到系統的處理極限,證明了上述設計方案的可靠性。

(3)數據計算性能。對規定級別的數據量進行方差計算,對比模擬系統、設計系統的數據計算能力,具體情況如表3所示,可知設計系統的數據計算效率遠高于模擬系統,處理性能得到顯著提升,證明了上述設計方案的可靠性。

綜上所述,對基于云計算的電力信息系統大數據智能分析技術進行深入分析,設計了相應的分析系統,得出如下結論:
(1)數據分析對電力設備的運行狀態有著直接影響,因此要結合云計算技術,嚴格按照軟件工程開發流程規范構建大數據智能分析系統,借助成熟的數據挖掘算法完善系統架構。
(2)本文設計的大數據智能分析系統具有數據存取速度快、計算效率高、可擴展性強等優點,可滿足實際生產中電力數據分析的需要。
(3)從成本效益層面,大數據智能分析系統將計算資源、存儲資源和網絡資源封裝成一個獨立的虛擬環境,降低了硬件投資成本和運維成本,提高了資源利用率;從社會效益層面看,大數據智能分析系統為電力調度和能源配置提供科學依據,提升了電力系統的運行效率,
作者單位:徐毅明、葉賡 國網福建省電力有限公司信息通信分公司 王紫塔 國網福建省電力有限公司泉州供電公司