簡燕紅++符士侃
摘 要:數據立方體是一類多維矩陣,讓用戶從多個角度探索和分析數據集,即它允許以多個維度對數據進行建模和觀察,數據立方體技術是數據倉庫的核心技術。本文以電力系統數據統計分析工作為例,介紹了數據立方體技術的原理,研究探討了數據立方體技術在電力系統數據統計分析工作中的運用,通過建立基于數據立方體模型的電力數據統計分析系統,不但可以實現運行輕量級數據分析工具,而且滿足了當前電網建設運行數據統計分析靈活、多樣的需求。
關鍵詞:數據立方體模型 數據挖掘 輕量級工具
中圖分類號:TM73 文獻標識碼:A 文章編號:1674-098X(2016)11(a)-0009-02
電網建設運行數據的采集與分析,是全面快速了解電網狀態并指導后續工作開展的一項重要工作。電力數據統計分析需要對數據進行快速提取并進行靈活、多樣的分析,現有電網中涉及電力運行分析的相關業務系統繁多,數據大部分面向業務雖有報表統計模塊,卻難以完全適應此需求。通過在電力數據統計分析管理系統中建立數據立方體模型,可以實現運行輕量級數據分析工具,滿足當前電力數據統計分析工作的需要。
1 基于數據立方體技術數據分析模型建立
1.1 數據立方體
數據立方體是一類多維矩陣,通常一次同時考慮三個因素(維度),但并不局限于三個,在實際中常常用多個維度來構建數據立方體。
多維矩陣是數據立方體分析的基礎,涉及2個重要概念:事實和維度。事實即分析的目標數據,如數量、金額等,維度即事實信息的屬性,如對應的時間、設備類型、產權單位等。數據立方體是根據用戶對數據挖掘的要求確定維及維層次而生成的多維數據集合。每個數據立方體是一個三維結構,x、y、z軸分別表示數據立方體的三個維度。x軸是時間軸,其時間單位是該層的統計粒度;y軸是屬性軸,表示統計針對的記錄類型;z軸是統計方法軸,表示采用的統計方法。
1.2 數據立方體的建立與提取
構建在數據庫中的數據立方體并非如數據立方體字面意思直觀,而是通過二維數據表形式進行組織與存儲。通過將y軸的維度與z軸的統計值轉化為二維表格中的列,x軸時間單位作為記錄頻率進行定期數據獲取并存儲到數據立方體所在數據庫中。
(1)數據列重定義。大部分系統因為編碼技術特點,開發人員往往使用英文字母與數字組合作為表格與字段名稱,在客戶展現端使用相應意義的中文顯示。然而通過表格關聯的字段,數據立方體視圖在生成時按照計算機特點仍然使用英文字母與數字方式顯示,由于需要考慮數據立方體生成靈活性,需要在數據庫中針對表格和字段進行重定義,利用系統表格進行表名和字段名稱中文與字母的映射,滿足用戶隨意利用系統表關聯建立視圖工作方式。
(2)計算列實現。數據立方體中的指標列,既可以包含個數、長度、金額等原始表格數據列,也可以包含諸如平均數、求和、乘積等計算值。可利用數據庫定義的多種函數進行計算列生成。
(3)維度遞進實現。由于一些維度存在一定的層次結構特性,故而維度的定義與組織往往使用樹狀層次結構實現。遞進維度是多個相關維度相互嵌套的一種形式,是實現數據立方體數據切塊或切片的基礎,通過組織好維度的樹狀菜單,可實現基于維度樹的數據向上向下切片功能。
在數據提取上采用手工提取與系統獲取相結合,通過系統統計周期即數據立方體中y軸頻率對數據立方體中數據進行上一周期數據進行復制到本周期默認數據,相應數據管理單位通過對默認數據的修改填報完成各個數據立方體數據的填充。數據立方體主要采用自動化生成,由于電力數據統計分析數據管理需具備閉環管理功能,故采用數據自動生成,通過任務接收、提供對外標準接口,提供不同系統條件下數據填報由人工轉入自動化接口。
2 系統構建
本系統通過B/S結構進行開發,用戶客戶端通過瀏覽器進行操作,服務端進行數據的存儲和對外發布管理,實現基于省市縣三級管理單位電力運行分析數據設備、缺陷、業務等數據的填報和報表統計分析管理。系統使用三層結構開發,分為數據層、邏輯層和應用層。數據層負責基礎臺賬數據的存儲,使用SQL SERVER 數據庫進行管理,邏輯層負責數據填報與統計數據庫操作邏輯與結果反饋功能,應用層使用基于Ajax頁面無刷新技術的富客戶端顯示技術與操作用戶進行交互。
3 數據挖掘實際運用
3.1 數據切片
數據立方體想要通過統計圖進行展示,就需將數據立方體進行切片。通過數據切片,實現數據立方體中單一維度的分解,通過單位切片可以分析不同單位的缺陷分布統計圖。
3.2 數據切塊
數據切塊主要包括兩種方式,單一維區間切塊和多維區間切塊。單一維區間切塊在本系統中應用較多。多維切塊是指在兩個或多個維度上選取相應的數據范圍進行切塊的方式。例如在缺陷數據切塊中時間維度選擇2015年,地區維度選擇某市,影響設備類型選擇電源,即可針對該范圍提取相應的數據塊,進行進一步的數據切片分析。
3.3 數據鉆取
數據挖掘分數據源鉆取、深度鉆取兩種方式。數據源鉆取主要用于統計圖表中相應數據項的統計來源數據的提取,具備數據源表格顯示和表格下載功能。深度鉆取指在數據立方體上進行某個方向上數據切塊后,在獲得的數據塊基礎上進一步進行維度切塊或者切片分析的操作模式。
3.4 維度旋轉
構建的數據立方體二維表格具備多個維度,在原有維度的基礎上進行維度選擇,可以實現圖表不同維度的轉換。分析出的數據視圖大都具備三個以上的維度,系統用戶往往需要對其多維度進行提取,從而完成基于兩個維度的平面統計圖構建工作,通過轉換不同的x軸和y軸坐標可以實現多個圖表的維度旋轉。
3.5 數據導出
通過數據鉆取的數據,通常用戶需將其轉換為EXCEL表格,進行報告的依據整理。使用基于微軟COM組件基礎的EXCEL DLL接口,實現基于web數據的導出工作,可以實現表格導出。
3.6 固定報表
企業報表是信息系統呈現用戶價值所在,日常實現報表的方式有兩種,一種網頁格式,另一種電子文件格式。兩種實現方式各具優缺點,本系統兼容兩種格式。
(1)基于web的固定報表。Web固定報表可根據用戶實際需求進行選取,圖表展示和表格顯示大部分報表工具都具備。由于系統支持電子文件格式導出報表,故而沒有使用專業報表工具進行顯示打印,僅僅使用Extjs前端腳本進行數據表格與圖表的顯示功能,也可以選擇商業化的圖表工具進行展示,提升系統的美觀性。
(2)基于EXCEL的報表。基于微軟COM組件技術的EXCEL DLL接口,實現基于web數據的導出,可以實現表格導出。通過COM自帶OLE函數,調用生成EXCEL表格并填入表格數字,同時根據表格自動生成相應的圖表,最后通過COM函數存儲為需要的EXCEL文件。當報表數目很多時,可通過標簽頁實現或者通過調用ZIP函數進行多文件打包下載。
4 結語
數據立方體是數據倉庫的核心技術,基于數據立方體模型建立電力數據統計分析系統,不但實現輕量化易于掌握的軟件,而且可以滿足數據統計靈活、多樣需求,成為電力管理部門數據分析挖掘重要工具。
參考文獻
[1] 王德文,周青.一種電力設備狀態監測大數據的分布式聯機分析處理方法[J].中國電機工程學報,2016,36(19):
5111-5121.
[2] 蔣建民,張世勇.在關系數據庫上實現OLAP多維分析[J].渝州大學學報:自然科學版,2002,19(1):18-20.
[3] 潘東靜.基于OLAP的多維分析模型設計及應用[J].德州學院學報,2004,20(6):55-58.