關兆雄
摘要:電力企業智能化技術的應用是改革的一項重點內容,而電力大數據智能化分析平臺是智能化升級的重要內容。本文闡述了數據挖掘技術的基本方法進,提出了數據挖掘算法的改進算法,分析了智能化數據挖掘技術的功能需求及設計原則、提出了智能化數據挖掘技術平臺的基本架構設計和技術基礎、具體敘述了各模塊的基本功能。最后將平臺應用實際電力企業中,實踐表明平臺的應用取得了良好的效果。
關鍵詞:電力、智能化、數據挖掘
0、引言
電力企業智能化改革的深入,也帶來了一些問題,例如智能化電力系統數據量更加龐大,數據管理工作更加困難[1]。數據挖掘技術就是海量、復雜的數據中快速提取有價值的數據,因此數據挖掘技術對解決電力企業智能化應用系統和平臺數據讀取問題至關重要。電力企業和系統原始數據的智能化改造程度和技術不一樣,造成了數據類型多種多樣,經常出現系統數據異構的情況[2]。數據挖掘技術對于電力企業不同系統或模塊之間數據的讀取十分有意義,可以提高系統的運行速度和電力企業的工作效率[3]。數據挖掘技術可以用于電力企業的信息系統的信息管理和查詢優化等,因此可以為電力企業的決策提供依據。
本文在研究數據挖掘關聯規則算法的改進,并將改進的算法應用到大數據平臺,實現數據平臺系統的高效分析。改進的算法可以有助于電力企業建立一個綜合的電力大數據平臺,實現數據的綜合共享、分析和應用。
1、大數據挖掘平臺技術分析
1.1數據挖掘及其過程
數據挖掘技術是從海量的、復雜的數據中快速提取需要的數據,并分析出數據之間的內在關系,為決策提供依據。數據挖掘的過程一般包括數據準備、數據挖掘及分析、結果的表達與解釋等三個過程[4]。這三個過程分別完成數據的分析、數據集成和選擇及其之間關系的描述、結果輸出等。數據挖掘的過程如圖1所示。
1.2關聯規則
數據挖掘的關聯規則是指在大型數據集中發現隱含的有價值的關系,用相應的規則表示數據關系。數據挖掘的關聯規則是通過設定的最小支持度和最小置信度確立的關聯規則,通常情況下分為尋找頻繁項集和挖掘具有高置信度的規則[5]。
2、數據挖掘與算法改進
2.1Apriori 算法
Apriori 算法是數據挖掘常用的分析方法,其采用分層搜索策略,通過迭代的方法得到頻繁集[6]。Aprioir 算法的總體流程圖如圖 2 所示。
2.2IM_Apriori 算法并行化實現
本文在分析原有算法的基礎上,提出了IM_Apriori 算法的改良方法。該算法是基于 Spark 的并行化實現的,首先將原始的交易數據存儲在分布是文件系統 HDSF 上,然后從 HDFS 中讀取數據,將其轉化為布爾壓縮矩陣。然后根據轉化后的矩陣創建 RDD 并建立緩存[7]。由于要把事務轉化為矩陣,所以本文算法以 Map[String,Item]來保存數據[8].
3、電力大數據分析挖掘技術平臺設計
電力大數據挖掘系統的設計目的是提升電力系統的運行效率,提供業務所需的數據采集、分析與存儲功能,滿足各種專業數據分析和共享的需求。
3.1設計原則
本文所述系統的設計除了能夠達成設計目標之外,還應遵循以下原則:系統采用松耦合架構設計,以元數據驅動各模塊進行數據的處理;采用體系化分布式并行處理技術或框架,實現數據的高效和流程化處理。
3.2功能需求設計分析
本文設計之前對系統的功能進行了分析,平臺的整體架構應該能夠滿足各子系統和模塊之間的聯系和數據交流;平臺應該能夠從流程、全周期的層面實現數據的采集、存儲、分析、表達等需求[9];平臺應該能夠高效的實現數據采集、存儲、分析挖掘、可視化等內容[10]。
3.3功能架構設計
電力大數據智能數據挖掘平臺由桌面終端、移動終端和大屏終端三部分組成,可以提供數據分析、核心數據分析和處理功能。平臺功能架構如圖3所示。
3.5技術架構設計
電力大數據平臺的數據量較其他使用功能平臺的數據量更多、更加復雜[11]。因此本文設計的數據挖掘平臺采用混合架構,實現了多種計算模式的統一管控[12]。
本文設計的系統采用的技術標準有:系統采用 linux64,架構采用 Java EE 的 MVC 架構模式。平臺的整體技術架構圖如圖 4 所示。
為了實現一體化的電力大數據平臺,從底層技術的架構實現上,將平臺劃分為管理平臺子系統、調度子系統、基礎平臺、離線計算子系統、ETL? agent和 ETL 服務子系統六個應用程序,共同支撐平臺的各種功能。
4、數據分析挖掘平臺應用實踐
4.1平臺部署
平臺的使用部署主要包括兩個組成部分:一是基礎組件,包括分布式應用協調服務Zookeeper、分布式系統基礎框架Hadoop、數據倉庫工具Hive、工作流引擎Activiti、基于內存的分布式并行計算框架Spark和集群監控項目Ganglia等;另一部分是應用程序War包,包括管理平臺子系統、調度子系統、基礎平臺、離線計算子系統、ETL服務子系統、ETLagent等。根據Linux運行環境的要求,本平臺測試的運行環境是rhel6.5。
4.2平臺在居民用電分析中的應用
本文的試驗數據是采集自南方某小區的用電數據,在測試之前,首先對數據進行了離散化的處理。數據初步處理之后,設定算法的最小支持度為 0.3,經過分析得到關聯規則。
從得到的規則中,總結出了一下結論:用戶的用電量與收入呈正相關的關系;用戶住宅面積越大用電量越大;青年住戶比老年住戶的用電量高;假期期間的用電量比平時的用電量略有下降。
5、結論
電力企業數據與信息的快速處理是影響企業工作效率的重要因素,數據挖掘技術可以快速抓取有用的數據并通過分析關聯規則得出分析結果,通過本文的研究,可以得出以下結論:
1、本文分析了數據挖掘常用的Apriori算法,提出了該算法相應的改進方案,在計算下一級頻繁集時,只需要根據當前頻繁集矩陣進行計算,然后將矩陣迭代更新,較少了計算量,提高了算法的效率。
2、本文在深入分析大數據平臺技術基礎上,根據電力大數據應用需求,提出了電力大數據平臺功能需求和設計原則,并具體闡述了平臺的整體架構和技術架構。平臺的設計的架構和功能滿足正常使用條件下的一般需求。
3、將本文設計的平臺系統在南方某電網公司進行了應用,并在單機環境和大數據平臺上對改進算法進行了測試,驗證了改進算法的高效性。 平臺的應用,可以提供電力企業智能化數據挖掘平臺的工作效率。
參考文獻:
[1]孫保華,陳蕾,夏棟,韓韜.基于大數據平臺的配電網智能化運維管控平臺設計及應用[J].電氣自動化,2018,40(06):81-84.
[2]蔣越.淺談大數據時代信息管理智能化面臨的挑戰和應對策略[J].金融經濟,2018(22):150-151.
[3]宋紹勇.“互聯網+”時代基于大數據智能化處理的精準教學[J].中小學信息技術教育,2018(11):41-42.
[4]梅蘭. 基于知識與大數據的火電機組智能AGC控制技術研究[D].上海電力學院,2018.
[5]唐雅潔. 基于云服務的智能電網調度監控平臺與輔助決策[D].浙江大學,2018.
[6]丁霄寅,徐雯旭.基于智能化的電力大數據挖掘技術框架分析[J].山東工業技術,2017(12):198.
[7]王彤. 基于大數據的智能變電站的選址模型設計[D].吉林大學,2017.
[8]張建付. 大數據環境下智能電網關鍵設備健康評估[D].華北電力大學,2017.
[9]王瑞杰. 面向電力調度控制系統的多源異構數據處理方法研究[D].華北電力大學(北京),2017.
[10]李亞. 智能電網大數據在線分析與決策系統研究[D].華北電力大學(北京),2017.
[11]彭茂祥,李浩.基于TRIZ理論與大數據的智能化技術創新模式研究[J].科技進步與對策,2017,34(07):139-145.
[12]趙迪. 基于電力大數據的數據挖掘支撐子系統的設計與實現[D].北京郵電大學,2017.