張君艷,董 娜,彭 偉,郭禹伶
(1.國網河北省電力公司電力科學研究院,石家莊 050021;2.華北電力大學,北京 102206)
?
大數據平臺在電力企業中的應用
張君艷1,董娜1,彭偉2,郭禹伶1
(1.國網河北省電力公司電力科學研究院,石家莊050021;2.華北電力大學,北京102206)
摘要:大數據具有規模大、種類多、變化速度快、價值巨大但密度低的特點,大數據應用就是利用數據分析的方法從大數據中挖掘有效信息,為用戶提供輔助決策,實現大數據價值的過程。從大數據的定義、特征及其平臺三方面宏觀介紹大數據技術研究現狀,在此基礎上分析大數據技術在電力企業中的應用,以電力信息通信客戶服務系統中工單事件統計為例,展示了大數據平臺的應用過程。
關鍵詞:大數據;平臺;Hadoop;統計
隨著云計算、物聯網、移動互聯網等新興信息技術的飛速發展,網絡上的信息呈現出爆炸式增長,并且這種增長速度還在不斷加快[1],這些信息既包含人的,也包含各種物的。國際數據公司(IDC)報告[2]稱,2011年全球被創建和復制的數據總量為1.8 ZB(1 ZB≈1021B),在短短5年間增長了近9倍,而且預計這一數字將每2年翻一番,而且這個速度在2020年之前會繼續保持下去,人類真正進入了一個數據的世界。大數據這一術語正是產生在全球數據爆炸增長的背景下,用來形容龐大的數據集合。如今,工業界、學術界甚至政府部門都對大數據產生了濃厚的興趣。
1大數據的概念與特征
大數據是一個涵蓋多種技術的概念,是由數量巨大、結構復雜、類型眾多數據構成的數據集合,無法使用傳統數據工具進行采集、處理、分析和管理的數據集,既包括傳統結構化數據,也包括文本、 圖像、視頻和音頻等非結構化數據。一般意義上,大數據是指無法在有限時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。
大數據具有數據體量巨大(Volume)、數據類型多(Variety)、數據流動快(Velocity)和數據潛在價值大(Value)等“4V”特征。大數據的“大”主要體現在兩個方面:一是數據集“大” 到一定程度,可全面表現數據所描述的對象的特征或某種規律;二是數據的規模和復雜程度“大”到傳統數據工具無法處理分析。大數據除了數據量龐大外,大數據還有一些其他的特征,這些特征決定了大數據與“海量數據”和“非常大的數據”這些概念之間的不同。
2大數據平臺介紹
大數據平臺中應用最為廣泛的是Hadoop。Hadoop是由Apache基金會開發的分布式系統基礎架構,是一個處理大規模數據的軟件平臺, 如圖1所示。

圖1 Hadoop組件框架
圖1中,Flume和Sqoop分別是做數據采集,HDFS、HBase、Hive則是分布式數據存儲、數據倉庫,MapReduce、Spark、Tez分別做離線、在線、流程計算,Mahout主要是做數據挖掘。
Hadoop具有海量存儲(能夠處理PB 級別的數據)、成本低、高效率和可靠性等特點[3],用戶可以在不了解分布式底層細節的情況下開發分布式程序,主要包括2個核心功能:HDFS (Hadoop Distributed File System)和MapReduce。HDFS是分布式文件系統的簡稱,有高容錯性的特點,并且設計用來部署在低廉的硬件上;而且它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念“Map(映射)”和“Reduce(歸約)”的主要思想都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。Hadoop極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。 當前的軟件實現是指定一個映射函數,用來把一組鍵值對映射成一組新的鍵值對,指定并發的歸約函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算功能。
開源技術Hadoop可以提供相對廉價的分布式的存儲系統,通過MadReduce的技術,進行并發、高效能的計算。大數據引擎基本上完成是存儲和計算,但真正的存儲計算結果還要與傳統的業務系統和其他應用來使用。它主要有以下幾個優點。
a. 高可靠性,Hadoop按位存儲和處理數據的能力值得人們信賴。
b. 高擴展性,Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
c. 高效性,Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
d. 高容錯性,Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
e. 低成本,與一體機、商用數據倉庫等數據集市相比,hadoop是開源的,因此項目的軟件成本會大大降低。
3電力大數據及其應用價值
電力企業正在建設以特高壓電網為骨干網架各級電網協調發展的智能電網,勢必會產生大量結構多樣、來源復雜的數據,為大數據提供了充足數據源,因此近年來電力企業對大數據這一研究領域產生了濃厚的興趣。
通過對大數據技術的深入理解,結合電力企業數據現狀和業務需求,提出“電力大數據”的概念[4]:電力大數據是以業務趨勢預測、數據價值挖掘為目標,利用數據集成管理、數據存儲、數據計算、分析挖掘等方面核心關鍵技術,實現面向典型業務場景的模式創新及應用提升。
電力大數據主要分為生產類數據和管理類數據,涉及到發電、輸電、變電、配電、用電、調度等各環節, 其應用的核心價值主要體現在以下2個方面。
a. 將數據視作人財物一樣的企業核心資產,通過復雜的關聯分析,讓數據創造新的價值,提升精細化管理水平,促進管理方式和商業模式創新,典型應用有配網精細化管理、防竊電預警、業務運營監測和用電信息增值業務服務等。
b. 將大數據技術應用于智能電網發、輸、變、配、調、用六大環節,通過技術變革,優化電網生產方式,提升生產效率,推動智能電網創新發展,典型應用有電力負荷預測、新一代智能變電站、營配調一體化和用電信息采集等。
另外,在電力公司“SG186”和“SG-ERP”工程建設過程中,電力信息化領域也蘊含著海量數據,這些數據包括主機設備、網絡設備、安全設備、終端設備及信息系統等在長期運行的各個環節累積的巨量日志信息,門禁、UPS、空調、電源、溫濕度等機房設備及視頻監控系統產生的大量數據,某電力公司信息客服熱線2186產生的大量語音數據及信息通信客戶服務系統中的工單記錄信息等,面對每天還在不斷地產生的信息數據,需借助大數據平臺對這些數據進行分析和處理,從而挖掘其中的價值[5]。
4大數據平臺的應用
目前電力行業中正在逐步開展大數據應用技術,以下以統計公司信息通信客戶服務系統中工單情況為例展示大數據平臺的應用過程,如圖2所示。統計問題是最簡單也是最能體現MapReduce思想的程序之一,其主要完成功能是:統計一系列文件中不同數據出現的次數。

圖2 信息通信客戶服務系統工單統計界面
在測試環境下(1臺主機,8臺從機),搭建了包含9個節點的小型集群,集群環境及界面如圖3所示。

圖3 集群界面
利用已搭建的集群對客戶服務中心中導出工單進行統計,運行結果如圖4所示。
從運行結果可以看到,大數據平臺進行Map的時間為4 586 ms,進行Reduce的時間為4 535 ms。
經統計發現,在導出的事件工單文件中出現頻率最高的前6類事件類型分別為ERP系統、計算機事件、生產管理系統、其他、協同辦公系統和目錄系統,結果如圖5所示。利用大數據平臺可以快速準確的統計出文件中出現頻率最高的字段,并自動生成結果展示。

圖4 運行結果

圖5 出現頻率最高的前6類事件
5結束語
大數據技術是未來信息社會發展的一個大方向,大數據應用是通過數據分析的方法從大數據中發掘潛在價值,具有重要的研究意義和實際價值。利用大數據平臺可以快速準確的統計出所設條件的結果,并自動生成結果展示。電力企業利用好大數據平臺這一數據分析和挖掘技術手段,充分地分析企業信息數據資源,從而可以為電力用戶提供更優質的服務。
參考文獻:
[1]肖廣娣,凌云.大數據時代信息安全分析[J].電腦知識與技術,2013(9). 7937-7938.
[2]Gantz J, Reinsel D. Extracting value from chaos[R]. IDC iView,2011:1-12.
[3]林清瀅.基于Hadoop 的云計算模型[J].現代計算機,2010,7:114-115.
[4]唐瑞偉.電力大數據應用現狀及發展前景[C].中國電力企業聯合會科技開發服務中心,電力行業信息化優秀論文集2014--2014年全國電力行業兩化融合推進會暨全國電力企業信息化大會獲獎論文,2014.
[5]許海清,黃敏.淺談電力大數據對信息運行的影響[J].江蘇電機工程,2015(3):62-64.
本文責任編輯:王洪娟
Application of Big Data Platform in Electric Power Enterprise
Zhang Junyan1,Dong Na1,Peng Wei2,Guo Yuling1
(1.State Grid Hebei Electric Power Research Institute, Shijiazhuang 050021,China;2.North China Electric Power Univercity,Beijing 102206,China)
Abstract:Big data has the characteristics of Volume, Variety, Velocity and Value. By the method of data analysis, the applications of big data can mine many useful information. And this can provide auxiliary decision-making for users, which can make the value of big data come true. An overview was given about the current situation of big data from three aspects:the definition,feature,and the key technology of big data.Then,a summary of the application of the big data technology in electric power enterprise was described. Finally, taking the event order statistics in customer service system for example, this paper shows the application of big data platform.
Key words:big data;platform;Hadoop;statistics
中圖分類號:TP27;TP14
文獻標志碼:B
文章編號:1001-9898(2016)01-0053-03
作者簡介:張君艷(1985-),女,工程師,主要從事電力信息化相關工作。
收稿日期:2015-11-06