基于Hadoop的電力大數據技術體系研究

2015-12-02 03:25:30張曉佳高一丹

電力與能源 2015年1期

岳陽，張曉佳，高一丹

（國網蘇州供電公司，江蘇蘇州 215004）

目前，國外已有先行者嘗試將大數據技術應用到電力行業。美國加州大學研究者利用用戶用電信息和地理位置等數據制作電力地圖，展示每個街區實時用電量。德國的電力公司利用大數據預測客戶的用電習慣和電力需求，以此制定成本最低的購電計劃［1］。

隨著智能電網的大規模建設，智能電表、智能插座等終端部署，智能變電站、電動汽車充換電站等項目投運以及風能、光伏等間歇性能源的接入，電力行業的信息時代正處于關鍵轉折點，電網產生的數據將更多、更復雜。數據規模每年將以指數級增長，且數據中包含大量的半結構化和非結構化信息。與此同時，智能電網要求做到對電網故障的快速響應、短期負荷的準確預測以及數據處理的實時性，這些關鍵問題很難再用傳統技術解決［2］。一方面，數據規模的龐大導致原有系統難以存儲和管理；另一方面，大數據的復雜關聯性導致傳統算法失效。

為此，加快推進大數據技術在電力領域的應用十分必要。本文結合大數據最新技術與實際應用需求，對電力行業所需的大數據技術體系進行了系統性研究，給出了電力大數據技術架構，并對大數據存儲和大數據處理等核心技術進行了詳細分析。

1 電力大數據

1.1 電力大數據的定義及特點

根據麥肯錫的描述，大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合［3］。大數據的顯著特征是數據規模大（Volume）、數據類型多（Variety）、處理速度快（Velocity）、價值密度低（Value）［2］，簡稱4V。

電力大數據一般是指通過傳感器、智能設備、視頻監控設備、音頻通信設備、移動終端等各種信息獲取渠道收集到的，海量的，結構化、半結構化、非結構化的，且相互間存在關聯關系的業務數據集合［4，5］。

電力大數據亦具有4V特征。

（1）數據規模大

電網的數據采集覆蓋發、輸、變、配、售每個環節，僅就售電側的用采數據而言，一個省網按3000萬用戶，每天采集一次，一年的用電數據就有100余億條，若實現15分鐘采集間隔，數據量將再增加96倍。

（2）數據類型多

電力數據從結構分，包括常規結構化數據和系統日志、表計等半結構化數據，以及文件、圖片、視頻等非結構化數據。從內容分，包括測量數據、監控數據、設備臺賬、日志文件、地理信息、氣象數據等。

（3）處理速度快

電力系統對數據的采集、處理及分析有嚴格的時間限制，許多業務如電量實時查詢、電網故障快速響應等多是以秒為目標的準實時處理［4］。

（4）價值密度低

電網中的數據每時每刻都在產生，但真正有用的數據不多。如設備狀態監測數據，絕大部分都是正常數據，異常數據占比極少，而后者才是設備狀態分析的關鍵［2］。

2.2 電力大數據的來源

電力數據產生于發、輸、變、配、售多個環節，根據業務內容可劃分為三類：電網運行、公司運營和營銷服務。

電網運行類數據主要為電網運行和設備狀態監測數據：

（1）電網運行數據來自D5000調度平臺中的能量管理系統（Energy Management System，簡稱EMS）、調度管理系統（Operational Management System，簡稱OMS）和數據采集與監控系統（Supervisory Control And Data Acquisition，簡稱SCADA）。主要包括線路電壓、電流、功率、繼保裝置信息、保護故障錄波數據、開關狀態、報警信息、新能源分布、無功補償等數據。隨著矢量測量裝置的部署，還將獲得大量更精確的相角數據。

（2）設備狀態監測數據來源有SCADA系統和生產管理系統（Production Management Sys-tem，簡稱PMS），主要包括設備臺賬、工作票、家族缺陷、不良工況、檢修試驗、帶電檢測、在線監測等數據。目前這些數據的價值尚未被挖掘，需要深度分析以實現設備狀態綜合評價。

營銷服務類數據主要來自營銷業務系統、用電信息采集系統、計量運營管理平臺、EMS、95598平臺等。包括營銷設備管理、用戶檔案及用電信息、配變電能計量、用電關口電量、網供負荷、發電量和95598業務等數據。這些數據可深入挖掘，用于負荷預測、用電量預測、負荷特性分析及經濟形勢分析等方面。

公司運營類數據來源有運監、計劃統計、ERP等系統，包括業務指標、電網規劃、建設管理、財務數據、物資需求等數據。深入挖掘分析這些數據，可以提升電網公司管理水平，降低運營成本。

其他還有氣象信息監測系統、雷電監測系統、地理信息系統（GIS）等系統提供的氣象環境、地理信息等數據。這些數據與電網運行和設備狀態監測數據密切相關，需要進行深入關聯分析。

2 Hadoop生態系統

（1）Hadoop

Hadoop的核心是Google在2003至2004年發表的 MapReduce［6］、Google File System（GFS）［7］和 BigTable［8］三篇論文，其中 MapReduce是分布式計算框架，GFS是分布式文件系統，BigTable是基于GFS的數據存儲系統，這三大組件構成了全新的分布式計算模型。隨后Yahoo對其進行了開源實現，即 Hadoop［9］，并根據GFS開發了HDFS，根據BigTable開發了HBase。同時其他眾多開源項目如Hive、Pig等圍繞Hadoop構成了完整的生態系統［10］，如圖1所示。

圖1 Hadoop生態系統

Hadoop具有高可擴展性和高容錯性等優點，基于分布式思想，利用HDFS和MapREduce實現海量異構數據的低成本高效處理。

（2）HDFS

HDFS（Hadoop Distributed File System）是一個分布式文件系統，采用主從結構（如圖2）。每個Hadoop集群包含一個名字節點（Namenode）和大量數字節點（Datanode），名字節點存放文件的名稱、目錄結構等元數據，而數量眾多的數據節點則存放具體的文件內容［10］。存儲在HDFS中的每個文件將被劃分成一個或多個數據塊（block），每個數據塊有多個副本，每個副本分散存儲在不同的數據節點上，數據塊有多個冗余，以解決硬件故障導致的數據丟失問題［11］。

圖2 HDFS架構

HDFS可采用X86服務器作計算節點，易于擴展，為低成本存儲海量非結構化數據及分布式計算提供了可能。

（3）MapReduce

MapReduce是一個分布式計算軟件框架，用于大規模數據集的并行計算。通過高并發的處理方式，同時管理多個大規模計算過程，實現數據處理能力從TB級到PB級的突破。

簡單的MapReduce主要由三部分構成：Map函數、主控制器和Reduce函數。MapReduce對大規模數據采用并行處理策略，將大量重復的數據記錄處理過程總結成Map和Reduce兩個抽象操作，并為其提供一個統一的并行計算框架，把并行計算所涉及到的諸多系統層細節交給計算框架去完成［10-12］。其執行過程如圖3所示。

過去大規模并行化計算都使用昂貴的專業并行計算機。隨著分布式文件系統和并行計算的應用，這些計算可由數以千計的普通計算機集群完成，成本大大降低［12］。

3 大數據關鍵技術

3.1 大數據技術體系

圖3 MapReduce執行過程示意圖

大數據不是某一種技術，而是多種技術的融合。完整的技術體系應包括數據整合、數據存儲、數據處理、數據應用和安全管理等關鍵技術。以Hadoop為核心的開源產品是目前主流的大數據開源解決方案。基于Hadoop的電力大數據平臺結構框架如圖4所示。

圖4 大數據平臺架構

Hadoop提供分布式文件系統和并行計算，解決大規模數據存儲和處理問題；在其基礎上搭建上層應用實現SQL、實時計算、流式計算、內存計算、數據挖掘、數據可視化等功能［10-13］。

3.2 大數據整合技術

大數據整合技術需要融合傳統ETL技術和數據連接器、實時消息隊列、平臺服務接口等新技術，從數據中心、業務平臺、終端等多種外部數據源導入海量多樣化數據并按照統一的數據規范進行標準化處理后，放入大數據存儲系統中。

（1）大數據連接器

大數據連接器為一種關系型數據集采集技術，用于關系數據庫等傳統數據源與分布式存儲系統之間傳輸數據，實現不同存儲機制下數據的相互轉換。相關產品有Sqoop、DataX等。

（2）數據／服務總線

數據／服務總線為一種文件采集與處理技術，可將大量來自非傳統數據源、結構混亂、無法有效處理的非結構化文件采集存儲到大數據平臺。相關產品有Flume、Scribe等。

（3）實時消息隊列

實時消息隊列為一種實時數據采集技術。由于傳感器等終端產生的數據規模大、變化快，需要實時采集并處理，為此需要分布式海量流數據采集技術，用于收集實時流數據，并對其簡單預處理。相關產品有Kafka等。

3.3 大數據存儲技術

大數據存儲技術需要針對全類型數據存儲和多樣化計算需求，使用中低端存儲設備，以分布式文件系統為基礎，綜合基于分布式文件系統的各類數據庫，實現高效低成本的大數據存儲及面向NOSQL的數據訪問。

（1）分布式文件系統

文件數據存儲在分散的低成本存儲介質上，對外提供一致的文件訪問接口，具有良好的容錯性和安全性，用于PB級以上規模的半結構化、非結構化數據存儲。主流產品有HDFS、FastDFS等。

（2）列式存儲數據庫

以數據列為單位進行存儲，使得數據規模可被高效壓縮，提供海量規模數據快速檢索和查找功能。用于大批量數據處理和即時查詢。主流產品有HBase等。

（3）分布式關系型數據庫

以行為單位進行存儲，由分散的多個節點組成的大型數據庫，用于大規模結構化數據的存儲和查詢。主流產品有GreenPlun等。

（4）鍵值數據庫

一種非關系型數據庫模型，按照鍵值對的形式存儲，有更好讀寫性能，用于高性能半結構化數據查詢。主流產品有Redis等。

（5）實時數據庫

專用于處理具有時間序列特性的數據庫模型，用于實時或準實時高頻采集數據的存儲和查詢。主流產品有RealTimeBase等。

（6）內存數據庫

將結構化數據放在內存中直接操作，讀寫速度極快，用于高性能實時查詢和分析。主流產品有TimesTen等。

3.4 大數據處理技術

大數據處理技術需要針對海量數據多樣化處理的需求，以分布式計算為核心，融合其他先進計算模式，構成可適應多種計算場景的計算框架。

（1）分布式計算

分布式計算針對海量規模數據，采用 Map Reduce分布式計算框架，實現數據處理能力從TB級到PB級的突破，用于實時性要求不高的大批量計算。

（2）流計算

流計算是一種針對流數據的高實時性計算模式。對于系統產生的源源不斷的海量音視頻等流式數據，不長期存儲，直接將其導入內存進行實時計算，從中提取有價值的信息。適用于動態流數據的實時計算。主流產品有Storm、Spark Streaming等。

（3）內存計算

內存計算指數據存儲和計算全部存在于主內存中，利用CPU和內存的優勢，結合并行計算技術，實現高性能計算。適用于需要實時響應的實時統計和交互式分析。主流產品有SAP HANA等。

3.5 大數據分析技術

大部分的電力數據直接使用價值不太。需要利用合適的挖掘算法去深入分析，才能從中提煉出高價值信息。

傳統挖掘算法有：聚類分析、關聯分析、演化分析、文本語音分析、圖像和視頻分析等。這些算法在用于分布式數據和分布式處理時有一定局限性。目前，基于開源技術的數據挖掘技術如R語言、Mahout等能夠支撐大數據條件下的數據分析和挖掘，其綜合各類分析算法、開發工具和可視化控件，通過分布式算法對分布式文件系統中的各類數據進行挖掘。

3.6 大數據可視化技術

大數據可視化技術將大規模、多維度、關系復雜的數據結果以直觀的圖形化等形式展現給用戶，有助于用戶快速理解并作出準確判斷。

典型的大數據可視化技術有：網絡圖、旭日圖、區域圖、樹狀圖、和弦圖、平行坐標圖、索引圖、日歷表、標簽云、填料圈等。

3.7 大數據安全技術

電力大數據具有多源異構、分布廣泛、動態增長、跨業務等特點，與傳統數據管理迥然不同，導致其安全風險大大增加。基于大數據的這些特點，需要重點加強權限管理、隱私保護、存儲安全、接入安全等安全技術以及相應的安全管理制度，實現大數據采集到應用的全過程安全監控。

4 典型應用場景

大數據技術在電力領域有廣泛的用途，本文分析了幾種具有高開發價值的典型應用場景。

（1）新能源發電預測和管理

通過對海量的氣象數據進行模擬，結合風機及光伏發電出力曲線及歷史發電信息，分析新能源出力與風速、光照、溫度等氣象因素的關聯關系，實現對新能源發電能力的精確預測，優化新能源調度管理。

（2）檢修策略優化

對在線監控數據實時分析，自動識別輸變電設備故障缺陷，并與設備臺帳、運行狀態、檢修記錄等數據進行關聯分析，找出故障成因。結合數據挖掘技術，建立設備狀態綜合評價模型，實現設備狀態風險評估和故障預判，優化檢修策略。

（3）中長期負荷預測

基于海量用采數據、GIS數據，結合外部的人口信息、地區規劃、經濟形勢等數據，分析輸變電設備的負載情況，預測中長期電力需求分布和變化趨勢，指導公司的設備擴容更換、配電網升級改造以及電網線路規劃。

（4）用采數據實時查詢和用電行為分析

利用大數據高效存儲和高速處理能力，實現用戶用電數據高頻率實時快速采集存儲，提高用電量快速統計和實時查詢能力。基于用戶歷史用電數據，分析社區或大客戶用電行為特征，預測客戶短期用電需求，實現個性化用電管理。

5 結語

隨著技術發展，未來的電網將更加智能、安全、可靠，低成本、高效率、高可靠的大數據技術將為此提供堅實的技術支撐。為進一步提高電網安全運行能力，向客戶提供優質供電服務，積極推進大數據技術在電力領域的應用勢在必行。

［1］維克托·邁爾·舍恩伯格，肯尼斯·庫克耶.盛楊燕，周濤，譯.大數據時代［M］.杭州：浙江人民出版社，2013.

［2］宋亞奇，周國亮，朱永利.智能電網大數據處理技術現狀與挑戰［J］.電網技術，2013，37（4）.

［3］ McKinsey Global Institute.Big data：the next frontier for innovation，competition，and productivity［R］.2011.

［4］中國電機工程學會信息化專委會.中國電力大數據發展白皮書［M］.2013.

［5］ Mladen Kezunovic，Le Xie，Santiago Grijalva.The Role of Big Data in Improving Power System Operation and Protection［C］／／2013IREP Symposium-Bulk Power System Dynamics and Control-IX（IREP），2013.

［6］ Dean J，Ghemawat S.MapReduce：Simplified data processing on large clusters［C］／／Proc of the 6thSymposium on Operating System Design and Implementation，2004：137-150.

［7］ Ghemawat S，Gobioff H，Leung S T.The google file system［C］／／Proc of the 19thACM Symposium on Operating System Principles，2003：29-43.

［8］ Chang F，Dean J，Ghemawat S，et al.Bigtable：A distributed storage system for structured data［C］／／Proc of the 6thSymposium on Operating System Design and Implementation，2006：205-218.

［9］ Apache.Apache Hadoop core［EB／OL］.2012-08［2013-02］.http：／／hadoop.apache.org／core.

［10］陳吉榮，樂嘉錦.基于Hadoop生態系統的大數據解決方

案綜述［J］.計算機工程與科學，2013，35（10）.

CHEN Ji-rong，YUE Jia-jin.Reviewing the big data solution based on Hadoop ecosystem［J］.Computer Engineering ＆Science，2013，35（10）.

［11］趙剛.大數據技術與應用實踐指南［M］.北京：電子工業出版社，2013.

［12］拉賈拉曼，厄爾曼.王斌，譯.大規模數據挖掘［M］.北京：人民郵電出版社，2012.

［13］坎塔爾季奇著.王曉海，吳志剛，譯.數據挖掘：概念、模型、方法和算法［M］.北京：清華大學出版社，2013.

電力與能源2015年1期

電力與能源的其它文章: 復合套管液體硅橡膠傘群老化現象的微觀特性研究; 基于USB Key的配電網自動化系統身份認證機制研究與設計; ±500kV楓涇換流站交流濾波器注流試驗方法; 智能電網中實時負荷模型建立研究; 基于北斗的多源同步時鐘的安全性設計與實現; 關于軟件定義網絡的架構與開發環境研究