劉明碩+吳軍英

摘 要:大數據具有數據體量巨大、數據類型多樣、處理速度快、價值密度低等特點。隨著“十二五”信息化建設的發展,電力公司四大數據中心和各類業務系統存儲了數百T的數據。該文首先介紹了大數據和大數據平臺的概念,在此基礎上分析大數據技術在電力企業中的應用場景。最后,設計并實現了基于大數據平臺的信息系統深化應用。
關鍵詞:大數據 Hadoop 數據分析 應用場景
中圖分類號:TP27 文獻標識碼:A 文章編號:1674-098X(2017)02(c)-0151-02
1 大數據平臺概述
隨著信息技術的高速發展,云計算、物聯網、移動應用、社交網絡等紛紛得到空前的發展,全球數據信息量呈指數式爆炸增長之勢。數據作為企業、社會和國家層面的重要戰略資源,被社會各個領域所重視,相繼開始其數據的挖掘應用進程,學術界、商界、政府、企業等都將不可避免地進入“大數據時代”。
大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)[1]。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。
大數據平臺中應用最廣泛的是Hadoop架構,Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS[2]。
2 應用場景設計
該項目涉及的基于大數據分析場景主要包括電網規劃研究、市場售電量預測分析、配變重過載預警分析3個主題場景的設計研發。其中,電網規劃研究包括:電網運行情況分析、電網薄弱環節監測。市場售電量預測分析包括:售電量特性監測分析、售電量預測分析。配變重過載預警分析包括:短期配變重過載預警分析、中期配變重過載預警分析。
2.1 電網規劃研究
通過分析省市縣三級社會經濟數據,對電網運行情況進行分析,展示各級供電分區與市轄縣級供電分區等不同口徑的供電指標;結合電網規模線路數據,提供多維度報表數據。結合各電壓等級電網結構數據,以及變電站、配電臺區、線路等基礎數據,進行電網現狀分析,同時提供關鍵指標和報表數據導出功能,供進一步詳細分析,從規劃設計、建設改造等環節入手,優化電網運行方式,為電網規劃提供支撐依據。
通過分析電網設備負載、重過載以及線路卡脖子等相關信息,實施電網薄弱環節監測。依托電網關鍵運行指標計算結果,分析電網薄弱環節,對不同區域的電網運行情況進行評價,及時發現電網運行問題,提升輸、配電網的計算分析能力,支撐規劃部門發現電網存在問題,合理分配電網設施下一步投資方向。
2.2 市場售電量預測分析
針對售電量特性監測開展分析。利用營銷基礎數據平臺、用電信息采集系統、營銷檔案系統等系統,以及營銷大數據存儲技術,結合相關負荷特性指標,基于從時間、高低壓用戶(含大客戶及高風險客戶)、行業及用電類別等多個維度進行建模、詳細剖析和監測月均負荷及日負荷情況,分析全省范圍的負荷分布情況。同時,對永久性減容銷戶、暫停/恢復、客戶群、電能替代、氣象、分布式電源、自備電廠、大用戶直購電等影響因素進行關聯分析和負荷監測。
同時對售電量預測進行分析。以售電量影響因素分析結果為基礎,構建售電量預測模型和用電趨勢預測模型,按照日期類型(如節假日及特殊假期)進行區別預測,同時針對大用戶、氣象敏感度用戶群、面臨淘汰的高耗能行業、政策電價用電用戶等進行售電預測,并對預測結果進行持續跟蹤,發現偏差后及時修正。通過負荷監測,預測各地區短期售電量,對負荷數據進行統計分析,支撐有序用電執行效果評估。
2.3 配變重過載預警分析
基于大數據挖掘技術的配變重過載預測分析,能夠更加準確,運用回歸算法,構建重過載預警模型,建設每周預報(短期)、迎峰度夏、農排專題(中期)分析場景,實現短期和中期配變重過載情況預測。場景將對全市及各區持續發生的配變持續重過載情況進行跟蹤分析,重點監測特定時段及區域的配變負載(如采暖期間負荷突然增加),對異常數據進行捕獲和鉆取分析(如配變容量數據不準確)。同時,對短期(周)及中期(年)的重過載情況進行預測,并與實際發生情況進行比對。
3 系統架構設計及實現
此項目基于Hadoop框架進行設計開發,Hadoop框架中有MapReduce、Hbase和HDFS三大核心設計。MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念“Map(映射)”和“Reduce(歸約)”,是它們的主要思想,可以把一個復雜的任務劃分為若干個簡單的任務分發給網絡上的多個節點同時處理。HBase-Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,HBase在Hadoop之上提供了類似于Bigtable的能力,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。HDFS是一個主從結構,一個HDFS集群是由一個名字節點,它是一個管理文件命名空間和調節客戶端訪問文件的主服務器。HDFS的高容錯性、高吞吐量等特點使得HDFS適合那些有著超大數據集(large data set)的應用程序。
3.1 系統架構
大數據平臺為業務系統大數據應用開發、運行提供統一的平臺支撐。其總體架構包括數據整合、數據存儲、數據計算、數據分析、平臺服務、安全管理、配置管理等模塊,并提供各種形式的服務對業務應用提供支撐。大數據平臺總體架構圖如圖1所示。
數據整合:通過數據抽取(ETL)、實時數據采集、文件數據采集、數據庫實時復制等多種技術從外部數據源抽取和采集結構化數據(關系數據庫記錄)、半結構化數據(日志、郵件等)、非結構化數據(文件、視頻、音頻、網絡數據流等)到大數據平臺的hive庫中。
數據存儲:負責進行大數據的存儲,針對全數據類型和多樣計算需求,以海量規模存儲、快速查詢讀取為特征,存儲來自外部數據源的各類數據,支撐數據處理層的高級應用。通常情況下,非結構化數據存儲在分布式文件系統HDFS中,半結構化數據采用列式數據庫或鍵值數據庫,結構化數據采用行式存儲數據庫存儲,實時性高、計算性能要求高的數據存儲在內存數據庫或實時數據庫。
數據計算:對多樣化的大數據提供流計算、批量計算、內存計算、查詢計算等計算功能,允許對分布式存儲的數據文件或內存數據進行查詢和計算。通過Storm流計算技術提供實時分析處理的計算能力,實現實時決策、預警等。通過離線計算提供落地數據的計算能力,實現數據的批量處理。
數據分析:基于Hadoop技術對多樣化的大數據進行加工、處理、分析、挖掘,產生新的業務價值,發現業務發展方向,提供業務決策依據。
平臺服務:將底層數據分析工具、組件等能力封裝后為業務系統的大數據應用提供平臺服務支撐,包含存儲服務、計算服務、分析服務、展現服務等。
3.2 技術架構
大數據平臺技術組件以集成成熟開源產品為主,并對現有可重用的SG-ERP組件進行提升改造,相關生產應用可適時遷移至大數據平臺。
大數據平臺技術架構包含數據整合、數據存儲、數據計算、數據分析、平臺服務5個層次,在數據整合方面,融合實時消息隊列、數據抽取、日志采集、服務接口等技術,實現異構數據的快速接入;在數據存儲方面,采用關系數數據庫、分布式文件系統、分布式列式數據庫、內存數據庫等存儲技術,滿足海量數據實時、準實時存儲需求;在數據計算方面,提供流計算、批量計量、內存計算等數據處理技術;在數據分析方面,采用開源挖掘工具R語言、Mahout,并構建分布式數據挖掘算法庫;同時,完善智能分析決策平臺的分析模型設計器,構建統一的分析建模能力和運行引擎。在平臺服務方面,提供統一的存儲、計算、分析、展現等服務。
4 結語
隨著電力企業各業務系統數據量的不斷增大,以及業務部門數據價值挖掘需求的持續增長,迫切需要用好大數據平臺這一數據分析和挖掘技術手段,充分地分析企業信息數據資源,從而可以增強企業的價值創造力和核心競爭力,為用戶提供更優質的服務。
參考文獻
[1] 肖廣娣,凌云.大數據時代信息安全分析[J].電腦知識與技術,2013(9):7937-7938.
[2] 林清瀅.基于Hadoop的云計算模型[J].現代計算機,2010(7):114-115.