邱爽
摘 要:科技的發展使數據的積累速度大幅提高,如何有效利用這些海量數據已成為影響企業核心競爭力的主要因素。本文通過大數據分析電力系統營銷數據,以提升供電企業的服務質量,指引供電企業的發展方向。隨著大數據處理技術的發展、供電數據的積累及政策的導向,供電企業可以提出具有前瞻性的供電解決方案,獲得更為準確的用電需求信息,提高供電企業運行效率,提供企業管控能力。
關鍵詞:供電企業;大數據分析;大數據處理;用電信息;處理效率
中圖分類號:TM93 文獻標識碼:A
大數據(Big Data)又稱為海量數據,這些數據在未經處理前不具備任何參考價值,無法作為參考或輔助決策的依據。但這些數據只要經過恰當的處理與分析就能將海量數據轉化為有參考價值的數據,從而提升企業的服務水平及競爭力。
大數據的分析及應用與現今生活息息相關,涉及交通、購物、天氣、刑偵、電力等眾多領域,將不同類型的數據收集并加以分析,極有可能挖掘出以往不為人知的信息與模式。
例如在不侵犯個人隱私法規的前提下,利用數字醫療記錄進行健康趨勢分析或疾病關鍵因素分析與控制等,通過上述數據即可建立周圍因素與健康之間的關系模型;網上購物網站利用數據分析可找出消費者喜好的產品,通過系統向消費者推薦同類商品,增加消費者購買的可能性;電力系統大數據分析從用戶注冊、繳費完成(包括現金繳費、銀聯繳費、代扣等)至核銷對賬的完成,所有類型數據均存儲在系統中,構成電力營銷系統大數據,使企業的信息管理更加便捷,同時能有效的識別和分析潛在風險,并制定相應的防范措施。
1 大數據的概念及意義
大數據又稱海量數據,是指無法在一定時間內用常規軟件處理的數據集合。
近年來,隨著大數據處理與應用技術研究的深入,如何將大數據轉換為企業生產力和競爭力是目前電力企業改革的趨勢。
目前,對大數據的定義應具有以下5V特點:
1.1 數據量
數據量是大數據的最基本特征;物聯網數據及使用者主動、被動分享的數據快速的累積,很容易是數據量達到TB或PB等級;海量數據給處理工作帶來了挑戰,不僅是數據的提取,資料的管理與存儲,更重要的是有效挖掘出隱藏在此數據里的重要信息。
1.2 多樣性
大數據不僅強調數據量的大小,還涉及數據類型的改變,具體可分為三類:結構化數據、半結構化數據以及非結構化數據;所謂結構化數據可用二維表結構表述,并可存儲在數據庫中,而非結構化數據將無法以預定的數據模型存入數據庫表中。
1.3 數據的時效性
傳統的數據分析注重對歷史數據的分析與挖掘,并且所有分析數據都以日或月為基準單位產生,然后進行生產計劃決策,但隨著技術更新速度的加快,這類過長的歷史數據以無法滿足市場的需要,所以企業必須實時分析所擁有的最新數據。
1.4 數據的可靠性
過去數據在分析前均經過預處理,可保證數據的可靠度,如果處理企業實時數據,數據測量往往受到不同外在因素影響而產生不同形態的誤差,甚至測量數據不完整,導致品質不良,影響分析結果。
1.5 數據價值
所收集的大數據期望可以帶來能被利用的價值,將大數據經過適當的處理分析,進而得到各種應對方法。
針對供電企業的海量數據,傳統的通過單機處理或使用一般數據庫進行處理和分析已經不能滿足企業的需求。
基于此,本文以Hadoop分散式平臺與Hadoop兩大核心技術——MapReduce分散式算法與HDFS分布式文件系統,對供電企業大數據進行存儲、處理與分析。
2 供電企業大數據處理平臺
Hadoop是針對MapReduce框架所實現一個具有分散式運算框架的開放式平臺,包含有著名的分布式文件系統(HDFS)、分散式數據處理框架(MapReduce),分散式以Column-Oriented數據存儲系統(HBse),提供可靠、高效、可伸縮的分散式處理平臺。
2.1 分散式儲存
通過Hadoop將數臺電腦布置用于采集企業運行數據,并將數據存儲在由HDFS自動分配的數據存儲區,并建立備份,防止用于采集的電腦發生故障或錯誤時造成數據丟失,提高容錯性。
2.2 分散式運算
Hadoop平臺采用原始的MapReduce分散式處理方法處理結構化大數據,并利用分布式電腦歸集分散的運算,將運算工作分割成許多任務分散在各個執行。提供高度的可靠性運算,降低網絡傳輸需求基負載平衡。
雖然HadoopMapReduce在大數據處理密集型批處理數據上非常成功,但由于每執行一個MapReduce任務需要在數據收集環境內,初始化一個任務并通過網絡指派工作內容,且每次MapReduce任務執行完畢后都需要執行I/O任務,將結果輸出至HDFS。因此,MapReduce不適合在低延遲要求或高迭代運算上應用。
Spark是一種機遇內存運算框架且與Hadoop兼容,Spark的運算特性適合迭代運算,Spark再函數運算后并不會將結果輸出,減少I/O任務執行次數,進而增加效率,因此Spark特別適合于反復迭代的機器學習機算法及交叉式對比分析。
2.3 分散式數據庫
NoSQL根據存儲方式可分為Key-value數據庫、Column-oriented數據庫、Document-oriented數據庫及Graph-oriented數據庫。
3 供電企業大數據應用案例
目前很多行業已經采用大數據解決方案來處理海量數據帶來的各類問題,且各自發展出具有前瞻性的應用,這些企業以Hadoop作為其處理海量數據的平臺,例如:
1)供電企業將售電數據記錄文件導入至具有600節點的Hadoop數據庫中存儲,進行用電信息分析,供電峰值分析和售電價格分析等;
2)供電企業對用電信息進行統計整理,尋找出用電客戶的特點,利用大數據對電能進行精準營銷,對用電大戶采取避峰開工的用電建議,維護電網安全運行。
3)根據用戶用電數據、電網故障數據及電流峰值分析,判斷電力系統中最易發生故障的環境,在電力檢修過程中重點檢查。
4)根據企業用電特征及電網運行特點,制定最適合企業經濟性和電力系統安全的用電規則,使企業經濟效益最大化,同時還能保證設備供電電壓的穩定性和可靠度。
在數據處理過程中,協同過濾是大數據處理中最常用的方法,其主要是利用使用者對使用者或物品對物品之間的相似度去預測使用者對某種物品的評分。
因此,協同過濾可分為兩部分,第一部分為基于使用者的協同過濾,第二種是基于物品的協同過濾。兩部分的流程相同,只是一個針對使用者,另一個針對物品。
4 供電大數據系統結構
隨著科技的發展,數據的收集與處理系統將成為企業未來解決方案及競爭力的核心基礎,其包含四大技術即時串聯分析、建模統計查詢、分散存儲提取、服務整合包裝,提供電力企業從生產到銷售整個過程的數據收集,分析直至效率統計與預測,具體技術如下:
4.1 即時串聯分析
該技術系統主要構建于即時分析軟件Apache Storm上;Storm是一個以分散式、容錯、連續即時串聯處理為目的的免費開源軟件,可簡單、可靠的處理大量的數據。適合以Strom開發的應用類型如:即時分析、線上機器學習、持續運算、分散式RPC等等,Strom具有高度容錯性,保證每次數據都會處理,而且速度很快。另外對于使用者來說,Strom的設置與維護運行都非常方便,并且可以使用多種語言編寫應用程序。故Strom具有以下重要特性:編寫結構簡單、可快速擴展性、高可靠度、高容錯性、支持多種程序語言開發。
4.2 建模統計查詢
該技術主要建立統計軟件R與其相關的整合工具Deploy;R是一個程序語言、統計計算與繪圖的整合環境,提供非常多的統計工具,包含線性與非線性模型、統計分析、時間序列分析、分類分析、集群分析等工具。其特點是免費、開放且占有率高,可實現跨平臺運行,包括Windows、Linux等多種平臺。
4.3 分散存儲提取
該技術建立在HDFS之上,HDFS是Hadoopecosystem中數據存儲管理的基礎,將分散的儲存數據整合成一個具有容錯能力、高效率且超大容量為一體的儲存環境,在Hadoop系統中大量的數據和運算時產生的暫時數據,都存放在這個分散式的檔案系統上。
4.4 服務整合包裝
該技術主要搭建在Node.js之上,Node.js是為一個事件驅動I/O伺服端的JavaScript環境,目的提供撰寫可擴展的網絡程序,如Web服務。是一種高效,易擴展的網站應用程序開發框架。
為了讓開發者能夠更好開發高延展性的網絡服務,不需要經過太多復雜的調校、效能調整及程序修改,就能滿足網絡服務在不同發展階段對效率的要求。
實際的能效實時監控,收集供電企業供電數據,并經過收集伺服器運行串聯分析等技術模塊對該運行數據進行提取、生產管理數據對比、統計分析處理、預測建模等步驟,以即時監控供電網絡的運行效率,當供電數據超過由預測模型給定的安全范圍時,給予效能異常的即時報警處理。
5 結論
在大數據時代如果能分析出有價值的信息,就能為企業帶來更大的競爭力,同時為企業的發展指明方向。
就供電企業而言,精準的用電數據可給出發電企業準確的發電數據,從而使發電企業以最優化的配置進行電能生產,在保證用電企業正常運轉的同時,使發電企業經濟效益最大化,從而降低能耗,實現節能減排的目的。
此外,從大數據分析中提取出的有用信息可幫助供電企業指明企業的發展方向,同時可提高供電企業的服務水平及供電品質,提高企業競爭力。