楊 懿,王 鑫,楊開瓊,潘可佳
國網四川省電力公司信息通信公司信息通信調度監控中心,四川成都 610041
大數據關鍵技術在用電信息采集系統架構優化中的應用研究
楊 懿,王 鑫,楊開瓊,潘可佳
國網四川省電力公司信息通信公司信息通信調度監控中心,四川成都 610041
近幾年來,用電信息采集系統的數據采集范圍、應用范圍持續擴大,伴隨著用戶量和業務需求的增長,系統的復雜度也大幅度增加。傳統數據采集處理技術和系統架構已經無法滿足當前業務發展對系統數據處理分析的要求。而大數據技術隨著其從理論研究向實際應用的發展,也為解決用電信息采集系統數據量快速增長、數據關聯性越來越高的現狀需求提供了理論及應用基礎。本文通過對大數據相關關鍵技術的研究,對大數據技術在用電信息采集系統架構優化方面的應用進行了設計,并對后續系統架構發展進行了分析。
用電信息采集系統;大數據;分布式集群;架構優化
隨著智能電網建設帷幕的拉開,為實現電力營銷精益化管理能力增強,促進營銷業務模式集約化發展,推動營銷管理變革和突破,全面提升營銷管理與服務的信息化、自動化、智能化、互動化水平,用電信息采集系統建設在電力行業內持續推進,業務應用不斷深入開展。傳統數據采集處理技術和系統架構已經無法滿足當前業務發展對用電信息采集系統數據處理、數據應用的要求。因此,為滿足系統建設和發展要求,需根據業務應用需求對用電信息采集系統架構進行優化。
目前,利用新的信息技術解決當前信息系統面臨的系統性能問題,為系統性能優化提供技術支撐方案,已成為被廣泛采用的方式。新一代信息技術的代表,大數據技術已從理論研究向實際應用發展,有著豐富的理論基礎和應用實例。作為大數據平臺中應用率最高的技術Hadoop,已得到了多個領域的研究應用,本文通過研究相關關鍵技術,將大數據應用到用電信息采集系統架構優化改造中,有針對性的解決當前系統存在的問題,為后續系統推廣應用提供可擴展可復用的架構基礎。
圖1 基于Hadoop的考核單元電量計算
用電信息采集系統全覆蓋目標實現后,采集數據量將呈線性增長,海量數據的計算成為一個重要的問題,開源分布式計算平臺Hadoop能夠面向海量數據提供高性能存儲、分布式并行處理與計算服務,具有高容錯性和強擴展性,并在海量數據存儲及分布式并行處理方面已得到了廣泛應用。為解決用電信息采集系統高并發大容量采集數據實時處理及存儲的問題,基于Hadoop的平臺進行了以下大數據關鍵技術的研究。
1)分布式計算。
基于Hadoop的海量用電信息分布式計算平臺的構建,應用于電信息采集系統線損計算服務,傳統使用串行方式處理時需要數個小時才能夠完成,使用并行處理方式后可將計算時間大幅降低。除此之外,將計算過程中除數據讀取和回寫外的其他環節脫離現有oracle數據庫,降低頻繁讀寫給現有oracle數據庫帶來的壓力。同時,該技術的應用可滿足不斷增長的終端海量數據實時處理需求。圖1所示為基于Hadoop分布式框架下的用電信息采集系統考核單元電量計算過程。
2)分布式緩存。
基于分布式緩存技術可有效解決用電信息采集系統的擴展瓶頸,同時減少對現有關系數據庫的讀寫壓力。系統使用基于分布式文件存儲方法,可以實現每秒3萬條記錄的讀寫,且可以實現并發處理,結合BATCH批處理技術,相比傳統模式的逐條寫入,該設計能有效解決入庫壓力,可以做到數據采集完成同時實現數據存儲完成,架構調整完成后數據采集入庫的時間可大大縮減,以3000萬用戶規模為例測算,日凍結電能示值數據采集入庫時間僅需30分鐘。圖2所示為采用分布式緩存的用電信息采集系統數據入庫過程。
圖2 用電信息采集系統數據采集入庫示意圖
圖3 用電信息采集系統主站優化架構
用電信息采集系統架構優化是在現有系統所有功能的基礎上進行的優化及改造。用電信息采集系統總體架構由采集對象、通信信道、系統主站等三部分組成,目前系統主站部分則是由傳統架構構成,系統的讀寫集中,數據庫壓力大,許多報表分析以及準實時分析無法在規定時間內完成。在系統主站部分引入Hadoop分布式存儲和計算框架,且要保留原有的功能架構,按照上述關鍵技術研究中的分析,在用電信息采集系統中主站架構中采用大數據分布式計算架構和傳統關系型數據庫并存的模式,將Hadoop分布式計算框架作為現有主站系統的補充。通過對主站系統現有功能進行重新規劃,以提升系統的整體性能。
優化架構將原有主站系統僅有生產數據庫的架構擴展為由生產數據庫、業務應用庫、歷史數據庫、及大數據分布式集群構成的新架構。通過從業務層面對業務進行切割,對現有業務和后期需要業務進行統計,切割出適合傳統數據庫架構上運行的事務處理業務和適合大數據技術架構上的分析統計業務,從而減輕生產數據庫的壓力。如圖3所示,前置采集服務器集群將采集到的用戶用電信息數據同時寫入原有生產數據庫和分布式計算集群中。
1)生產數據庫。
保留主站原有生產數據庫,將部分功能剝離出去,僅應用于系統采集數據的入庫。生產數據庫側重于數據寫入操作,以及與現場交互性較強,對時效性要求高的數據查詢、業務操作類應用功能,如電價下發、電價巡檢、實時費控等業務。作為數據采集唯一數據源,原則上,生產數據庫存儲最近3-6個月的數據。
2)業務應用庫。
用于采集數據的應用和統計分析,側重于數據的讀取以及上層的統計分析操作,為其他業務系統提供統一數據接口。原則上業務應用庫存儲數據范圍包括從生產庫同步的原始采集數據、全部檔案數據以及通過統計分析計算出來的報表數據。通過數據庫復制軟件,實現生產數據庫和業務應用庫的數據實時同步,統計分析數據則由業務應用庫和分布式計算環境產生。
3)歷史數據庫。
歷史數據庫主要分擔生產庫、業務應用庫數據存儲壓力,保證生產數據庫、應用分析數據庫不因數據量過大而造成性能的下降。歷史數據庫原則上只保留業務應用庫之前的原始采集數據(3年以前的數據)。歷史庫數據與業務應用庫數據同步可采用ETL數據抽取、存儲過程定時抽取等方式進行定時同步。
4)大數據分布式集群。
大數據分布式集群負責對數據存儲層的基礎數據進行分析計算,為上層業務應用提供數據支撐。前置采集服務器集群采集到的用戶用電信息數據通過流計算的方式寫入大數據分布式計算集群。通過實現海量數據實時處理及布式存儲架構,滿足不斷增長的終端帶來的海量數據實時處理需求。
用電信息采集系統架構優化選擇分布式并行計算、分布式存儲等大數據關鍵技術對系統主站架構進行改造,提升了用電信息采集系統整體性能,使之具備接入大量用戶的能力,并具備了實現“全覆蓋、全采集、全費控“目標的數據處理能力。
1)讀寫分離。
將大數據分布式集群加入用電信息采集系統主站架構中,實現了系統的讀寫分離。將對數據庫讀和寫的操作分離開,分別對應不同的數據庫服務器進行操作,有效地減輕數據庫壓力及I/O壓力。生產數據庫主要進行寫操作,大數據分布式計算集群及業務應用庫主要進行讀操作。當生產數據庫進行寫操作時,數據同步至分布式計算集群及業務應用庫,有效保證數據完整性。通過大數據分布式集群的引入,將統計分析類業務分割出去,實現采集平臺和應用平臺的分離,有效的解決系統規模的不斷增長導致的業務高峰時段的數據庫運行效率緩慢問題,提升了系統性能。
2)系統架構可擴展。
在用電信息采集系統架構調整過程中,將大數據分布式計算集群作為系統的補充引入原有的架構,原有架構功能保持不變,保證了用電信息采集系統在架構調整期間不受影響正常使用,也使得系統架構具有可擴展性。大數據分布式計算集群具有物理設備靈活部署的特點,作為架構中可靈活擴展的一部分,為后續系統面對不斷增長擴大的業務需求進行架構優化提供了擴展基礎。
3)提升數據分析能力。
結合用電信息采集系統海量數據環境、業務發展趨勢以及日益增長的決策分析需求,通過引入Hadoop平臺,在架構中運用分布式并行計算、分布式存儲等技術,大幅提升了用電信息采集系統的計算效率,有效解決了系統中統計類業務的計算及時性及數據完整性問題,提升了系統的數據分析能力。
大數據技術的引入已經成為解決用電信息采集系統瓶頸和業務高要求的重要手段。用電信息采集系統的數據量大、效率要求高的需求特點也迎合了大數據的技術特點。完善用電信息采集系統大數據平臺的建設將會給系統帶來更高的用戶體驗度。用電信息采集系統也可作為試點,為電力行業其他信息系統的發展指引方向,為電力大數據平臺的建設發展提供應用基礎。
[1]宋亞奇,周國亮,朱永利.智能電網大數據處理技術現狀與挑戰[J].電網技術,2013.
[2]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014.
[3]任仁.Hadoop在大數據處理中的應用優勢分析[J].電子技術與軟件工程,2014.
[4]黃偉,龐琳,曹彬,等.基于數據級任務分解的配電網分布式并行計算平臺[J].電網技術,2014.
[5]張迎.智能用電信息采集管理系統優化研究[D].華北電力大學,2013.
TP3
A
1674-6708(2015)149-0116-03
楊懿,工程師,從事營銷信息系統運維工作