李賢慧, 季勝鵬, 周 升, 陳 軍, 樓 平
(1.江蘇瑞中數據股份有限公司,南京 210000;2.國網浙江省電力公司電力科學研究院,杭州 310014;3.國網浙江省電力公司湖州供電公司,浙江 湖州 313000)
基于大數據技術的實時數據中心重構研究
李賢慧1, 季勝鵬1, 周 升2, 陳 軍3, 樓 平3
(1.江蘇瑞中數據股份有限公司,南京 210000;2.國網浙江省電力公司電力科學研究院,杭州 310014;3.國網浙江省電力公司湖州供電公司,浙江 湖州 313000)
提出了一種基于大數據技術的電網企業實時數據中心重構的方法。通過對實時數據中心數據接入接口的改造,實現實時數據接入大數據組件HBase;通過對HBase表結構設計及相關參數的調優,實現電網企業實時數據的標準化存儲;通過基于大數據組件設計符合實時數據中心規范的標準訪問接口UAPI,實現實時數據中心上層業務應用的遷移和平滑過渡。該方法的可行性已在多個省(市)電力公司得到驗證。
實時數據中心;大數據技術;HBase;實時數據管理;數據接入;重構
“十二五”期間,國家電網(以下簡稱國網)公司和南方電網公司建成了實時數據中心,實現了對電力生產運行過程中各業務應用生成的實時數據的按需存儲、整合、共享交換和計算加工,接入了用電信息采集、SCADA(監控與數據采集)、電能量、輸變電在線監測等業務系統的實時數據,支撐了大量業務應用的實時數據訪問服務。
隨著信息化技術的發展,大數據已成為當前數據處理領域的研究熱點[1-3],電網企業也在積極探索基于大數據的電網數據處理、分析、挖掘和應用[4-10]。電網企業依托大數據、云計算等新技術,提出了構建大數據平臺支撐數據存儲、整合、計算、分析和挖掘等戰略規劃。因此,原有實時數據中心有必要基于大數據技術進行重構,通過在實時數據中心引入大數據技術,可以優化數據整合、數據存儲、數據計算、數據分析、數據服務能力,支撐業務應用建設。
實時數據是國網公司四大數據類型之一(結構化、非結構化、電網空間和實時數據),是公司設備狀態監測、輔助決策分析、大數據挖掘等的重要基礎。根據公司“十二五”規劃,實時數據中心是公司實時數據按需存儲、整合、共享交換、計算加工和標準訪問的場所,是為智能電網和SG-ERP各業務應用(特別是跨專業、跨部門業務應用)在實時數據層面提供全面支撐的信息基礎設施。
以國網實時數據中心為例,覆蓋數據處理、數據加工、數據質量、元數據管理等9大功能模塊、180余個子功能模塊。實現了與電網運營監測、營銷稽查監控等21類業務應用的集成工作,在各單位深入挖掘平臺應用需求,開展與“量價費損”、一體化電量與線損等核心業務應用的集成工作,覆蓋了營銷、運行檢修、運行監控、發展策劃等部門。已完成調度EMS(能量管理系統)、用電信息采集等11類數據源的實時數據接入,平臺接入量測點數達17.58億,磁盤空間占用總量192.46T,月增長10.3T。國網實時數據中心的總體架構見圖1。

圖1 國網實時數據中心架構
根據采集監測數據的總體規劃,基于大數據平臺技術架構的實時數據中心組件遷移改造工作主要包括數據接入改造、數據存儲、應用查詢與共享、歷史數據遷移、實時數據管理、業務應用遷移,最終通過相關大數據技術的應用,實現采集監測數據的接入,提升采集系統的處理能力、海量存儲能力,并支持后續對采集監測數據的離線分析應用,滿足業務應用上對各類數據的深度應用和分析挖掘需求。重構總體架構見圖2。

圖2 重構總體架構
(1)數據接入改造。
對原實時數據中心數據接入組件進行改造,在支持實時數據中心數據接入的同時實現將數據接入大數據平臺,完成數據接入接口改造,保障數據質量與有效性。
(2)數據存儲。
實時數據的訪問對時效性要求高,具有斷面訪問等特點,需針對各類實時數據的使用場景進行綜合分析,設計合理的存儲模型,以支撐實時數據的高效查詢與快速存儲。
(3)查詢與共享。
為使實時數據中心業務應用能平滑過渡到大數據平臺,也為了簡化實時數據的訪問復雜度,開展基于大數據平臺接口封裝UAPI接口,實現新老系統的平滑過渡。
(4)歷史數據遷移。
設計研發歷史數據遷移工具,完成各業務系統存量實時數據的遷移,數據可從實時數據中心遷移到大數據平臺,也可從原業務系統數據庫遷移到大數據平臺。
(5)實時數據管理。
對原有實時數據中心實時數據管理模塊進行重構和遷移,完成可視化實時數據管理工具、數據質量、訪問服務、計算服務等模塊的遷移和重構。對接入的各類數據,在進入大數據平臺之前,需進行數據的預處理(即清洗和規范),對原數據中的噪聲、數據格式不規整等問題進行處理;同時,數據的存儲模型非常關鍵,在大數據應用過程中,將數據處理成需要的存儲格式。
(6)業務應用遷移。
對原有基于實時數據中心統推、自建、個性化二次開發等業務應用進行遷移改造,實現基于大數據平臺的遷移和重構,保證原有業務應用的連續性和平穩過渡。
3.1 數據接入改造
分析域采集監測數據需要接入的數據來自于現有采集監測類業務系統,數據接入面臨系統數量多、開發廠商眾多、數據格式不統一、接口形式多樣等困難,因而數據接入的工作量巨大,綜合分析各類數據源,認為有2種數據接入方式(見圖3):第1種,重構原實時數據中心的接入組件,將其提升為分析域的接入模塊,通過重構后的模塊進行“一發雙收”,為全業務統一數據中心分析域提供數據。第2種,研發全新的數據接入模塊,與各業務系統進行對接,將數據接入至分析域數據中心。
當前,信息通信部門主要通過實時數據中心接入相應的采集監測數據,其拓撲結構見圖4。
改造實時數據中心接入組件和重新建立數據接入組件的接入拓撲見圖5。

圖3 數據采集接入2種方式

圖4 現有實時數據中心接入組件

圖5 改造后實時數據中心接入組件
重構實時數據中心接入組件的方式主要優點如下:
(1)原有的各業務系統無需感知,在數據需求不發生變化的情況下不需要做任何變化,避免了與各業務系統再進行一次溝通、協調接口的工作,并避免了各業務系統端的開發工作。
(2)不會增加原有各業務系統的壓力。
(3)接入組件屏蔽了各種復雜性,實時數據中心和大數據平臺均無需感知前端對接接口的差異性,有利于以后的擴展。
(4)極大縮短了數據接入的工期,降低了建設代價。
重構后的數據采集組件總體結構見圖6。
各系統產生的原始數據直接來自于源系統存儲模式,在進入大數據平臺列式存儲前需進行轉換,進行必要的規范化處理,否則信息無法接入大數據平臺。其次業務應用可能產生增量計算需求,需要在入庫前進行流式增量計算(見圖7)。
數據處理的整個架構按照管道過濾器的方式來進行設計,數據在各個管道中進行流轉,每個處理過程為一個線程任務,所有過程以流水線方式串聯起來形成完整的處理過程。每一個過濾器均為一個處理單元,設置為一個處理規則,最終,將數據處理成目標格式或計算結果。

圖6 重構后的數據接入組件

圖7 增量計算示意
3.2 數據存儲
數據存儲環節實現對分析域采集監測數據的分布式存儲(見圖8)。按照國網公司大數據平臺的統一規劃,大數據平臺主要有分布式列式數據庫、分布式內存數據庫、分布式數據倉庫等,原則上,建議采集監測數據存入列式數據庫中,并將近期數據(當前半天或者一天內)置于緩存中,便于對于實時性要求較高的應用進行處理。

圖8 實時數據存儲示意
采集監測數據量大,數據有其固定格式,查詢模式以批量查詢和斷面查詢為主,在數據讀寫方面,寫入數據要求很高的吞吐量,讀取數據強調低時延。為滿足這些存儲需求,數據存儲方面首先在設計上需要有緩存機制,提高訪問效率;其次系統要具備良好的高可擴展性以應對數據的不斷增長;同時還需要關系型數據庫存儲經流計算或離線計算程序計算得出的一些統計信息。
(1)數據存儲策略。
為了提高數據訪問效率,將近期數據存儲在數據緩存中,將長期數據存儲在“列式數據庫+分布式文件系統”中。而關系型數據庫系統主要存儲大數據平臺流計算或離線計算過程中需要保存的計算結果集。
(2)采集監測數據存儲模型。
對于分布式緩存系統,需要設計其鍵值模型,對于一般的采集監測類數據,以“測點編號+時間戳”為RowKey前綴,以量測值為Value將近期數據寫入緩存。應用系統進行數據查詢時,首先查看數據是否存在于分布式緩存中,如找到則返回,反之從列式存儲中進一步查詢獲取。
采集監測數據進入系統后,最終存儲在“分布式列式數據庫+分布式文件系統”中。考慮到分布式列式數據庫原始接口寫入吞吐量并不理想,為進一步提高數據加載效率,通過分布式文件系統Batch Load方式將數據循環導入分布式列式數據庫中。分布式列式數據庫中需結合應用場景對數據存儲模型進行設計,比如批量查詢業務場景,可以選擇以“測點編號+時間戳”為Rowkey前綴,列族為t,以時間戳后綴為列,以量測值為列對應的值。需要指出的是,當前的分布式列式數據庫中存儲模型的設計方法都在假設業務查詢場景存在“二八”現象,即認為業務應用要么以批量查詢為主,要么就以斷面查詢為主,因此如果遇到一些批量查詢和斷面查詢都很頻繁的業務應用,則需要重新調整存儲模型設計。
3.3 實時數據管理
基于大數據平臺總體技術架構,借鑒實時數據中心的研發思路,研發實時數據管理模塊(見圖9),支持對測點描述數據、實時數據的管理。具體包括:
(1)研發實時數據可視化管理模塊,提供在大數據平臺環境下支持測點數據的可視化增加、刪除、修改、查詢功能。
(2)研發測點數據質量模塊,實現基于大數據平臺的內部數據整理與數據處理;研發實時數據補招模塊,在大數據平臺環境下支持對量測數據根據指定時間段、指定數據源的補招等。
(3)實現實時數據訪問,提供對外數據訪問服務、服務內容配置、數據訪問監測與控制管理及訪問異常處理。通過UAPI、Webservice等方式對外提供實時數據的專用訪問服務。
(4)基于大數據平臺提供針對業務的特定計算配置功能,為應用提供數據側計算服務。

圖9 實時數據管理
3.4 應用查詢與共享
數據應用與共享環節主要功能見圖10,可以實現:已建采集監測數據應用系統遷移至大數據平臺;采集數據對外的統一共享服務。

圖10 應用查詢示意
(1)“搬數據”到“搬計算“的應用改造。
基于大數據平臺,利用分布式列式數據庫存儲采集監測數據,同時可通過分布式計算,結合其他業務數據,支撐對采集監測類數據的計算分析,實現從“搬數據”到“搬計算”的應用改造,即原則上不對數據進行大規模搬運,而是將業務應用的數據分析計算在大數據平臺中實現,返回計算結果給業務系統,以減少采集監測業務數據庫壓力,提升用采數據分析應用的構建效率。
(2)采集數據共享服務構建。
針對部分采集監測數據的查詢類操作或必要的子集數據共享,提供符合國網實時數據訪問標準的UAPI接口、大數據平臺通用的HBase-API接口、類SQL的JDBC數據訪問接口,支撐斷面查詢、批量查詢和特定邏輯的查詢。其中,通過UAPI服務,實現外部業務系統對列式數據庫、數據緩存系統的統一訪問,同時實現外部系統與列式數據庫/數據緩存系統的解耦。通過SQL服務,實現外部業務系統對內部列式數據庫、關系型數據庫、分布式數據倉庫的統一邏輯訪問,可對測點數據、關系型數據進行統一訪問,降低業務系統根據業務模型訪問實時數據的復雜度。
4.1 歷史數據遷移
目前,各省(市)公司實時數據中心存儲的實時數據從數TB到數十TB不等,根據項目要求,需要將歷史數據遷移入大數據平臺。
目前,已接入實時數據中心的量測類系統多達11個,數據量大小不一,完成一次歷史數據遷移用時從數小時到數天不等,且不同系統歷史數據導入導出形式各不相同,需要針對各系統開發專用的歷史數據遷移工具。
4.2 業務應用遷移
全網共有40多個基于實時數據中心的業務應用,各省(市)公司情況不盡相同,隨著各公司分析域建設的推進,實時數據將逐步遷入大數據平臺,同步對原有基于實時數據中心統推、自建、個性化二次開發等業務應用進行遷移改造,實現基于大數據平臺的遷移和重構,主要包括:
(1)實時數據中心原有業務應用的元數據存儲于關系型數據庫,在實現元數據遷移到大數據平臺關系庫基礎上,通過關系型數據與業務應用的雙向調整,實現兩者的無縫融合。
(2)保證基于實時數據中心的訪問接口標準和規范基本不變,在實現基于大數據平臺標準訪問接口的基礎上,對原有業務應用進行適應性調整,保證原有業務應用的連續性和平穩過渡。
(3)通過原有實時數據中心計算服務、訪問服務等模塊的重構,基于大數據平臺架構特點,實現原有業務應用的改造、調整,保證滿足原有業務應用的功能與性能要求。
提出一種基于大數據技術的電網企業實時數據中心重構整體解決方案。通過對實時數據中心接入接口的改造,實現實時數據接入HBase;通過對HBase表結構的合理設計和參數的調優,支撐實時數據的快速存取;通過對實時數據中心UAPI基于大數據技術的重構,支撐未來應用的平穩過渡。重構后,HBase支撐了電網企業實時數據的集中存儲與訪問。
HBase作為通用的K-V(主存健值)數據庫,其對具體場景的適應能力還需進一步優化,具體包括:
(1)K-V數據模型要經過大量優化設計才能滿足“測點ID,時間戳,值”采集數據模型,并且在性能上要低于實時數據庫。
(2)對于時序采集數據復雜應用場景,如采集頻率不同、周期性采樣或變化采樣、斷面查詢和曲線查詢等,簡單的HBase難以支撐。
(3)HBase在外部大量數據快速寫入情況下會自動觸發HRegion分拆過程,導致數據接入速度波動明顯,高峰時時效性下降。
[1]A MCAFEE,E BRYNJOLFSSON.Big data∶the management revolution[J].Harvard Business Review,2012,90(10)∶60-66.
[2]V MAYER-SCHNBERGER,K CUKIER.Big Data∶A Revolution That Will Transform How We Live,Work,and Think[J].Information,2014,17(1)∶181-183.
[3]陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013,25(s1)∶142-146.
[4]王繼業.大數據:電網企業創新發展驅動力[J].國家電網,2015(12)∶58-61.
[5]張東霞,苗新,劉麗平,等.智能電網大數據技術發展研究[J].中國電機工程學報,2015,35(1)∶2-12.
[6]朱朝陽,王繼業,鄧春宇.電力大數據平臺研究與設計[J].電力信息與通信技術,2015,13(6)∶1-7.
[7]朱艷偉,黃森炯,蔡一駿,等,電網大數據時代調控管理應對策略研究[J].浙江電力,2015,34(7)∶30-32.
[8]賀琛,王彥波,王云燁.基于電力通信傳輸網大數據的溫度監測系統研究[J].浙江電力,2016,35(7)∶65-68.
[9]潘堅躍,趙海,施婧.多系統監測與大數據分析在供電搶修服務中的應用[J].浙江電力,2015,34(8)∶59-61.
[10]王遠,陶燁,蔣英明,等.智能電網時序大數據實時處理系統[J].計算機應用,2015,35(s2)∶88-92.
(本文編輯:方明霞)
Research on Real-time Data Center Reconstruction Technology Based on Big Data
LI Xianhui1,JI Shengpeng1,ZHOU Sheng2,CHEN Jun3,LOU Ping3
(1.China Realtime Database Co.,Ltd.,Nanjing 210000,China;2.State Grid Zhejiang Electric Power Reseach Institue,Hangzhou 310014,China;3.State Grid Huzhou Power Supply Company,Huzhou China)
This paper presents a new method for the reconstruction of the real time data center of power grid enterprises based on big data technology.Through data interface transformation of real-time data center,realtime data can have access to HBase;By optimization of HBase table structure design and parameters,realtime data storage standardization of grid enterprises is implemented;via big data based standard access interface UAPI with its component design complying with norms of real-time data center,upper-level services of real-time data center can be migrated and smoothly transited.This method is verified in many province(prefecture)level electric power companies.
real-time data center;big data technology;HBase;real-time data management;data access;reconstruction
TP311.13
:B
:1007-1881(2017)03-0075-06
2016-10-24
李賢慧(1983),男,工程師,主要從事實時數據庫、大數據平臺、MPP數據庫研究。