葉茂 夏潤亮 劉穎 王樹偉
摘要:在基于大數據的模式下設計了一種省級水利數據中心的基本體系結構,數據組織模式和服務維護體系能夠優化省級水利數據中心的基本數據流程與存貯方法,高效處理水利行業海量歷史數據和實時數據,有效解決水利業務系統的異構信息和資源重構,以及提升資源利用效率,為省級水利數據中心的建設提供了全新的解決方向。
關鍵詞:水利;數據中心;大數據;Hadoop;數據處理
中圖分類號:TP274文獻標志碼:A文章編號:1008-1739(2018)17-60-3
Design on Provincial Water Conservancy Data Center Based on Big Data
YE Mao1, XIA Runliang2, LIU Ying1, WANG Shuwei1(1. China Institute of Water Resources and Hydropower Research, Beijing 100038, China; 2. Yellow River Institute of Hydraulic Research, Zhengzhou Henan 450053, China)
0引言
隨著水利信息化的高速發展,各省水利部門建設了數量龐大的水利信息系統。由于建設時間跨度較大和數據結構繁雜,導致很多業務系統逐漸成為了信息孤島,數據可復用率低,各系統之間數據由于數據異構[1]問題導致無法相互合理調用。因此,建設省級數據中心能夠有效地解決上述問題。
根據《全國水利信息化規劃》中的設計規范,傳統的水利信息化綜合體系物理層次由信息化保障環境、水利信息基礎設施和水利業務應用構成。其中核心業務是由信息匯集與存貯、信息服務和支撐應用3個邏輯層次構成[2]。
按照建立“三級兩域四區”[3]的統一規劃要求,作為國家水利數據中心的關鍵節點,省級水利數據中心具有數據多源、多維、大量和多態的大數據特性[4]。除數據整合與交換、在線事務處理及在線分析等常規水利業務應用外,還應具有存貯和應用高分遙感、視頻、GIS、物聯網等海量多媒體數據,以及云中獲得的經濟高效的計算與存貯資源,能支持高速寬帶移動應用,以及應用大數據技術實現水利數據的多維多尺度關聯分析以支持決策等,具有數據粒度精細、數據層次繁雜及省級行政邊界數據約束條件復雜等特點。
1體系結構
1.1總體架構設計
以傳統水利數據中心邏輯框架為基礎,構造支持大數據技術[5]中心的總體架構如圖1所示。
①由于安全性,私有云和混合云為主要的采用形式[4]。當條件具備時,運行環境可從單獨的環境遷移到公共云、政務云或水利云,實現計算存貯資源的高效應用,并為處理大數據提供優越的存貯與處理條件。②根據水利業務的特點,數據中心采用虛擬化信息資源組織,屏蔽了數據存貯的物理異構,采用關系數據庫與分塊式非結構化存貯相結合的存貯模式。③業務應用由服務平臺統一支撐,既有業務應用由操作數據存儲(ODS)直接提供服務,實現統一數據基礎。
1.2運行環境
中心運行環境主要包括計算、存貯硬件、軟件及網絡環境。硬件組成模式是雙機熱備式數據庫存貯、服務器組與多個應用服務器相配合,通常由虛擬化資源統一管理平臺、調度系統控制的存貯和計算服務集群構成。
1.3數據資源
中心將數據資源劃分為操作數據存貯(ODS)、結構化主數據庫(Master)、數據倉庫和非結構化數據的HDFS分塊存貯等部分[6]。通過建立資源目錄、多級元數據和對全庫數據進行對象化標識及按規則抽取與同步,實現資源的虛擬化組織,屏蔽了數據的物理存貯異構。
1.4應用平臺
應用平臺依據面向服務的體系結構(SOA),應用WebService技術、以JavaEE為基礎框架,將各類中間件、虛擬化資源、工作流、大數據流、批處理等應用以及支撐軟件的構件、容器和運行時的環境一并封裝為由資源管理、基礎服務、應用支撐和大數據支撐服務的應用服務平臺,實現統一的數據基礎和應用服務平臺支撐下的部門水利業務應用和跨部門協同業務定制,最大限度達到資源共享目標。
2數據結構、組織及服務與維護體系
2.1數據結構
大數據中心數據分層基本結構如圖2所示。
①數據準備:數據來源多為異構數據,需要對數據進行歸類匯集,ETL工具支持多種數據轉換源和目標,軟件易于部署和使用及轉換手段多樣化,經過數據ETL、提取、轉換和加載后入庫。
②存儲管理:中心主要存儲數據為關系型結構化數據和分布式非結構化文件,關系型數據庫一般存儲實時數據和元數據;分布式文件主要是歷史數據、文檔數據、圖像數據和視頻數據等非實時數據。
③計算處理和數據分析:通過MapReduce批處理,將大數據分解成小數據,解決單機運算效率問題。Storm可以處理海量的匯入數據流,以實時方式處理數據,并得到最后的結果。
④數據展現:大數據的數據應用可定制服務業務系統,對數據進行分析挖掘,自動獲取評價指標。通過建立直觀、簡潔、統一的人機交互界面將抽象雜亂的實時和歷史數據向客戶展示。
2.2數據組織
作為水利信息資源整合的基礎設施,需要對各類數據資源進行整合以實現共享。按照水利數據來源、分類與應用的特點,需要整合的水利數據,如圖3所示,主要有公共數據和各水利專業領域的水利專業數據兩大類。

基本方案是建立ODS,用于存貯、交換和同步來自各方面的結構化事務數據、實時數據及非結構化流等數據,并支持當前既有業務應用,形成數據中心的原始數據存貯。以ODS為基礎,建立統一的資源目錄、元數據和對象標識,據此建立唯一數據模型的結構化主數據庫(Master DB)和非結構化數據分塊存貯(HDFS),形成數據中心的核心數據存貯。核心數據存貯中的非結構化數據通過流處理,將其特征數據存入主數據庫,主數據庫數據經對象化抽取,形成主題數據庫;非結構化數據經批處理,與主數據庫和流處理的特征數據相融合,形成對象化數據組織,與主題數據庫一道支撐數據中的數據分析與決策支持應用。
數據中心的數據存儲區域主要由EDS區、ODS區和CDS區3個區域構成。①EDS數據緩沖區:用來保證數據交換過程中安全隔離和臨時存儲的存儲區,其數據結構與接入的應用系統保持一致;②ODS區:主要用于異構業務數據源的明細數據整合,進入數據核心區前的存儲集成,提供面向業務的、近實時的統一數據視圖,支持全局業務數據的查詢和分析;③CDS區:由主數據庫、分塊存貯、元數據(目錄、對象標識)庫、主題數據庫和對象數據存貯5個主要部分組成。
2.3數據集成
省級大數據中心面臨多個已經建成的信息系統中的數據集成,包括橫向和縱向2種方式。
(1)橫向數據集成
為確保數據的唯一性,需要對結構化數據建立相應的數據同步機制,實現業務系統后臺數據庫與ODS區數據庫之間的同步。數據同步完成后,將ODS區數據庫代替業務系統后臺數據庫。對于非結構化數據,由數據中心通過原系統提供的數據交換接口定時抽取、轉換后存入ODS結構化的基本信息數據庫和非結構化數據存貯中。新建數據庫原則上先實施標準化設計后,直接建立在數據中心ODS層或由數據中心實施數據復制。
(2)縱向數據集成
數據來源由下級單位上報或上級單位下達,數據交換服務將數據發送到數據臨時存儲區,然后再通過ETL方式將數據載入數據中心ODS層對應數據庫或存貯區中。
2.4數據服務方式
用戶不能直接訪問大數據中心的基礎實體數據,ODS區及CDS區中的Master數據庫和HDFS對外屏蔽,通過應用服務平臺構造數據視圖和主題數據庫及對象數據的方式對外提供服務。
①數據視圖的構建:ODS區數據資源需要提供既有系統以及部分業務系統訪問,但不直接將實體數據開放給業務系統和用戶,而是采用依托應用服務平臺,構造統一的數據視圖(包括對象視圖)間接訪問的方式,可在一定程度上保證數據安全和業務系統的穩定。當ODS區某一類數據庫或存貯因為新頒布了國家標準或行業標準,組織形式發生了變化,則只需要對數據(對象)視圖進行重新定義,不必對應用程序代碼進行修改。
②主題數據與對象數據:主題數據和對象數據主要為基于數據中心的數據綜合分析與決策類業務應用提供服務。數據中心根據用戶申請的主題進行數據組織,生成多維主題表或對象數據關系映射,通過應用服務平臺提供相應的工具軟件支持用戶的應用。
2.5數據維護模式
大數據中心統一實施對ODS和CDS數據的維護,主要包括按照有關規范建立的基礎數據庫、專業數據庫以及水利普查數據庫,并且通過ETL實現核心數據的同步與更新等。數據中心不對既有系統數據進行更新,既有系統在原系統基礎上數據更新完畢后,由數據中心定期將數據變更直接同步或抽取轉換存貯到數據中心ODS。
3結束語
綜上所述,省級水利數據中心作為核心的水利信息系統不但要支持水利業務應用間的數據共享和業務協同,還要支持水利綜合決策,成為水利信息化建設中涉及專業領域和機構部門最多、技術最復雜、應用最廣泛及建管最困難的系統工程。按照上述方法對省級水利大數據中心體系結構進行設計,保障大數據中心建設與應用目標的實現,對水利大數據中心的體系設計的科學化設計,對推動省級水利大數據中心建設和實現水利信息化科學可持續發展具有十分重要的意義與作用。
參考文獻
[1]艾萍,趙敏,岳兆新.基于虛擬化的水利數據共享平臺設計與實現[J].信息技術,2013,37(6):75-79.
[2]水利部.全國水利信息化規劃[R].北京:水利部,2012.
[3]莫榮強,艾萍,吳禮福,等.一種支持大數據的水利數據中心基礎框架[J].水利信息化,2013(3):16-20.
[4]葉楓,張鵬,毛聲錄,等.水利領域云計算的現狀分析與思考[J].水利信息化,2014(1):6-11.
[5]甘郝新,陳曉武,舒強.水利數據中心框架設計初探[J].人民珠江,2011,32(6):61-63,66.
[6]莫潔.基于統一的廣東水利信息化資源整合共享研究[J].水利信息化,2010(2):26-29,32.