999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

黃河多源異構凌情數據倉庫初步研究

2022-02-13 11:50:04劉吉峰羅勐梁聰聰
人民黃河 2022年2期

劉吉峰 羅勐 梁聰聰

摘 要:氣象、水文、工程等海量數據信息和文檔資料是防凌減災分析決策的基礎。以多源異構數據倉庫建設為目標,針對防凌減災各項業務流程和數據需求,提出黃河凌情數據倉庫架構體系。依據防凌工作主題設計數據倉庫多維數據模型。在此基礎上,利用ETL工具對原始觀測數據進行集成整合,建立黃河多源異構凌情數據倉庫,并集成在黃河防凌智慧平臺。通過數據倉庫可以為防凌業務提供大量分析型數據信息,提高黃河防凌減災綜合決策水平和工作效率。

關鍵詞:凌情;多源異構;數據倉庫;黃河

中圖分類號:P337;TV882.1

文獻標志碼:A

doi:10.3969/j.issn.1000-1379.2022.02.006

引用格式:劉吉峰,羅勐,梁聰聰.黃河多源異構凌情數據倉庫初步研究[J].人民黃河,2022,44(2):27-31.

Abstract: Massive meteorological, hydrological and engineering data was the basis of decision analysis of ice flood prevention and disaster reduction. Data warehouse framework of ice condition was built based on the work process and data requirements of ice flood control and disaster reduction;and data cubes were designed according to the themes of ice flood control work. Based on this, the Yellow River multi-source heterogeneous data warehouse of ice condition was founded by utilizing ETL (Extract-Transform-Load) tool to integrate and transform the original observation data. Decision level and operating efficiency on ice flood prevention business would be improved by using the data warehouse which could provide massive analytic data.

Key words: ice regime;multi-source heterogeneous;data warehouse;Yellow River

黃河凌汛災害是我國冬春季節大江大河中最突出、最重大的自然災害,具有成因復雜、突發性強和防控難度大等特點[1]。防凌減災工作涉及氣象、水文、工程管理等多個領域,隨著水利信息化的快速發展,凌情監測數據日益豐富,類型多樣,數量龐大,具有多源異構特征,人民治黃70多年來,積累了大量凌情數據信息,為黃河凌汛安瀾提供了重要數據支持。

數據倉庫是一個為決策支持服務的、面向主題的、集成的、相對穩定的、反映歷史變化的數據集合[2],是把操作型數據提取轉化為分析型數據的一種信息技術[3]。數據倉庫技術在20世紀70年代開始萌芽,90年代數據倉庫概念逐漸確立并得到蓬勃發展,隨著計算機技術的發展,數據倉庫技術逐漸在金融、保險、交通、零售、電信、醫療等各個行業得到廣泛應用[4]。

數據倉庫和數據挖掘技術是水利信息化的重要實現工具[5]。目前水文數據庫提供的信息服務以聯機事務處理方式為主,較少提供決策分析型數據服務[6-7],不能很好滿足中央防災減災新理念、新要求[8]。目前正值水利信息化快速發展時期,提升水利大數據分析處理能力和共享服務水平,有助于提高水情現代化、智能化水平[9]。因此,借助數據倉庫技術,對原始凌情數據進行提取、轉換、加工處理等,形成可用于防凌業務的專用數據集,建立黃河多源異構凌情數據倉庫,可以有效整合凌情數據資源,為黃河防凌減災決策業務提供綜合分析決策工具。

1 凌情數據倉庫架構體系

建立凌情數據倉庫的目的是完成對黃河凌情數據的快速準確提取、統計、分析,為防凌業務提供高效決策依據。凌情數據倉庫建設主要有以下幾個步驟:①源數據的分析梳理,對現有凌情數據的種類、存儲形式、軟硬件環境進行分析研究;②針對防凌業務需求、數據源和數據流程,確定防凌減災業務對應的倉庫主題;③數據倉庫設計,根據業務需求和凌情數據特性,進行數據倉庫設計;④開發ETL(Extract-Transform-Load,抽取、轉換和加載)工具,按照業務主題和數據源,通過抽取、轉換和加載,將所需數據加載到數據倉庫;⑤數據倉庫管理和更新;⑥數據倉庫軟硬件環境搭建。

按照基礎數據層、數據處理層、數據匯集層、應用服務層等4層架構體系設計凌情數據倉庫系統,根據數據倉庫主題和數據流程建立適合各項防凌業務工作的相關數據模型。

1.1 基礎數據層

黃河流域相關凌情基礎數據為凌情數據倉庫的數據源,凌情數據倉庫為防凌工作提供數據分析成果。基礎數據按照數據的結構類型分為結構化數據和非結構化數據。結構化數據按照數據采集時間和項目的不同,分別存儲于不同的基礎數據庫中,凌情數據倉庫設計所需的支撐數據庫有關于水情、氣象、凌情的歷史類數據庫和實時類數據庫。歷史類數據庫提供經水文整編之后的數據,該類數據經人工審核后整理入庫,數據清潔度高。實時類數據庫包含人工報汛類和儀器自動報汛類數據,人工報汛類數據為采集數據經人工審核后報汛入庫,清潔度較高;儀器自動報汛類數據為儀器采集后未經審核直接入庫,該類數據清潔度較低。非結構化數據主要包括與凌情有關的圖片、視頻、文檔等數據,以文件集的形式存儲,該類數據為采集并經人工整理后存入文件集。

1.2 數據處理層

該層鏈接基礎數據層和數據匯集層,其主要任務是按照數據倉庫主題所需數據的標準對基礎數據層中的數據進行搜尋、抽取、清洗、轉換和計算。數據倉庫中的數據為分析型數據,其數據清潔度、數據類型、格式等與基礎數據庫中的操作型數據有很大的差別。為滿足分析型數據的需求,數據處理層設置質量控制、數據轉換、數據計算等模塊用于源數據的分析處理。

1.3 數據匯集層

該層主要實現將處理后的綜合類凌情數據裝載于倉庫主題對應的表結構。凌情數據倉庫表結構根據具體凌情業務所需數據的格式、時空尺度、采集項目類型等進行設計。經處理之后的數據按照倉庫主題需求進行數據分類裝載。

1.4 應用服務層

應用服務層主要包括數據倉庫中數據資源的應用,如數據資源訪問及調用、數據資源管理等業務。

數據倉庫數據資源訪問及調用服務部署于服務器上,采用Web API服務的形式提供,根據對數據倉庫和數據主題的分析,將數據倉庫數據資源訪問服務劃分為水文分析類服務、氣象分析類服務、凌情分析類服務、工情分析類服務、工程地理類服務。數據的輸入方式均為條件輸入,比如輸入測站編碼或名稱、開始時間、結束時間、統計類型等,根據輸入的條件,返回符合條件的json或xml數據。

數據資源管理是對這些基礎數據的管理,包括增加、修改、刪除和查詢等操作,以系統的方式進行展示和操作,并對這些數據進行維護管理。其功能通過數據資源管理平臺實現,凌情數據倉庫數據資源管理平臺采用B/S架構開發,以實現對數據倉庫的數據管理和展示為主要目的,數據倉庫所涉及的水文信息、氣象信息、凌情、工程、工程地理等信息通過ETL技術從實時水雨情數據庫、歷史凌情數據庫、歷史徑流數據庫、調水數據庫取得。主要功能包括凌情動態監測、凌情預警預報、凌情災害防控、防凌水庫調度和系統管理。

2 凌情數據倉庫設計

基于防凌業務需求設計凌情數據倉庫。具體過程包括:根據業務流程確定數據倉庫主題、概念模型設計、邏輯模型設計和物理模型設計等。

2.1 確定數據倉庫主題

數據倉庫主題是高層次的數據歸類的抽象,每一個主題域對應一種凌情數據分析領域,包括時空范圍的數據序列。根據防凌業務類型和數據分析需求確定主題。

數據倉庫的建立主要為以下4個方面的防凌減災業務提供數據支撐:①凌情監視分析,監視河道實時凌水情變化,包括河道實時水位、流量、槽蓄水增量、引退水信息等變化;②凌情預警預報,根據當前防凌工作要求,分析預測流凌、封河和開河日期,以及開河期凌峰流量和最大10 d水量預報;③凌情風險分析,在凌情定點監測、巡測、遙測和凌情預報等基礎上,分析凌情發展趨勢和潛在風險;④凌情災害防控和搶護,災害防控主要包括水庫防凌調度、緊急分凌、人工破冰、現場救災等。

凌情數據倉庫直接為黃河防凌調度服務,基于防凌業務確定4類凌情數據倉庫主題域,即凌情監視分析、凌情預警預報、凌情風險分析、凌情災害防控與搶護等。在這4類主題域范圍內根據具體業務需求設置倉庫主題,如在凌情預警預報主題域范圍內,根據不同凌情預測內容可以分為流凌預報、封河預報、開河預報等主題。

2.2 概念模型設計

概念模型設計是把各個主題的業務流程抽象出實體和關系,確定事實和度量、維和層次,形成凌情數據的多維架構。其目的是根據數據倉庫主題重新梳理凌情數據,使得原來分散的凌情數據在邏輯上能更有效地集成。概念模型直接面向防凌業務各個主題,因此更具有專業性。

以封河預報主題為例對概念模型設計進行說明。封河預報主題的主要目的是基于數據倉庫技術,對不同流量等級、降溫過程以及河道條件等影響因子共同作用下的封河條件進行分類討論,并利用水情凌情動態監測數據、水庫調度計劃、氣象預報等信息對未來凌情發展變化趨勢進行綜合性預報,為防凌部門防凌減災提供技術支持。

基于業務流程和數據需求確定封河預報主題,推導出事實、度量、維、層次等,即可初步確定封河預報數據的多維架構,見圖1。封河預報事實可對應時間、空間和站點類型3個維度。

2.3 邏輯模型設計

邏輯模型直接反映防凌業務需求,對概念模型進行實現,并引導系統的物理部署,是概念設計和物理實現之間的紐帶。其設計是整個凌情數據形式化表達的實施落地環節,也是凌情數據倉庫設計工作的關鍵環節。模型設計時形成實際的表單,對表單的描述記錄在數據倉庫的元數據中。該階段主要內容包括:一是概念多維向邏輯多維模型的轉化;二是定義ETL流程,完成數據映射過程的設計工作。

根據事實表和維度表的關系,把數據模型分為星型模型、雪花型模型及星座模型。根據封河預報數據的特點,結合多維模型結構的簡潔性,封河預報事實表采用星型模型進行多維數據建模。星型模型的維度建模由一個事實表和一組維表組成,以事實表為核心,維表圍繞核心成星型分布,維表只和事實表關聯,維表之間沒有關聯。封河預報事實通過外關鍵字分別和時間維表、空間維表、站點類型維表的主鍵鏈接,形成星型多維數據模型,見圖2。

2.4 物理模型設計

數據倉庫的物理模型就是數據倉庫邏輯模型在物理系統中的實現模式。物理模型設計根據業務需要和數據倉庫框架的特點,對物理設備上的存儲結構和讀寫過程進行設計,包括表的索引、數據約束、數據類型和格式等。凌情數據倉庫利用SQL Server 2014進行物理設計實現,倉庫建立各主題所需表的存儲空間,建立凌情數據各基礎數據庫與倉庫主題之間的映射關系。

3 凌情數據倉庫ETL

ETL應用作為構建數據倉庫的重要一環,對數據倉庫起著無可替代的作用,ETL工具負責將異構數據源中的數據(如關系數據、平面數據文件等)抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。

3.1 ETL工具

3.1.1 ETL流程

ETL是將黃河流域實時雨水情數據庫、凌情歷史數據庫和收集整理的歷史凌情數據經過抽取、清洗、轉換之后加載到凌情數據倉庫的過程,目的是將分散、零亂、標準不統一的數據整合到一起,為黃河智慧防凌平臺提供分析數據,ETL流程見圖3。

3.1.2 ETL選擇

根據當前幾款主流的ETL應用工具平臺,并結合凌情數據倉庫的實際應用和需求,黃河流域多源異構凌情數據倉庫選擇kettle工具作為凌情數據倉庫的ETL工具。kettle工具具有以下優點:①兼容性高;②高效工具集;③圖形界面設計;④定時操作;⑤免費開源。

3.2 ETL應用

3.2.1 數據抽取

數據抽取主要是從黃河流域實時、歷史氣象水文數據庫中抽取數據。從數據庫中抽取數據一般分為全量抽取和增量抽取兩種方式。防凌重點關注站點的歷史氣象、水情、凌情數據通過全量抽取的方式實現數據的復制;實時水雨情數據庫、歷史凌情數據庫中有些數據是不斷更新的,通過增量抽取實現數據倉庫的數據更新。

3.2.2 數據清洗

數據清洗是指將不同來源的黃河流域歷史、實時氣象水文數據進行清洗,將不符合要求的數據、臟數據、重復的數據和不完整數據過濾掉。比如水位數據不在正常值范圍內的通過數據清洗全部清除。

3.2.3 數據轉換

數據轉換主要是將抽取的黃河流域氣象水文數據按照凌情數據倉庫表結構要求進行轉換和加工。比如年月旬日內均值、最大值和最小值以及出現時間的數據轉換以及行轉列等操作。

3.2.4 數據加載

數據加載是將轉換和加工后的數據加載到凌情數據倉庫中。有兩種加載方式,一是直接在ETL作業中用SQL語句進行插入、更新和刪除操作,二是在ETL作業中采用批量加載的方法。第一種操作方式進行了日志記錄并且是可恢復的,第二種操作方式批量加載操作易于使用,并且在加載大量數據時效率更高。

3.2.5 非結構化數據的處理

非結構化數據(圖片、文檔、視頻、音頻等)的處理主要采用kettle ftp文件傳輸的方式實現,利用kettle ftp 文件傳輸功能,在原始服務器中建立ftp服務器,在目標服務器(數據倉庫服務器)中利用kettle ftp文件傳輸功能,通過ftp賬戶實現ftp服務器的鏈接,并建立相關作業定時調度。讀取原始服務器中相關庫表的非結構化數據路徑,并根據作業定時調度設置的抽取時間、次數,從而實現非結構化數據從原始服務器到目標服務器的全量抽取、增量抽取和遷移,文件相關的其他屬性(文件名稱、編碼、時間)和路徑采用結構化數據抽取方式,與非結構化數據抽取采用同一作業定時調度,以保持數據的一致性、完整性,從而完成非結構化數據及其相關的結構化數據的ETL應用和處理。

3.2.6 任務執行周期設定

凌情數據倉庫根據數據的時間尺度分為日、旬、月、特征期、年。數據任務的執行周期根據數據的時間尺度設定。日執行數據設定為每日固定時間加載前一日數據,旬(月、年)執行數據設定每旬(月、年)第一天固定時間加載前一旬(月、年)數據,特征期執行數據為特征期結束后的次日加載前一特征期數據。

4 凌情數據倉庫技術架構和運行環境

4.1 數據倉庫技術架構

為了提高系統的開發效率,使數據資源得以集成和復用,數據倉庫系統總體框架(包括數據資源訪問服務和數據資源管理平臺)采用B/S結構體系、Web API服務、Java平臺和spring boot+mybitis架構。①B/S模式可簡化系統管理流程,用戶、管理員可以在網絡環境中通過各類終端完成數據操作。②凌情數據倉庫通過Web API在標準HTTP協議環境下提供了靈活高效的對各類終端支持良好的數據訪問服務,尤其是對移動客戶端提供良好的支持,便于凌情數據倉庫與其他防凌減災應用系統集成,為各類防凌減災業務提供高效可靠的凌情數據服務[10]。③對于凌情數據倉庫,Java優秀的跨平臺能力為數據倉庫的多源異構特性提供了良好的支持和后續迭代開發潛力。④spring boot+mybatis架構可快速高效地構建基于凌情數據倉庫數據的各類業務應用系統,大幅縮減開發周期、成本,加速應用系統的更新迭代,使其可以更快地投入生產應用。

4.2 數據倉庫運行環境

凌情數據倉庫采用集中部署方式,配置機架式服務器一臺。服務器硬件配置充分考慮了數據倉庫運行的性能和安全性需求,配置CPU:Intel Xeon 5118×2;內存:16 GB DDR4×2;硬盤:10K 1.2T SAS×4;萬兆網絡接口2個,提供鏈路冗余;750W電源2個,提供供電冗余。服務器安裝Windows Server 2012R2 64位操作系統,按照RAID5方式配置磁盤陣列,實際可用硬盤容量為3 349 GB,可保證高速存儲的情況下任一磁盤損壞時不丟失數據,滿足凌情數據倉庫大容量存儲要求,并保障數據安全。

5 結 語

(1)基于凌情數據特點和黃河防凌業務需求,設計開發面向主題的多維數據模型,利用ETL工具對觀測數據進行集成整合、實現數據的全量匯集和增量更新,搭建數據資源管理平臺、實現對數據倉庫的數據管理和展示,初步建成黃河多源異構凌情數據倉庫。黃河凌情數據倉庫已經集成于黃河防凌智慧平臺并試運行一年,明顯提高了凌情數據質量和使用效率,為黃河防凌業務提供了大量分析型數據信息,有助于提高黃河防凌減災綜合決策水平和工作效率。

(2)為了更充分利用氣象、水文和凌情信息,需要在凌情數據倉庫的基礎上,根據防凌業務需求,提高數據分析處理和數據挖掘能力,為凌情形勢分析、預測預報和防凌調度等提供更加高效的決策支持。

(3)隨著水文測報能力大幅度提升,觀測數據類型和數量急劇增加,“分布式存儲+數據倉庫+數據挖掘”模式可以更好地解決水文信息化中海量多源異構水文數據的存儲、交換和應用問題。

參考文獻:

[1] 郜國明,鄧宇,田治宗,等.黃河冰凌近期研究簡述與展望[J].人民黃河,2019,41(10):77-81.

[2] INMON W H.Building the Data Warehouse[M].New York:John Wiley & Sons,1996:35-45.

[3] 楊莉國,歐付娜,劉慶海,等.數據倉庫相關技術研究綜述[J].電腦知識與技術,2011,7(10):2234-2236,2255.

[4] 李春葆,李石君,李筱馳.數據倉庫與數據挖掘實踐[M].北京:電子工業出版社,2014:12-21.

[5] 李瓊.數據倉庫與數據挖掘技術在水利信息化中的應用[J].前沿,2005(12):59-61.

[6] 胡健偉,余達征,陳雅莉.國家水文數據庫建設探討[J].水利信息化,2017(2):1-4.

[7] 章樹安,吳禮福,艾萍.對建設水文數據倉庫的初步研究[J].水文,2007,27(1):17-21.

[8] 劉志雨.我國水文監測預報預警業務展望[J].中國防汛抗旱,2019,29(11):31-34,61.

[9] 江子皓,王慧亮,吳澤寧,等.城市暴雨洪澇敏感性因素數據倉庫構建與應用[J].人民黃河,2019,41(4):27-30.

[10] 徐路凱,李書霞,于國卿.黃河智慧防凌云平臺設計與研究[J].人民黃河,2021,43(2):66-69.

【責任編輯 張 帥】

主站蜘蛛池模板: 免费国产一级 片内射老| 精品国产aⅴ一区二区三区| 久久中文字幕av不卡一区二区| 欧美精品v欧洲精品| 国产日韩av在线播放| 日本a级免费| 天天躁夜夜躁狠狠躁图片| 成人自拍视频在线观看| 欧美黄网在线| 91精品久久久无码中文字幕vr| 免费在线国产一区二区三区精品 | 2020最新国产精品视频| 成人在线综合| 欧美日韩午夜| 欧美一级视频免费| 国产极品美女在线| 91精品国产91久久久久久三级| 幺女国产一级毛片| 在线视频一区二区三区不卡| 亚洲性日韩精品一区二区| 国产1区2区在线观看| 国产门事件在线| 久久精品这里只有国产中文精品| 国产资源免费观看| 亚洲欧洲日本在线| 伊人成人在线视频| 在线观看亚洲成人| 久久毛片基地| 欧美视频二区| 91系列在线观看| 精品午夜国产福利观看| 国产成人资源| 国产h视频免费观看| 久久性妇女精品免费| 日本www色视频| 国产大片喷水在线在线视频| 欧美不卡视频在线| 青青草原国产精品啪啪视频| 亚洲色精品国产一区二区三区| 免费看的一级毛片| 久久精品无码专区免费| 亚洲国产精品久久久久秋霞影院 | 久久综合色视频| 自慰网址在线观看| 国产福利免费观看| 国产精品冒白浆免费视频| 国产精品99久久久| 欧美怡红院视频一区二区三区| 色老头综合网| 亚洲中文字幕日产无码2021| 狠狠亚洲五月天| 免费国产黄线在线观看| 97精品久久久大香线焦| 国产簧片免费在线播放| 国产精品视频系列专区| 亚洲狠狠婷婷综合久久久久| 大陆国产精品视频| 国产在线自乱拍播放| 一本久道热中字伊人| 91系列在线观看| 国产h视频免费观看| 伊人大杳蕉中文无码| 91在线视频福利| 91小视频版在线观看www| 久久免费视频6| 久久频这里精品99香蕉久网址| 欧美国产菊爆免费观看 | 国产免费精彩视频| 久久精品无码国产一区二区三区| 日韩毛片基地| 国产精品区视频中文字幕| 日韩精品无码不卡无码| 久久男人视频| 色偷偷av男人的天堂不卡| 久久精品女人天堂aaa| 狠狠色丁香婷婷| 欧美日韩在线成人| 美女亚洲一区| 亚洲人成网站18禁动漫无码| 国产三级国产精品国产普男人| 久久不卡精品| 国产成人精品在线|