999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海洋大數據管理技術:架構、平臺與存儲策略

2021-03-31 06:27:18韋廣昊韓春花田先德楊錦坤苗慶生
海洋信息技術與應用 2021年4期
關鍵詞:數據庫

韋廣昊,韓春花,田先德,楊錦坤,苗慶生

國家海洋信息中心 天津 300171

海洋大數據管理前端銜接數據感知、采集與傳輸,擔負著海洋大數據有機整合、統籌管理、挖掘分析和共享服務,其后端延伸支撐各類海洋信息應用服務的高效穩定運行[1],是海洋數據應用的核心基礎。近年來,隨著我國海洋觀測調查對象多樣化、觀測方式多源化、觀測儀器高精度、高分辨率和自動化,以及站點布設密度加大,使得海洋數據呈現出爆棚式增長,傳統海洋數據管理方式的缺陷日益凸顯。另一方面,國家提出了將數據資產作為生產要素納入市場經濟流通的戰略。管好用好多源異構海量海洋數據,充分釋放海洋數據紅利,作為數據載體和驅動力量,海洋大數據平臺框架和存儲策略等內容的設計,是影響整體運行效果好壞的關鍵因素。因此,本文在分類分層海洋大數據資源規劃研究基礎上,圍繞大數據平臺框架、數據計算存儲架構和策略等技術發展現狀,結合海洋綜合數據庫關鍵技術攻關與應用實踐結果,簡要介紹了海洋大數據平臺搭建、存儲管理的設計思路和模型建立,以及數據庫實體構建與管理方案等內容。

1 大數據管理技術總體架構

1.1 大數據總體架構

大數據存儲管理與數據的自身特征及采集應用特性等息息相關,是大數據平臺不可分割的有機整體且環環相扣。近年來,隨著大數據技術的不斷發展,大數據生態已經趨于成熟,相繼推出了許多生態環境以應對各異的數據應用需求。中國信息通信院發布的《大數據白皮書 (2016年)》提出,大數據架構可以劃分為信息交互通信、數據存儲、數據計算分析、資料管理和安全隱私等層次。

圖1 大數據關鍵技術組成

1.2 大數據存儲架構

大數據存儲架構主要包括分布式文件系統、分布式數據庫和大規模并行數據庫數據。分布式文件系統典型代表HDFS(Hadoop Distributed File System)是高度容錯、高吞吐量的存儲系統,適合大規模數據集上的應用,缺點是不支持隨機修改,查詢效率低,對小文件支持不友好。分布式數據庫典型代表HBASE(Hadoop Database)是一個分布式面向列的數據庫,構建于HDFS之上,能夠支持海量結構化數據的高讀寫場景。大規模并行數據庫 (Massively Parallel Processing Database,MPPDB)具備強大的并行數據計算能力和海量數據存儲能力,能夠很好地支持多層嵌套等復雜SQL查詢,對TPS級結構化數據進行計算分析,能在很短時間內能得出結果。與傳統的關系型數據庫相比,MPPDB在數據處理方面,具有采用分布式架構、處理數據量大、更大的I/O能力、擴展能力好、采用列式存儲、節約存儲空間等優勢[2]。

1.3 大數據計算架構

為解決大規模大數據計算的實際需要,大數據計算架構也在不斷發展,主要包括批處理架構、流處理架構和批流混合架構等[3]。

批處理 (Batching Processing)操作大容量靜態數據集,這些數據通常符合有界、持久、大量等特征。批處理操作定期讀入大批量數據,然后完成相應業務處理并進行歸檔,要求在計算進行過程中數據維持自己的狀態。例如在計算總值和平均值時,必須將數據作為一個整體進行處理,而不能視作多條記錄的集合。批處理嚴重依賴持久存儲,每個任務需要多次執行讀取和寫入操作,因此速度相對較慢,計算有可能需要幾小時、幾天甚至是幾周的時間。但磁盤空間通常是服務器上豐富的資源,因此,能夠處理大規模數據集。Hadoop就是一種專用于批處理的處理架構,MapReduce是Hadoop的原生批處理引擎,而Spark是基于MapReduce的優化,是一種基于內存的批處理計算引擎。

流處理 (Streaming Processing)可用于處理源源不斷的消息的流數據處理,并將處理之后的結果保存到持久化介質中,也可以作為一個通用的分布式架構使用,從而解決批處理延遲大、響應緩慢、運維復雜等問題[4]。Storm是一種流式處理架構的典型代表,其具備分布式、運維簡單、高度容錯、無數據丟失和多語言支持等優點。近年來,Storm陸續添加了序列化的架構、事務性拓撲支持和底層消息機制等重大新特性,并且集成了越來越多的組件庫,提升了與現有系統的協作能力。另外,Spark的流處理能力則是由Spark Streaming組件提供,該組件引入了微批次 (Micro-Batch)技術,即把一小段時間內的接入數據作為一個批次來處理。

隨著大數據應用的進一步發展,單純的批處理與單純的流處理架構無法完全滿足數據處理分析需求,由此,也就產生了批處理和流處理結合的混合處理架構。批流混合處理架構主要有Lambda、Kappa、Flink和Spark架構等[5]。

2 海洋大數據平臺生態

2.1 海洋大數據平臺架構

海洋數據具有多源異構多模態的特點,導致海洋數據存儲和應用情況比較復雜,且許多業務場景需要海量結構化數據計算和文件分析同時進行。結合海洋數據的匯集更新、存儲管理、處理加工、共享服務等業務實際需求,并從平臺技術的成熟度、適用性和易用性等方面考慮,在云計算解決方案基礎上,設計構建了MPP+Hadoop混搭的海洋大數據平臺。綜合利用傳統數據庫集群和大規模并行處理MPP集群,為結構化海量數據提供了一個可擴展、高效、穩定的存儲計算環境。同時,利用Hadoop2.0分布式文件系統 (HDFS),實現非結構化和半結構化文件的高效存儲,基于Spark內存迭代式計算引擎來滿足海洋大數據分析應用需求。海洋大數據平臺架構如圖2所示。

圖2 海洋大數據平臺架構

海洋大數據平臺主要由海洋數據采集更新、存儲管理、處理分析、數據服務層和系統管理等層次組成。數據源層主要針對全球立體觀測、專項調查、極地大洋科考、海洋綜合管理、海洋衛星遙感調查、國際交換合作、互聯網獲取和用戶行為等數據源,開展數據的采集、解譯、清洗,并根據數據特性進行分類組織和加載。海洋大數據存儲管理層主要由事務型數據庫系統、MPP數據庫系統和Hadoop分布式文件系統 (HDFS)組成。事務型數據庫主要存放空間矢量數據、原始數據、基礎數據、元數據和系統數據等;MPP數據庫主要存儲結構化的要素數據和網格數據等;HDFS主要存放非結構化/半結構化的文檔、圖像、影像、音視頻文件、歸檔日志等。依托事務處理引擎、時間序列引擎、空間數據引擎和MPP計算引擎,以及不確定性分析、質量評估、融合訂正、匯總統計等功能組件,實現各類結構化業務數據的查詢檢索、處理評估和調度更新;同時,依托基于內存的迭代式計算引擎,結合大數據可視化、機器學習和深度學習等算法模型,實現海量數據的智能分析。提供用戶角色授權管理和統一認證,對操作和方法運行進行日志記錄;依托消息隊列對提交的任務進行任務調度;對CPU/GPU等硬件計算資源負載進行負載管理;提供數據安全防護和備份功能。統一服務平臺主要包括基于SQL的多引擎數據調度交換功能和數據訪問接口功能。海洋大數據平臺在多源數據采集、分類存儲和處理分析后,面向決策支撐、公益服務和開放創新等方面,提供統一的數據資源、地圖資源、模型方法和成果產品等海洋大數據應用服用。

2.2 海洋大數據資源池架構

在海洋數據爆棚式增長的今天,單一架構的存儲處理系統已經無法滿足海洋業務需要。本節將結合實際海洋數據及業務需求,討論關于海洋大數據資源池架構組成、數據流轉,以及不同類型數據存儲方式等內容。目前市場主流數據庫技術包括傳統的用于事務處理的OldSQL、適用于數據分析應用的NewSQL和適用于互聯網應用的NoSQL。其中,OldSQL應用的典型代表為事務型數據庫Oracle;NewSQL應用的典型代表為大規模分布式并行數據庫 (MPP);NoSQL應用的典型代表為Hadoop HDFS[6]。傳統海洋數據庫一般采用 “一種架構支持多類應用”的模式,如 “十二五”期間大洋數據管理與共享平臺就采用了Oracle數據庫開展建設。隨著海洋數據類型和數據量的快速增長,采用單一架構建設的模式已經無法滿足海量的結構化和非結構化海洋數據的存儲管理、復雜分析、關聯查詢、實時性處理和控制建設成本等多方面的要求。為解決這種突出的矛盾,基于大數據技術設計規劃了 “OldSQL+NewSQL+NoSQL”的混搭架構,采用 “多種架構支持多類應用”的綜合模式來構建海洋資源池,如圖3所示。

圖3 海洋大數據存儲架構

3 海洋大數據存儲策略

3.1 基于事務型數據庫的海洋大數據存儲

在海洋大數據平臺中,事務型數據庫以數據庫表為管理對象,通過事務、時序和空間等引擎,采用高可用解決方案構建原始數據庫、基礎數據庫、空間矢量數據庫和系統日志庫等,存儲管理海洋環境、海洋地理和海洋專題等領域海洋數據和信息產品,記錄數據庫操作信息。

原始數據庫采用數據文件存儲、數據庫文件目錄管理和元數據導航等方式,對經過整理、歸檔的各類原始海洋數據進行存儲和管理。原始數據庫首先按照海洋業務化觀測、海洋調查、國際合作與交換和購置等不同來源渠道進行劃分,其次按照海洋水文、海洋氣象、海洋化學、海洋生物、海洋底質、地形地貌、基礎地理和遙感等學科/領域建立元數據庫,以及元數據記錄與數據文件實體的對應關系,實現基于元數據庫的海洋原始數據管理。

基礎數據庫主要存儲經標準處理后的海洋環境數據。首先按照海洋業務化觀測、海洋專項調查、極地大洋科考和國際合作與交換等業務領域進行劃分。在此基礎上,海洋業務化觀測按照海洋站、浮標、雷達、志愿船和斷面等平臺類型建設數據庫,最終以分鐘、整點、正點和月報等格式構建對應數據庫表和字段。海洋專項調查主要按照學科建設數據庫,海洋水文根據調查儀器類型建設相關數據庫表,海洋氣象按照高空、海面結合走航/大面觀測方式建設數據庫表,海洋化學按照水環境、大氣化學和放射性物質等調度任務建設數據庫表,海洋生物按照海洋植物類、動物類和生產力建設數據庫表,海洋底質根據底質數據類型建設數據庫表,海洋地球物理按照重力、磁力和海底地震等建設數據庫表,地形地貌建設多波束和單波束水深數據庫,海洋物理按照聲學和光學建設庫表。極地大洋科考海洋水文氣象等環境數據庫參照海洋專項調查相應庫表建設,根據大洋礦產類型建設大洋礦產數據庫表,按照極地冰川、極地天文等建設極地數據庫表。國際合作與交換主要按照國際組織和計劃建立數據庫表。

空間矢量庫主要包括系列比例尺海洋基礎地理數據庫、沿岸及海島的高分辨率衛星遙感影像數據庫、海洋水色衛星遙感資料數據庫、海洋動力衛星資料數據庫、海圖資料數據庫和全球DEM數據庫等。空間矢量庫的建立首先需要對數據的信息編碼進行總體規劃設計,對各類數據建立統一信息分類編碼體系;使用統一的數據目錄,結合元數據庫,構造海洋空間信息數據庫的信息資源目錄體系。其次,依托空間數據引擎,如ArcSDE等,采用統一的空間坐標參考,開展空間數據建模、組織和管理。在此基礎上,對元數據和業務數據進行統一存儲與管理。在建設中,矢量與影像數據等空間數據利用ESRI的Geodatabase數據模型,以空間數據庫結合事務型數據庫表進行存儲管理。

元數據庫主要根據海洋元數據標準,對不同介質、不同種類數據進行元數據要素信息提取、分級分層、歸納和提煉,并采用主鍵索引方式,設計構建元數據存儲結構和關系圖,實現元數據的分級和交叉關聯。元數據庫主要包括基本信息、質量信息、內容描述信息、空間數據描述信息、空間參照信息、服務信息和參考信息等內容。

系統日志庫主要依托消息隊列系統,面向上層分析監控系統提供數據庫操作記錄的消費,以及向系統日志庫的更新存儲,并定期將形成的日志文件更新到HDFS中。

3.2 基于MPP數據庫的海洋大數據存儲

分析型MPP數據庫采用并行數據庫集群構建,結合共享內存技術、多種索引功能和多級別索引機制等[7],為超大規模結構化數據提供了高性能、高可用、高擴展性和高容錯性的通用存儲計算環境。總體上,MPP數據庫可劃分為海洋環境整合數據庫和海洋專題整合數據庫。

海洋環境整合庫主要面向不同應用需求分別搭建要素層和網格層等數據倉庫,抽取基礎數據并逐層開展調度整合。要素層數據庫按照一致的庫表結構,從國內來源、國際來源和全源3個維度,按照要素構建具體數據庫表。其中,國內來源整合數據庫主要從基礎數據庫中抽取海洋環境觀測、海洋專項調查、大洋和極地科考等我國自主獲取數據;國際來源整合數據庫從國際合作交換基礎數據庫數據抽取整合得到;全源數據庫是從國內和國際層數據抽取整合形成。網格層數據庫是在要素數據庫層的基礎上,進一步按照不同空間分辨率 (累年、歷年、累年逐月、歷年逐月等)和空間分辨率 (0.5°、1°、2°、5°等)進行建設。

海洋專題整合庫主要是在最大限度保持代碼的各行業一致性前提下,進行主數據、元數據和值域字典等核心庫表的選取和規范化改造,并按照資料類型、內容等屬性,對不同業務領域中的重復數據進行排重整合。各專題數據庫中的環境數據抽取進入海洋環境綜合數據庫,其他專題信息按照業務領域整合形成各專題整合數據庫,主要包括海洋基礎地理與遙感、海洋經濟、海域海島、海洋生態保護、海洋權益、海洋預報減災等。

3.3 基于HDFS的海洋大數據存儲策略

傳統關系型數據庫因為事務一致性、讀寫實時性等諸多限制,無法滿足用戶對數據庫高并發讀寫、高可擴展性、高可用性的需求,以及對海量文件的高效率存儲和訪問需求。因此,除了采用二維數據結構,基于文件系統存儲非結構化和半結構化海洋數據文件也尤為必要。分布式文件系統典型代表是HDFS,具有靈活的數據模型,沒有嚴格的數據存儲格式,不用事先建立數據存儲字段,可以隨時定義存儲字段,數據之間沒有關聯,具有高橫向擴展性及高并發讀寫性能[8],允許用戶將數據組織成文件和文件夾的方式,并提供對應接口,使應用程序能直接訪問基于HDFS的數據流。

作為海洋非結構化/半結構化大數據存儲的一項核心組件,分布式文件系統主要用于對海洋相關文檔、音視頻、圖形、圖像等文件進行統一存儲與管理。海洋地理信息產品按照產品內容、比例尺、數據來源,組織存儲矢量地形圖、柵格地形圖、矢量海圖、柵格海圖和DEM產品等內容。從產品類型來分,海洋遙感按照遙感方式類型存儲管理影像、專題要素圖形和專題數據集產品等衛星遙感和航空遙感等內容。海洋專題分布式存儲主要包括海洋經濟專題成果、海洋政策法規專題成果、海洋權益專題成果、海域使用和管理專題成果、海島管理專題成果、海洋生態預警監測專題成果、海洋預報減災和環境保障專題成果。從領域方面來分,主要包括基礎專項調查非結構化文件系統 (海洋環境專題調查報告文件、大洋專項調查視像文件等),海洋綜合管理非結構化文件系統,海洋測繪非結構化文件 (遙感影像、海圖文件等),海洋生態保護非結構化文件 (科考報告、照片文件等),海洋經濟統計非結構化文件 (海洋經濟統計年鑒等),海洋災害非結構化文件 (海洋災害公報、年鑒等),海島管理非結構化文件 (海島數字正射影像數據文件等)。

3.4 個性化海洋大數據存儲策略

傳統海洋數據庫管理海量數據讀取分析速度慢是多年來困擾海洋數據管理的關鍵問題。在海洋綜合數據庫中采用了列存儲技術,即將數據庫二維表中的數據按列方式進行存儲,不讀取無效列數據,降低I/O開銷,從而大幅提高數據查詢性能。為進一步提高I/O效率,對每列數據再細分為數據包,無論單表有多大,數據庫只需要操作相關的數據包,從而性能不會隨著數據量的增加而下降,極大的提升了數據吞吐量。列存儲技術的使用,使得數據庫中單表與其關聯表的千億級記錄全量數據查詢耗時僅3 s。此前基于關系數據庫,億級記錄查詢需要數個小時,甚至時常會發生進程崩潰的情形。同時,數據壓縮比可以達到20倍以上,數據占有空間降低到關系數據庫的1/10,極大節省了存儲設備的開銷。另外,針對各類海洋數據不同的更新時效和應用頻度,數據庫表結構復雜度,以及要素間的關聯度強弱,開展數據庫設計[9]。即面向結構較為復雜的庫表,選取HASH分布 (指定節點)或隨機分布 (隨機節點)方式;面向結構比較簡單的庫表,采用復制表方式,進行數據庫設計,在保證高效查詢的前提下,減少了因數據寫入和跨節點讀取帶來的消耗。例如,一個包含時間、溫度、鹽度和氣壓的數據,時間與其它要素之間強關聯,溫度與鹽度要素通常一并采集和使用,因此,形成了時間、溫度和鹽度列組,以及時間和氣壓列組 (圖4)。

圖4 海洋綜合數據庫列存儲技術

通過構建的時空索引庫的方式,可以顯著提高海洋數據的檢索與服務效率,尤其針對數據分布密、空間范圍大、時間跨度長的數據檢索,可以成倍提高效率[10]。同時,建立了面向時空對象查詢的時空索引庫后,可滿足基于地理位置的點查詢、區域查詢、選擇查詢、最近鄰查詢和連接查詢等多重查詢需求。構建海洋環境時空索引庫的關鍵是如何建立海洋環境數據的時空索引。時間索引的構建比較簡單,可以通過將時間類型值映射成整型值,并依據整型運算來得到一個縮小的時間查找范圍,再在縮小的時間范圍內,根據具體的查詢條件按時間類型進行檢索,以達到提高檢索效率的目的。空間索引的構建則比較復雜,目前主要結合應用熱度,采用四叉樹網格索引的方式,對全球范圍進行劃分和編碼,建立5°、 1°、 1/4°、 1/8°4層索引, 保證網格數據高效查詢檢索。

4 結 語

國家海洋信息中心基于自身職責,長期致力于海洋大數據資源管理與服務工作,在國內業務化觀測、國家重大海洋專項 (如908專項、海島海岸帶專項、全球變化和海氣相互作用專項等)、大洋科考等海洋核心業務領域承擔著國家海洋資料管理機構的角色。本文提出的海洋大數據平臺架構、海洋大數據資源池架構和海洋大數據資源存儲策略等,已經在國家海洋大數據資源管理工作中得到良好應用。大數據技術日新月異,海洋數據管理這項基礎性工作正面臨著難得的機遇和挑戰。海洋大數據管理技術還需在新的時代背景下與時俱進,不斷更新,為國家海洋數據資源價值發揮保駕護航。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 欧美高清三区| 国产精品自在线拍国产电影| 国产黄视频网站| 97色伦色在线综合视频| 精品99在线观看| 国产福利小视频高清在线观看| 亚洲天堂区| v天堂中文在线| 久久一日本道色综合久久| 无码日韩精品91超碰| 国产一区三区二区中文在线| 国产精品人成在线播放| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲综合色婷婷| 亚洲高清中文字幕| 国产精品密蕾丝视频| 黄片一区二区三区| 91破解版在线亚洲| 欧美性久久久久| 国产一级α片| 欧美色视频日本| 欧美一道本| 久久频这里精品99香蕉久网址| aⅴ免费在线观看| 欧美精品1区| 国产第一色| 国产在线麻豆波多野结衣| 国产亚洲精品精品精品| 亚洲欧洲综合| 无码专区国产精品一区| 国产偷倩视频| 中日韩一区二区三区中文免费视频 | 国产黄在线观看| 亚洲最猛黑人xxxx黑人猛交| 成·人免费午夜无码视频在线观看| 亚洲伊人久久精品影院| 亚洲天堂网视频| 日韩麻豆小视频| 国产综合色在线视频播放线视| 99热国产在线精品99| 天天综合网亚洲网站| 亚洲精品视频免费看| 99精品热视频这里只有精品7 | 国产精品香蕉在线观看不卡| 国产尤物在线播放| 亚洲综合色婷婷| 久久中文电影| 欧洲亚洲欧美国产日本高清| 一级看片免费视频| 国产精品亚洲五月天高清| 国产成人乱无码视频| 午夜福利视频一区| 国产一级小视频| 久久精品丝袜高跟鞋| 四虎综合网| 国产极品美女在线观看| 日韩精品久久无码中文字幕色欲| 欧洲av毛片| 日本一区中文字幕最新在线| 一级香蕉视频在线观看| 国产一级二级在线观看| 精品国产亚洲人成在线| 毛片手机在线看| 国产成本人片免费a∨短片| 高清国产在线| 国产欧美日韩va另类在线播放| 亚洲伦理一区二区| 伊人五月丁香综合AⅤ| 国产精品粉嫩| 亚洲国产中文精品va在线播放 | 91日本在线观看亚洲精品| 污网站免费在线观看| 五月婷婷中文字幕| 国产素人在线| 久久综合成人| 免费观看精品视频999| 国产AV毛片| 久久综合成人| 日韩高清成人| 国产美女丝袜高潮| 中文字幕在线欧美| 99伊人精品|