999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop平臺下的地震波形數(shù)據(jù)存儲與應(yīng)用規(guī)劃

2016-05-30 05:36:46王丹寧柴旭超王文青
軟件工程 2016年1期
關(guān)鍵詞:數(shù)據(jù)庫

王丹寧 柴旭超 王文青

摘 要:地震波形數(shù)據(jù)的存儲與應(yīng)用是國家地震數(shù)據(jù)災(zāi)備中心的重要業(yè)務(wù)之一。本文主要針對海量地震波形數(shù)據(jù)基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫和文件系統(tǒng)的存儲方式所存在的數(shù)據(jù)存儲離散、查詢效率低下等問題,從大數(shù)據(jù)平臺的角度,提出基于Hadoop的地震波形數(shù)據(jù)存儲解決方案,著重闡述了業(yè)務(wù)需求、功能設(shè)計和實現(xiàn)原理。希望為國家地震數(shù)據(jù)災(zāi)備中心存儲平臺的建設(shè)提供有益的借鑒。

關(guān)鍵詞:大數(shù)據(jù);地震波形數(shù)據(jù);Hadoop;Hbase;數(shù)據(jù)解析

中圖分類號:TP392 文獻標識碼:A

1 引言(Introduction)

地震科學數(shù)據(jù)作為中國地震局最重要的核心資源之一,對監(jiān)測預報、震災(zāi)預防、應(yīng)急救援三大業(yè)務(wù)提供強大的底層數(shù)據(jù)支持。多年來,地震科學數(shù)據(jù)經(jīng)過不斷的采集、觀測、傳輸、存儲,形成了極大的數(shù)據(jù)規(guī)模,相應(yīng)地,地震局各級機構(gòu)分別構(gòu)建了自己的數(shù)據(jù)存儲和應(yīng)用系統(tǒng)。2008年,中國地震局第二監(jiān)測中心擬建設(shè)國家地震數(shù)據(jù)災(zāi)備中心,2013年,項目開始實質(zhì)運行,至今,已經(jīng)進入軟硬件測試和存儲方案設(shè)計階段,將來匯入災(zāi)備中心的地震數(shù)據(jù)如何進行存儲和應(yīng)用,成為亟待解決的問題。

2 地震數(shù)據(jù)存儲和應(yīng)用現(xiàn)狀(The status of

earthquake data storage and application)

地震數(shù)據(jù)可以從狹義和廣義兩方面進行認識。狹義上,地震科學數(shù)據(jù)按照其獲取途徑可以劃分為觀測數(shù)據(jù)、探測數(shù)據(jù)、調(diào)查數(shù)據(jù)、實驗數(shù)據(jù)和專題數(shù)據(jù)[1];按照觀測手段可以劃分為測震、前兆等數(shù)據(jù)。比如,專業(yè)上習慣稱測震數(shù)據(jù)為地震波形數(shù)據(jù),為了規(guī)范地震波形數(shù)據(jù)的存檔和交換,方便地震研究人員使用,由FDSN、IRIS和USGS共同發(fā)布的地震數(shù)據(jù)交換標準(The Standard for the Exchange of Earthquake Data,簡稱SEED)便成為國內(nèi)地震行業(yè)地震波形數(shù)據(jù)的標準數(shù)據(jù)格式[2]。廣義上,特別從時下流行的大數(shù)據(jù)的角度來看,包括觀測數(shù)據(jù)、文檔、照片、視頻、地圖等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都可以涵蓋于地震數(shù)據(jù)的范疇之內(nèi)。

現(xiàn)有地震數(shù)據(jù)的存儲,我們可以籠統(tǒng)歸納為兩大方式。其一,類似前兆業(yè)務(wù)數(shù)據(jù)等可以結(jié)構(gòu)化的數(shù)據(jù),都存儲于以O(shè)racle、Mysql為代表的關(guān)系型數(shù)據(jù)庫中,所以業(yè)務(wù)軟件和應(yīng)用都基于關(guān)系型數(shù)據(jù)庫進行開發(fā),這也是大多數(shù)行業(yè)和數(shù)據(jù)部門多年來采用的主流存儲方式。其二,對于不能結(jié)構(gòu)化的數(shù)據(jù),特別是文檔、照片、視頻等典型的非結(jié)構(gòu)化數(shù)據(jù)和雖能結(jié)構(gòu)化但受限于現(xiàn)實應(yīng)用而不能存入關(guān)系表中的SEED數(shù)據(jù),大都以數(shù)字化文件形式存儲于地震系統(tǒng)內(nèi)大大小小的傳統(tǒng)存儲平臺和介質(zhì)上,比如磁盤陣列和光盤。

數(shù)據(jù)存儲決定數(shù)據(jù)應(yīng)用。又以測震業(yè)務(wù)為例,由于測震業(yè)務(wù)現(xiàn)有流程和關(guān)系型數(shù)據(jù)庫的限制,測震數(shù)據(jù)中SEED或MiniSeed數(shù)據(jù)以文件形式存放于磁盤中,其他輔助型數(shù)據(jù)存放于Oracle或Mysql數(shù)據(jù)庫中。其實際應(yīng)用首先慢于純數(shù)據(jù)庫應(yīng)用;其次受限于數(shù)據(jù)的龐大體積,導致時間尺度不夠?qū)拸V,歷史數(shù)據(jù)應(yīng)用不夠充分;最后,由于而測震數(shù)據(jù)總數(shù)據(jù)量達到200TB左右,國內(nèi)并沒由任何唯一數(shù)據(jù)庫平臺可容納全部數(shù)據(jù),對于全量分析等高級應(yīng)用的可能也只好停留在想象階段。

3 大數(shù)據(jù)的發(fā)展對測震數(shù)據(jù)應(yīng)用的啟發(fā)(The

inspiration of the development of big data to the

application of seismic waveform data)

研究機構(gòu)Gartner賦予大數(shù)據(jù)如下定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。僅地震行業(yè)測震數(shù)據(jù)現(xiàn)存儲量便達到200TB,可以稱之為海量;測震數(shù)據(jù)的采樣頻率多為100Hz,也包含有200或300Hz數(shù)據(jù),而強震業(yè)務(wù)的采樣頻率更達到了500Hz,其未來的數(shù)據(jù)增長率會越來越高;測震數(shù)據(jù)作為傳感器采樣數(shù)據(jù),與同樣作為傳感器采樣數(shù)據(jù)的前兆數(shù)據(jù)進行長時間尺度的聯(lián)合分析,更結(jié)合多樣的地震監(jiān)測數(shù)據(jù)進行比對,其應(yīng)用前景可能非常遠大。而這樣的“地震大數(shù)據(jù)”急需要新的處理模式來挖掘深藏于其內(nèi)部的關(guān)于地震形成機理乃至地球內(nèi)部結(jié)構(gòu)的秘密,從而發(fā)揮其對地震預報的高決策力和洞察力。

又根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。就測震數(shù)據(jù)應(yīng)用來說,短時間尺度、有限區(qū)域內(nèi)的數(shù)據(jù)處理和分析所花費時間是可以承受的,但長時間尺度、廣闊區(qū)域乃至全量分析在傳統(tǒng)平臺處理所需要的時間就令人絕望了,這也是還無研究人員進行如此操作的原因。

總之,測震數(shù)據(jù)的半結(jié)構(gòu)化特性,其對地震預報的可能的巨大價值,其和前兆等地震數(shù)據(jù)的比對分析前景,都促使我們對其底層的存儲模式進行大數(shù)據(jù)平臺方向的探索。

4 Hadoop平臺簡介(Brief introduction of hadoop

platform)

4.1 Hadoop生態(tài)圈

Hadoop是Apache Lucene創(chuàng)始人Doug Cutting創(chuàng)建的項目,來源于谷歌公司兩篇關(guān)于GFS和MapReduce的重要論文。其形成的目的在于利用通用服務(wù)器集群進行分布式計算和海量數(shù)據(jù)處理[3]。

Hadoop生態(tài)圈不僅包括分布式文件系統(tǒng)HDFS和分布式數(shù)據(jù)處理模型MapReduce,還包括一系列圍繞其宗旨構(gòu)建的相關(guān)項目,Hadoop主要項目及簡單架構(gòu)如圖1所示。

圖1 Hadoop主要項目

Fig.1 Hadoop main project

圖中,Hadoop Common是一組分布式文件系統(tǒng)和通用I/O的組件和接口。在其之上,MapReduce為分布式數(shù)據(jù)處理模型,HDFS為商用機集群上的分布式文件系統(tǒng)。最上層的Hbase是一個分布式、按列存儲的數(shù)據(jù)庫,使用HDFS作為底層存儲[4-9],類似于Oracle和Windows文件系統(tǒng)之間的關(guān)系。

4.2 災(zāi)備中心技術(shù)平臺需求

Hadoop生態(tài)圈項目涵蓋數(shù)據(jù)存儲、查詢、分析、管理等全部環(huán)節(jié),其對地震波形數(shù)據(jù)的安全存儲、查詢定位、可視化展現(xiàn)等是一種有益的嘗試。具體于國家地震數(shù)據(jù)災(zāi)備中心的應(yīng)用來說,如何利用Hadoop項目存儲好地震波形數(shù)據(jù),從而為未來的數(shù)據(jù)分析和可視化打好基礎(chǔ),是方案組首先要考慮的問題。

5 Hadoop在測震數(shù)據(jù)存儲方面的應(yīng)用(Application

of hadoop in the measurement of seismic data

storage)

5.1 業(yè)務(wù)需求

國家地震數(shù)據(jù)災(zāi)備中心地震波形數(shù)據(jù)的存儲需求主要分為兩類:滿足中國地震臺網(wǎng)中心即源數(shù)據(jù)端的數(shù)據(jù)備份恢復需求和如何滿足災(zāi)備端未來的數(shù)據(jù)應(yīng)用。起初,項目組考慮地震波形數(shù)據(jù)集的數(shù)據(jù)量比較龐大,為滿足全部數(shù)據(jù)的存儲空間需求,設(shè)計存儲可用容量為500TB,HDFS平臺復制因子為3,即實際存儲容量應(yīng)達到1.5PB。

數(shù)據(jù)來源方面,地震波形數(shù)據(jù)大致以兩種方式匯入災(zāi)備機房,即傳感器數(shù)據(jù)流直接匯入和歷史數(shù)據(jù)文件導入。可以說數(shù)據(jù)流匯入對應(yīng)實時數(shù)據(jù)備份,歷史數(shù)據(jù)導入對應(yīng)歷史數(shù)據(jù)備份。對應(yīng)Hadoop技術(shù)平臺需求,為最大限度滿足災(zāi)備安全性能,應(yīng)該選擇HDFS分布式文件系統(tǒng)存儲歷史和實時數(shù)據(jù);但是,數(shù)據(jù)以文件形式存儲,會影響未來數(shù)據(jù)的分析和可視化應(yīng)用,而分布式數(shù)據(jù)庫可以更好的適應(yīng)此需求,所以,Hbase分布式數(shù)據(jù)庫便成為需求平臺之一。當然,如何平衡數(shù)據(jù)災(zāi)備安全性和數(shù)據(jù)應(yīng)用之間的關(guān)系,也是需要慎重考慮的。

5.2 功能設(shè)計和實現(xiàn)原理

根據(jù)國家地震數(shù)據(jù)災(zāi)備中心對于地震波形數(shù)據(jù)災(zāi)備的需求,其功能設(shè)計列舉如下:

(1)實時數(shù)據(jù)流接入、解析、導入Hbase數(shù)據(jù)庫。

(2)歷史數(shù)據(jù)遷移、解析、導入Hbase數(shù)據(jù)庫。

(3)存儲空間滿足情況下,HDFS內(nèi)以SEED文件形式存儲一份地震波形數(shù)據(jù),以滿足災(zāi)備安全需求。

(4)以源數(shù)據(jù)端要求進行數(shù)據(jù)級容災(zāi)。

根據(jù)上述需求,設(shè)計地震波形數(shù)據(jù)存儲備份方案如圖2所示。

圖2 地震波形數(shù)據(jù)備份方案

Fig.2 Seismic waveform data backup scheme

圖中所描述方案具體如下:

(1)實時數(shù)據(jù)寫入

生產(chǎn)端將數(shù)據(jù)壓縮成為seed格式向災(zāi)備端發(fā)送數(shù)據(jù)流。

災(zāi)備端將seed格式數(shù)據(jù)解壓,以文件系統(tǒng)形式存入文件系統(tǒng),保留N天。

將seed文件數(shù)據(jù)解壓后形成記錄形式寫入Hbase,存放于HDFS分布式文件系統(tǒng)內(nèi)。

(2)歷史數(shù)據(jù)遷移

以磁盤對拷或網(wǎng)絡(luò)傳輸?shù)男问綄?00TB左右地震波形歷史數(shù)據(jù)遷移至HDFS分布式文件系統(tǒng)內(nèi)。

將生產(chǎn)端SEED格式數(shù)據(jù)轉(zhuǎn)換成Hbase數(shù)據(jù)庫記錄形式,寫入Hbase。

(3)數(shù)據(jù)級容災(zāi)過程

N天以內(nèi)的數(shù)據(jù):可以從緩沖區(qū)域讀取文件格式直接回傳至生產(chǎn)端。

N天以前的數(shù)據(jù):通過寫入時建立的文件系統(tǒng)索引,確定所需要的數(shù)據(jù)是否存在,若存在可根據(jù)hadoop和文件系統(tǒng)的接口還原seed格式數(shù)據(jù),提供給生產(chǎn)端。

6 結(jié)論(Conclusion)

本文從國家地震數(shù)據(jù)災(zāi)備中心存儲需求出發(fā),闡述了地震波形數(shù)據(jù)存儲的Hadoop平臺實現(xiàn)模式,并從根本上解釋了為什么要選擇大數(shù)據(jù)平臺進行地震數(shù)據(jù)的存儲。我們應(yīng)該看到,大數(shù)據(jù)平臺日趨成為各行業(yè)數(shù)據(jù)存儲及應(yīng)用的首選,地震科學作為給人類長期帶來巨大挑戰(zhàn)的科學門類,在數(shù)據(jù)科學蓬勃發(fā)展的今天,應(yīng)對其產(chǎn)生的龐大數(shù)據(jù)集進行存儲、分析及可視化方面的新的探索,為地震研究人員提供更完善的數(shù)據(jù)服務(wù)。

參考文獻(References)

[1] 地震科學數(shù)據(jù)資源概況.國家地震科學數(shù)據(jù)共享中心:http://

data.earthquake.cn/dataresource/datacon.jsp.

[2] DB/T2-2003,地震波形數(shù)據(jù)交換格式[S].北京:地震出版社,

2003.

[3] Tom White.Hadoop權(quán)威指南[M].北京:清華大學出版社,

2014.

[4] Sanjay Chemawat,Howard Gobioff,Shun-Tak Leung.The

Google File System.Google,Inc.2003.

[5] Jeffrey Dean, Sanjay Chemawat.MapReduce:Simplified Data

Processing on Large Clusters.Google,Inc.2004.

[6] 鄭秀芬,等.“國家數(shù)字測震臺網(wǎng)數(shù)據(jù)備份中心”技術(shù)系統(tǒng)

建設(shè)及其對汶川大地震研究的數(shù)據(jù)支撐[J].地球物理學

報,2009,52(5):1412-1417.

[7] 王方建,李衛(wèi)東,趙國鋒.地震觀測數(shù)據(jù)平臺體系架構(gòu)研究[J].

中國地震,2009,25(2):214-222.

[8] 蔡斌,陳湘萍.Hadoop技術(shù)內(nèi)幕-深入解析Hadoop Common

和HDFS架構(gòu)設(shè)計與實現(xiàn)原理[M].北京:機械工業(yè)出版社,

2014.

[9] 董西成.Hadoop技術(shù)內(nèi)幕-深入解析MapReduce架構(gòu)設(shè)計與

實現(xiàn)原理[M].北京:機械工業(yè)出版社,2014.

作者簡介:

王丹寧(1981-),男,碩士,工程師.研究領(lǐng)域:數(shù)據(jù)管理,數(shù)

據(jù)應(yīng)用.

柴旭超(1985-),男,碩士,助理工程師.研究領(lǐng)域:大數(shù)據(jù)算

法和平臺研究.

王文青(1981-),男,碩士,工程師.研究領(lǐng)域:數(shù)據(jù)分析,大

數(shù)據(jù)架構(gòu).

猜你喜歡
數(shù)據(jù)庫
數(shù)據(jù)庫
財經(jīng)(2017年15期)2017-07-03 22:40:49
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
數(shù)據(jù)庫
財經(jīng)(2015年3期)2015-06-09 17:41:31
數(shù)據(jù)庫
財經(jīng)(2014年21期)2014-08-18 01:50:18
數(shù)據(jù)庫
財經(jīng)(2014年6期)2014-03-12 08:28:19
數(shù)據(jù)庫
財經(jīng)(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 久久久久亚洲Av片无码观看| 国产午夜精品鲁丝片| 日韩第一页在线| 亚洲AⅤ无码日韩AV无码网站| 亚洲综合狠狠| 国产黄在线观看| 欧美www在线观看| 久久伊人久久亚洲综合| 亚洲热线99精品视频| 一级毛片a女人刺激视频免费| 亚洲最黄视频| 九九久久99精品| 亚洲一区网站| 亚洲娇小与黑人巨大交| 日本在线亚洲| 视频一本大道香蕉久在线播放 | 天堂亚洲网| 中文毛片无遮挡播放免费| 热伊人99re久久精品最新地| 一区二区在线视频免费观看| 动漫精品啪啪一区二区三区| 国产幂在线无码精品| 国产成人1024精品| 91精品伊人久久大香线蕉| 日韩AV手机在线观看蜜芽| 国产99精品久久| 国产精品真实对白精彩久久| 在线看片中文字幕| 秋霞国产在线| 午夜免费小视频| 91网红精品在线观看| 91精品国产情侣高潮露脸| 在线免费不卡视频| AV在线麻免费观看网站 | 欧美精品二区| 毛片手机在线看| 国产三级成人| 国产浮力第一页永久地址 | 亚洲综合天堂网| 成人福利在线视频免费观看| 亚洲视频影院| 亚洲伊人久久精品影院| 亚洲天堂视频网站| 色婷婷啪啪| 国产麻豆精品在线观看| 99久久成人国产精品免费| 国产免费怡红院视频| 国产迷奸在线看| 丁香五月激情图片| 中国一级毛片免费观看| 国产精品林美惠子在线观看| 精品人妻系列无码专区久久| 女人av社区男人的天堂| 亚洲黄色成人| 亚洲第一成年网| 亚洲av无码成人专区| 91精品国产福利| 欧美日韩亚洲国产主播第一区| 毛片在线播放网址| 老司机午夜精品网站在线观看| 91青青草视频| 国产麻豆精品久久一二三| 国产95在线 | 麻豆国产精品| 亚洲天堂视频在线播放| 99尹人香蕉国产免费天天拍| 在线精品欧美日韩| 99re这里只有国产中文精品国产精品 | 欧美亚洲第一页| 国产小视频免费观看| 亚洲精品国偷自产在线91正片| 在线国产你懂的| 在线国产毛片| 51国产偷自视频区视频手机观看| 欧美精品在线观看视频| 69综合网| 亚洲有码在线播放| 亚洲综合在线最大成人| 欧美一区福利| 欧美日韩在线第一页| 色男人的天堂久久综合| 精品一区二区三区水蜜桃|