999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的海洋環境監測數據集成與應用

2016-10-25 05:34:57解鵬飛劉玉安朱容娟
海洋技術學報 2016年1期

解鵬飛,劉玉安,趙 輝,朱容娟

(國家海洋環境監測中心,遼寧 大連 116023)

基于大數據的海洋環境監測數據集成與應用

解鵬飛,劉玉安,趙 輝,朱容娟

(國家海洋環境監測中心,遼寧大連116023)

面對多源異構的海量數據的集成,傳統的集成方法和技術無法實現,直到大數據技術的出現才有了可能。應用大數據技術實現多源異構的海洋環境監測數據集成,有利于海洋環境監測數據的共享,避免信息孤島的出現,同時為數據的分析、挖掘等提供了所需的數據。文中重點討論了基于大數據和數據虛擬化平臺技術,參照ODM2信息模型和MMI ORR本體語義框架來實現多源異構的海洋環境監測數據的集成問題,并在數據集成的基礎上,探討了多源異構數據查詢、綜合展示應用的實現方法。此研究有利于解決海量海洋環境監測數據管理難題、滿足海洋環境科研工作者的大數據需求、實現數據驅動決策、提升海洋環境管理水平。

大數據;數據虛擬化;元數據;ODM2模型;本體語義框架

自20世紀70年代至今,我國的海洋環境監測體系已基本形成,建成了國家(海區)、省(直轄市、自治區)、市、縣四級海洋環境監測網絡,開展約8 000多個監測站位的現場監測,在我國管轄的300萬km2海域開展岸基站、船舶、飛機、衛星、浮標、雷達、智能終端等多種手段監測工作,每年獲得各類監測數據(結構化數據)約200余萬條,此外還包括:遙感數據(僅國家海洋環境監測中心近幾年遙感影像加工產品就接近70 TB),其它業務化系統、實驗室、數值模型、檔案系統的長尾科學數據,雖然每個數據集合在規模上并不大(一般不會超過1 TB),但這種小數據集合數眾多且異構性強,它們匯聚后的規模和復雜性都不容小覷。

海量的海洋環境監測數據(以下簡稱:監測數據),加上其多源性、多態性、多時相的特性,使監測數據成為了大數據。大數據時代的一個重要任務是監測數據集成,其意義如下:

(1)從數據分析及管理角度來看,這些分散的結構化、半結構化、非結構化的監測數據,蘊藏著大量的信息和知識,但是,目前的海洋監測系統集成一般只是系統的集成,針對數據集成的很少,即使有也只是用傳統的關系型數據為主導的集成方案,這種方式不能滿足多源異構數據集成和共享的需求,容易導致分析結果缺乏權威性、科學性,最終使管理者的決策缺乏可靠性。

網格技術在實現更深層次、更大范圍的資源共享,以及消除數據孤島方面發揮了重要作用,但對組織成一體的資源如何共享使用上著力不多,在易用性上存在不足[1],云計算和大數據技術采用分布式計算模式,克服了網絡計算的缺陷,為海量多源異構數據收集、存儲、集成、共享、分析、決策提供了技術保障。

(2)從科研者的角度來看,大數據時代科研工作者已經不再滿足利用單一的數據源和分析方法進行研究,而是希望整合來自不同渠道的數據,從而得到一個更加全面與宏觀的認識,這意味著數據集成對科學研究至關重要的需求。

(3)從大數據的價值鏈—大數據的發現(采集、準備、組織)、集成(數據源管理、通用數據表示)、數據探索(數據分析、可視化、決策)[2]來看,大數據集成(Big Data Integration,BDI)起著承上啟下的作用,具有非常重要的作用,是目前研究熱點之一。著名信息技術研究咨詢公司Gartner在其發布的《2013年數據集成工具魔力象限報告》中表示,對集成選項功能完整性的需求在快速上漲[3]。

(4)從科學研究方法論來看,大數據時代,科學研究更多的是“數據驅動的”協作和跨學科的,這就是微軟發布的基于數據密集型計算的科學研究第四范式[3]。監測數據的大數據特性和海洋科學研究工作的跨學科性需要大數據技術去解決上述場景中遇到的問題,實現多源異構數據透明訪問,統一展示并利用起來。

基于大數據技術對海洋環境監測數據集成相對于傳統的數據集成有如下優勢:

(1)能夠集成多源異構的海洋環境監測數據(包括歷史數據和實時數據),并實現數據共享。

(2)大數據環境下,基于數據虛擬化技術,利用雙層元數據技術和本體語義框架(海洋相關的本體語義框架有MMI ORR:Marine Metadata Interoperability project Ontology Registry and Repository[8,13],POKM:PlatformforOceanKnowledgeManagement[31],MarineTLO:Top Level Ontology等)來實現對多源異構數據的快速統一的檢索。

(3)解決海量數據管理難題,滿足海洋環境科研工作者的大數據需求,實現數據驅動決策,提升海洋環境管理水平。

本文的組織結構如下:首先,對大數據集成的4個特性問題與數據虛擬化國內外研究現狀展開了研究,提出針對海洋環境監測數據集成的關鍵問題;針對這些關鍵問題提出大數據計算模式、數據虛擬化平臺、雙層元數據、本體主義框架等在海洋環境監測數據集成中的實現思路和方法;最后給出集成大數據集成實現多源異構數據共享、檢索、綜合展示等應用架構模式。

1 國內外研究現狀

面對海量數據的挑戰,基于大數據的海量數據集成與應用研究也提到日程上來,從國內外研究成果來看,目前研究主要集中在三方面。

1.1大數據集成的4個特性問題

大數據集成與傳統數據集成的區別恰巧體現在大數據的4個特性上[4]。

1.1.1大數據維度—量盡管現有關系型數據庫管理工具能處理超量數據所需的突發性需求,但它們并不是大數據背景下各類新使用案例的最佳管理者[5]。處理海量的密集型數據集成問題,一般的解決方法是采用分布式計算模型。

Google提出了云計算的Map/Reduce模型[6],同時,開源的Hadoop[7]為該模型提供了Java實現。由于MapReduce具有可擴展性強、容錯性高、編程模型簡單、成本低,Hadoop已被廣泛應用,成為云計算和大數據領域事實上的標準。

在海洋監測領域,歐洲海洋信息系統(European Marine Information System,EUMIS)實現了海洋和衛星觀測、現場觀測、模擬數據的搜索、下載,并集成了這些數據[8];美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA)綜合海洋觀測系統(The U.S.Integrated Ocean Observing System,IOOS)也實現了數據整合框架(Data integration Framework,DIF)[9],但此框架只是一個試點項目,集成的數據和適用的用戶均有限,2014年2月24日,NOAA宣布了利用RFI(Request for Information)系統實施大數據領域放權[10],此系統得到信息技術產業理事會同意[11],這標志著NOAA也走向了大數據管理的道路;我國的海洋環境監測體系已基本形成,出現了一些海洋集成應用系統,比如“863船載海洋生態環境現場監測集成示范系統(2001AA635010)”、“航空遙感多傳感器集成與應用技術系統(2001AA633080)”等。這些系統主要是完成了監測手段的系統集成,而對于綜合的海洋環境監測系統和數據的集成考慮較少,特別是針對海量監測數據的集成的技術方法并未考慮。

1.1.2大數據維度—多樣性在大數據技術支撐下,數據分析者除可以分析數據庫數據外,還可以分析文檔、電子郵件、音頻和視頻等多種類型數據。而集成不同類型數據的關鍵是使用元數據“標簽”,對非結構化數據那些可以被鏈接的屬性進行“標簽”,然后鏈接到數據庫中的主鍵和索引,從而將結構化數據和非結構化數據融合[5]。

除了在大數據中的作用外,元數據可以促進數據集的高效利用,幫助數據管理者有效維護和管理數據,經常用于應用系統之間的交互。國際上已有海洋元數據,如國際海洋資料和信息交換(International Ocean Data Exchange,IODE)的海洋環境數據目錄(Marine Environment Data Directory,MEDD),歐洲海洋觀測系統數據目錄(European Directory of the Initial Ocean-observing System,EDIOS)以及海洋數據獲取系統(Ocean Data Acquisition System,ODAS)元數據等[12]。國內,國家海洋局發布了《海洋信息元數據》行業標準,宋坤、周雪等人依據此標準提出了一種精簡的海洋元數據模型。

此外,元數據交互管理及知識管理方面也有一些研究和實際應用,比如歐洲海洋信息系統(European Marine Information System,EUMIS)使用基于ontology注冊和存儲的元數據交互項目MMI ORR來識別和訪問諸如近實時、預測和歷史海洋觀測等分布式數據,此外MMI還采用了觀測數據模型(Observations Data Model version 2,ODM2)。國內,Xiong等[14]作了本體技術在海洋生態知識管理方面的應用和研究。

1.1.3大數據維度—速度隨著海洋環境監測規模擴大,物聯網技術的應用,浮標、在線傳感設備等實時傳感數據處理要求將與日俱增。

數據實時或近實時處理,是大數據區別于傳統海量數據處理的重要特性之一,數據實時處理包括數據的實時采集、計算、查詢。

目前,關于大數據研究,主要集中在大數據的存儲及分析技術上,實時處理研究很少。Facebook發表一篇利用HBase/Hadoop進行實時數據處理的論文(Apache Hadoop Goes Real time at Facebook)[15]。沈來信、王偉[16]探討了基于Infobright列式數據倉庫和Mysql Cluster分布式集群技術實現大數據的實時并發分析、管理,但是不足之處是Infobright是分析型數據倉庫,而對操作性數據不太適合。

傳統的數據倉庫及Hadoop技術適合大數據的批處理,不太適合流數據的實時處理(如上所述,需和其它技術結合)。對于實時數據的處理,目前可用的解決方案有Yahoo的“S4”,Twitter的“Storm”,Facebook的“Puma”,其中Storm被廣泛應用,有“實時的Hadoop”之稱。

此外,隨著云計算和大數據技術的發展,新的數據虛擬化技術讓實時數據集成變得可行,特別是在和數據倉庫技術結合的情況下,新興的內存數據存儲技術以及其他虛擬化方法使快速數據集成成為可能,并且不再依賴于數據倉庫和數據集市等中間形式的中間形式的數據存儲。

在這一新領域內,Hadoop的MapReduce將成為關鍵的(但并不是唯一的)開發框架[17]。目前可用的數據虛擬化產品有開源的JBoss Data Virtualization 6[18]和Teiid等數據虛擬化系統[19]。

1.1.4大數據維度—真實性結構化數據在數據真實性(數據質量)方面可以通過策略管理、數據提取轉換加載(Extract-Transform-Load,ETL)工具去實現。

雖然也可以利用結構化數據質量控制方法去實現大數據質量的控制,比如基于元數據的質量控制方法,ETL等方法。但是大數據的多維特性增加了數據質量控制的難度,傳統的方法無法實現海量數據的質量控制,大數據質量的控制應從技術、管理、數據流向控制等多個方面考慮,大數據分析的結果才更加精準、可信、可用,才能更好地發揮大數據在科學研究、管理決策中的作用。目前,關于大數據數據質量方面的研究相對較少,成熟的數據質量控制方法相對較少。

國外,Benjamin T.Hazen,ChristopherA.Boone等人提出了在數據科學、數據分析和大數據的供應鏈管理(Supply Chain Management,SCM)中監測和控制數據質量的方法,提出了基于統計的過程控制(Statistical Process Control,SPC)的多維度數據質量控制方法,此外還從交叉學科的角度探討了大數據環境下,數據質量的控制的焦點[20]。國內,宗威等[21]從流程、管理、技術等角度探討了大數據的質量管理,黃冬梅、陳括等人[22]提出“基于塊嵌套循環的海洋大數據質量檢驗方案選擇算法”。

1.2數據虛擬化與大數據集成

數據集成技術經過幾十年的發展,如今發展到第四階段,如圖1所示[23]:

圖1 數據集成技術發展曲線

傳統的數據集成以關系型數據為主,數據集成主要技術依靠于數據抽取轉換工具(Extract-Transform-Load,ETL)和數據倉庫。大數據時代,集成的對象包括可擴展標記語言(Extensible Markup Language,XML)、非關系型數據庫(Not Only SQL,NoSql)、文檔、視頻等多源異構數據,集成技術因此發生了很大的變化。

數據虛擬化是大數據集成的解決方案,雖然van derlans等人認為數據虛擬化與數據集成有區別,但也確認了多數情況下,數據虛擬化是為了數據集成[24]—數據虛擬化方案可以向數據使用者提供一個實時集成的數據視圖,這個視圖將來自不同的數據整合在一起并轉換成所需要的格式。

可以獲取的虛擬化平臺及方案,開源方面有Pentaho、JBoss、Altamira等多家供應商,商業領域有Informatica、IBM、Oracle、Terracotta等供應商[25]。以這些平臺為基礎,有不少應用平臺,比如:Oracle的大數據平臺能夠完成多源異構數據的采集、集成、分析、決策等功能[26];Informatica Big Data Edition專門針對大數據平臺提供了無需編程整合各種數據的功能[27];Altamira公司的Lumify是一個開源的大數據整合、分析和可視化平臺,可以以2D、3D和GIS方式顯示分析結果[28];SnapLogic Elastic Integration Platform是一個可以集成各種類型的大數據平臺,包括:物聯網、應用app、企業系統、移動等多種數據類型[29]。

這些大數據集成平臺基本都基于Hadoop大數據技術,采用數據虛擬化技術對多源異構的海量數據進行整合,且側重點有所不同。此外集成的大數據模式較少,大多數只有MapReduce和Hive,沒有流式、迭代等其它計算模式。“大數據集成的4個特性”一節提到的相關學術研究,主要集中在數據集成技術或集成模型方面,針對大數據平臺的集成研究也相對較少。

1.3大數據集成的相關應用

目前業界已成功搭建了很多基于云環境的大數據計算平臺,主要專注于大數據技術采集、存儲、集成、分析與挖掘、可視化、大數據與云計算深度融合、人工智能等多個方向。

大數據可以應用于互聯網、金融、環保、健康、生物等多個行業。Vizzuality與GBIF和EOL合作的“Heatmapping Biodiversity”項目整合了超過2億條以上的生物多樣性數據,且能實現在全球地圖上自由瀏覽;百度、新浪、淘寶等知名公司應用大數據技術于客戶行為分析、應用推薦、商業決策等,這都離不開數據集成。這些都表明,大數據技術已經相對成熟,在國內外得到大規模的應用。但是,在海洋環境保護領域,大數據集成應用還是相對較少。

2 大數據集成關鍵問題與海洋環境監測數據集成現狀

2.1大數據集成關鍵問題

通過對大數據集成國內外現狀的深入分析,可以得出以下幾個需要解決的關鍵問題。

2.1.1大數據計算模式大多數據虛擬化平臺只使用了MapReduce等計算模式,此模式不適合數據寫入頻率高、實時性要求高的應用。為此需研究如何在數據虛擬化平臺上集成更多的計算模式(Storm等流式計算模型,適應于實時數據處理,比如傳感器數據的實時處理;Spark適合迭代運算頻率高的科學計算和應用)以適應不同的應用情況。

2.1.2元數據相關技術國內,海洋監測相關的業務系統很少用到數據集成技術,而歐美一些國家在海洋監測方面有較成熟的數據集成框架,在某些領域還應用到本體語義框架。如何擴展并應用這些元數據技術到數據虛擬化平臺中去,以解決多源異構數據的集成及集成中遇到的數據質量、系統間交互問題,是一個研究重點。

2.1.3數據模型構建數據虛擬化平臺主要是通過數據模型和配置信息構建虛擬數據庫,從而實現訪問層對多源異構數據的訪問。所以構建一套適用于海洋觀測的統一數據模型,顯得尤為重要,這是一個需要解決的關鍵問題。

2.2海洋環境監測數據集成現狀

從1.1.1節可知,目前海洋環境監測系統的集成,主要是完成前端監測手段的系統集成,而對于綜合生綜合的海洋環境監測系統和數據的集成考慮較少,特別是針對海量監測數據的集成的技術方法并未考慮。

國外在海洋數據集成方面相對國內來說要成熟些,EUMIS,IOOS均有自己的數據整合框架和數據模型。比如EUMIS開發了MMI ORR本體語義框架和ODM2信息模型。IOOS也有自己的DIF數據整合框架。

但是基于大數據技術對多源異構的海量海洋環境監測數據的集成框架,目前未曾報道過。

從1.2節可知,Informatica、Pentaho等眾多的數據虛擬化平臺使用了大數據技術,用于大數據的集成、分析、可視化展示等應用。

可見,借簽國外海洋環境數據集成框架和相關數據模型,把這些框架和模型集成到數據虛擬化平臺,并借助于數據虛擬化平臺對海洋環境監測數據的集成是可行的。

3 海洋環境監測數據的集成框架、模型及數據的選擇

3.1集成相關的框架和模型

海洋環境監測系統主要有海洋生態環境監督管理系統、航空遙感監測系統、衛星遙感監測系統、水下無人自動監測站監測系統、生態浮標監測系統、海洋環境常規監測業務系統、海洋常規水文氣象觀測業務系統等。由于這些數據的時空分布、監測頻率、數據格式、空間觀測尺度及、數據復雜程度等都不一樣,讓海洋環境監測數據的數據集成變得難以實現。這也是目前海洋監測系統的集成大多數是前端系統的集成,而在綜合性的海洋觀測數據上的集成很少的原因。

但是大數據技術(Hadoop、Spark、…)、數據虛擬化平臺技術(Pentaho、Informatica、…)、海洋元數據交換標準(EDIOS、ODAS、IOC、…)、海洋觀測數據集成相關框架(DIF、MMI ORR,POKM、MarineTLO、…),使得海洋環境監測數據的集成成為可能。

本體語義框架,可以解決海洋監測領域內的概念和術語上的分歧,使不同的用戶之間可以順暢的溝通和交流并保持語義等效性,同時讓不同的工具軟件和應用系統之間實現互操作,有助于集成系統的構建。MMI ORR框架如圖2所示,MMI ORR和IOOS的DIF可以作為海洋環境監測數據集成的參考框架。

圖2 語義框架主要組件的協作圖

MMI ORR是面向海洋觀測的本體主義框架,其使用的ODM2信息模型(如圖3所示)在許多觀測系統中用到,比如:CUAHSI/HIS,EarthChem,CZOData,IEDA,IOOS(Integrated Ocean Observing System)等,ODM2包含了現場觀測數據、采樣數據、傳感數據、地理空間數據等常見觀測系統的數據模型,這正好滿足了目前海洋環境監測數據常見觀測數據類型。此外,ODM2還有良好的可擴展性,可適應于具體的觀測系統數據集成應用。

圖3 ODM2觀測信息模型簡圖

本研究將根據國內海洋觀測數據的特征,參照一些開源數據集成框架和數據模型,對選用的MMI ORR框架和ODM2模型進行擴展,并集成到選用的大數據虛擬化平臺中去,最終實現大數據技術背景下,海洋環境監測數據的集成。

3.2海洋環境監測數據的選擇

根據ODM2信息模型的分類,從目前國家海洋環境監測中心的數據庫中選擇有代表性的數據進行數據集成研究。

這些數據將包括觀測數據(ODM2中的采樣等數據)、浮標數據(ODM2中傳感數據)、遙感數據和地理信息系統數據(ODM2的地理空間數據)及其它數據(ODM2其它類型數據)。

由于數據量大、類型復雜,研究將從海洋環境監測相關數據庫中的生態環境、污染源、海洋災害與風險、社會調查、監測資料(監測報告、遙感影像、圖像、視頻、專題圖件等)、浮標監測數據中選擇現場觀測數據、實時觀測數據、地理觀測數據作為數據集成對象(包括半結構化、非結構數數據,比如圖片、影像、檔案資料)。

4 擬解決關鍵問題的技術研究

4.1大數據計算模式集成

Hadoop的MapReduce計算模式只適合離線歷史數據的批處理情形,在監測數據集成時,經常需要對表1中的計算模式進行選擇。

表1 典型大數據計算模式與系統

需根據現場觀測、實時傳感和遙感數據中不同的數據處理需求,選擇需要的大數據計算模式,然后利用Mesos、Yarn等資源管理框架把這些模式集成到數據虛擬化平臺中去。

4.2元數據研究

元數據的“標簽”功能可以很好地把多源異構的監測數據有效地聯系起來,從而實現大數據集成,元數據包含4個層次,用戶數據→元數據(模型)→元模型→本體(元—元模型),因此研究內容主要如下。

4.2.1元數據標準由于數據虛擬化平臺自帶元數據組件,可以實現數據源的元數據自動導入、存儲和管理等功能,所以元數據研究的一個重要內容是元數據的標準。

需要研究內容包括:國家海洋局及歐美等國家的海洋監測相關的元數據標準,ISO/IEC JTC1 SC32、ITU等國際和國內大數據標準化工作組的元數據標準(主要是內容標準和格式標準);研究EUMIS和IOOS等應用系統中的海洋現場觀測、傳感、地理影像數據的元數據標準。最終確定切實可行的元數據標準,并在數據虛擬化平臺構建元數據時,按照選擇的元數據標準規范進行,以便生成高質量的元數據文檔(庫)。

4.2.2數據虛擬化平臺上的數據建模(元模型)數據虛擬化平臺在導入數據時自動導入數據源的元數據,但在構建虛擬數據庫時,還需要對這些元數據進行建模,形成元模型,這個過程在數據虛擬化平臺上叫“數據建模”(詳見圖4“第二階段:數據的組織”一節),數據建模是數據集成中的關鍵一步。

ODM2是一個先進且通用的信息模型,可以根據需要擴展。要實現數據虛擬化平臺上的數據建模,方法是以其為核心并擴展ODM2模型,利用PowerDesigner等數據建模工具構建適合于國內海洋環境監測數據的數據模型,最后應用到數據虛擬化系統中虛擬數據庫的構建中去。

4.2.3本體語義框架借鑒數據管理框架OODT的元數據實現原理、架構思想,參照MMI語義框架,需研究的內容有:對現有開源語義框架或MMI語義框架擴展并集成到數據虛擬化平臺中去;實現海洋環境監測專業詞匯庫構建、注冊(產生符合OWL標準的語義內容,一般采用RDF/XML格式);實現語義映射(詞匯和詞匯之間的映射)。

4.3開源數據虛擬化平臺上的應用構建

目前,大數據集成主要通過數據虛擬化平臺來實現,數據虛擬化平臺對數據的集成主要包括數據源的連接→組織→訪問3個重要階段。

第一階段:數據的獲取。此階段主要是通過元數據和主數據管理完成多源異構數據的連接。

通過轉換組件、適配器、查詢引擎來實現數據的連接。查詢引擎借助元數據找到數據源,轉換組件將查詢命令轉換成數據源特定命令,然后通過源和虛擬化數據庫之間的視圖模型,提供一個優化的標準查詢計劃,其中適配器提供交互功能。

第二階段:數據的組織。組合并轉換數據到一個通用、可復用的虛擬數據模型和視圖層。

主要是建立虛擬數據庫來提供多個物理數據源統一視圖。虛擬數據庫由數據模型和配置信息組成。配置信息描述了哪些數據源需要集成以及如何集成的。

第三階段:數據的消費。通過標準的開放接口,使數據的訪問更容易。可以通過JDBC、ODBC、Web Service訪問虛擬數據庫。

根據以上三階段內容,數據虛擬化平臺架構如圖4所示。

圖4 數據虛擬化平臺架構

前文已討論了與數據虛擬化平臺密切相關的大數據計算模式、元數據等研究內容。在完成以上研究內容后,構建主數據庫后(相對容易,這里不多做敘述),即可構建多源異構的大數據集成應用了,主要包括以下3方面內容:

(1)數據的查詢應用:數據查詢是數據共享中最重要的功能,基于數據虛擬化平臺提供的功能統一訪問接口,實現大數據的查詢,特別是半結構化和非結構化數據查詢是一個重要的應用方向。

(2)綜合展示:參照開源Lumify、Pentaho等平臺的實現方式,實現GIS應用中多源異構數據的可視化展示(含半結構化和非結構化數據)。

(3)Rest服務:基于數據虛擬化平臺的接口,構建Rest風格的數據服務,以方便應用之間數據交互。

5 實驗技術路線

根據前述內容,繪制的技術路線如圖5所示。

6 結論

本文針對多源異構的海洋環境監測數據面臨的大數據問題,提出了在構建數據虛擬化平臺和大數據計算模式集成的基礎上,通過雙層元數據(數據虛擬化平臺中,數據連接層的元數據生成,數據消費層的元數據建模)和本體語義框架,來實現海量海洋環境監測數據的集成,并提出了基于這些技術的應用架構。這些思想基于國外大數據集成先進思想,對解決海量的多源異構數據集成有指導性意義。

本研究目前正處于起步階段,將會面臨諸多問題,有待于在實踐中不斷地發現和解決新問題。

圖5 研究技術路線示意圖

[1]SzalayS,GrayJ.Science in an Exponential Word[J].Nature,2006,440:23-24.

[2]H Gilbert Miller Peter Mork,Noblis.FromData toDecisions:AValue Chain for BigData[J].ITProfessional,2013,15(1):57-58.

[3]Andrew Brust.Gartner Releases 2013 Data Warehouse Magic Quadrant[EB/OL].2013-05 http://www.zdnet.com/article/gartnerreleases-2013-data-warehouse-magic-quadrant/.

[4]Xin Luna Dong,Divesh Srivastava.BigData Integration[C]//IEEE 29th International Conference on Data Engineering(ICDE),2013: 1245-1248.

[5]April Reeve.Managing Data in Motion Data Integration Best Practice Techniques and Technologies[M].San Francisco:Morgan Kaufmann Publishers,2013:142-156.

[6]J Dean,SGhemawat.Mapreduce:Simplified Data Processingon Large Clusters[C]//OSDI,2004.

[7]CuttingD.Scalable Computingwith MapReduce[C]//Proc ofO’ReillyOpen Source Convention,Poland.2005.

[8]Overview.The Open Service Network for Marine Environmental Data(NETMAR)[EB/OL].2009-06 http://netmar.nersc.no/.

[9]Jeffde La Beaujardière.The NOAAIOOSData Integration Framework:Initial Implementation Report[R].IEEE Publishers,2008:1-8.

[10]NOAA Announces RFI to Unleash Power of'Big Data'[EB/OL].[2014-02-24]http://www.noaanews.noaa.gov/stories 2014/20140224 _bigdata.html,.

[11]Comments ofthe Information Technology Industry Council.Response to the Big Data Request for Information[EB/OL].2014-03-27 http://www.itic.org/dotAsset/bcae1b74-eb8e-4f01-a02d-7e8aa8bdaf0f.pdf.

[12]Miaomiao,Bin Zhou,Zhun Zhou.The Interoperation Framework ofOcean Observation Data UsingSpatial Information Service[C]//2nd International Conference on Computer Science and Network Technology,Changchun,2012.

[13]John Graybeal,Anthony W Isenor,Carlos Rueda.Semantic Mediation of Vocabularies for Ocean Observing Systems[J].Computers& Geosciences.2012:120-131.

[14]Jing Xiong,Jipeng Wang,Feng Gao.Research and Application of Ontology-Based Marine Ecology Knowledge Management[J].Informatics and Management Science II,2013,205:465-471.

[15]Dhruba Borthakur,Jonathan Gray,et al.Apache Hadoop Goes Realtime at Facebook[C]//Proceedings of the 2011 ACM SIGMOD International Conference on Management ofData.NewYork:ACMPublishers,2011:1071-1080.

[16]沈來信,王偉.基于Tree-lib的大數據實時分析研究[J].計算機科學,2013,40(6):192-196.

[17]Robert eve.BigData Meets Virtualization[EB/OL].2011-05-17 http://roberteve1.sys-con.com/node/1835758.

[18]Overview.JBoss Data Virtualization[EB/OL].2014 http://www.jboss.org/products/datavirt/overview/.

[19]About Teiid[EB/OL].2014 http://teiid.jboss.org/about/.

[20]Benjamin T Hazen,Christopher A Boone,et al.Data Quality for Data Science,Predictive Analytics,and Big Data in Supply Chain Management:An Introduction to the Problem and Suggestions for Research and Applications[J].International Journal of Production Economics Editorial Board,2014,154:72-80.

[21]宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版.2013,33(5):38-43.

[22]黃冬梅,陳括,等.基于塊嵌套循環的海洋大數據質量檢驗方案選擇算法[J].計算機工程與科學,2013.10,35(10):51-57.

[23]Vision For The Future of the Data Integration Market-Impact of Data Virtualization[EB/OL].https://www.youtube.com/watch?v=yziU4YV_BUE.2011-06-23.

[24]van der Lans R F.Data Virtualization for Business Intelligence Systems[M].Waltham,MA:Morgan Kaufmann Publishers,2012:8-9

[25]Noel Yuhanna,Mike GilpinThe.Forrester Wave:Data Virtualization,Q1 2012[EB/OL].2012-01-05 http://72.41.218.229/admin/uploads/15723400631342780586.pdf.

[26]Tomplunkett,Brian macdonald,et al.Oracle BigData Handbook[M].Osborne/McGraw-Hill,2013:1-12.

[27]Informatica Powercenter Big Data Edition[EB/OL].2014-12/2015-11-09 http://www.predictiveanalyticstoday.com/informaticapowercenter-big-data-edition/.

[28]Lumifyfeatures in action[EB/OL].2013-112-13 https://www.youtube.com/watchv=CAR8mon7EZs.

[29]The death oftraditional data integration[EB/OL].2015-01-28 http://campaigns.snaplogic.com/death-of-traditional-integration.html.

[30]Samina R Abidi,Syed SR Abidi,Mei Kwan,et al.An Ontology Framework for Modeling Ocean Data and E-Science Semantic Web Services[J].International Journal ofAdvanced Computer Science,2012,2(8):280-286.

[31]Yannis Tzitzikas,Carlo Allocca,Chryssoula Bekiari,et al.Integrating Heterogeneous and Distributed Information about Marine Species through a Top Level Ontology[C]//5th Information Retrieval FacilityConference,IRF 2012,Vienna,2012:1-12.

Integration and Application of Marine Environmental Monitoring Data Based on Big Data Technology

XIE Peng-fei,LIU Yu-an,ZHAO Hui,ZHU Rong-juan
National Marine Environment Monitoring Center,Dalian 10063,Liaoning Province,China

The integration of massive multi-source heterogeneous data for marine environmental monitoring is beyond the capability of traditional integration methods and technologies,which can only be realized by the application of big data technology which is beneficial for sharing of marine environmental monitoring data,avoiding the emergence of information island,and providing necessary data for data analysis and mining.This paper focuses on the integration of multi-source heterogeneous marine environmental monitoring data based on the technologies of big data and data virtualization platform refering to the ODM2 information model and MMI ORR ontology semantic framework.In addition,it probes into the realization method of multi-source heterogeneous data inquiry as well as their integrated display and application on the basis of Big Data Integration(BDI).This research helps to solve the problem of massive marine environmental monitoring data management,meets the demands of marine environmental big data for researchers,implements the data-driven decisionmaking method,and improves the management level for the marine environment.

big data;data virtualization;metadata;ODM2 model;ontology semantic framework

P76;TP39

A

1003-2029(2016)01-0093-09

10.3969/j.issn.1003-2029.2016.01.015

2015-03-01

解鵬飛(1975-),男,碩士,工程師,主要研究方向為大數據,數據挖掘與分析。E-mail:pfxie@nmemc.org.cn

主站蜘蛛池模板: 国产欧美视频综合二区| 99热在线只有精品| 日韩视频免费| 免费人成网站在线观看欧美| 无套av在线| 欧美在线网| 国产在线观看91精品亚瑟| 日本a级免费| 人妻精品全国免费视频| jizz在线观看| 免费a级毛片18以上观看精品| 中文字幕日韩欧美| 日本人妻丰满熟妇区| 久久久久久午夜精品| 刘亦菲一区二区在线观看| 中文无码精品A∨在线观看不卡| 高潮毛片无遮挡高清视频播放| 波多野结衣无码AV在线| 无码人妻免费| 国产91九色在线播放| 中文字幕日韩丝袜一区| 国产成人精品男人的天堂| 欧美一级夜夜爽www| 91成人免费观看| 九色在线观看视频| 亚洲视频影院| 日韩东京热无码人妻| 91麻豆国产视频| 日韩欧美国产综合| 99久久成人国产精品免费| 午夜毛片免费观看视频 | 国产精品无码一区二区桃花视频| 久久视精品| 欧美成人精品高清在线下载| 99伊人精品| 亚洲人成网站色7799在线播放| 色天天综合| 国产三级视频网站| 免费视频在线2021入口| 永久免费无码日韩视频| 又污又黄又无遮挡网站| 女人18毛片一级毛片在线 | 中文无码毛片又爽又刺激| 最新国产你懂的在线网址| 精品视频在线一区| a天堂视频| a亚洲天堂| 91亚洲视频下载| 久久伊伊香蕉综合精品| 欧洲欧美人成免费全部视频| 欧美福利在线播放| 97国产成人无码精品久久久| 91人妻日韩人妻无码专区精品| 无码网站免费观看| 亚洲国产无码有码| 亚洲国产精品不卡在线 | 亚洲第一区精品日韩在线播放| 亚洲天堂首页| 天堂成人在线| 国产亚洲精品97AA片在线播放| 伊人久久久久久久久久| 国产91线观看| 2021亚洲精品不卡a| 亚洲成人高清无码| 黄色不卡视频| 国产麻豆精品久久一二三| 国产中文一区二区苍井空| 欧美a级在线| 在线观看国产黄色| 香蕉久久国产精品免| 亚洲欧美成aⅴ人在线观看| 欧美在线视频不卡第一页| 精品国产成人高清在线| 欧美成人综合在线| 欧美成人A视频| 成人国产精品一级毛片天堂| 久久久久青草大香线综合精品| 亚洲午夜天堂| 18禁不卡免费网站| 九月婷婷亚洲综合在线| 国产导航在线| 久久国产精品娇妻素人|