宋坤
(國家海洋技術中心 天津 300112)
海洋是關系國家領土、海洋權益和軍事對抗的戰略空間和主題,其具有重要的政治、經濟和軍事意義。海洋環境是指以人類生存與發展為中心,相對其存在并產生直接或間接影響的海洋自然和非自然全部要素的整體。海洋環境數據來源于人們對海洋環境的了解、觀測和掌握,是人類進行海洋開發、海洋環境保護、軍事保障和海洋管理的主要決策依據。
海洋環境數據覆蓋了水文、氣象、化學、生物、地質、地球物理等多個學科,主要包括大氣(氣溫、風、雨、云、霧等)、水文(海水溫度、鹽度、深度、潮汐、海浪、海流等)以及海底地形、地貌、地質、重力、磁力、海底擴張等各種數據信息[1]。由于數據采集的分布性、多源性和多樣性等,海洋環境觀測數據具有類型復雜、結構多樣等顯著特征。有效地組織管理數據信息,實現觀測數據共享,對海洋環境科學研究和應用具有重要的意義和價值。
大數據(Big Data)是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合。而海洋環境觀測數據的多樣性、多源性、復雜性與大數據的主要特征數據量巨大(Volume)、數據類型多(Variety)、數據流動快(Velocity)和數據潛在價值(Value)相一致。在海洋環境觀測數據共享應用中引入大數據的理念不止是為了更好地組織管理龐大的數據信息,其主要意義還在于更大地挖掘其潛在的應用價值。
當氣象學家在做氣象地圖分析、物理學家在建立大物理仿真模型等過程中,由于數據量巨大而不能再用傳統的計算技術來實現時,大數據的概念在這些科學研究領域首先被提出來。隨著互聯網和電子商務的快速發展,大數據的理念和技術開始被實際應用。大數據的新技術和新架構也在面臨解決數據量大、數據種類多、數據流動速度快、數據不完備甚至不可理解等問題中得以不斷開發出來。
大數據應用真正要實現的是“用數據說話”,而不再是直覺或者經驗。其主要包括以下3 個方面:一是發現過去沒有發現的數據潛在價值;二是通過不同數據集的整合創造新的數據價值;三是把在一個領域已經發揮過價值的數據再次應用在新的領域創造出新的價值[2]。
(1)隨著國家對海洋科學研究重視程度的提高,國家公益性專項、“863”計劃等的支持創建了許多海洋工程項目,對海洋生物、化學、物理等各領域進行了探究,同時也產生了許多的數據資料。但由于我國海洋觀測平臺的條塊管理模式使得觀測數據具有分布式、區域化的特征,很多數據只在某一個領域或某一個課題中得以利用,并未能充分挖掘數據的價值。考慮到數據資源的分布式特征需要引入大數據的理念,建立數據共享機制,實現數據的重復利用,挖掘數據的潛在價值。
(2)由于海洋環境觀測數據獲取的手段不同、表述的方式不同,使得數據的類型多樣。按照數據結構分為結構化數據即存儲在數據庫中、可以用二維表結構來邏輯表達實現的數據;半結構化數據即格式較為規范的,可以通過某種方式解析得到每項的數據;無結構的非結構化數據是指非純文本類數據,沒有標準格式,無法直接解析出來相應的值,如圖像、視頻等。基于海洋環境觀測數據的異構性特征,需要借鑒大數據的數據存儲理念對異構數據進行整合、對其存儲進行重新的規劃和部署。
(3)在傳感器技術、海洋觀測技術、通信技術的飛速發展形勢下,海洋環境觀測數據的獲取頻率在不斷提高,如何快速地完成數據的更新、分析并提供相應的應用及產品,是實現數據共享需要解決的重要問題。在數據存儲和計算中,可以采用大數據的分布式存儲+計算平臺的模式,以滿足觀測數據的快速流動性。
依據海洋環境觀測數據共享的需求,結合近年來蓬勃發展的大數據的概念和技術,本研究提出了一種基于大數據理念的海洋環境觀測數據共享平臺框架,如圖1所示。
該框架主要由數據源、數據操作、數據存儲、數據訪問、數據分析、應用服務以及相關數據共享管理制度和安全機制等組成。各層相對獨立,層間的耦合性比較小。
數據源處于框架的最底層主要包括需要共享的基礎數據、各類歷史資料、各項目和區域獲得的實時數據和延時數據,以及獲取和制作的信息產品等,作為整個平臺運行的基礎。
數據操作是對異構的多源數據進行抽取、排序/過濾、轉換等處理,以實現數據的重新整合、部署,完成數據的規范化存儲。
數據訪問是各數據集與數據分析之間的橋梁,實現數據的提取以及分析信息的加載。
數據分析是根據應用的需要對存儲的數據進行檢索、統計分析、信息產品制作、數據同化融合等分析處理,為應用服務提供后臺并行計算。數據的操作、存儲、訪問及分析都要以元數據管理為依托。
應用服務是平臺最終能提供給用戶的功能以及與用戶交互的接口,包括數據查詢、信息可視化、信息共享及數據評價與反饋等。
數據管理、安全和備份恢復是幫助進行數據治理、實現數據保護。
數據共享管理制度是指與海洋環境觀測數據共享相關的各種法律、法規和文件。
整個框架以多源數據為基礎,以提供各類應用服務為目標,以數據管理、安全和共享管理制度為運行保障,最終實現海洋環境觀測數據的共享。

圖1 海洋環境觀測數據共享平臺框架
為了有效地避免數據重復建設和信息孤島,以及海洋環境觀測數據異構性的特征,需要基于基礎數據和元數據對多源異構海洋環境觀測數據信息進行整合,并對信息資源的存儲進行重新部署[3]。根據數據涉及學科的不同、安全等級的不同和應用需求的不同,將海洋觀測數據分為多個數據集,并通過關鍵數據集來維護其間的關系。關鍵數據集主要包括元數據、基礎數據等。結合觀測數據應用的情況,從管理和應用效率的角度出發,采用數據集中存儲與分散存儲相結合的方式,共享頻率高公開數據存放在本地數據庫中。對于某項目或地區的非公開數據則存儲在數據生產者的數據庫中,其數據源的生產、維護更新和所有權歸數據生產者。該平臺只在元數據的描述中提供該類數據的數據標志信息、內容信息及發布信息等。
根據共享內容的粒度差異,信息共享需求分為數據級共享和應用級共享[4]。數據級共享指共享的內容為數據,是粒度較低的共享,主要是純數據庫級的數據提取和發送。在該共享平臺中體現為以元數據為核心建立信息目錄,通過數據檢索提供數據查詢、信息共享等服務。應用級共享指從應用層面依據用戶需求提供經數據統計分析、同化融合和科學計算等處理分析后的信息產品及資料,雖然展示的是信息產品,但實質提供的是在Web Services技術規范下的與邏輯相關的通用服務共享功能,是粒度較高的共享。
海洋環境觀測數據的流動速度很快,數據的更新和維護關系到共享平臺的運行效果。在海洋信息交換領域數據源非常廣泛,新數據源的添加也是不可避免的,所以該平臺對數據的更新和維護采用動態管理的方式,對數據的加載、檢索、分析等,使用數據配置的關聯方式和管理方式,以適應海洋數據源的變動,提高平臺對數據的支持能力。
所謂信息共享指信息的雙向流動,即任何單位或個人履行了把所掌握的全部或部分數據貢獻出來作為社會發展之用的義務,就有權利獲得其他人提供的數據或信息,只有形成信息的雙向流動才能促進海洋事業的發展[5]。本研究以海洋觀測數據共享的需求為依托,引入了大數據的理念,提出了一種海洋環境觀測數據共享平臺的框架,在理論與技術層面上為海洋觀測數據的共享提供了一種模型,以實現數據的共享及其潛在價值的挖掘。該平臺的搭建和運行還需要海洋信息管理制度的完善和海洋信息共享相關法律的建立,以保障數據生產者的利益和敏感數據的安全。
[1]李琳,郝建新,湯曉安,等.基于GML的海洋空間數據共享研究[J].現代電子技術,2009(6):147-153.
[2]趙剛.大數據技術與應用實踐指南[M].北京:電子工業出版社,2013:1-21.
[3]丁火平,陳建平,余劍平,等.基于SOA 架構的數字城市信息共享方法研究[J].計算機工程與設計,2009,30(20):4632-4625.
[4]錢大君,吳建平,余柏蒗,等.上海市資源與環境數據共享平臺的實現[J].計算機工程,2008,34(10):283-285.
[5]常虹,于華明,鮑獻文,等.我國海洋數據信息共享現狀及立法建議[J].海洋開發與管理,2008,25(1):134-138.