李兆欽 劉增宏 許建平 孫朝輝 盧少磊

摘要:我國未來智慧海洋觀測系統將集成多種觀測平臺,獲取全球范圍、長時間和準實時的海洋數據。為更加科學而高效地管理數據,文章結合我國智慧海洋發展趨勢,分析存在的問題,借鑒相對先進的數據管理規范,為建設智慧海洋國際共享應用平臺提供參考。研究結果表明:與觀測平臺、傳感器和通信技術的快速發展相比,我國海洋數據管理的發展十分緩慢,缺乏數據質量控制和存儲等規范,嚴重制約海洋觀測數據的有效管理和共享應用,不利于海洋大數據的融合和信息挖掘技術的發展;為各類觀測平臺制定科學而合理的數據管理規范,對于智慧海洋建設至關重要,亟須盡快組織專業人員成立工作組,落實和保障該項工作的有序開展,從而提升我國在海洋大數據信息處理方面的能力。
關鍵詞:智慧海洋;海洋大數據;數據管理規范;數據共享;海洋觀測
Abstract:In the future,China′s smart ocean observation system will integrate multiple observation platforms,combining with advanced communication and internet technologies,which makes it possible to get large-scale and long-term oceanic information in near real-time from regional to global scale.In order to manage data more scientifically and efficiently,this paper analyzed the existing problems in combination with the development trend of smart ocean in China,and drew lessons from the relatively advanced data management standards,so as to provide important reference for the construction of the international shared application platform of smart ocean.The research results showed that,the progress of ocean data management was relatively slow compared with the rapid development of observation technology and lack of standardized data quality control and storage,which had greatly hindered the effective management and sharing of observational data and was unfavorable for the integration of ocean big data and the development of information mining technology.It was therefore the drafting of scientific and reasonable data management specifications for various types of observing platforms scientific was essential for the construction of the China′s smart ocean system.This had required great attentions from related departments.It is necessary to establish working groups as soon as possible to conduct related works,thus will enhance the ability to process ocean big data.
Key words:Smart ocean,Ocean big data,Data management specification,Data sharing,Ocean observation
0 引言
隨著海洋觀測技術和通信技術的快速發展,海洋儀器設備不斷更新換代,未來海洋觀測將步入智慧海洋的物聯網時代,觀測方式不再局限于船只走航,而是包含各種固定和移動平臺的組網觀測,在空間上呈點、線、面分布,觀測層次從海表至海底,時間尺度覆蓋小時至年甚至年代,結合互聯網和計算機技術,實現從海洋信息采集、傳輸和處理到數據分析、產品制作和信息服務的智能化。當前海洋多平臺的組網觀測已不難實現,真正亟須解決的關鍵技術問題是統一化和規范化的數據管理以及多平臺的信息融合和挖掘,其中針對多觀測平臺的數據管理規范是基礎和須首先解決的問題[1]。
各種海洋觀測平臺都有獨特的工作模式和數據格式,只有制定科學合理的數據管理規范,才能高效利用這些觀測數據,做到有據可依,進而為海洋立體監測和認知海洋提供更多的有效信息。多年來我國已制定部分與海洋數據相關的標準和規范,但很多標準不一致,尚未建立統一的海洋數據規范和標準體系,導致目前海洋數據的質量難以保證、利用率較低以及兼容性和可比性較差[2]。為各種觀測平臺制定數據管理規范往往須投入大量人力和物力,對于相關人員來說,數據質量控制方法的設計須具備專業知識,數據存儲方式和格式以及數據處理流程的制定須同時具備計算機知識和海洋知識。本研究借鑒較成熟的觀測平臺數據管理規范,結合我國智慧海洋的發展趨勢,對多平臺數據管理規范進行研究,以期為建設智慧海洋國際共享應用平臺提供參考。
1 智慧海洋
美國IBM公司于2008年率先提出“智慧地球”的概念,其核心是把傳感器嵌入各種物理基礎設施,連接形成物聯網并與互聯網進行整合,使人類能以更加精細和動態的方式管理生產和生活,實現全球智慧狀態[3]。智慧海洋是基于海洋綜合立體感知、互聯網實時信息傳輸、大數據、云計算和知識挖掘等高新技術,以海洋綜合感知網、海洋信息通信網和海洋大數據云平臺等信息基礎設施為主體,搭建海洋信息智能化應用服務群,并建立貫穿各環節的標準質量、運維服務、技術裝備和信息安全體系[4]。智慧海洋能力建設包括感知網、通信網、大數據平臺和應用群,具備的功能包括智能化信息采集、信息傳輸、信息處理和信息服務。已建成的美國大洋觀測計劃(IOO)、美國綜合海洋觀測系統(IOOS)、加拿大東北太平洋時間序列水下觀測網(NEPTUNE)和歐洲EMSO觀測網等單一或綜合觀測系統均可視為智慧海洋的初級產品[5-8]。
海洋強國建設離不開智慧海洋建設。智慧海洋建設事關重大戰略,事關國家利益,事關長遠建設[9]。未來智慧海洋觀測系統將集成基于“空天地海”的各種觀測平臺,自動獲取海洋內部各種物理和生物地球化學信息,并通過現代通信網絡傳輸到大數據平臺。大數據平臺是重要的中間環節,發揮數據接收以及信息解譯、處理和分發的作用[10]。由于工作方式和攜帶傳感器不同,每種觀測平臺具有不同的采樣方式和觀測數據,其信息處理流程、數據質量控制方法和數據存儲格式也不同,須制定相應的數據管理規范,才能合理和有效地利用這些數據,以開展后續的大數據分析和挖掘。
2 數據管理規范
2.1 信息處理流程
每種觀測平臺都有獨特的工作模式和采樣方式,并可能使用不同的通信手段傳輸觀測數據,信息處理流程存在差異,因此須詳細制定盡可能完善的信息處理流程。在制定信息處理流程的過程中,應有包括平臺使用、系統設計、程序編寫、質量控制、數據存儲和數據使用等在內的相關人員共同參與,商討流程的總體框架和每個模塊實現的功能。其中,總負責人負責流程總體框架的設計和制定,各模塊負責人負責各模塊的流程設計和制定,數據用戶提出數據使用需求,各模塊之間還須進行協調。信息處理流程通常包含數據(編碼)接收、信息解譯、質量控制、格式寫入以及數據分發和共享5個模塊。
中國Argo實時資料中心制定的Argo剖面浮標信息處理流程如圖1所示。
該信息處理流程包括3個部分:①針對Argos衛星、銥衛星和北斗衛星3種衛星通信系統的浮標數據接收模塊;②具有信息自動解碼、實時質量控制、實時壓力校正和統一格式寫入功能的信息處理模塊;③負責數據分發的模塊。按照該流程,中國Argo實時資料中心基于LINUX操作系統建立可批量接收、處理和分發各型浮標和傳感器觀測資料的系統并投入業務運行,這是支撐中國Argo實時資料中心運行的核心技術。該系統內的各模塊由大量基于MATLAB和Python語言的代碼以及LINUX SHELL腳本組成,最終通過LINUX Crontab進行任務調度,實現系統程序的定時自動運行[11]。
未來智慧海洋共享應用平臺的信息處理流程更加復雜,可參考中國Argo實時資料中心的信息處理流程進行規劃。
2.2 數據接收
使用不同通信系統傳輸數據(編碼),其數據接收方式不盡相同:①Argos衛星通信的數據包通常采用32字節的十六進制編碼,用戶可使用Telnet協議或Email接收數據[12];②目前使用最廣泛的銥衛星通信的數據包通常采用二進制編碼,其中RUDICS方式支持大數據包傳輸,SBD方式支持最大300字節的數據包傳輸,數據接收方式分別為FTP協議和Email[13-14];③國產北斗衛星通信支持約100字節的二進制或十六進制數據包傳輸,用戶須安裝北斗終端接收數據[15];④在近岸無線信號覆蓋區域內,4G/5G無線通信模塊支持至少20 Mb/s的數據傳輸速度,用戶可使用TCP/IP和M2M協議接收數據[16]。
由此可見,使用不同通信方式的觀測平臺須使用不同的通信協議并從不同服務器或數據中心接收觀測數據。在制定各種觀測平臺的數據接收規范時,應綜合考慮衛星(無線)通信的速率和用戶對數據時效性的要求,明確數據的最低接收頻次。同時,針對編程使用的協議提出建議,避免數據包丟失。
2.3 信息解譯
通過衛星(無線)傳輸的觀測數據通常以二進制或十六進制編碼,因此須嚴格按照設備研制廠家提供的用戶手冊解碼。即使是同一型號的設備,因設備版本和攜帶傳感器的不同,其數據編碼格式也有差別,如美國Teledyne Webb公司生產的APEX型浮標從2000年至今有10余種編碼格式。使用Argos衛星和銥衛星通信傳輸的浮標數據編碼格式也完全不同,如不嚴格按照用戶手冊的編碼格式說明進行解碼,將無法獲得正確的浮標觀測數據和技術信息。因此,制定智慧海洋觀測平臺的信息解譯規范對于獲取正確的觀測數據十分重要[17]。
信息解譯規范的制定過程通常包含解碼器的編寫、測試、試運行和業務運行。解碼器編寫規范應規定使用的語言和操作系統、解譯信息類型和程序結構規范化等內容,應由具備專業計算機知識和海洋知識的人員共同完成;解碼器測試規范應規定測試的過程、內容和結果分析以及程序改進等,同樣應由具備專業計算機知識和海洋知識的人員共同完成;解碼器試運行規范應包含試運行的方式和結果分析以及程序改進等,應由該模塊負責人和解碼器程序編寫人員共同完成;解碼器順利通過試運行方可投入業務運行,投入業務運行的解碼器應正式編入信息解譯手冊,說明該解碼器對應觀測平臺的種類、型號、版本和攜帶傳感器等,并逐一說明程序的輸出變量。
信息解譯的重要環節是將傳感器的輸出值或觀測平臺通過衛星(無線)通信的輸出值計算成真正有效的海洋要素值。很多生物地球化學傳感器的輸出值并不代表觀測要素值,須通過給定的方法和實驗室標定系數進行計算后,才能獲得需要的物理量。例如:使用熒光法測量海水溶解氧濃度的Aanderaa溶解氧傳感器,其輸出值通常為紅藍光的2個相位值,須通過相應的方法(如Stern-Volmer方程)反演得到真正的海水溶解氧濃度[18]。因此,應在規范中明確規定各種傳感器輸出值的要素計算方法,并說明計算程序。
信息解譯后,須將用戶需要的觀測數據、設備技術信息、時間和定位等寫入文件。這就須針對每種觀測平臺制定相應的數據存儲格式,主要包括存儲方式(二進制或可讀的文本文件)、文件命名規則、存儲時間段、存儲格式(包括表頭信息、定位、時間和觀測數據等)、變量命名規則、數值有效數字、缺省值、采用的單位和數據排列方式。此外,應規范每種觀測平臺在計算機中的目錄組織結構,目錄的命名應遵循一定的規則。
2.4 數據質量控制
數據質量控制是在信息獲得正確解譯后確保數據可靠性的重要步驟,不同觀測平臺和傳感器的數據質量控制方法雖各不相同,但可相互借鑒。質量控制分為實時和延時2種模式:實時質量控制完全由計算機自動完成,可保證數據無明顯異常值;延時質量控制須由具備專業知識背景的人員進行人工判斷,通過賦予質量控制標記符來確定數據質量。無論是實時質量控制還是延時質量控制,所有數據都應保留原始觀測值,經延時質量控制的數據還須包含校正值。除觀測數據外,定位和時間信息也須進行質量控制,尤其是對于移動觀測平臺,當其無動力時應滿足通過定位和時間信息計算的平臺速度不超過海域最大流速,當其有動力時還應考慮平臺的前進速度。因此,制定數據質量控制方法是復雜的工作,應由具備專業海洋知識和了解平臺運行情況的技術人員共同完成。
在每種觀測平臺制定數據質量控制方法前,應組建工作小組,負責該平臺數據質量控制方法的制定和更新工作。由數據質量控制方法總負責人進行各小組間的協調,目的是保證將各類觀測平臺具有共性的內容進行統一,如確定質量控制標記符和選取閾值。在制定數據質量控制方法時可借鑒國際較成熟的方法,如水下滑翔機和Argo具有相似的工作特點和可攜帶的傳感器[19],水下滑翔機的觀測數據質量控制方法即可借鑒國際Argo計劃制定的方法。每種觀測平臺的數據質量控制方法應獨立成冊,并由工作小組負責更新,對于目前尚無完善數據質量控制方法的傳感器觀測數據,應隨時跟蹤國內外最新研究進展,并有計劃地更新。數據質量控制手冊中應規定質量控制的各項測試步驟、賦予的質控標記以及方法的出處和原理等內容。當數據質量控制方法確定后,可設計相應的程序,以實現觀測數據的質量控制,并對每個觀測值賦予質量標記符號。每個測試步驟的程序均應進行測試,從而獲得手冊規定的測試效果。
2.5 數據存儲
科研數據的共享要求數據可被科研人員和公眾發現、訪問、互操作和重復使用,因此數據產出后管理的目的并不僅是數據存儲,更重要的是數據流轉和利用,這就要求共享數據能以通用或可轉換的格式保存和管理,通用而高效的數據存儲方式可方便用戶使用數據,并促進數據的推廣使用。智慧海洋共享應用平臺的建設也須制定通用而高效的數據存儲規范,既可節省人力和物力投入,還能提高平臺開發應用服務的效率,降低用戶的時間成本。在海洋與大氣領域,目前國際較通用的數據存儲方式有NetCDF、JSON和XML等,其中:NetCDF格式應用最為廣泛,適合存儲網格化和散點數據;JSON和XML為結構性標記語言,易于機器解析和生成,通常用于存儲元數據[20-21]。
各類觀測平臺的數據類型通常分為元數據、觀測數據、技術信息和漂移軌跡(移動平臺)等。其中,元數據文件存儲設備的序列號、固件版本、通信和定位系統、傳輸平臺號、攜帶的傳感器、布放時間、布放位置、布放使用的船只、負責人以及所屬項目等信息,觀測數據文件存儲平臺通過衛星(無線)通信傳回的輸出值、計算后的要素值、時間和定位信息以及質量控制標記符號等內容,技術信息文件存儲平臺、傳感器和電池等的技術參數,漂移軌跡文件存儲移動平臺在海上漂移時的定位和時間信息以及在水下漂移時測量的各類要素值。
在制定數據存儲規范時,須首先制定有關變量的命名和類型、文件的命名和存儲方式、各種平臺和傳感器的型號和生產廠家以及測量要素的命名等規則,使各觀測平臺的變量名統一,如溫度變量名可統一使用TEMP。數據文件名應體現平臺的類型、型號、序列號、投放時間和循環序號等信息,如“glider_seawing1000J003_20190701_001.nc”即代表序號為1000J003的“海翼”號水下滑翔機在2019年7月1日投放后觀測的第1條剖面。對于各類觀測要素,須統一確定其數據類型、詳細名稱、單位、極值范圍、分辨率、保留小數位數和缺省值等屬性。
各工作小組可根據各觀測平臺的工作特點和觀測要素等信息,制定相應的數據存儲規范或格式說明,確定需存儲的數據和信息以及每個變量的維數和長度等。例如:某個錨碇浮標在10 m、50 m、100 m和200 m水深層各安裝1個溫度傳感器且觀測頻率一致,那么其溫度變量可定義為TEMP(N_LEVELS,N_TIME),其中N_LEVELS=4,N_TIME=UNLIMITED,即代表該浮標的觀測層數為4層,觀測值數量(時間序列)不限定,可隨時間的推移不斷增加。又如:某個Argo剖面浮標在某個循環內觀測的鹽度可定義為PSAL(N_PROF,N_LEVELS),其中N_PROF=1,N_LEVELS=75,即代表該浮標觀測1條鹽度剖面,層數為75層(有些浮標攜帶的CTD傳感器同時采用散點和連續采樣模式,在1個循環內可觀測1條以上溫、鹽度剖面)。因此,在制定數據存儲規范時應綜合考慮觀測平臺的工作模式、攜帶的傳感器和采樣模式等情況,提高文件的兼容性,避免多次修訂規范。
需要指出的是,對于參與國際共享的數據,如已有數據存儲的相應國際規范(如Argo計劃),應直接采用這些國際規范,從而保證數據存儲格式與國際大科學計劃無縫銜接。
2.6 數據分發共享
科研數據的開放共享具有重要意義:一方面,可基于前人研究成果,有效提高學術成果質量;另一方面,可避免低效和重復工作,加快創新,并提高科研過程的透明度[22]。通過參與國際大科學計劃與其他國家共享和交換觀測數據,是未來智慧海洋建設必不可少的環節,也是人類共同應對全球氣候變化的必然趨勢。因此,我國亟須以國家需求為牽引,深度參與國際合作,科學制定智慧海洋數據分發共享的管理辦法和條例,明確可參與國際共享的數據類型和數據共享的分級制度等。例如:對于Argo觀測,在大洋海域獲取的數據資料,可無條件與其他Argo計劃成員國共享和交換;在我國管轄海域獲取的數據資料,可實行有限共享策略和分級共享制度。對于數據分級共享制度的制定,相關部門應牽頭成立專家組,并根據專家組的意見做出科學決策。
3 結語
智慧海洋在“空天地海”觀測系統的大趨勢下應運而生,其中具有國際影響力的智慧海洋共享應用平臺是智慧海洋建設工程的重要組成部分。制定針對多觀測平臺的數據管理規范是重要基礎,既能確保觀測數據的高效接收、處理、存儲和推廣應用,又能有效保證數據質量。制定高效的數據管理規范是非常復雜的工程,須投入大量人力和物力,并須由具備專業計算機知識和海洋知識的人員以及從事觀測平臺設計和使用的人員緊密配合,加強頂層設計和明確分工。科學而有效的數據管理規范可大大節約智慧海洋共享應用平臺業務運行所需的人力和物力資源以及計算成本,更重要的是可提升我國在海洋大數據信息處理方面的能力。因此,該項基礎性工作亟須引起相關部門的高度重視,盡快組織專業人員成立工作組,落實和保障該項工作的有序開展。
本研究涉及的數據類型主要包括溫度、鹽度和壓力等物理海洋環境要素以及溶解氧和葉綠素等部分生物地球化學環境要素,但不包括海洋地質、地磁和聲學等海洋物理和海洋地質數據。
參考文獻
[1] 曹麗娜.海洋大數據管理與應用技術研究[D].舟山:浙江海洋大學,2019.
[2] 楊錦坤,董明媚,武雙全.推進我國海洋數據深入共享服務的總體考慮[J].海洋開發與管理,2015,32(3):68-72.
[3] 徐德明.智慧中國地理空間智能體系研究報告[M].北京:社會科學文獻出版社,2014.
[4] 姜曉軼,潘德爐.談談我國智慧海洋發展的建議[J].海洋信息,2018(1):1-6.
[5] COWLES T,DELANEY J,ORCUTT J,et al.The ocean observatories initiative:sustained ocean observing across a range of spatial scales[J].Marine Technology Society Journal,2010,44(6):54-64.
[6] OCEAN US.An integrated and sustained ocean observing system(IOOS)for the United States:design and implementation[Z].2002.
[7] BARNES C R,BEST M M R,ZIELINSKI A.The NEPTUNE Canada regional cabled ocean observatory[J].Sea Technology,2008,49(7):10-14.
[8] FAVALI P,BERANZOLI L.EMSO:European multidisciplinary seafloor observatory[J].Nuclear Instruments and Methods in Physics Research Section A:Accelerators,Spectrometers,Detectors and Associated Equipment,2009,602(1):21-27.
[9] 潘德爐.大數據是智慧海洋建設的靈魂[EB/OL].(2018-06-20)[2019-09-01].https://www.sohu.com/a/236889688_335896.
[10] 黃冬梅,趙丹楓,魏立斐,等.大數據背景下海洋數據管理的挑戰與對策[J].計算機科學,2016,43(6):17-23.
[11] 劉增宏,吳曉芬,許建平,等.中國Argo海洋觀測十五年[J].地球科學進展,2016,31(5):445-460.
[12] 張少永,林玉池,熊焰.Argos衛星發射平臺研究與Argos通訊系統應用[J].海洋技術,2005(1):25-28.
[13] Iridium Satellite LLC.Iridium short burst data service developers guide,Release 2.0[Z].2007.
[14] Iridium Communications.Iridium 9602 SBD transceiver developer′s guide(2014)[Z].2014.
[15] 張素偉,沈銳.北斗衛星系統在HM 2000型剖面浮標中的應用[A].許建平.西太平洋Argo實時海洋調查研究文集[C].北京:海洋出版社,2017:388-398.
[16] 王胡成,徐暉,程志密,等.5G網絡技術研究現狀和發展趨勢[J].電信科學,2015,31(9):149-155.
[17] 中國Argo實時資料中心.嚴重影響Argo資料質量的關鍵技術:剖面浮標解碼器[Z].2017.
[18] 涂夢迪,殷高方,趙南京,等.基于時域熒光壽命的水體溶解氧濃度檢測方法[J].光學學報,2018,38(10):39-44.
[19] WONG A,KEELEY R,CARVAL T.Argo quality control manual for CTD and trajectory data Version 3.2.01 February 2019[Z].2019.
[20] LEDOUX H,ARROYO O K,KUMAR K,et al.CityJSON:a compact and easy-to-use encoding of the CityGML data model.Open geospatial data,softw.stand[Z].2009.
[21] SCHMIDT A,KERSTEN M,WINDHOUWER M,et al.Efficient relational storage and retrieval of XML documents[A].International workshop on the world wide web and databases[C].Berlin,Heidelberg:Springer,2000:137-150.
[22] GUEDJ D,RAMJOU C.European commission policy on open-access to scientific publications and research data in Horizon 2020[J].Biomedical Data Journal,2015,1(1):10.11610/bmdj.01102.