劉志杰 孔敏 舒雨婷 崔曉健 楊揚 吳春芳



摘要:為確保海洋環境調查資料在匯集、處理、管理和服務全過程中語義表達的一致性,需采用統一分類和編碼技術,設計資料分類編碼體系,以滿足海洋環境調查資料的匯集、管理與服務需求。在對海洋調查資料分類現狀研究的基礎上,系統分析了分類影響因素,提出了分類原則和方法,初步構建了基于學科、數據類型和調查方式為主的海洋調查資料分類體系,并對其進行規范化編碼。目前該分類體系與編碼已應用到海洋環境資料和信息管理業務化工作中。
關鍵詞:海洋環境資料;分類;編碼;管理;海洋信息活動
中圖分類號:P731.11 文獻標志碼:A 文章編號:1005-9857(2020)01-0034-05
Abstract: In order to ensure the consistency of semantic expression of marine environmental survey data in the whole process of collection,processing,management and service,it is necessary to adopt unified classification and coding technology and design data classification coding system to meet the requirements of collection,management and service of marine environmental survey data.On the basis of research on the classification status of marine survey data,this paper systematically analyzed the classification influencing factors,proposed the classification principles and methods,constructed a five-level classification system based on disciplines,data types and survey methods,and carried out standardized coding for it.The classification system and coding had been applied to the operational management of marine environment data management.
Key words:Marine environmental data,Classification,Coding,Management,Marine information activities
0 引言
海洋調查資料分類編碼是從不同角度對資料進行抽象和分類,以便對資料進行更好的概括,是海洋調查資料管理的一項基礎性工作,關系到海洋調查資料匯集、處理、管理和共享各個方面。中華人民共和國成立以來,我國海洋事業進入大發展時期,以專項調查、綜合科考、資源勘探和專題研究為目的,先后在我國近海及深海大洋區域開展了一系列調查活動,取得了豐富的海洋調查資料和信息。隨著科技進步,海洋調查技術日新月異,水下滑翔機、海底地震儀(OBS)、自制無人深潛器(AUV)、纜控水下機器人(ROV)、深海載人深潛器(HOV)等被廣泛應用于現代海洋調查活動中,數據類型、種類不斷豐富,數據量呈指數級增長。如何對海洋資料進行合理分類和高效管理,一直是海洋資料管理者所面臨的一個重要問題。針對不同應用目的,往往會出現多角度多級別的分類標準[1-3]。這些標準規范在一定程度上為海洋調查資料分類提供了依據,但側重需求不同,往往自成體系,難以滿足海洋調查資料綜合管理需要。目前尚未形成面向海洋調查資料管理的科學分類編碼體系,從而影響和制約了海洋調查資料的管理和使用效率。本研究在系統分析現有分類現狀的基礎上,結合已有數據資源,探討形成了基于學科、數據類型和調查方式為主的數據分類編碼體系,以便對海洋數據資源進行合理規劃、管理和利用。
1 分類與編碼研究現狀
海洋調查資料的分類研究實際上貫穿于海洋信息活動的全過程,由于信息活動過程或應用目的不同,海洋調查資料的分類也呈現多樣化。比如在海洋調查資料采集、處理階段,往往以學科為體系,進行各學科資料種類和類型的劃分;在共享服務階段,則會根據服務目的不同,采用不同組織分類,總體上更注重資料查詢檢索實效 [4]。隨著海洋信息化進程的加快,我國在海洋信息分類標準化方面開展了深入研究,并形成相應標準規范。2005年原國家海洋局頒布了海洋行業標準《海洋信息分類與代碼》[1],該標準是一個龐雜的分類體系,涉及海洋資源信息、海洋經濟統計信息、海洋環境數據信息、海洋基礎地理信息、海洋情報文獻信息和海洋法規信息,且下延到每一數據類型的數據項,其目的主要為海洋數據庫系統建設提供有效支撐。其中海洋環境數據既包含船載調查數據又有業務化觀測數據,從數據庫建設的角度以學科和數據類型為主要分類依據,對數據要素項進行了統一編碼,以保證數據庫中存儲和交換的一致性。該標準在歷史時期數據庫建設過程中發揮了重要作用,但難以適用于前期數據采集與處理。我國國家標準《海洋調查規范第7部分:海洋調查資料交換》[2]作為海洋調查標準體系的一部分,主要針對海洋調查資料交換內容和記錄格式進行了規定,以各學科標準數據集為分類對象,涉及海洋水文、海洋氣象、海洋聲光、海水化學、海洋生物、海洋地質地球物理六大類。該分類層級更具有概括性,部分調查數據如海洋遙感、沉積化學等學科數據分類尚未囊括其中。2008年,依托國家科技基礎條件平臺建設項目,為規范、統一海洋信息數據共享發布,國家海洋信息中心編制了《海洋信息分類和分級共享標準》,該標準主要強調數據共享的分類和用戶分級,分類體系更為寬泛。此外,2016年頒布的國家標準《海洋要素圖式圖例及符號》[5]和2017年頒布的海洋行業標準《極地考察要素分類代碼和圖式圖例》[3]中所涉及的分類仍是建立在學科基礎上,分別對海洋和極地專題調查要素進行分類研究,主要規定了不同要素圖式圖例及符號,用于海洋和極地考察專題要素圖集及地圖產品的制作,側重于要素的空間化表達和管理。
綜上,為滿足不同業務應用需求,國內已形成不同的海洋調查資料分類體系,但主要針對某一個專題或一項調查制定[6]。隨著海洋信息化發展和調查技術手段的進步,其分類層次和內容也需要不斷更新。目前,尚未建立基于文件的面向海洋調查資料匯集、處理和管理的分類體系與編碼,不利于海洋信息資源的高效匯集和統籌管理。為此,在《海洋調查標準體系》[7]框架指導下,建立海洋調查資料分類與編碼,是實現跨部門、跨領域、多源、多時相、多尺度的海洋調查資料整合與管理的前提,將有利于我國海洋調查資料科學規劃、管理和后續集成應用。
2 分類與編碼原則
海洋環境調查資料分類是一項復雜的工作,涉及學科領域多,數據類型復雜且具有一定的綜合性和交叉性。不同學科資料特點顯著不同,有的資料種類少,調查手段復雜,如海洋水文資料;有的資料種類繁多,調查手段相對單一,如海洋生物和海洋底質。因此,在分類時要充分考慮不同學科資料的特點,厘清數據間邏輯關系,并遵循用戶使用習慣,結合學科未來發展需求。另外,為便于海洋資料匯集、處理和管理,保持分類的連續性和穩定性,其分類也不宜過細,總體以文件為分類最小基本單元,遵循基本原則如下。
(1)科學性原則:海洋環境調查資料的分類要從實際需求出發,結合數據資源的具體特點,著眼于實用,分類合理,具有可操作性,能夠滿足數據管理需求。
(2)系統性原則:綜合考慮資料主題的一致性,按其內在聯系對每一類都進行系統化排列,確保類目唯一、結構層次清晰,既體現數據資源總體架構,又能減少冗余。
(3)規范性原則:資料分類與編碼簡潔、規范,資料類別采用通用名稱,確保語義無二義性。
(4)兼容性原則:充分考慮已有分類基礎,盡可能引用相關標準或與之充分銜接。最大限度保留已被人們所熟悉和慣用的框架,便于用戶掌握和運用。
(5)可擴充性原則:基于編碼對象的屬性特點,保證分類對象增加或細化時,已有分類體系能夠延續和拓展,確保分類編碼穩定,可修訂和完善。
3 分類體系構建
任何資料都具有多維屬性,海洋調查資料也不例外。資料分類有兩個要素:一是分類對象;二是分類依據。資料分類依據即分類粒度問題是分類首要考慮因素,影響到資料分類層級,又與分類目的緊密聯系。海洋調查資料門類的劃分總體以《海洋調查標準體系》[7]為依據,從調查內容考慮,分為海洋環境、海洋資源和海洋經濟三大部分。本研究即以海洋環境調查資料作為門類分類對象,探討該門類下資料層級關系。學科、調查方式、資料類型、調查儀器、介質以及數據加工程度和自身屬性等都是影響海洋環境調查資料分類的影響因素。從資料匯集和管理角度,重點需要考慮的分類影響因子為學科、資料加工程度、資料類型和調查方式等,再根據分類因子之間的邏輯關系,組成關聯有序的資料分類體系。
海洋環境調查通常以項目為主線開展,調查任務常作為資料管理單元,涉及現場采集、室內測試分析、處理解釋和研究等多個環節。海洋環境資料包括資料種類和資料類型兩個維度。資料種類的劃分適用于所有學科,是根據數據加工程度進行的劃分,通常包含任務文檔類、原始數據集、整編數據集、標準數據集、報告專著類、圖件圖集類、圖像攝像類、軟件類和其他類(表1),其中原始數據集、整編數據集和標準數據集是調查數據的主體部分,資料類型的劃分主要基于數據集,將海洋環境數據細分為大類、中類、小類和子類的嵌套體系。
海洋環境調查資料大類劃分并不等同于學科分類,二者有聯系又不完全一一對應,但資料分類一定是建立在學科分類基礎上[8]。海洋環境調查資料學科大類以2007年國家頒布執行的《海洋調查規范》系列國家標準[9]為主要依據,并參考《海洋調查標準體系》[7],在此基礎上做補充。大類遵循慣用學科體系框架,分為海洋水文、海洋氣象、海洋生物、海洋化學、海洋聲學、海洋光學、海洋底質、海洋地球物理、海底地形地貌、海洋遙感、海洋生態和海島海岸帶十二大類。需要說明的是,為保證分類體系的科學性和兼容性,海洋災害資料可根據要素屬性分到其他相應學科類別中,因此不單獨作為海洋環境資料大類類別。
由于每個學科大類資料特點不一,影響每一學科資料劃分的主因和次因都不完全相同,因此資料中類和小類的劃分,不能采用“一刀切”式的同一劃分標準。比如,海洋水文中類以資料類型劃分,小類則以獲取方式劃分,調查儀器信息作為數據字段存放于數據文件中。水文調查方式多樣包括大面、走航、定點連續和漂流等,不同方式獲取的資料在處理和存儲管理方面都有所不同,因此要加以區分。而對于海洋底質、海洋地球物理和海底地形調查資料來講,調查方式相對固定,海洋底質調查多以定點取樣為主,海洋地球物理和地形地貌以走航調查為主,因此調查方式不作為海洋底質、海洋地球物理和海底地形調查的分類因素。海洋氣象、海洋化學、海洋生物和海洋底質調查都會涉及不同調查對象,因此這些資料中類的劃分以調查對象為分類因素,如海洋氣象分為常規氣象、海氣邊界層和高空氣象。海洋地球物理和海底地形主要采用不同的勘探方法來獲得海底物質物理性質(密度、磁性、電性、放射性和熱導率等)以及海底水深變化規律和分布狀態,并進一步推斷解釋地質構造、礦產資源分布和海底地形狀況,因此海洋地球物理和海底地形中類的劃分以勘探方法為主因。海洋遙感則針對不同應用方向,以應用目標作為中類分類依據。海島海岸帶調查既有常規學科調查又有專題調查,常規學科調查數據納入相應學科體系中,專題調查數據類型作為海島海岸帶資料中類劃分依據。海洋生態中類的劃分則以珊瑚礁、紅樹林和海草床等調查類型為劃分依據。各學科小類的劃分,除海洋水文外,其他均以資料類型作為劃分依據,個別學科如海洋底質資料層級較深,可以再將小類細分為不同子類(表2)。
4 海洋環境資料編碼
資料編碼是建立在分類基礎上,將資料賦予具有一定規律的,易于計算機和人識別處理的符號[10]。資料種類和類型由于考慮維度不同,應分別進行編碼設計。調查資料種類編碼共由3位編碼組成,包括1位數字和2位資料種類英文縮寫碼(表1),與資料類型碼無沖突,也可組合使用。資料類型編碼基于學科體系建立,主要由門類碼、大類碼、中類碼和小類碼組成的有序無含義碼,其中門類碼用1位阿拉伯數字表示,大類、中類和小類碼分別由2位阿拉伯數字組成(圖1)。個別數據類型分類層級較多,在小類基礎上可再分為子類,子類碼由1位阿拉伯數字表示,與小類碼之間用“-”連接(圖1,表2)。根據資料分類編碼的兼容性原則,門類碼繼承《海洋信息分類與代碼》中約定海洋環境門類編碼“3”。海洋環境資料分類編碼長度由分類粒度決定,編碼長度5~9位。如某一類資料只分到中類,下無嵌套小類,則編碼只到中類即可,長度為5位;如數據編碼需要分到小類,則編碼長度為7位;如分到子類,則編碼長度為9位。以海洋底質沉積物常量元素數據為例,其編碼為3070105-1,從左至右,“3”代表門類碼——海洋環境,“07”代表大類碼——海洋底質,“01”代表中類碼——沉積物,“05”代表小類碼——沉積物化學,最后一位“1”則代表子類碼——常量元素。為保證編碼的靈活性,編碼不采用補位方式,編碼長度由資料類型決定。
5 結語
海洋環境資料分類與編碼是一項復雜的基礎性工作,其目的是為了更有效地組織和管理海洋環境資料。在海洋資料分類研究基礎上,結合已掌握數據資源實際情況,清晰地梳理出海洋環境資料脈絡體系,建立海洋環境資料分類與編碼,有效避免了資料在使用過程中表達的二義性,也能更好地滿足未來調查多學科綜合發展的需求,便于自上而下部署和組織數據集的生產和集成[4],有效提升海洋調查環境資料匯集、處理和管理服務水平。該分類體系是一個動態開放的體系,會隨著調查技術水平的提高,資料類型的豐富,不斷成熟和完善。
參考文獻
[1] 國家海洋局.HY/T 075-2005海洋信息分類與代碼[S].北京:中國標準出版社,2005.
[2] 中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.GB/T 12763.7-2007海洋調查規范第7部分:海洋調查資料交換[S].北京:中國標準出版社,2008.
[3] 國家海洋局.HY/T 221-2017,極地考察要素分類代碼和圖式圖例[S].北京:中國標準出版社,2017.
[4] 王卷樂,林海,冉盈盈,等.面向數據共享的地球系統科學數據分類探討[J].地球科學進展,2014,29(2):265-274.
[5] 中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.GB/T32067-2015海洋要素圖式圖例及符號[S].北京:中國標準出版社,2016.
[6] 白降麗,彭道黎,楊馥寧.森林資源信息分類及編碼體系研究[J].浙江農林大學學報,2007,24(3):326-330.
[7] 國家海洋局.HY/T244-2018海洋調查標準體系[S].北京:中國標準出版社,2019.
[8] 廖順寶,蔣林.地球系統科學數據分類體系研究.[J].地理科學進展,2005,24(6):93-98.
[9] 《海洋調查規范》系列國家標準[J].中國標準化,2011(5):22-23.
[10] 耿慶齋,張行南,朱星明.基于多維組合的水利科學數據分類體系及其編碼結構[J].河海大學學報:自然科學版,2009,37(3):346-350.