楊錦坤,徐珊珊,苗慶生
(國家海洋信息中心 天津市 300171)
21 世紀是海洋世紀和信息化時代。進入21世紀,海洋已成為人類經濟社會發展的重要資源,世界各國均將海洋事業發展作為推動國民經濟建設發展的戰略要事,我國更是提出建設海洋強國的偉大戰略目標。時空連續、質量可靠的海洋資料是海洋開發利用的前提和關鍵。建國以來,我國通過海洋調查、觀測、監測活動和國際交換與合作等手段,獲取和積累一定數量的海洋環境資料,在海洋環境保障、防災減災、軍事國防等諸多領域發揮了應有的支撐作用。然而,受歷史條件制約以及作業環境、儀器設備、觀測手段等因素的影響,相當一部分海洋環境歷史資料以紙質、光盤、磁帶等非信息化形式留存,難以滿足信息化時代對海洋資料應用和服務的需求,更在資料存儲方面存在巨大的安全隱患,一旦遭受人為或自然損害,將帶來難以彌補的損失[1],亟待開展非信息化海洋環境資料搶救工作。
目前國內針對非信息化海洋環境資料搶救的流程和方法,尚少有文獻發布。研究提出了非信息化海洋環境資料搶救的工作流程,在此基礎上,以工作流程為主線進行了相關技術方法研究,以期能夠在總體框架和關鍵技術上為非信息化海洋環境資料搶救工作提供參考。
非信息化海洋環境資料搶救工作是一項涉及海洋專業知識、海洋環境資料處理經驗、信息技術等多因素的系統性工程,總體工作流程應包括非信息化海洋環境資料現狀調查、非信息化海洋環境資料數字化、資料處理和整合等,總體工作流程圖如圖1。
非信息化海洋環境資料現狀調查:整理分析現有非信息化海洋環境資料的內容、數量、存儲介質、保存質量和是否有價值搶救、是否已完成搶救等信息,摸清非信息化海洋環境歷史資料現狀,確定需搶救的非信息化海洋環境歷史資料清單。

圖1 非信息化海洋環境資料搶救總體工作流程圖
非信息化海洋環境資料數字化:研究資料數字化錄入格式,研發相應的錄入資料校對軟件,對非信息化資料進行人工錄入(紙質)或專門設備讀取(光盤、磁帶)與格式轉換等處理。
數字化資料的處理和整合:針對完成數字化的電子資料,進行標準化、質量控制、訂正和排重等處理,最終納入同類海洋環境基礎數據集和數據庫。
非信息化海洋環境資料現狀調查應通過調查內容明確搶救資料清單,確定搶救時間順序。搶救時間順序的確定應堅持“搶救優先、利用優先”的原則。搶救優先指在數字化工作中優先考慮因特定時期、特殊原因造成的那些因資料形成和保管條件限制而導致部分損毀或即將損毀的資料、優先進行搶救;利用優先指優先把利用率較高的資料數字化[2]。
數字化的目標是使紙質媒體上的信息進入電子媒體,能方便地檢索[3]。按照錄入或讀取快捷方便的原則,研究制定資料錄入的格式。針對紙質資料進行單人錄入或雙人同錄,單人錄入資料需開展兩遍人工校對和質量審核,雙人同錄資料需利用校對軟件進行數據對比和查詢修正,之后仍需進行一遍人工校對和質量審核。針對光盤、磁帶等存儲資料,需利用專門設備進行讀取,并轉換為錄入格式。資料的錄入錯誤率應低于1‰。
對錄入資料進行文本可讀性和參數齊全性等檢查,確保錄入資料內容無丟落項且支持后續的計算機讀取與操作。在此基礎上,按照資料管理要求,對資料進行代碼轉換、計量單位轉換、參數計算等處理,依據該類資料的標準應用記錄格式要求,對資料進行標準格式轉換。
資料質量是資料的生命,資料質量控制是非信息化資料搶救乃至海洋環境資料處理的關鍵環節。質量控制方法一般包括非法碼檢驗、常規范圍檢驗、氣候學檢驗、統計學檢驗、相關性檢驗、梯度檢驗、尖峰檢驗、著陸檢驗等計算機自動質量控制方法和人機交互審核[4]。必須指出的是,質量控制能夠在普遍意義上有效標識或剔除可疑、錯誤和缺測資料,但往往在資料使用過程中會進一步發現異常資料,需追溯資料進行再次質量控制,如此反復方能使資料中的質量問題越來越少。
非法碼檢驗:按照標準應用記錄格式規定的數據項屬性(字符型、整型、浮點型等),逐項檢查標準數據集各要素的數據類型。
常規范圍檢驗:對于有特定編碼或枚舉型、或有取值范圍的數據,其取值必須在取值范圍之內。如站號、國家代碼、觀測平臺代碼和時間、經緯度、水深、矢量速度范圍等。
氣候學檢驗:利用各要素季節性統計特征值,包括月/季的平均值、最大值、最小值進行連續性和合理性判定。
統計學檢驗:利用觀測數據的統計學特征進行異常值的檢驗,方法包括萊因達準則、肖維勒準則檢驗等[5]。
相關性檢驗:利用不同要素之間的相關性進行數據的合理性檢驗,如氣溫一般略高于露點。
梯度檢驗:溫鹽剖面或高空探測的風、氣溫、氣壓、濕度等隨深度(高度)變化的梯度應具有連續性和一致性,并在合理的變化范圍之內。
尖峰檢驗:基于海洋要素變化的連續性和漸變性,判定異常的突變點。
著陸檢驗:依據全球數字化地圖,判斷海洋觀測資料的位置是否位于海洋內。
人機交互審核:繪制要素的時空序列變化圖,利用人機交互模式和可視化手段直觀查找突變值并判斷是異常值還是海洋真實變化。
針對完成質量控制的標準數據集,利用統計分析或客觀分析方法,結合相同或臨時時空的海洋環境歷史資料,計算得到數據的變化趨勢和訂正參數,標識站位漂移、儀器誤差、生物體附著、傳感器滯后和系統誤差等造成的數據異常,并對異常數據進行訂正。
由于非信息化資料來源較多或者某些資料來源已難考證,有可能前人已完成數字化,因此需針對每一批次新近完成搶救的非信息化資料,與現有同類海洋環境歷史資料進行排重處理,否則將會導致數據應用過程中的分析結果失真。數據排重主要以觀測時間、位置、儀器、測值等作為復合排重指標,首先對所有資料進行排序,排除所有指標均相同的數據記錄(保留唯一一條);若觀測時間、位置和儀器均相同但測值不同,則保留空間分辨率最為齊全的數據記錄;若觀測位置、儀器、時間范圍相同但測值交叉重復(測值的時間分辨率不同),則保留時間分辨率較高的數據記錄[6]。最終經過排重,將完成搶救的資料納入海洋環境基礎資料集和數據庫。
系統介紹了非信息化海洋環境歷史資料搶救的總體工作流程,詳細闡述了各關鍵環節和技術方法,研究成果符合我國海洋資料管理工作的實際需求,對于進一步推進我國海洋資料處理、管理和應用服務信息化進程,具有現實的技術參考價值。
[1] 肖衛,時昶,高軍.歷史水文資料數字化處理[J].人民長江,2011,42(21):67-69.
[2] 周瑞華.對地質資料數字化若干問題的探析[J].大陸橋視野,2012,07:84-86.
[3] 龍波,楊麗芳,肖健,梁瑩.大規模圖文資料數字化的實現方法[J].廣西科學院學報,2007,23(4):275-276.
[4] 劉小寧,任芝花.地面氣象資料質量控制方法研究概述[J].氣象科技,2005,33(3):199-203.
[5] GB/T 14914-2006.海濱觀測規范[J].2006,81.
[6] 張學宏,張緒東,張曉娟.多源溫鹽資料排重處理的一種方法[J].海洋預報,2012,29(1):48-54.