王曉迪 馬 偉 陳春希 閆慶慶 董 帥
(國家測繪產品質量檢驗測試中心, 北京 100830)
元數據(Metadata),即數據的數據,是關于數據和信息資源的描述性信息。測繪地理信息元數據是關于地理空間相關數據和信息資源的描述性信息[1]。它不僅是對數據簡單的描述或索引,更關系到數據成果的最終應用。生產者通過其記錄測繪地理信息數據說明;使用者利用其了解測繪地理信息數據的基本特征;管理者通過其可以對測繪地理信息數據進行有效的管理和利用;檢查者通過其了解生產過程,并將其與相應成果數據對照檢查。測繪地理信息元數據的質量關乎數字地理信息成果的應用及共享。其生產正確、應用正確,是相應數據成果的質量保障。因此,對測繪地理信息元數據的檢查至關重要。
本文結合測繪地理信息元數據的內容與特點及檢查要求對其內容分類。分析檢查內容與方法,針對每類元數據提出相應的自動化檢查方案,為高效、準確地完成測繪地理信息元數據質量檢查提供參考。
測繪地理信息元數據主要包含以下內容:
(1)記錄相應數據成果的名稱。項目名稱、產品生產單位名稱、參考資料名稱等。
(2)描述相應數據成果的屬性。比例尺、數據格式、影像分辨率等。
(3)固定相應數據成果的位置。經緯度坐標范圍、圖廓角點坐標、中央子午線等。
(4)關聯相應數據成果的精度。高程中誤差、平面位置中誤差等。
(5)標示相應數據成果的進程。質量檢查情況、外業調繪核查情況、完成日期等。
測繪地理信息元數據主要有以下特點:
(1)內容不完全固定。具有一定的規律性[2],但其內容廣泛,隨相應成果數據變化而變化,因此,并非所有內容都是固定的。其在不同測區的中央子午線、參考資料名稱等內容不盡相同。
(2)貫穿全流程。生產貫穿其相應成果數據生產全流程[3],全面反映其相應數據歷程及狀況。
(3)生產方式人機結合。有規律、重復的內容可通過軟件自動化生產。存在變量的內容需要人工輸入[4],如圖名、成果數據量、平面位置中誤差及高程中誤差等。
根據《基礎地理信息數字產品元數據:CH/T 1007—2001》[5]以及項目技術設計要求,按《數字測繪成果質量檢查與驗收:GB/T 18316—2008》[6]中規定內容,檢查元數據項及元數據各項內容錯漏。檢查內容如表1所示。

表1 元數據檢查內容
測繪地理信息元數據生產人工輸入易出錯,同理,利用人工檢查的方式也弊端凸顯,效率低下且易產生人為誤差。
依靠軟件全過程自動化檢查難以實現,主要原因有以下兩點:
(1)測繪地理信息元數據的形式與內容具有多樣性,常規的基礎地理信息數字產品(4D產品)元數據內容可參考《基礎地理信息數字產品元數據:CH/T 1007—2001》標準,但是難以滿足不斷涌現的新型數字測繪成果元數據的需求。
(2)不同項目的需求不同,對測繪地理信息元數據也有不同的數據規定,根據自身項目的特點擴展規則復雜。如地理國情監測元數據層中若只包含對地表覆蓋分類數據內業采集情況的說明,不包括其他內容,則擴展元數據層名稱為V_MIDCA_A。
測繪地理信息元數據包含多方面內容,生產方式多樣[7],因此單一的、通用的檢查方法難以滿足檢查者的需要,應以不同的方法分類應對。這就需要對測繪地理信息元數據內容進行分類,而相關標準CH/T 1007—2001及《地理信息 元數據:GB/T 19710—2005》[8]中未對其分類進行明確規定。相關內容中,GB/T 19710—2005對元數據的分級側重于從使用者的角度需要了解元數據的詳細程度[9];CH/T 1007—2001從生產者的角度對數字柵格地圖、數字正射影像圖、數字高程模型和數字線劃圖四種成果對應的測繪地理信息元數據的內容和格式進行了詳細要求,未對這四類元數據各自的內容進行分類。
結合測繪地理信息元數據內容及相關標準,按近年來國家重大測繪地理信息項目對測繪地理信息元數據的質量要求,依據其檢查方法,可分為以下四種情況:部分項中相同的、具有一定規律性的內容可與項目設計要求的固定填寫內容對照;坐標值、中央子午線等內容需按公式計算后與被檢元數據項比對;誤差、精度等值要通過關聯誤差統計表來查看;質量問題描述內容依據實際檢查情況整理形成。因此,從檢查者的角度可將測繪地理信息元數據內容分為四類:
(1)固定類[10]。具有相同參數即相同內容的元數據項,如比例尺、產品生產單位名稱、數據格式、項目名稱等。實例如:基礎性地理國情監測元數據中V_MBIIA層(數據生產單位)。
(2)計算類。利用對應的圖號、圖幅等信息進行計算得到的元數據項,如根據標準分幅圖號,可以計算得到對應的經緯度坐標、圖廓角點坐標、中央子午線等[11];依據數據計算得到的分辨率等。實例如:基礎性地理國情監測元數據中V_MDOPA層(平面位置中誤差、高程中誤差)。
(3)關聯類。從已存在的元數據項或其相應成果數據中讀取并錄入有關的元數據項。如數據精度、生產日期、平面位置中誤差等。
計算類與關聯類相同之處是每個圖號、景號等信息對應唯一的計算類和關聯類元數據項,不同之處是計算類可以由其他元數據項(如標準分幅圖號)進行計算而得到,關聯類必須借助生產過程中其他的記錄文件而獲取。
(4)描述類。前三類測繪地理信息元數據項填寫的內容值是相對確定的,可以通過程序進行計算或讀取相關記錄文件而得到。而描述類元數據項主要是根據元數據項定義的要求,對數據變量表達的內容用簡潔明確的語言進行描述。實例如:基礎性地理國情監測項目中,元數據成果中V_MFSVL層(外業調繪核查情況)中“問題及處理意見”一項,對外業調繪核查中遇到的問題及處理的意見進行描述,不同的問題及處理意見對應不同的描述。
檢查模板,是在元數據內容分類的基礎上,依據不同項目設計要求進行元數據項的擴展及字段定義不同的約束條件形成的對元數據內容要求的集合(圖1)。具體包括,元數據項及元數據內容、類型、計算公式、枚舉值、閾值、邏輯關系等。通過以檢查模板為驅動的檢查,實現元數據完整性、正確性以及邏輯性的檢查[12]。

圖1 基于四類檢查模板的自動化檢查方法
(1)對于固定類的測繪地理信息元數據項,在檢查模板中輸入正確的固定類元數據項內容,讀取被檢查的元數據與元數據檢查模板中的內容進行一致性的比對檢查,內容一致為正確,反之為錯誤。
(2)對于計算類的測繪地理信息元數據項,在對應的檢查模板中需讀取其他相關元數據項,如標準圖號等,計算得到此類元數據項的正確值,與被檢查的元數據值進行比對檢查。
(3)關聯類的測繪地理信息元數據項在檢查過程中無法讀取生產過程中的記錄文檔來進行檢查,因此,制定檢查模板項時,可采用設置閾值或邏輯判斷的方法。閾值檢查法適用于元數據項存在限值的情況,邏輯判斷法是利用元數據項之間的邏輯關系來進行判讀。
閾值檢查法通過內設閾值,與被檢查的元數據項進行比對,在其閾值范圍內為正確,反之為錯誤。如DEM元數據中“高程中誤差”項,若比例尺為1∶2 000,且為山地,根據標準《基礎地理信息數字成果 1∶500 1∶1 000 1∶2 000 數字高程模型:CH/T 9008.2—2010》中規定,高程中誤差小于1.50即為合格成果,因此在制定此項檢查模板時,需要結合 “比例尺”項內容(元數據中無地形類別項),設定限值2.0為閾值(在無法判讀地形類別情況下,按照1∶2 000比例尺DEM最大高程中誤差限值設定),與被檢查項進行比較,填入的地理信息元數據項大于0且小于2.0為正確,反之為錯誤。
邏輯判斷法是利用多個地理信息元數據項之間的邏輯關系檢查。如某項目中, “二級檢查完成日期”,需用“一級檢查完成日期”與“驗收日期”元數據項所填寫的日期之間的邏輯關系判斷。二級檢查完成日期必定在一級檢查完成日期與驗收日期之間,如果填寫的日期在這個范圍內為正確,反之為錯誤。
(4)描述類測繪地理信息元數據項存在不確定性,沒有統一的標準或參考,難以通過上述方法完成檢查。需設置必要關鍵字,利用模糊查找的方法與必要關鍵字進行比較,排除部分內容后再使用人機交互的方法進一步檢查。如基礎性地理國情監測元數據成果中V_MFSVL層(外業調繪核查情況)中“問題及處理意見”一項,可設置“已處理”“已修改”等必要關鍵詞,與被檢查元數據項進行模糊查找,排除無必要關鍵詞的元數據,將篩選出的疑似正確項結合人工檢查進一步判定其是否正確。
以各類元數據項對應得檢查模板為基礎的自動化檢查流程,包括模板制作、元數據讀寫、元數據檢查、結果展示四個部分。
(1)模板制作。檢查模板以相關標準為基礎,兼容如TXT、Excel、Access、MAT等格式。根據不同項目、不同成果類型,按照項目要求進行個性化的調整編輯、配置參數,實現模板屬性項結構定義的增加、修改、刪除及相關項的計算、設置閾值、關聯等功能[13]。
(2)元數據讀寫。設置元數據讀寫端口,打開被檢元數據,加載制定好的對應的模板。
(3)元數據檢查。按表1設置檢查項,分為自動檢查項和交互檢查項。自動檢查項主要涉及元數據組織、可讀性、格式、命名、存儲、坐標系統和部分元數據內容檢查。交互檢查項主要涉及元數據內容檢查,主觀性高于自動檢查項[14]。被檢元數據匹配模板對應檢查項執行檢查步驟。
(4)結果展示。實現對結果的瀏覽、空間分析[15]、排查操作,包括放大、縮小、屬性選擇、定位問題出處等功能,以便核查。
檢查流程如圖2所示。

圖2 檢查流程
地理國情項目,成果中含有元數據成果,為必查項。對元數據成果進行檢查,采用自動化檢查及人機交互的方式,對元數據項錯漏及元數據項內容錯漏進行檢查,分析其組織、命名、個數、順序是否正確。
(1)元數據中有多種參考資料的,填寫時未用“/”隔開。屬于固定類測繪地理信息元數據項錯誤,模板中按技術規定要求設置填寫格式,自動化檢查后顯示在檢查結果界面,無須進一步排查。
(2)元數據缺少圖層MDOP。屬于固定類測繪地理信息元數據項錯誤,模板中按技術規定要求設置層名,自動化檢查后顯示在檢查結果界面,無須進一步排查。
測繪地理信息元數據是測繪地理信息數字產品中的一項重要成果,它全面反映了其相應成果數據生產過程、數據狀況等信息。本文對測繪地理信息元數據項進行分析,總結出固定類、計算類、關聯類、描述類這四類元數據項,并結合上述四類元數據項的特點,制定自動化檢查的方案,實踐證明本方案可行且通用,可有效提升各類元數據質檢效率和成果質量。為取得更好的質量控制效果,自動化檢查方案還需不斷優化、擴展,例如:①加入質量評價流程,對在結果展示流程核查后確保無異議的檢查結果進行統計分析,輸出檢查記錄表及評分表;②在完成質量評價流程后實現元數據內容和結構的自動修復。在今后的質檢工作中,還需繼續深入研究,形成完整的元數據自動化檢查評估體系。