梁銀平,李 杰,王 斌,岳 鵬
(國土資源實物地質資料中心,河北 三河065201)
全國重要地質鉆孔數據庫涵蓋了新中國成立以來我國開展的大規模地質勘查和地質科學研究工作所獲取的豐富地質鉆孔資料,蘊藏著巨大的潛在價值,可為基礎地質調查、礦產資源評價、國土資源合理開發利用、國民經濟建設、制定區域規劃、保護人類賴以生存的地質環境及其他相關學科研究提供有效的基礎地質資料,對于保障我國礦產資源持續供應和可持續發展也具有重要的數據支撐作用。在當前鉆孔數據庫建設中,數據質量的優劣直接影響數據庫建設的成效,也會成為決定基于該數據庫的決策水平的重要因素。明確數據庫數據質量要求,建立完善的數據質量控制體系,并對數據質量控制中存在的問題提出一套正確合理的排查辦法非常必要。
數據質量即數據的可靠性。全國重要地質鉆孔數據庫建庫人員眾多、涉及資料量多且時間跨度大。在建庫過程中,由于鉆孔數據采集軟件功能限制、數據錄入人員操作失誤或專業知識欠缺、原始數據質量限制、資料重復利用及多地保管等多方面的因素,會導致各種數據質量問題。從入庫數據內容來看,地質鉆孔數據庫數據質量問題主要分為屬性項結構化數據和圖表非結構化數據質量檢查。屬性項結構化數據質量檢查主要包括重要屬性項填寫錯誤或填寫不規范、鉆孔重復錄入、相關備注填寫不完善等。圖表非結構化數據質量問題主要包括入庫圖件錯誤、掃描圖件不清晰、圖件整飾不規范、入庫圖表不完整等。
現代數據質量概念注重從用戶的角度衡量數據質量,強調用戶對數據的滿意程度,一般以完整性、規范性、準確性、一致性、及時性等指標來描述數據質量[1],同時根據具體的數據評估需求對數據質量評估指標進行取舍。援引現代數據質量概念對數據質量的評價指標,我們對全國重要地質鉆孔數據庫提出完整性、規范性、準確性、一致性、唯一性、客觀性等數據質量要求。
完整性關注的重點是數據庫中是否存在多余數據、重復記錄或缺失記錄、字段的情況,不關注數據的規范性和準確度。
規范性要求數據庫中數據項的格式及填寫符合相關規范要求,圖件的掃描質量及圖面整飾符合《圖文地質資料掃描數字化規范(試行)》要求。
準確性指數據的準確度和可信賴度,考量的是數據的客觀性,要求入庫數據項與其對應的原始地質資料實際情況相符。
一致性要求某一數據項在數據庫中出現多次的,涉及該字段的數據必須完全一致。例如,鉆孔信息中的終孔深度應當與柱狀圖中的終孔深度及圖內的累積深度一致。
唯一性要求數據庫中不存在重復保管單位、項目及鉆孔記錄。
質量檢查是數據質量控制的重要環節。在質量檢查過程中,首先要對數據質量在整體上進行把握,主要從代表保管單位、項目和鉆孔的文件夾數分別與實際入庫記錄條數的對應性以及入庫圖件總數與圖件設定數總和的對應性兩方面對數據庫的完整性進行檢查。其次是對鉆孔資料保管單位信息、鉆孔所屬項目信息和鉆孔信息從完整性、規范性、準確性、一致性、唯一性等幾方面作具體檢查。
完整性主要檢查保管單位信息中的行政區劃代碼、組織機構代碼、保管單位名稱、最高地勘資質等級、所屬行業部門、通訊地址、郵政編碼、聯系人姓名、聯系電話等,項目信息中的組織機構代碼/保管單位名稱、項目名稱、資料名稱、成果資料檔號、項目結束時間、密級等和鉆孔信息中的原始資料檔號、鉆孔編號、鉆孔類型、坐標系、孔口高程、終孔深度、終孔日期、施工單位、測井報告、原始地質記錄表、鉆孔巖心等必填數據項是否為空;工程布置圖、勘探線剖面圖、鉆孔柱狀圖(以下簡稱三圖)和樣品分析結果表(以下簡稱一表)入庫文件數與設定數是否一致,圖表文件有無缺失;分幅掃描的三圖是否完整及能否正確銜接,樣品分析結果表有無缺頁、備注是否齊全。其中,備注完整性的檢查主要涉及以下內容:①缺失真實坐標的鉆孔,建庫人員通過礦區平面地形地質圖獲取鉆孔坐標或者將公開網絡查找的礦區中心點坐標賦予此項目下的所有鉆孔坐標的;②老舊資料,經查找確無原始資料檔號和省館資料檔號,用成果資料檔號代替的;③歷史老舊資料,按要求掃描后達不到質量檢查的清晰度要求的;④對于部分歷史資料,經查實省館及地勘單位確實沒有“三圖一表”相關圖件資料的,是否在備注中對具體情況進行相關說明。
規范性檢查主要包括保管單位組織機構代碼填寫是否規范;項目的工作程度、比例尺、主要礦種等的填寫是否規范,工程布置圖、勘探線剖面圖和樣品分析結果表的文件格式、掃描分辨率是否符合《全國重要地質鉆孔數據庫建設工作技術要求》,資料密級的確定是否符合定密規范、柵格文件能否達到傾斜度小于1%或者圖件與原件的對角線誤差和邊長誤差小于±0.1%的圖像整飾要求等。
準確性主要檢查行政區劃代碼填寫是否正確,組織機構代碼填寫是否正確,入庫圖表是否正確,鉆孔坐標是否正確,坐標系與孔口坐標XY是否匹配等。
一致性檢查主要包括保管單位組織結構代碼與保管單位名稱是否一致,孔口坐標和高程、孔深與鉆孔柱狀圖中的信息是否一致,高程、坐標等非來源于柱狀圖或與柱狀圖不符的是否對數據來源進行備注。
唯一性主要檢查數據庫中是否存在重復保管單位、項目及鉆孔記錄。
值得提出的是,在數據庫建設過程中,由于建庫人員知識背景限制,存在將工程布置圖外其他圖件錄入工程布置圖的情況。因此,圖表正確性的檢查不僅要檢查入庫的圖表是否屬于本項目/鉆孔的資料,還要檢查實際入庫的圖表是否為本數據項要求的圖表。
根據檢查內容的不同,全國重要地質鉆孔數據庫數據質量檢查方式主要包括計算機軟件自動檢查、人工判斷檢查和人機交互的計算機輔助檢查三類。
全國重要地質鉆孔數據庫數據主要借助地質鉆孔數據采集系統(以下簡稱采集系統)采集入庫。采集系統對數據項是否必填、數據條目的格式及長度等設置了相應的校驗規則,在數據采集入庫時可以實時對必填項的完整性以及組織機構代碼、工作程度、比例尺、主要礦種等規范性進行檢查。如填寫內容與該校驗規則不符,系統會出現報錯提示。根據報錯提示,建庫人員對出錯項及時修改完善,從而在建庫最初環節對數據質量進行把關。同時,采集系統還對保管單位和項目分別設置了數據濾重處理邏輯,在數據匯總合并時進行濾重檢查,避免了因多個建庫人員錄入數據造成的數據重復。
人工檢查是數據檢查人員利用自身的專業知識、工作經驗或參閱相關文件、規范要求,對入庫各類數據對照數據采集所用的原始資料進行核對,從而對數據質量進行全面檢查。
數據檢查人員通過檢查從代表保管單位、項目和鉆孔的文件夾數分別與實際入庫記錄條數的對應性,可以對數據的完整性在整體上進行把握。通過查閱《中華人民共和國行政區劃代碼》《中央黨政機關人民團體及其他機構名稱代碼》可以判斷行政區劃代碼填寫是否正確,組織結構代碼與保管單位名稱是否對應。對照《全國重要地質鉆孔數據庫建設工作技術要求》,判斷“三圖一表”格式、圖像整飾是否符合規范。
數據檢查人員通過仔細讀取圖件信息,可以檢查鉆孔坐標、終孔深度、高程與柱狀圖上的信息是否一致;對照入庫圖表名稱與項目名稱致,柱狀圖上鉆孔編號與入庫鉆孔編號是否一致性,可以判斷入庫圖件是否正確;對分幅掃描的圖件相鄰圖件邊緣的線條、色彩、地質要素能否完全銜接以及柱狀圖上的層號、鉆孔回次是否連續,判斷入庫圖件有無缺失。
我國的經度范圍西起73°東至135°,可分成6度帶11個(13~23號帶),3度帶22個(24~45號帶),檢查人員通過檢查坐標系與坐標中的帶號是否對應,可以判斷坐標系或地理坐標填寫是否正確。
人機交互檢查是質量檢查人員在借助采集系統、Excel和Access軟件、Mapgis軟件,以及計算機操作系統某些自帶功能等對數據進行一定處理后,再通過人工檢查對數據質量做出判斷的過程。主要檢查圖件的掃描質量,鉆孔記錄的唯一性,鉆孔坐標的正確性等。
通過操作系統搜索篩選功能,查找出備查數據中的所有圖件,并對其進行按“水平分辨率”升序排列。對于分辨率低于300dpi的圖件采用人工檢查方式,判斷原圖和掃描圖在1∶1情況下,各類線條是否連續,圖面中的小數點是否清晰。
鉆孔編號、孔口坐標、高程和終孔深度對于鉆孔來說是非常重要的信息。對重復鉆孔的排查首先是將Access數據庫的鉆孔信息導出為.xlsx格式,然后通過Excel軟件“條件格式”功能,對“孔口坐標X”列設置“僅對唯一值或重復值設置格式”規則后,對所有記錄進行重新排序,找出坐標相同的鉆孔,結合原始資料檔號、孔口高程和終孔深度等重要字段以及鉆孔柱狀圖等信息,判斷坐標相同的鉆孔是否為重復記錄。
利用上述方法對河北省2013年重要地質鉆孔數據進行檢查,發現存在鉆孔編號、孔口坐標和高程相同的兩個鉆孔,但其終孔深度不同,在進一步對照柱狀圖后,確定兩個鉆孔不是重復鉆孔,且其中一個鉆孔編號填寫錯誤。
鉆孔坐標正確性檢查可以通過采集系統篩選出某一項目的鉆孔,檢查該項目所有鉆孔的坐標否在相近范圍,對鉆孔坐標的正確性進行初步判斷。但最有效的方法是按鉆孔坐標分屬的不同投影帶分別投影成鉆孔點位圖,將點位圖與對應坐標系的地理底圖套合,詳細檢查鉆孔是否沿道路、沿河、岸帶等地貌地物分布(沿道路、沿河、岸帶施工的鉆孔)),是否按勘探線或勘探網度規則排列(礦產勘查鉆孔)以及對照紙質工程布置圖),判斷有無離群鉆孔點等來判斷鉆孔位置是否合理、正確。
全國重要地質鉆孔數據庫建設是一項十分復雜的工作,具有信息量大、建庫人員眾多、投入高等特點。數據的質量控制是數據庫建設中極其關鍵的環節,明確數據質量要求和鉆孔數據質量檢查內容,制定詳細的質量檢查操作細則是保證入庫數據客觀真實、完整可靠的有力措施。只有建立高質量的數據庫,才能確保全國重要地質鉆孔數據庫數據的正確性和規范性,并最終更好地為鉆孔資料社會化服務利用提供數據支撐保障。
[1] 張華義,劉新,羅濤.數字油田建設中的數據質量控制方法研究[J].天然氣勘探與開發,2015,38(1):88-93.