李效利,于 淦
(1.國家無線電監測中心云南監測站,云南 昆明 650000;2.國家無線電監測中心,北京 100037)
《科學數據管理辦法》(以下簡稱辦法)于2018年3月由國務院辦公廳印發施行?!掇k法》明確了我國科學數據管理的總體原則、主要職責、數據采集匯交與保存、共享利用、保密與安全等方面內容,著重從五個方面提出了具體管理措施,其中對數據質量也做了明確要求,比如建立監測數據質量標準制度、建立監測數據質量控制體系、建立監測數據質量保存制度、建立監測數據評價和考核制度,這些提高數據質量的辦法同樣適合無線電監測數據質量管理。
無線電監測數據是無線電監測行業的核心資產,在數據浪潮中,若通過采用一些方法措施,提升了監測數據質量,鞏固了監測設施建設成果,解決了建設成果更好的滿足業務需求問題,發揮了監測數據決策支撐能力,對提升無線電管理能力會起到很好的作用。
數據質量的標準在不同的組織有不同的定義。美國國家統計科學研究所( NISS)關于數據質量研究的主要觀點在于:數據質量是指在業務環境下,數據符合數據消費者的使用目的,能滿足業務場景具體需求的程度。
根據數據質量的定義,無線電監測數據質量可以定義為:無線電監測數據質量是指在無線電管理應用中,能有效支撐無線電管理者管理應用頻譜資源,能滿足對頻率劃分、分配、指配,臺(站)管理等業務需求的程度。
目前,無線電監測部門已積累了大量的監測數據,從數據生產使用周期分析監測數據質量,發現存在如下類別問題。
一類是:一些數據質量問題是比較簡單而明顯的,可以使用自動化工具檢測到的。比如監測數據的完整性、一致性、惟一性和有效性。不需要有很多的背景知識,或者數據分析經驗。只要按照數據屬性驗證它的存在,結合數據要素特性,就可以判定它錯誤的。
另一類是:一些數據質量問題是非常隱秘的,大家都知道它是存在的,但它看不見摸不著,更處理不了,因為它需要放在特殊情境下才能被檢測到。比如數據集成共享存在的困難,源于數據采集端廠家標準不一,不能集體共享,形成了信息孤島問題;缺少數據全面評價管理制度對數據進行持續維護、提升;對數據的開發應用能力不足等問題。解決這些數據質量問題的關鍵就是需要一個復雜的、策略化的方法,而非孤立的、片面的來看問題。一旦數據質量不好,我們就需要尋求自動化與人工的雙重方式才能解決這類問題了。
這些問題彼此之間是相互關聯的,一環扣一環,對這兩類問題出現的原因需做進一步分析。
監測數據的采集和管理是一個專業且復雜的工程,涵蓋了監測業務梳理、標準制定、元數據管理、數據模型管理、數據匯聚、清洗加工、中心存儲、資源目錄編制、共享交換、數據維護、數據失效等過程。在任何一個環節中出錯,都將導致數據的錯誤。甚至,源頭數據本身就是錯誤的。所以,數據質量問題不僅僅是一個技術問題,它也可能出現在監測業務和管理的過程中。圖1對數據質量出現的問題,從技術、業務、管理三方面做列舉。

圖1 數據質量在技術、業務、管理的問題
通過對監測數據質量問題及出現問題的原因分析,從事前預防、事中監控、事后改善三個階段探討改善監測數據質量的方法。如圖2所示。

圖2 數據質量改善方法
(1)制定質量管理機制:基于數據管理的復雜性和誘因的多重性特點,解決數據質量問題僅僅依靠一個技術工具是不夠的,需要建立長效工作機制。即根據無線電監測機構特點,制定符合各監測部門自身環境的工作制度,制定每個監測環節的工作流程,規定各個參與方的責任,建立“誰出數誰負責、誰簽字誰負責”的責任追溯制度。無線電監測機構及其負責人對其監測數據的真實性和準確性負責。確定各項數據的權威部門,制定數據質量指標,制定數據質量修復流程等。
(2)制定數據質量標準:監測數據標準成功定義與否,直接決定了數據建設的成果和數據質量的高低,需要在融合國家標準、監測行業標準和地方標準的基礎上,結合組織自身的業務特色制定數據質量標準。無線電監測工作相關標準和規范,包括數據庫服務接口、數據庫結構技術規范、監測系統操作規范、監測檢測方法、監測任務流程、頻譜評估技術標準、監測設備運行維護規范等都需要制定標準規范等。
(3)制定質量監測模型:監測數據質量模型代表監測業務需求,它是從業務需求的角度而描述出來的質量需求。根據無線電監測業務對頻率劃分、分配、指配,臺(站)管理,制定監測定位、干擾排查等業務監測模型。
(4)制定質量監測規則:數據監測規則代表的具體的質量檢測手段,它是從技術角度來描述數據質量要求是如何被滿足的,包括規范性、完整性、準確性、致性、時效性、可訪問性等,通過制定質量監測規則,確保監測數據的時間連續性、頻譜完整性、精準可靠性等。
(1)監控原始數據質量:監測數據采集工作從數據源頭獲取最原始的數據,在數據采集過程中將數據分為“好數據”和“壞數據”,“好數據”入庫,“壞數據”則反饋給源頭修復,因為數據來源部門最了解這些數據,也最能在源頭上把數據問題徹底修復。
(2)監控數據中心質量:經過各種采集、清洗、加工過程,監測數據被存入數據倉庫中,這些數據也將被業務部門使用,所以,對于這些成果數據的質量監控和修復則猶為重要。對于這類數據問題,可以使用簡單的空值檢查、規范性檢查、值域檢查、邏輯檢查、一致性檢查等規則進行檢查,也可以通過諸如多源比較、數據佐證、數據探索、波動檢查、離群檢查等方法進行檢查。
(3)反饋數據質量問題:數據質量監控過程中,會發現兩類問題,一類是源頭的數據質量問題,另一類是數據中心的數據質量問題,數據質量團隊需要將這些問題及時反饋給源頭部門和數據倉庫建設團隊。
(4)考核數據質量:數據質量的考核是為了能夠引起各個參與部門和參與團隊對數據質量的重視,需要及時統計分析各種數據質量問題,并制訂出相應的應對措施。
(1)修復數據質量問題:發現質量問題不是最終的目標,仍要建立相關的流程和工具,通過手工、自動化等手段將質量問題修復,從而為業務創新提供可靠的數據支撐。
(2)收集數據質量需求:通過建立通暢的數據質量反饋通道,讓各個部門參與到數據質量的再次完善中來,從而形成建設、應用和反饋的良性循環。
(3)完善質量管理制度:制度和流程的建設不是一蹴而就的,要在數據建設和質量完善的過程中,結合監測組織結構和業務特色,不斷完善質量管理制度。
(4)完善數據質量標準:針對無線電行業不斷涌現新的業務形態,原有的業務也在不斷的變化,要緊跟業務的變化,不斷完善符合業務需求的數據質量標準。
(5)完善質量監測模型:如前所述,監測模型代表業務需求,業務形態的變化、數據標準的變化和質量新需求的出現,同樣要求監測模型能夠作出相應的變化。
(6)完善質量監測規則:信息化技術發展日新月異,不斷引入各種新技術來更加智能地發現和修復數據質量問題。隨著無線電新業務的出現,根據業務特點,利用新技術新設備完善更新監測規則,以確保監測覆蓋全,數據質量有保障。
本文引入了滿足無線電管理需求程度的無線電監測數據質量定義,并對監測數據存在的問題及原因進行分析,為提高無線電監測數據質量,重點提出了從監測數據的事前預防、事中監控、事后改善的質量改善方法。