卞曉豐
國家氣象信息中心,北京 100081
隨著中尺度、精細化天氣預報以及各種探測技術迅速發展,氣象觀測資料種類與數量增長迅猛,綜合觀測系統、預報預測系統、公共服務系統對信息技術支撐系統提出了越來越高的要求[1]。氣象資料的特點是:數據種類的多樣化、時效性要求高以及數據量特別大[2],從使用的角度看,往往是要求高時效、大批量,且多數用戶通常都集中在同一個時段使用數據。氣象行業傳統的質量控制主要依據氣象學、天氣學、氣候學原理,以及氣象要素的時間、空間變化規律和各要素間相互聯系的規律為線索,分析氣象資料是否合理[3]。可以這么說,數據質量控制主要解決氣象數據的科學性問題。如何構建一個分層次的業務系統,用以有效地收集和處理海量的原始氣象數據是氣象信息系統首先要解決的問題[4]。
數據質量管理不同于對氣象資料的質量控制,它是一個持續的過程,并貫穿數據的整個生命周期。在信息技術發展的不同時期,數據質量有著不同的概念和標準。20世紀80年代以前,關于數據質量的標準基本上以提高數據準確性為出發點。但是隨著質量含義的不斷延伸,對數據質量的認識也從狹義向廣義轉變。目前數據質量有著不同的定義,一種看法認為數據質量是數據適用于使用(fit for use)[6],另一種看法認為數據質量是數據對其期望目的的適應度[7],還有一種看法認為,數據質量是模式(schema)和數據實例(instance)的一致性程度[8]。從數據質量整體框架和方法論上講,首先我們要確定目標,然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術支撐來達成目標,信息、人員、流程、技術缺一不可。本文從數據質量管理角度出發,介紹種類繁多以及不同生命周期的氣象數據以不同形式并存情況下的質量管理方法。
數據質量具有個性化,多樣性,不穩定等特點,不同行業可以根據自身背景,建立一組業內認可的質量維度和指標體系并制定其采集辦法。隨著氣象行業的發展,各種數據正在以難以想象的速度急劇膨脹。比如數據種類繁多、數據檢索困難、數據流向不明、數據無法共享,甚至更為嚴重的數據泛濫。如果在數量巨大的數據在通信系統上以不同形式并存,產品種類越多,生命周期越長,那么管理數據的難度也就越大。實現數據質量管理以及建立相關的管理流程,需要考慮以下因素:
1) 注重從氣象數據使用者的角度來衡量數據質量,數據質量是由用戶以及數據的使用價值來評判的[10]。只有當數據被用戶接受并使用時,對數據質量管理的討論才具有意義;
2) 數據質量本身不可測度,通常根據需求分為若干維度逐個加以識別。一般來說,準確性,及時性,完整性,一致性等構成了數據質量的基本因素[8];
3) 數據是持續更新的,數據質量管理是一個持續的過程而不是一次性的活動
[14]。
數據的不同使用目的導致了數據質量目標不同。如果數據的使用主要是為了業務流程的正常運轉,只要數據流向和某些數據統計正常,就可以認為數據質量滿足需求;如果數據是用于后續業務中的分析和計算,那么數據的使用目的則多種多樣,所以這種情況下的數據質量需求是數據質量管理目標的主要方面。氣象通信系統中流轉的數據大多屬于后者,用作下游業務系統的輸入。
氣象通信系統是數據收集、分發、交換控制以及傳輸監視的綜合業務系統,承擔實時氣象數據傳輸和交換[1]。它主要由國際氣象通信系統、國內氣象通信系統組成(圖1),其中國際通信系統承擔世界氣象組織全球通信系統亞洲區域樞紐職責的業務系統。國內通信系統有臺站通信系統、縣級和地級通信系統、省級通信系統和國家級通信系統組成,負責國內氣象數據的收集、國內外氣象數據的分發服務,用戶不只是各級氣象部門,還包括民航、水利、海洋等相關行業部門。

圖1 氣象通信系統的組成
作為基礎業務平臺,氣象通信系統主要考慮以下四種影響數據質量的因素:
1) 科學性。氣象數據必須真實的反應實際狀況,避免出現誤差或者誤操作,控制數據的準確程度;
2) 標準化和共享性。傳統上提供服務的各個信息系統相互獨立,在它們設計實施階段都沒有統一規劃,各個系統往往采用不同的技術和架構,不同的業務規范和數據模式,導致數據分散、不完整甚至可能會有沖突。
3) 時效性和穩定性。數據的交換過程并不是完全可控的,存在一定的變化。氣象行業要求規定時間內得到最新的數據,并且要求業務系統是穩定可靠的。
4) 可維護性。缺乏針對業務系統的數據質量監督管理措施。在系統的建設過程中,往往關心的是數據應該往哪里去,應該由誰處理它。數據不只是業務的副產品,應提高對數據質量的重視。
影響其質量的因素有很多,在數據的生產、傳輸和處理過程中,任何環節的問題都會對信息系統的數據質量產生負面影響。一種普遍認可數據質量研究主要集中在模式層和實例層。加入對數據來源的考慮,數據質量問題可分為如下4類(圖2):數據源模式層問題、單數據源實例層問題、多數據源模式層問題和多數據源實例層問題[9]。
單數據源情形中出現的問題在多數據源的情況下會變得更為嚴重。上圖對多數據源沒有列出在單數據源情形中就已經出現的問題。模式層次上的問題也會體現在實例層次上,而實例層次上的問題在模式層次上不可見[12]。

圖2 數據質量問題分析
氣象數據的數據編碼技術基本可分為兩大類:字符編碼和二進制編碼。字符編碼簡單直觀,人工可讀、可編碼和解碼的。字符編碼對通信要求不高,適應于早期電路速率低,只能以電報形式傳輸的條件。二進制編碼既能反映氣象信息的全貌,又能適應高速通信線路的傳輸,便于計算機處理。二進制的表格驅動碼不僅包含數據本身,還包含對數據的完整描述,具備良好的擴展性與靈活性。這種數據格式的自描述信息能夠規避模式層,甚至實例層的很多問題,而且使編解碼簡單化。所以,隨著二進制編碼的推廣和應用,氣象數據會逐漸轉為二進制編碼以規避數據質量問題。
數據質量是一個多維的概念[9],理論上不是完全可控的。而數據質量維度是數據質量的評估標準,提供測量和管理信息和數據的方式。因此,將維度與業務需求相匹配,可較好地界定數據質量管理的范圍。考慮氣象數據特點,數據質量維度的提出即從技術和業務兩個層面對目標進行定義。
一方面,在技術層面普遍認可的四個基本要素是:
1) 完整性:數據的記錄和信息是否完整,主要包括是否存在文件缺失、要素缺失、記錄缺失和字段缺失等問題;
2) 一致性:數據的記錄是否符合規范,是否與前后及其他數據集合統一,主要包括數據記錄的規范和數據邏輯的一致性;
3) 準確性:數據中記錄的信息是否真實有效,是否存在異常或者錯誤,比如誤差,異常大或者異常小的數據等;
4) 及時性:數據的延時時長是否滿足時效性要求。當然,對不同時間尺度的數據時延的要求是不同的。
另一方面,業務層面的需求從用戶視角衡量數據質量,重視用戶對數據質量的滿意程度。如何建立數據質量監控流程,及時發現、報告、處理數據質量問題。在發展的不同階段,對數據質量的關注點也有所不同。早期對數據質量的關注點在于提高數據的準確性,隨著系統功能的不斷完善和擴展,用戶的關注重點逐步轉向其它方面。完成數據質量的維度以及業務需求分析之后,應評估一個特定的數據質量問題在數據使用方面帶來的影響,定義可以接受的數據質量閾值。根據影響分析可以確定數據質量問題的重要性和優先級別。
以地面觀測資料為例,數據質量管理分為三個部分:傳輸質量檢查、數據質量檢查和網絡系統工作情況檢查。傳輸質量主要考察數據傳輸階段的完整性和及時性,考核指標分別是及時到達文件數量、逾限到達文件數量和缺失文件數量。實時數據質量則主要針對數據采集階段的準確性和完整性,考核指標有數據可用率、數據錯誤率、數據可疑率和數據缺測率。上述兩種質量對于不同種類的數據有著不同的閾值要求[1]。而網絡系統工作情況是對氣象通信網絡、系統等支撐環境的要求,考核指標為系統的可靠性,要求系統全年7×24小時不間斷運行,可用率在99.8%以上且每月平均故障時間不超過1個小時。
數據質量的需求與實際之間的差距,通常是由信息、流程、技術、人員所造成的。建立和實施數據質量管理體系的方法包括以下步驟:首先,確定數據使用者的需求和期望。其次,制定質量目標,確定實現該目標必需的業務流程和職責,確定和提供實現質量目標必需的資源。然后,規定測量業務流程的有效性和效率,應用測量方法確定每個流程的有效性和效率,確定防止不合格并消除產生原因的措施;最后,建立和應用持續改進質量管理體系的過程。采用上述方法對過程和產品質量樹立信心,為持續改進提供基礎,從而增進用戶滿意并使氣象信息系統滿足設計要求。
針對氣象數據的來源多樣性、類型多樣性等特點,面向數據生命流程的框架體系的是實現數據質量控制的較好選擇。對于數據而言,雖然在內容、格式等方面存在差異,但生命流程是具有共性的[16]。對于數據生命流程的分類多種多樣,但總的說來大同小異,只是具體細節方面的不同。氣象通信系統中數據的重要生命階段大致可分為數據收集、數據管理和存儲、數據應用和服務三個階段。
數據質量的提高策略多種多樣[13],從數據生命流程來看,一類從預防的角度,即在數據生命流程的任何一個階段,都有嚴格的數據規劃和約束來防止數據質量問題的產生;另一類是事后診斷,即由于數據的演化或集成,會有臟數據逐漸涌現。從數據質量問題解決依賴的知識來看,數據質量提高策略分為兩類:一類提高策略不依賴特定業務規則,是應用獨立的,如誤差、數據異常、某些缺失值的處理等,這類問題不依賴于特定規則,可以從數據本身中尋找特征來解決
[12];另一類解決方法與特定業務規則相關,是應用依賴的,這些相關領域知識是消除數據邏輯錯誤的必需條件。由于數據質量問題涉及方方面面,成功的數據質量提高方案必然是綜合應用以上各種策略。
綜上所述,改善數據質量從兩個方面著手,一個是在數據進入系統時引入各種規則來保證數據的正確性;另一個是在數據整合時引入專門的工具進行數據清洗。后一種方法的成本較高,而且需要持續不斷的進行。相對而言,前一種方法更加主動,成本也較低。
數據交換是數據生命流程的開始,數據通過各種方式進入氣象信息系統內部。氣象數據具有多源性和復雜性,數據交換與多方面的因素直接相關,這些直接相關的因素都不同程度對數據質量情況有所影響,比如模式設計、傳輸方式、設備的工作狀態等。
以觀測資料為例,目前用于提高數據的準確性的管理方法包括:格式檢查、范圍檢查、極值檢查、內部一致性檢查、空間一致性檢查、氣象學公式檢查、統計學檢查、均一性檢查等。臺站、地市和縣級、省級、國家級資料部門的四級質量控制業務系統在數據源頭確保數據的完整性、正確性,根據數據時效性區分實時和非實時業務,保證數據的及時性[5]。
一般來說,數據管理和存儲不會對數據有直接改變的操作,通常是把數據以具體的形式存儲和管理。除了數據自身的質量,存儲介質、環境、歸檔策略等也都是和質量管理緊密相關的,數據管理應該在保證數據安全性的前提下提供用戶訪問。在這一階段中,還應當重點關注存儲介質、環境以及管理系統的安全性、可訪問性等因素。另外,數據管理流程不清晰、資料標準不統一等問題給業務人員和用戶都增加了一定的工作量。需要增加對數據進行詳細、深入的了解,注重解決元數據管理、數據整合等方面的細節問題。
數據進入數據庫管理之前,根據來源、種類等信息對上一階段的數據進行清理和驗證。具體的方式有重復性檢查、數據補調、錯報調閱及修改等。通過文件級、公報級、報告級數據收發情況和傳輸時效的監視、統計,按照規定生成指定的報告級報表,對重要數據質量問題應當做持續監控。通過數據質量檢查和監控來測量和監控數據項對數據質量的符合度,提高識別和糾正數據質量問題的可能性,從而避免對業務的重大沖擊。對于一些實驗性的項目而言,巨大的數據量和高時效的要求促使技術人員正在尋找新的架構實現智能動態管理,以方便對其進行高效存儲和訪問。
數據應用和服務階段是根據業務需求將數據傳遞給下游的過程,在該階段最容易暴露數據本身及其所產生的信息內容的質量問題。因為數據的使用決定了數據質量問題的定義,很多質量問題都是在使用時首次發現。除此之外,從用戶角度出發,數據服務系統的友好性、易用性也可作為該階段數據質量控制和保證的維度。
氣息通信系統提供各種傳輸協議接口,實現數據交換控制、傳輸處理以及作業調度。通過管理入口技術人員對系統做業務管理、維護和運行監視,保證數據能夠及時分發,及時到達。在日常業務工作中,業務人員逐步認識到數據質量是一個嚴重的,需要高昂的成本的問題。很多數據使用者并不能完全了解數據質量問題產生的原因,他們認為數據質量的問題主要是技術層面的問題。但是,數據質量問題又不可能僅僅通過氣象通信系統的改善來實現,更需要其他業務部門的積極、主動參與。
數據質量問題的產生往往主要在數據收集階段,然后隨著數據生命流程的發展而逐漸減少,而數據質量問題的發現則相反(圖3)。數據收集階段最開始只能發現業務流程相關的數據質量問題,而且僅限于本系統內部。預防比修正的成本低,而且效果更好,因此數據質量的問題最好在源頭得到修正。相比較其它階段,在數據收集階段預防數據質量缺陷發生的意義更大。對于數據管理和存儲階段,應當利用基礎數據平臺類系統對數據質量問題的解決情況進行跟蹤,作為數據質量監控的一個重要組成部分,也是數據質量提高的一個依據。作為數據的使用者,在數據應用和服務階段對數據質量進行評估和反饋,用于設定下一階段數據管理目標。

圖3 數據生命流程
數據質量管理的有效實施依賴于建立數據質量事件解決報告與跟蹤機制。記錄數據質量事件的評估、初步診斷和后續行動提供績效報告。包括問題解決的平均時間、問題發生頻次、問題類型、問題來源以及糾正或者消除問題的常規做法。從質量管理的持續改進原則出發,不斷的改進數據質量是一個永恒的目標。數據是持續更新的,數據質量管理是一個持續的過程而不是一次性的活動,沒有持續的監控和預防措施,數據質量缺陷仍有可能再次出現。一般通過預定義的規則進行數據質量驗證,提供了將數據監控與主動數據質量管理日常操作流程相融合的方式來。因此,數據質量日常工作的四項活動有:檢查和監控;診斷和評估補救辦法;解決問題;形成報告。
不同的業務對數據質量的要求是不同的,在具體的實踐中可以根據質量控制、評估等具體需要增加質量維度,輔以相應的質量對象實現理論和方法,評估、控制和保證相應的數據質量內容。為了最大范圍進行有效的數據質量管理,數據質量管理的功能點應該合理分布在流程的各個階段。數據質量管理的最佳選擇是將數據、業務系統、技術人員和用戶都納入到數據質量的發現、修正、跟蹤和評估的閉環流程之中,數據質量管理成敗的關鍵在于合理有效的組織架構和流程。
氣象科學數據作為國家基礎性、公益性科學數據資源的重要組成部分,良好設計和規劃的信息系統并不能保證在所有的情況下都能滿足氣象行業對數據業務的要求。數據質量管理應該作為業務系統中一項關鍵的支撐流程,在業務系統的設計改造、業務的變更整合,以及業務的遷移過程中統籌考慮,否則就會影響所存放的數據的質量。而且,對數據短期的清理也許會帶來一定的改善,但并不解決數據缺陷的根本原因。應當根據發展需求制定的數據質量標準,為提升數據質量提供合理有效的解決方案。
數據質量管理過程是一個沒有終點的過程,也沒有統一架構原則。數據質量是一個多維的概念,貫穿于數據生命流程的各個階段。為了防患于未然,定位、解決和避免數據質量問題,需要構建可長期持續保持的數據質量流程,減少業務中數據流程風險。將數據質量管理和質量提高等流程制度化,識別業務對高質量數據的需求,確定如何度量、監控和報告數據質量的最佳方式。根據數據質量問題的定義、分類和特性,可從技術和管理兩個方面分析并解決氣象通信系統中的可能存在的數據質量問題。氣象數據質量的研究工作仍有許多可以改善的地方,這需要在今后的業務工作中將這部分研究工作將和氣象通信系統的建設和發展結合起來,根據下游業務的反饋和意見做進一步的完善和豐富。
[1]趙立成,氣象信息系統[M]氣象出版社,2011.
[2]林潤生, 孫周軍, 譚小華, 等. 新一代國內氣象通信系統設計與實現[J]. 氣象, 2011, 37(3):356-362.
[3]李集明,熊安元.氣象科學數據共享系統研究綜述[J]. 應用氣象學報,2004,15(Z1).
[4]李集明, 沈文海, 王國復. 氣象信息共享平臺及其關鍵技術研究[J]. 應用氣象學報, 2006,17(5): 621-628.
[5]劉小寧, 任芝花. 地面氣象資料質量控制方法研究概述[J]. 氣象科技, 2005, 33(3): 199-203.
[6]Wang R Y, Strong D M, Guarascio L M.Beyond accuracy: What data quality means to data consumers[J]. J. of Management Information Systems,1996, 12(4): 5-33.
[7]Beverly K. Kahn, Diane M. Strong. Product and Service Performance Model for Information Quality: An Update[J]. IQ 1998: 102-115, 1998.
[8]Aebi D, Perrochon L. Towards Improving Data Quality[C]//CISMOD. 1993: 273-281.
[9]Rahm E, Do H H. Data cleaning: Problems and current approaches[J]. IEEE Data Eng. Bull., 2000,23(4): 3-13.
[10]DAMA著,馬歡,劉晨等譯,DAMA數據管理知識體系指南[M],清華大學出版社,2012
[11]宋敏, 覃正. 國外數據質量管理研究綜述[J]. 情報雜志, 2007, 2: 7-9.
[12]郭志懋, 周傲英. 數據質量和數據清洗研究綜述[J]. 軟件學報, 2002, 13(11): 2076-2082.
[13]韓京宇, 徐立臻, 董逸生. 數據質量研究綜述[J]. 計算機科學, 2008, 35(2): 1-5.
[14]孫中東. 企業級數據治理框架下的數據質量管理[J]. 金融電子化, 2011 (6): 57-60.
[15]王國復, 徐楓, 吳增祥. 氣象元數據標準與信息發布技術研究[J]. 應用氣象學報, 2005,16(1): 114-121.
[16]胡良霖. 科學數據資源的質量控制和評估[J]. E-Science, 2009 (1): 50-55.