高婷 陳晴 孫曉燕 徐海明 楊明 陸明
(1 浙江省氣象信息網絡中心,杭州 310017;2 浙江省氣象局,杭州 310002)
近年來,中國氣象局提出“加快集約整合、推動氣象大數據資源共建共享”的目標。各地氣象部門積極推進本部門與交通、水利等氣象相關行業的數據共享,以實現跨行業的數據價值挖掘。目前浙江省氣象局已獲取來自環保、水利、交通、電力、海洋等氣象相關行業的共享數據。行業的特種觀測數據不僅可以補充氣象站點數量的不足,還可以擴展觀測內容與種類,對氣象監測起到有益的補充與擴展作用,充分利用多種數據源,可以為氣象預警預報與防災減災提供更高的保障。
由于行業氣象數據標準各不相同,導致各類數據在共享方式、數據格式、數據質量上均有較大的差異,且與氣象部門對觀測數據的要求也有很大偏差,難以直接應用在氣象業務中。隨著氣象現代化信息化的不斷發展,國家及各級政府都在強調標準體系的建立及完善[1],氣象標準化是氣象現代化的表征之一[2]。因此,設計氣象相關行業間共享數據的標準化處理流程,實現從數據接收到數據存儲共享的全流程規范化管理,制作出行業間共享觀測數據標準化數據集,具有重要的意義,可為加快推進多源信息在氣象中的應用,實現各類數據的融合提供基礎與保障。對氣象數據起到了很好的補充與擴展作用,在氣象服務中不可或缺。
目前浙江省氣象局已獲取海洋、交通等共計6個部門的共享數據,具體資料情況匯總如表1。

表1 行業間共享數據匯總表Table1 The summary of sharing data between industries related to meteorology
從表1可見,行業間數據種類豐富,觀測要素中既有氣象中常用的溫壓濕風等數據,又有水位、流量、AQI、NO2等行業特色數據,大大擴展了氣象觀測數據的數據種類。分析表1,還可以看出不同來源的行業間數據在共享方式、觀測頻率、數據計量單位等方面均有差異與不同。
利用站點的經緯度信息,可獲取氣象相關行業間共享數據在空間的分布特征,其中交通站、電力站、水文站的空間分布如圖1所示。

圖1 目前浙江省行業間已共享數據站點空間分布Fig. 1 Distribution of sharing weather stations between industries in Zhejiang Province
從圖1中可以看出,行業間自動站在全省數量眾多、覆蓋密集,且所在位置與氣象站互不重疊,充分利用行業間的數據,可以填補氣象監測的盲點與空白。
行業間共享數據的處理流程設計應充分考慮以下三個方面:一是盡量保持原始觀測數據的完整性,二是確保數據的可靠性,三是滿足數據查詢的便捷性。同時,應考慮在保留各類行業間特色數據的基礎上,盡量將其中常用的氣象觀測要素與本部門的觀測數據進行統一。基于以上原則,初步設計了行業間共享數據標準化處理流程(圖2)。

圖2 行業間共享數據標準化處理流程設計方案Fig. 2 The design flow of the standard preprocess for sharing data between
針對氣象相關行業間共享數據標準化處理流程,主要內容有以下幾個方面。
2.1.1 文件目錄結構規范
為了實現行業間觀測數據與氣象數據的統一,考慮依據數據分類,以樹形結構為存儲目錄結構。參考中國氣象局制定的《氣象要素分類與編碼》(QXT 102—2009),將數據分為16大類,其中第16大類,為“其他數據”,其解釋為其他行業觀測獲得或收集加工的各種資料及相應數據產品。故可將行業間數據劃分到此類中,作為目錄的第一層次;其次,根據行業間數據的生產單位,進行目錄第二層次的分類;若在以上兩層次的基礎上,數據還未能劃分,則可根據數據的格式、時空屬性等不同特點進行第三到第四層次的劃分。
依據以上數據分類原則,結合各類行業間數據的實際特點,設計了浙江省行業間共享報文數據目錄結構(表2)。
2.1.2 文件命名的規范
參考《國家氣象中心文件命名規范》《全國公共氣象服務產品庫文件命名規范》《氣象數據傳輸文件命名》(QX/T 129—2011),并結合行業間數據的實際特點,將行業間觀測文件命名格式規范如下:
Pflag_productidentifier_department_oflag_originator_yyyyMMddhhmmss_Ftype_Timer.type
1)pflag字段:用來指示對后面productidentifier字段如何進行解碼。目前pflag 的取值均為Z,表示文件為國內交換的資料。
2)productidentifier字段:用來標識文件中數據的實際類型,當pflag為Z時,編碼如表3。
3)department:用來指示數據生產的機構。
4)oflag:用來指示對后面的originator字段如何進行編碼。目前,oflag字段可以有以下允許的值:C、I、S,分別表示后面originator字段按四位編碼(即CCCC碼)進行解碼、按目前臺站區站號5位碼或站名進行編碼、按站號+子站號進行編碼。
5)originator:不定長,用來代表文件的生成地點,一般可用臺站號或臺站名代替。
6)yyyyMMddhhmmss:文件生成時間“年月日時分秒”。
7)Ftype:代表文件的屬性,常見取值有B(代表業務通知)、O(代表觀測資料)、P(代表加工產品、反演資料、預報產品、服務產品)、C(代表測站站點信息)、R(代表各種統計信息、質量管理信息)、L(代表系統運行log文件)。由于行業間報文數據均為觀測數據,故Ftype取固定值O。
8)Timer:指示是否為定時觀測,定時觀測用FTM、非定時觀測用ITM表示。
9)Type字段:是一個可變長度的字段,用以標識文件的一般格式類型。
依據以上命名規范,將現有的行業間報文型數據命名如表4所列。
由于報文型數據不方便用戶讀取,考慮以數據庫形式存儲共享行業間數據。依據各類行業間數據觀測要素的不同,分別建立各行業間數據的獨立數據庫。數據庫設計包括數據庫名、表名、字段名的設計,字段類型、數據單位的規范,具體設計以《氣象數據庫存儲管理命名》(QX/T233—2014)為標準。對于其中的氣象要素,需保證其記錄單位與本部門的一致。對于行業間的特色觀測要素,結合行業應用為設計實施準則。
依據以上,將行業間數據庫命名規范為:數據庫分級代碼_數據管理中心代碼_數據分類代碼_數據所屬大類_數據生產單位標識代碼。如行業間共享海洋數據庫命名為:P_BEHZ_D_OTHE_ oceanDB。
數據表的命名規范為:氣象數據存儲管理代碼[_氣象數據存儲管理代碼]_數據庫對象代碼[_數據庫對象代碼][_數據庫對象擴展屬性代碼]。如海洋小時數據表命名為:OTHE_ OCEAN_BEHZ_MUL_HOR_TAB。
數據表中的相關字段采用V、Q、C和D等字母作為前綴,用以表示其數據類型(表5)。

表5 字段類型前綴說明Table 5 The description for the prefix of field type
對于其中的氣象要素相關字段命名,氣象要素代碼由XXYYY[_ZZZZ]組成。XX為要素類型碼,YYY為要素碼,[_ZZZZ]是要素特殊碼,為自由碼。氣象要素以外的其他要素字段采用帕斯卡(Pascal)命名規則執行。
在建立統一規范的數據環境的基礎上,充分考慮在多種環境下的適用性,基于全國綜合氣象信息共享平臺(CIMISS)系統開發部門間共享數據的訪問接口,實現部門間共享數據的集約、高效共享。
開發的數據訪問接口提供全面的數據獲取功能,包括:行業間站點資料的按站檢索、按時間檢索、按要素檢索以及數據的按時間、按區域、按站統計等功能,并提供多種選擇的返回格式。
參照行業共享數據的標準化業務流程,將行業數據進行相應的規范化處理,實現了行業共享數據的標準化管理,并建設了存儲行業共享數據的存儲數據庫,通過接口調用,實現行業間共享數據的實時訪問。如圖3 為“浙江氣象決策服務云平臺”中接入的水文、交通、電力站數據的實時數據。從圖3中可以看出,通過數據接口獲取行業間的氣象數據,實現了各類部門間資料與本部門數據的一張圖顯示,體現了多源信息在氣象中的融合,保障了行業間數據的應用。

圖3 浙江氣象決策服務云平臺中行業間數據的實時顯示Fig. 3 Display for the sharing data between industries in meteorological decision service platform for Zhejiang
本文表明,行業共享數據進行標準化的業務流程管理,符合中國氣象局提出的“加快集約整合、推動氣象大數據資源共建共享”的目標,有利于各類業務平臺方便獲取行業間資料,為行業間數據的應用提供了基礎性保障。由于目前中國氣象局還未頒發針對行業間共享數據的處理辦法,此文中提出的標準化處理流程可為各省、市氣象部門提供參考,具有實用意義。
Advances in Meteorological Science and Technology2020年5期