江蕾 邱玲
1. 高原與盆地暴雨旱澇災害四川省重點實驗室 四川 成都 610072;
2. 四川省氣象探測數據中心 四川 成都 610072
在數據分析的過程中,我們會接觸到很多的數據,這些數據根據結構分類可劃分為3種:結構化數據、非結構化數據和半結構化數據。其中結構化數據指是由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規范,主要通過關系型數據庫進行存儲和管理(在氣象領域應用主要是地面、高空的站點氣象要素數據)[1]。與結構化數據相對的是不適于由數據庫二維表來表現的非結構化數據,包括所有格式的二進制文件(衛星、雷達)、文檔、圖片、XML文件等;最后是半結構化數據,這類數據采用冗余方式進行存儲服務,數據索引信息保存在某個指定的關系數據庫中,數據文件按照非結構化數據的組織形式進行存儲,采用此方式的原因是查詢統計比較方便,并且能夠靈活地進行擴展與檢索。
目前四川自有產品中最具特色而且應用頻度高的是高原所生成的西南區域數值模式預報產品,產品包括兩個子模式產品:9km產品SWC-WARMS和3km產品SWC-WARR,每個子模式產品每天起報4次:02時、08時、14時、20時(北京時),產品1天的數據量至少130GB,未來隨著精細化氣象預報的應用和預報要素、預報時效的精細化程度提高以及用戶數的激增,數據量會越來越大,而且對于氣象應用來說,數據的共享服務的橫向、縱向都會有涉及,因此從數據量和數據服務來說,問題越發明顯,基于以上從數據量以及數據應用的角度來看,簡單的數據轉發或者推送已經無法滿足目前多元氣象數據的應用[2-3]。
為了解決以上問題,基于四川省局數據中心對數值模式產品的管理方式(原始產品的轉發保存、CMADAAS規范的要素級產品管理與共享服務、要素級產品接入MICAPS4分布式數據環境與代理下載服務),考慮到系統集約化要求和目前用戶對下行共享存儲的原始產品的需求越來越少,因為全要素的產品數據量大并且只能提供單一的服務方式(FTP),并且CMADAAS和MICAPS4兩個系統實現了數值預報服務產品細粒度、多維度、高效的管理服務,因此數值模式產品需要進入CMADAAS和MICAPS4分布式數據環境(MDFS)才能更好更全面地為氣象用戶提供共享服務[4]。
根據CMADAAS對數值預報模式的處理流程,西南區域模式產品在CMADAAS里的接入包括CTS系統、DPC系統、SOD系統、MUSIC系統的流程配置,其中CTS系統按照CMADAAS對數值預報模式產品規范進行產品接入,DPC系統、SOD系統、MUSIC系統的配置需要按照產品本身的氣象元數據信息配置。
數據處理系統(DPC)涉及產品的處理有產品預報場的拆分和GRIB的解碼模塊的加載,根據已有算法對數值模式產品的處理,DPC子系統將四級編碼為F.0027.0006.R001的9km西南區域數值產品(GRIB1格式)由系統的GRIB1算法解碼,并且解碼出兩種產品,一個是產品文件,一個是產品描述文件。系統解碼出的預報要素如下表:

表1 解碼的預報要素

續表
從上表中可以看到其中前面11個預報要素為數字,代表西南區域數值模式產品存在DPC系統未定義的預報要素,剩下的用具體字母的代表西南區域數值模式產品的預報要素在DPC系統中存在定義并已經被正確解碼[5]。因此,未正確解碼出預報要素的產品需要使用WGRIB查看具體的預報要素并且更新DPC系統的GRIB解碼配置文件,下表是使用WGRIB解碼上述11個預報要素為數字的產品,得到的結果。

表2 WGRIB解碼后預報要素

續表
西南區域數值模式產品在數據存儲系統中的管理包括結構化部分和非結構化部分,即索引入庫和產品歸檔。為了方便管理與提供服務,存儲結構的管理和產品歸檔的配置需要通過數據處理系統解碼出來的產品描述文件確定存儲結構的要素和存儲的細節[6]。
首先是索引入庫配置。這一部分包括了存儲結構管理和入庫策略配置,存儲結構管理根據產品描述文檔里解碼出的要素和消息內容確定,存儲結構的字段應該包括文件大小、入庫時間、存儲路徑、年月日時分秒等時間要素,文件格式(GRIB1、GRIB2、netCDF等)、文件名、原文件名、預報氣象要素代碼、加工中心、預報時效、層次等。其次是入庫策略配置,這一個配置會最終生成入庫的SQL語句,主要配置的是數據處理系統傳過來的消息內容和產品描述文檔確定對應入庫的字段[7]。
其次是產品歸檔存儲配置(NAS存儲)。這一部分涉及了入庫位置和入庫位置的目錄策略。
以上索引入庫和產品歸檔配置完成后,重啟入庫策略即可生效,下表是9km西南區域數值模式產品在數據存儲系統中的配置。

表3 9km西南區域數值模式產品數據存儲系統配置
在CMADAAS氣象數據統一服務接口(MUSIC)中配置9km西南區域數值模式產品的模式描述,預報要素和接口等,根據數值模式產品應用場景,獲取9km西南區域數值預報模式產品常用要素應用的MUSIC接口列表有表4所示。

表4 獲取9KM西南區域數值預報模式產品服務接口
針對海量實時氣象數據的預報應用需求,MICAPS4不僅提升了數據顯示、統計分析效率,而且增加了數據“顯示樣式”自定義的靈活性,西南區域數值模式產品加入MICAPS4分布式數據環境并直接支撐MICAPS4客戶端應用成為數據中心對新模式產品應用的關鍵之一[8-9]。
針對海量實時氣象數據處理需求,實現西南區域模式產品加入非結構化產品高速加工處理流水線(DPC),并且按照MICAPS4定義的數據規則持久化到分布式存儲(Cassandra)中,用戶不僅可以通過客戶端直接使用此產品而且可以通過MICAPS4分布式數據環境系統提供的數據下載代理服務(GDS)下載此產品。
目前通過CMADAAS氣象數據統一服務接口(MUSIC)方式獲取西南區域模式產品的應用主要在四川省省、市、縣三級預報業務平臺、四川省精細化預報業務平臺和市州局的一些應用或者系統平臺中,下圖是三級預報業務平臺對西南區域數值模式產品的站點插值應用和MICAPS4客戶端應用截圖[10]。

圖1 省市縣三級預報業務平臺應用截圖

圖2 MICAPS客戶端應用截圖
基于CMADAAS氣象數據統一服務接口,根據CMADAAS氣象數據產品、處理流程規范和數值模式產品的表格驅動碼編碼規范接入四川氣象大數據云平臺(天擎CMADAAS)的西南區域數值模式產品為全省氣象部門提供應用支撐,確保數據底層支撐在數據中心的集約化、統一性和可維護性。
同時,西南區域數值模式產品接入面向海量氣象數據實時處理的分布式MICAPS4數據環境并直接支撐MICAPS客戶端應用,保證了數據應用的多樣性和數據的可用性。