管麗麗 曹鈺 胡龍平 陳文源
1.上海市氣象信息與技術支持中心;2.長三角環境氣象預報預警中心;3.上海地聽信息科技有限公司
建立“長三角環境氣象案例庫及檢索系統”數據流程的改造機制,針對數據采集、產品加工、數據調用、算法管理與業務監控等5個部分的改造。建立可行的流程機制并進行測試,未來將統一使用大數據云平臺提供的數據源,將業務產品生成流程納入到加工流水線中,業務產品生成后統一存放到分布式對象存儲庫中,在天鏡實現全流程全要素的監控。
為消除“數據孤島”“應用煙囪”,推進資源整合、流程再造,發揮數據聚集規模效應,實現業務集約高效,需要把氣象局內業務系統數據統一歸集到國省氣象大數據云平臺(天擎)。數據中臺通過對接氣象大數據云平臺,形成和原始數據保持一致的歸集庫;歸集庫數據經過清洗加工、數據治理以及按照AI智能應用場景及服務的要求,進一步經過關聯、整合,從歸集庫中抽取數據構建各自的主題庫、專題庫,通過數據服務支撐子系統為上層智能化應用及服務提供數據支撐[1-4]。根據《氣象大數據云平臺試點建設工作方案》,選取“長三角環境氣象案例庫及檢索系統”做為融入上海市氣象局氣象大數據云平臺的試點任務。
“長三角環境氣象案例庫及檢索系統”通過集成多年海量歷史數據(空氣質量監測、大氣污染模式預報,氣象觀測分析、氣象模式預報),從污染傳輸、氣象條件、模式預報分析等多個維度實現對PM2.5、臭氧等多種污染物的歷史同期污染過程深度對照。同時對重點城市和區域的污染發生頻率、污染水平及特征、發生氣象條件、污染類型進行系統性診斷,及對未來過程與歷史污染過程進行全方位自適應匹配,為長三角環境氣象質量保障和專家決策提供專業洞察和科學支持。
隨著系統本身和用戶數量的發展,逐步增加了3個大的需求:高效存儲及計算需求、統一監控運維需求、集約化需求。
(1)高效存儲及計算需求。平臺數據涉及基礎氣象資料、環保數據、基礎地理數據等3大類30余項,數據來源廣泛、格式標準各異、接入方式復雜。經測算,平臺日采集及處理數據量約為20GB,生成服務產品文件大小近10GB,中大多數以小文件存放。高分辨率數據時空分析、高頻回滾計算對分類存儲、快速存儲檢索、分析再計算能力均提出更高需求。平臺涉及的2013年至今的觀測、預報模式數據均需滿足數據訪問、在線計算及回存需求,實時數據訪問快速響應需求,歷史長序列數據統計分析需求。
(2)統一監控運維需求。作為“長三角環境氣象預報預警中心”的業務系統之一,需對數據到達、產品加工、服務分發等關鍵環節提供“全流程、全要素、全過程”監控,提高數據質量、服務時效、故障處理時效,增強平臺運行的穩定性。
(3)集約化需求。平臺存在大量數據和產品實時匯交與共享,數據分析、產品加工、前端交互涉及多個網段,目前雖功能研發完成,但需從業務布局出發,更加實現集約部署。
受限于原CIMISS數據源環境,上面的需求無法實現,但是基于氣象大數據云平臺為業務實現數據和算法的統一調配提供了可能。“長三角環境氣象案例庫及檢索系統”完成數據統一采集、存儲、產品加工處理,業務功能的改造融入,實現全流程統一調度管理與監控,最終實現全面融入氣象大數據云平臺,進一步提升業務系統運行和管理效率。
目前“長三角環境氣象案例庫及檢索系統”數據源包括以下幾個方面:CIMISS平臺:氣象觀測數據(地面、探空)、環保局網站(空氣質量監測數據)、模式服務器(WRF-CHEM大氣模式、EC細網格)。系統通過實時獲取各類數據,在系統應用服務器上進行單獨加工處理,圖片等產品存入NAS掛載盤,元數據等控制信息存入系統自建SQL Server數據庫,系統采用前后分離的架構,開發接口Web服務接口,為Web前端提供服務接口。系統界面如圖1所示。

圖1 長三角環境氣象案例庫及檢索系統Fig.1 Yangtze River Delta environmental meteorological case database and retrieval system
根據大數據云平臺業務架構和功能特點,向天擎的融入分別從“云”“端”兩方面聯合設計融入方案(如圖2所示)。

圖2 改造后的數據流程圖Fig.2 The modified data flow chart
“云”的融入包含IaaS層、SaaS層。其中,IaaS層由大數據云平臺提供系統所需的虛擬資源池、分布式物理池、數據存儲的基礎設施資源。SaaS層,云平臺針對系統數據及產品特征,提供分類數據存儲、算法集成改造融入、擴充現有數據服務接口,將原系統中的算法、工作流、任務調度調整為大數據云平臺的加工流水線,支持生成的業務產品回存入云平臺統一的數據及存儲環境[5-8]。
“端”的融入包括Web端展示融入、后端管理端的融入改造。后端Web接口連接天擎云數據庫及存儲,Web前端保持原有不變。數據采集環境,現有數據交互算法向云平臺遷移。對于原本對接CIMISS數據服務接口,不作變化。對于云平臺尚不包含的環保等數據,遵循大數據云平臺的數據輸入輸出和監控規范,納入統一交換質控系統進行解析處理。
數據存儲管理,完全轉移至云平臺。新增空間數據庫,以postgreSQL支撐點、線、面SHP數據與氣象基礎數據的空間融合入分析與信息提取;擴充歷史分析庫,大體量、長時次、循環滾動計算的歷史檢驗數據,采用云數據庫提升計算效率;分配共享文件存儲,用于中間結果緩存,對頻繁更新的共享指標、圖片產品以分布式NAS存儲。
數據服務接口改造,數據接口融入包含兩部分,基于現有標準、擴展MUSIC底層通用接口,在時間窗、區域段、地理信息區間等方面容納更多動態適配參數,定制開發空間分析服務接口功能,滿足不同參數化方案下的動態空間信息調用和分析;利用眾創接口,對MUSIC接口無法滿足的功能定制開發,如根據前端展示需求,形成多個數據服務接口。
針對系統的業務加工處理流程通過接口與天鏡系統對接進行改造,實施個性化監控告警策略,對應用端及業務流程進行監控。依據天鏡標準接口改造升級系統的所有加工處理流程,增加發送DI和EI信息的業務功能,并通過接口的形式與天鏡系統,并制定相應的告警策略。實施對“長三角環境氣象案例庫及檢索系統”的個性化監控,實現應用端及所使用的大數據云平臺資源的業務流程監控,向運維保障人員提供基于業務分類的業務全流程監控信息。
現有的氣象大數據云平臺“天擎”系統的數據資料可分為5類:結構化數據、非結構化數據、半結構化數據、雷達流、質控前原始數據。作為試點融入系統的“長三角環境氣象案列庫及檢索系統”的數據類型主要包含2個:結構化和非結構化數據。該次試點融入任務在2類數據中各選取1種數據進行融入,結構化數據選取了“按類型統計診斷產品-風玫瑰圖”,非結構化數據選取了“查詢產品-污染空間分布圖”。
兩類數據的相關算法分別是:(1)風玫瑰圖(結構化數據)是氣象科學專業統計圖表,用來統計某個地區一段時期內風向、風速發生頻率,又分為“風向玫瑰圖”和“風速玫瑰圖”。(2)污染空間分布圖(非結構化數據)是對污染物觀測數據進行采集、并進行時間一致性和空間一致性匹配加工,實現所需時間、空間范圍平均等統計數據顯示。此次試點融入改造了兩個方面的任務,實現了外部系統的首次閉環數據融入。

圖3 系統融入的主要工作和流程Fig.3 The main work and process of system integration
數據方面:將風玫瑰頻率統計算法所用到的數據來源從CIMISS系統切換到天擎系統,通過讀取中國地面逐小時數據和中國地面分鐘數據兩個資料,將實時采集的各個風向統計到這16個方向上,生成華東地面風頻風向小時資料。因為這個是上海特有的資料,為了融入“天擎”系統,申請了新的資料四級編碼(A.4600.0001.S001)、存儲四級編碼(A.4600.0001.M001)、并在基礎庫的緩沖庫里新建了風頻風向統計表(SURF_WEA_HD_ WINDROSE_HOR_TAB)用于存儲統計的風向要素。
編譯程序方面:天擎數據讀取用了MUSIC接口,MUSIC對于Java語言提供了多種數據服務方式,包含SDK開發、REST、Web Service等。每種方式適用于不同的開發場景,比如在獲取數據頻率高、數據量大的場景,融入使用SDK模式進行開發,通過建立數據服務長連接,提高數據獲取效率。虛谷數據庫JDBC驅動程序實現了和虛谷數據庫通信,支持PLSQL語句對數據庫的訪問,同時也是構造高級API和數據庫開發工具的基礎。風玫瑰頻率算法通過重新編譯JAR包從外部機器上遷移到天擎的DPL加工流水線上,實現了算法的融入。“長三角環境氣象案例庫及檢索系統”通過天擎的MUSIC接口讀取風頻風向統計表里的數據最終在Web端生成風玫瑰圖(如圖4所示)。非結構化數據AQI污染分布圖也是如此完成5大步驟的改造,實現了全部融入“天擎”系統。

圖4 污染風玫瑰圖Fig.4 The distribution with wind directions of a typical type pollution even
至此,從數據采集流程、數據存儲管理、產品加工流程、前端應用流程,全流程都完成改造,實現了首次整個流水線融入天擎系統。另外,天鏡系統需要重新開發監控頁面,目前實現發送DI報錯信息給天鏡系統,然后通過短信和企業微信方式實現實時監控,實現了業務監控流程的改造。
系統融入改造后長三角觀測數據獲取及統計從原來的4.7s縮短至2.3s,應用系統接口平均響應速度從原來的3s縮短至1.8s。“長三角環境氣象案例庫及檢索系統”融入天擎體現了集約化的思想。數據共享:數據放入云平臺,一點存入,全局應用;算法共用:算法納入流水線,一點嵌入,全程貫通;應用輕量化:不用買硬件、不用建基礎軟件、不用管理數據資源;優化業務流程,提升業務運行和管理效率,減少數據搬運環節、貫通業務上下游。
引用
[1]趙芳,何文春,張小纓,等.全國綜合氣象信息共享平臺建設[J].氣象科技進展,2018,8(1):171-180.
[2]劉媛媛,何文春,王妍,等.氣象大數據云平臺歸檔系統設計及實現[J].氣象科技,2021,49(5):697-706.
[3]張暉妍,楊青軍,李林,等.青海省氣象大數據云平臺設計[J].青海科技,2019,26(3):67-71.
[4]秦運龍,王迎迎,張冰松,等.省級外網氣象大數據服務平臺研究與實現[J].氣象科技,2020,48(6):823-828+854.
[5]趙冰燕,郭彩蓮,來志云.基于青海氣象大數據云平臺的數據服務接口[J].青海科技,2021,28(1):82-86+90.
[6]黃志,黃珩,梁維亮,等.基于“天擎”DPL的業務融入設計與應用初探[J].氣象研究與應用,2022,43(1):73-77.
[7]戚云楓,曾小團,梁苑苑,等.廣西網格預報系統融入“天擎”的實踐與思考[J].氣象研究與應用,2022(2):111-116.
[8]朱亮,夏正龍,鐘艷雯,等.基于天擎·湖南的一體化平臺云化改造關鍵技術[J].智能計算機與應用,2022,12(3):204-207.