





摘要:針對氣象半結構化及文件、圖片等非結構化海量多源異構數據資源存儲集約化管理難、多套存儲掛載、管理不便以及存在數據安全管控服務能力等問題,結合數據湖技術制定可持續發展的天津市氣象數據環境目錄規則,搭建了基于多套分布式存儲的統一氣象數據服務目錄。從而構建穩定統一的目錄視圖、按需提供的目錄權限、統一的氣象數據服務出口等數據環境,為精細化氣象數據服務應用提供安全高效的氣象數據服務。最終,實現基于數據湖的氣象集約化數據環境,打破數據孤島困局,提升數據環境治理的安全管控能力,有助于更好發揮氣象數據價值。
關鍵詞:氣象數據湖;數據治理;數據服務目錄;分布式存儲
一、前言
隨著氣象現代化建設的不斷發展,對氣象非結構化數據存儲環境的需求激增。氣象非結構化數據體量巨大、種類繁多,且呈快速發展趨勢,服務器難以滿足大體量、高頻率、多并發、高可用的存儲訪問需求,使非結構化數據在存儲時間序列長度、數據共享服務水平以及業務運行可靠性等多方面受到影響。
目前,通過調研得知多年分批部署的多套存儲設備存在使用規劃不明確、數據目錄結構不統一、缺少域名配置、對外掛載以及目錄分享混亂等現狀,缺少合理定制未來可持續使用的天津市氣象數據環境的統一管理規則。多套分布式NAS管理標準不一致和傳輸節點設備老舊問題,難以應對氣象業務對數據存儲設備容量和性能的需求,迫切需要對非結構化氣象數據的存儲和傳輸設備進行統籌集約化治理。
二、氣象數據湖建設發展概況
(一)研究現狀
物聯網技術、智能終端的飛速發展帶來氣象數據呈現爆炸式增長,不同類型、格式數據之間的關聯性碰撞越來越激烈,刺激著氣象數據技術的創新發展,逐漸形成了氣象大數據生態結構,導致氣象數據具有復雜性、綜合性、交叉性,致使氣象數據使用成本越來越高。
氣象數據湖系統的價值不僅能統一管理多套存儲,還可以在海量數據的基礎上,打破數據壁壘,提高分析效率,數據湖[1]能夠大量存儲各種類型的數據,擁有強大的信息處理能力和處理幾乎無限的并發任務或工作的能力,打破了“數據孤島”,各類氣象數據將“流入湖中”,解決數據主權、統一數據匯聚和共享的混合式數據平臺。因此,如果沒有妥善的數據管理、維護機制,數據湖會轉變成數據沼澤。數據湖核心技術的安全性能仍然處于萌芽期,需要有定義的機制來編目和保護數據。
因此,本文針對完善數據湖的目錄架構、建立數據維護、管理機制,提供數據服務出口統一,構建數據價值充分利用、數據共享安全可控的數據集約化環境。
(二)氣象數據湖建設面臨的問題
根據氣象業務發展的需求,氣象數據文件存儲到多套存儲系統,包括分布式NAS、對象存儲等。每套存儲系統獨立管理,提供數據服務時,無法對數據、用戶權限、文件目錄等進行統一管理,導致數據在多套存儲間多處存儲、反復遷移,存儲空間有效利用率受到影響,使用不同年份、不同類型的氣象數據時往往需要掛載很多存儲服務,不利于數據統一管理。數據湖軟件集成國家及省市現有的文件存儲系統,提供統一目錄視圖,支持集中權限管理,支持目錄級別權限設置,在相同服務器上,不同用戶只能看到授權后的目錄,不被授權則不可見。
三、氣象數據湖構建與應用
(一)氣象數據湖目錄標準設計
氣象數據湖是對氣象原始數據的匯聚,數據入湖過程中不對數據做轉換、清洗和加工,保留數據原始特征,為后期數據的加工和消費提供豐富可能。數據入湖是數據應用的基礎,必須遵從一定入湖標準。因此,制定天津市氣象數據環境目錄規則,指導搭建數據湖系統,構建完善的數據治理流程,實現數據集約化管理。為實現基于大數據云平臺數據湖的數據存儲環境規劃,需要對大量的氣象數據進行分目錄的統一管理,存儲環境目錄必須進行規范化設計。存儲目錄及存儲策略規定適用于所有納入氣象大數據云平臺管理的、利用分布式NAS存儲設備進行統一存儲的、在線非結構化氣象數據的存儲管理。同時,結合氣象大數據云平臺數據存儲管理規則和實時數據傳輸需求制定,分級存儲數據,所有納入氣象大數據云平臺管理的在線非結構化氣象數據均依據用途、年份等屬性存儲在特定目錄下。整體目錄設計遵循由大到小的原則:一級目錄為CMADAAS的根目錄,二級目錄按氣象數據用途分類,分為文件數據、應用融入過程數據和其他數據三類,其整體目錄結構規范如圖1所示。
非結構化氣象數據是業務和科研的重要數據基礎,用戶對其存儲與共享的需求不斷增加,為提高非結構化氣象數據管理水平、提升共享服務能力,特制定本規定以規范數據存儲的目錄和策略,實現非結構化氣象數據的集約高效管理[2]。
第一,文件數據存儲目錄設計,具體目錄架構見表1,架構第三層的大類簡碼是必選目錄層級,是氣象資料十六大類的某類產品簡碼。按照十六大類數據劃分子目錄,其他級別目錄根據產品屬性確定,氣象資料分類簡碼表見表1,數據層級[3]符合QX/T233-20149.1的要求。第四層的產品屬性則是可選目錄層級,可由多個屬性組成多級目錄但至少包含一級目錄。第五層的時間屬性是必選目錄層級,按照年月日進行歸類存儲。
第二,應用融入過程數據存儲目錄設計,具體目錄架構見表2,第三層的部門簡碼是必選目錄層級,按照32個部門劃分子目錄,數據層級符合QX/T233-20149.1的要求。第四層的用戶名稱是必選目錄層級,可由多個屬性組成多級目錄,但至少包含一級目錄。
第三,其他數據存儲目錄設計,具體目錄架構見表3,不分屬上述類別的資料和日志存儲。
(二)異構存儲統一管理
根據氣象業務發展的需求,分批部署建設了高性能Islon、華三、華為等多套不同品牌的分布式NAS設備,導致存儲設備的品牌型號、功能及性能均有所差異,難以進行集約化治理。本文充分利用數據湖系統,將多套NAS存儲納入數據湖統一管理[4],遵循統籌管理、集約建設、統一出口、有序供給、充分利用、安全可控的原則,提高天擎系統氣象非結構化數據的存儲能力,打破數據孤島困局,提升氣象數據高質量服務和完善氣象數據環境。數據湖通過不同的數據存儲策略對文件數據進行分類存儲和管理[5],結合數據傳輸流程優化,按統一目錄管理規范將存儲在不同物理設備目錄中的數據納入目錄中,利用數據湖異構存儲管理、統一存儲視圖以及增強存儲管理等功能,實現數據環境高效、高質量的規范管理。
數據湖根據不同數據設計的存儲策略,將天擎體系下實時數據、尚未融入天擎的本地實時業務數據、中心留存的歷史數據以及其他渠道獲取的共享數據,通過虛擬目錄統一管理,完成了虛地址與實地址的一一映射,數據湖目錄服務與異構存儲數據映射關系如圖2所示。最終,給用戶呈現了完整統一視圖的氣象數據環境,通過MUSIC接口和Portal門戶為用戶提供更加豐富、更加開放、更加安全的氣象數據服務。
(三)基于數據湖的規范化氣象數據治理應用
根據數據湖的數據存儲目錄標準,提出了通過構建天津市氣象數據湖系統,設計了氣象數據存儲集約化管理的技術方案。依據《天津氣象大數據云平臺管理辦法》《氣象結構化數據存儲規范(初稿)》《天津市氣象局觀測業務質量管理體系》,結合氣象大數據云平臺的存儲管理系統(SOD)、加工流水線(DPL)業務需求,制定了氣象數據環境存儲規范和目錄管理策略,給出了基于大數據云平臺數據湖的數據存儲環境建設規劃。嚴格按照邏輯統一、物理分散、統一數據目錄、統一安全管理原則進行目錄設計與規劃并且對接現有NAS存儲設備,實現多套異構NAS統一管理。經過治理后的數據將根據構建的整體目錄和業務規則進行目錄映射,逐步完成氣象數據規范性入湖,實現基于天津氣象大數據云平臺數據湖系統的氣象數據集約化管理。
通過數據湖系統實現了氣象據治理的集約化服務流程如圖3所示。數據湖系統可在相應管理系統網頁進行物理存儲管理、虛擬目錄管理、虛擬目錄掛載以及相關內容配置等操作,實現了多套異構NAS存儲設備的統一管理。同時,結合上游業務系統SOD(數據存儲管理)、MUSIC(氣象數據服務接口)、DPL(加工流水線)、PORTAL(天擎門戶)進行聯動配置,可以提供規范的文件目錄服務以及統一的用戶權限管理[6],滿足用戶日常對文件數據的訪問需求。通過業務用戶的賬號密碼進行掛載、登錄,用戶即可訪問在portal上申請的授權文件數據。試運行過程中,率先優化的全國城鎮精細化預報產品數據下行傳輸流程,為氣象服務中心專業服務科制作鐵路沿線預報和專業氣象預報提供了及時、準確的基礎數據,提升了預報制作效率,有助于提升天津鐵路沿線氣象服務預報的準確率,為氣象服務預報工作提供了穩定的數據支撐。
四、結語
借助數據湖系統不斷規劃并完善統一大數據服務目錄架構、建立數據維護、管理機制,提供數據服務出口統一,從單一的氣象數據共享服務進階到氣象數據治理的整體集約化、精細化數據服務。有效解決了氣象數據環境的多套存儲設備難管,傳輸流程復雜及氣象數據傳輸、存儲、歸檔工作流程繁瑣等痛點問題,順利推動了氣象數據集約化環境向“科學化、標準化、智能化”發展。通過打破氣象數據孤島,構建數據價值充分利用、數據共享安全可控的數據集約化環境,提升氣象數據隱含價值,更好地實現氣象大數據的共享與應用。
參考文獻
[1]劉子龍.數據湖——現代化的數據存儲方式[J].電子測試,2019(18):61-62.
[2]李新慶,陳海波,楊有林,等.寧夏綜合氣象信息共享與管理系統設計研究[J].計算機技術與發展,2019,29(05):135-141.
[3]國家市場監督管理總局,中國國家標準化管理委員會.地面氣象資料服務產品技術規范:GB/T 37301-2019[S].北京:中國標準出版社,2019.
[4]徐娟,劉鑫,席曉慧,等.數據湖在氣象信息系統中的應用[J].現代信息科技,2022,6(12):127-129.
[5]李淼.DOA架構下試驗數據存儲策略研究[J].電子測試,2016(07):44-46.
[6]林孔杰,夏利娜,汪春輝,等.基于“微服務+分布式”架構的公共氣象服務數據支撐系統研究[J].計算機時代,2022(05):138-140+144.
基金項目:1.天津市氣象局科研項目“基于知識圖譜的氣象數據完整性故障的精準定位和自動修復技術研究”(項目編號:202220dgxm03);2.國家氣象信息中心“氣象綜合業務智能監控”創新團隊攻關任務(項目編號:NMIC-2024-ZD13)
作者單位:天津市氣象信息中心
責任編輯:王穎振 鄭凱津