何 林,吉 慶,燕東渭,李亞麗,王 壘
(1.秦嶺和黃土高原生態環境氣象重點實驗室,西安 710016;2.陜西省氣象信息中心,西安 710014;3.渭南市氣象局,陜西渭南 714000)
在大數據技術及產業高速發展的背景下,以政府牽頭、惠及民生為目標的行業數據交換共享與融合應用成為一個重要發展方向?!扒卦乒こ獭奔搓兾魇〈髷祿a業的“N+1”云工程,“N”是22朵行業云,“1”是大數據交換共享平臺,是“秦云工程”建設的核心。大數據交換共享平臺承載了行業云的數據交換、共享、開放、服務四大功能體系,在保證政府數據流通性和安全性的前提下,實現行業數據匯聚交換、互聯互通和開放共享[1-2]。氣象云作為“秦云工程”22朵“行業云”之一,通過大數據交換共享平臺與環保、水利、交通、旅游其他行業云的數據進行融合分析,充分挖掘和發揮氣象數據的應用效益。對此,研究數據對接技術實現氣象數據高效地接入“秦云工程”是首要解決的問題。
(1)保證氣象數據使用的安全性。由于氣象觀測數據中涉及地理坐標等敏感信息,需嚴格遵循中國氣象局第4號令《氣象資料共享管理辦法》,避免核心數據、加密數據、歷史數據開放后,對國家安全造成危害[3]。
(2)保證氣象數據更新的及時性。按照數據的觀測頻次,設計合理的同步策略,保證最新的觀測數據在最小的時間損耗下接入氣象云,為行業數據融合與應用提供高時效的數據服務。
(3)保證氣象數據接入的可靠性。在“秦云工程”氣象數據采集和交換的過程中,不對氣象部門內現有各類常規業務的順利開展、信息系統的穩定運行造成影響。
“秦云工程”氣象云的數據來源為全國綜合氣象信息共享平臺(China integrated meteorological information sharing system,下簡稱“CIMISS”)。作為氣象部門建立規范的國省兩級氣象數據環境,CIMISS將各類氣象數據納入集約化管理,為氣象業務和科研提供了權威、豐富的數據源,為氣象大數據的應用與研究奠定了基礎[4]。由于存在網絡隔離,需要在“秦云工程”和氣象業務局域網之間搭建專線網絡來保障數據交換通暢。實際的數據交換由部署在局域網內的一臺前置機完成,包括氣象數據的采集及推送代理。其中,數據采集代理通過調用CIMISS氣象數據統一服務接口(meteorological unified service interface community,下簡稱“MUSIC”),將“秦云工程-氣象云”所需的數據同步至前置機;數據推送代理則采用主動共享方式,將氣象數據接入“秦云工程”的大數據交換共享平臺。最后,通過大數據交換共享平臺實現22朵“行業云”之間的數據交互。數據對接的技術架構如圖1所示。

圖1 (秦云工程-氣象云)總體技術架構圖
MUSIC面向氣象行業內部提供了開放、全量、標準的數據接入服務。而“秦云工程”面向社會大眾,為保證數據使用安全,需要基于對MUSIC標準接口的定制,實現對氣象數據的適當裁剪后才可共享。根據《基本氣象資料和產品開放清單》向全社會開放共享的地面、高空、氣象衛星、天氣雷達、數值預報等5 類 17 種基本氣象資料和產品清單[5],結合“秦云工程”資料需求,劃定可共享的數據范圍(表1)。

表1 “秦云工程-氣象云”第一批核心資料共享范圍
接口定制通過MUSIC后臺管理平臺進行操作,其核心是更新接口元數據[6],實現對“秦云工程”API賬戶的資料訪問權限控制。設定該用戶可訪問的數據僅為表1所示的三類資料,其他資料禁止訪問。同時,對三類資料時間、空間屬性也須做裁剪,通過修改元數據要素配置值,劃定明細的站號范圍以及時間范圍。以中國地面(國家站)逐小時觀測資料的接口定制為例(表2),列出了主要的元數據配置項。
通過調用定制的MUSIC接口,研發數據采集代理程序,并部署在前置機。前置機的最主要作用是屏蔽“秦云工程”數據對接對CIMISS業務庫的影響, 同時避免了開通CIMISS公網端口訪

表2 MUSIC接口定制的元數據配置示例
問造成的安全隱患。此外,為保證氣象數據及時更新,還需在前置機上根據不同資料的時效特點,配置不同的定時任務執行策略。以中國地面(國家站)逐小時觀測資料為例,由于CIMISS中,當前時次整點數據的入庫呈現類指數方式的增長,實時同步的數據代理進程可設置策略為每時次的01、02、03、05、07、10、30、59分各定時執行一次。圖2給出了通過調用MUSIC實現地面逐小時數據同步流程。
數據同步到前置機進行存儲。按照數據的組織結構特點,一般可分為結構化數據和非結構化數據兩大類,其中非結構化數據含有自描述信息的半結構化數據[7]。典型的結構化數據都以記錄的方式存儲在關系型數據庫中,如Oracle、MySql等。其他大部分數據都是以文檔、圖片等非結構化的形式存儲,這些數據可直接保存于文件系統中[8]。此外,為了提高訪問效率和用戶體驗,對交互頻次較高的數據,將其存儲索引以記錄的形式在Redis內存數據庫中保留一份[9]。前置機上的數據包括主動和被動兩種共享方式。以前置機為中心,被動共享是指大數據共享交換平臺可通過專線網絡直接訪問存儲在前置機上的數據;主動共享是指通過前置機部署的數據推送代理,將數據推送至大數據交換共享平臺以及其他對氣象數據有需求“行業云”。兩種方式皆可實現數據訪問,本方案選取了主動共享方式。
“秦云工程”大數據交換共享平臺集結了已授權的行業云數據,提供了內容全面、功能豐富的數據服務,滿足各類用戶多元化的數據服務需求。氣象數據接入后,可通過大數據交換共享平臺的開放接口獲取相關數據服務,將氣象數據進行可視化的展示。圖3給出了一個大屏展示氣象數據的截圖。該應用為某政府部門通過“秦云工程”大數據交換共享平臺調用氣象數據進行服務的圖例原型。
同時,通過大數據交換共享平臺的代理服務,可將其他通過授權的行業數據,如環保、水文數據等推送至氣象內網的前置機上,便于氣象部門開展行業數據融合分析及相關應用研究。
通過采用本文設計的數據對接方案,目前,氣象數據已成功接入“秦云工程”并形成示范。這不僅擴大了氣象數據資源的共享開放力度,有助于打破政府部門間的“數據壁壘”,拆除“應用煙囪”[10]。同時,與其他行業的數據交換、融合、分析,進一步推動了智慧氣象的發展。未來,借助“秦云工程”,如何用好數據將是重點研究方向,只有將氣象業務與大數據應用技術相結合,才能最大化發揮氣象數據的效益。