文|沈文海,何文春,孫超
從兩個典型應用看氣象信息業務的數據工作
文|沈文海,何文春,孫超
稱謂往往反映出冠名者對冠名對象的基本認識和判斷,以我們所處的時代為例,有稱其為“信息時代”者,有稱其為“云計算時代”(或簡稱“云時代”)者,有稱其為“大數據時代”者,最近更有好事者迫不及待地稱當今時代為“人工智能時代”。對諸多時代的稱謂筆者無意去評判。但有一點不可否認,即:所有這些傾向性色彩鮮明的稱謂皆與數據有關;這反映出所有冠名者無意中形成的共識,即:我們當今所處的時代是一個與數據息息相關的時代,在這個時代里,數據的價值正在被越來越多的人們所認識,并已被迅速提升到前所未有的高度。與之相對應,數據工作正在變得越來越重要,也越來越不可或缺。
在氣象部門,數據工作是氣象信息業務的核心內容之一,其重要性盡人皆知,不言而喻。近年來有關數據質量、基礎數據產品、數據管理系統、數據規范和標準等方面的工作接連不斷、熱火朝天;決策層對氣象數據工作不可謂不重視,舉措不可謂不積極;參與數據工作的員工們夜以繼日、廢寢忘食,工作不可謂不努力。數據工作已成為氣象部門諸多工作中最為重要的內容之一,它的工作質量及產品水平甚至成為衡量我國氣象事業達到現代化的重要標志之一。
重要的工作更需要突出重點,以綱帶目,以期收事半功倍之效。然而,何為目前及今后一段時期內氣象數據工作之綱,以及為何其所以為綱,這是需要靜心思考和深入研討的。筆者試圖通過對兩個正在設計之中的典型應用的分析,闡述自己的觀點。
(一)綜合監控系統概述
1.系統概述
氣象綜合業務實時監控系統的設計定位,是實現對觀測、信息、預報預測、公共服務及政務管理的“全流程、一體化、可視化”監控;按照“橫向集中、下沉一級、綜合監控”的原則,建立橫縱一體化的氣象綜合業務全流程監控:橫向整合各國家級業務應用系統的運行監控功能,形成從數據采集、傳輸、處理、存儲到服務的全流程監控;縱向延伸至省級運行監控,實現對全國省級數據中心的集中監視。該系統通過“兩橫兩縱”實現對支撐氣象業務的觀測系統、信息系統的全面監控(見圖1)。

圖1 “兩橫兩縱”一體化監控設計
氣象綜合業務實時監控系統軟件總體框架由監視信息采集層、監視信息存儲層、監視信息處理層、監視信息展示層組成。監視對象包括:氣象觀測系統、基礎設施資源、氣象業務數據全流程、各業務應用系統、信息安全設施等五類。
2.主要功能
監控系統主要功能的設計圍繞監視信息的全生命周期中各個關鍵節點而展開,從監視信息匯聚、分析到可視化監視、集中告警、運維管理、運營服務等等;希望能從不同的業務視角綜合掌控業務整體的實時運行狀態,根據業務監控要求進行指標的多維度統計分析、業務影響分析等處理,生成監控系統的多級別、多維度綜合性指標、超閾值監測指標和關聯分析視圖等。同時,監控系統具備集中告警和運維流程管理功能,具備與業務系統管理平臺對接,并接入省級數據中心監視指標,實現全國集中監視的能力。
限于篇幅,各功能的具體內容不予詳述。
(二)綜合監控功能的數據復雜性
監控系統是對所轄范圍內各監控對象狀態的實時掌控,以及對其異常狀態的及時發現、判識和應對。因此,各監控對象的狀態信息如同血液一樣,是監控系統的生命之泉。
1.數據種類的復雜性
綜合監控系統的監視對象類型十分復雜,涉及氣象觀測系統、基礎設施資源、氣象業務數據全流程、各業務應用系統、信息安全設施等五大類,具體涉及各類氣象探測設備狀態、遠程/同城/園區網絡狀態、衛星通信狀態、服務器和存儲設備狀態、高性能計算機集群狀態、基礎軟件(操作系統等)和平臺軟件(數據庫、中間件、GIS等)狀態、業務應用系統自身狀態和運行狀態、業務流程狀態甚至數據中心場地環境狀態等等,各監視對象的狀態信息彼此差異甚大,數據種類十分復雜。
2.數據規格的復雜性
目前綜合監控系統的監視對象中,多數并沒有確立如血壓、心率、心電圖和血常規等衡量人體健康狀態的常規檢測要素,因此對于每一個監視對象,如何選定有限的幾個關鍵檢測要素和指標做為反映其真實狀態的數據,是首先需要解決的問題。以業務應用系統為例,由于此前在氣象應用軟件研發及業務準入方面缺乏相應的規范,一些單位自行研發的業務系統不同程度地存在一定的缺陷,有些甚至較為嚴重(如:內存泄漏等);這些業務系統的自身狀態如何檢測,如何在第一時間內發現這些業務應用系統狀態的異常、識別出異常的部位和程度、診斷出導致異常的原因、確定異常的影響范圍并及時采取應對措施,的確是一個相當復雜而又必須面對并解決的問題。
由于綜合監控系統的監測范圍涉及國省兩級,各地之間運行環境的差異也是導致數據規格復雜的因素之一。以應對大并發用戶數壓力為例,相同功能的業務應用系統,運行在資源池并已經云端/客戶端化的系統,與運行在小型機上的系統,其檢測指標和應對措施是截然不同的。因此,即便相同的業務應用系統,由于各地間運行環境的差異,其檢測要素和評判指標也很難簡單復制。
總之,由于相當多數監測對象的狀態常規檢測項目尚未確立,以及檢測對象運行環境的差異,大大加深了綜合監控系統在監測對象狀態數據的數據規格方面的復雜程度。
3.獲取途徑的復雜性
在明確了各監視對象狀態的核心要素后,關鍵的工作便是這些核心要素數據的獲取,即所謂“狀態數據的獲取”。氣象部門以往狀態數據的獲取途徑主要是“直接采集”、“日志分析”和“平臺對接”三種。
“直接采集”方式較適合于那些狀態要素明確、且易于采集的監視對象,如:服務器、存儲設備、網絡設備等基礎資源,各業務流程節點上游數據到達情況等。此外,目前一些氣象觀測設備在業務觀測的同時,也在定時輸出一些自身的狀態數據,相當于這些觀測設備狀態數據的直接采集。遺憾的是,同樣還有相當多數的觀測設備尚不具備產生并發送自身狀態數據的能力,無法“直接采集”;對于這些觀測設備,目前判斷其狀態正常與否的方法是對其提供的氣象觀測數據進行質量檢測,若通過質量檢測,則數據正常、同時意味著設備狀態也正常。若通不過檢測,則數據可疑、同時設備狀態亦可疑。這種方法強烈依賴于觀測數據質量檢測系統的能力,較為被動,而且對于那些被發現可疑之前該設備所產生的數據,究竟是否真實準確,以及究竟哪些數據真實準確,無從判別。因此,通過對氣象觀測數據質量檢測來判斷觀測設備狀態的方法,是不得已的、退而求其次的方案。
“日志分析”方法較適合于那些規范的設備和系統,這些系統產生的日志較為規范、包含的信息較為豐富、更新頻率也符合要求,系統的狀態數據可從其中直接提取或經簡單分析處理后獲得。而對那些各單位自行研發的業務應用系統,由于至今沒有相應的規范要求,這些業務系統是否產生日志、日志中所包含信息的內容以及日志的更新頻率是否符合要求等,彼此間都存在較大的差異,必須逐一分析甄別,不符合要求的須設法彌補。
“平臺對接”適用于那些已擁有較完備管理平臺的系統或設備集群(如:高性能計算機系統、安全系統、場地環境系統等),由于這些管理平臺的相關信息和管理措施十分完備、自成體系且專業性很強,綜合監控系統只需與這些平臺實現對接,實時獲取相關數據和信息,在綜合監控系統中予以適當分析和綜合展示即可,沒有必要再自行單獨采集這些對象的狀態數據。
由此可知,監視對象狀態數據的獲取途徑和方法亦相當復雜。
(三)需要完成的工作
1.氣象業務數據架構的修訂
綜合監控系統所涉及的范圍不止國家級業務單位所在的園區,而且覆蓋到全國31個省、直轄市和計劃單列市,必須動員各地相關技術人員共同協作完成。因此,標準規范必須先行。
即:首先必須完成對各業務應用系統狀態要素的分析、遴選和歸納,確定有限的、帶有普適性的(即便是在分類情況下的)業務應用系統核心狀態要素,以及獲取頻次等數據規格要求,并予以規范化管理和貫徹執行。在此基礎上,將各類探測設備、基礎資源/平臺和業務應用系統的核心狀態要素等狀態數據正式納入氣象業務數據范疇之中,完成氣象業務數據在數據定義方面的修訂工作,并在條件成熟時對其進行恰當的數據建模,從而完成氣象業務數據架構的修訂。以此作為目前及今后與綜合監控管理相關各項工作的數據基礎規范,并指導未來氣象應用業務系統的研發工作。
2.狀態數據的獲取
在基本實現對狀態數據的約束和規范的前提下,對綜合監控系統所轄各業務系統逐一進行狀態數據的提取。大致有如下幾種方式:
直接提取:監視對象中有部分類型的氣象探測設備可直接產生并發送自身狀態數據;此外一些規范化的基礎設施資源設備和平臺亦可較方便地獲取其狀態數據。對這些對象的狀態數據,可采取直接提取方式。
平臺對接:分別與監視對象范圍內已有的、已自成體系且較完備的各個專業化管理平臺實現對接,獲取相關的狀態數據和信息。
規范日志分析:擁有內容完整、更新頻次恰當的規范化日志,是考察一個業務系統是否規范的指標之一;這些規范化的業務應用系統雖不直接生成其自身的狀態信息,但通過對其日志的分析,可以及時得到其核心狀態要素的全部內容。這類對象的狀態數據,可通過對其規范化日志的分析而得到。
不規范日志處理分析:目前并非所有業務系統都產生規范化的日志,事實上,由于此前相關規范的長期缺位,現存的相當數量的業務系統的日志不同程度地存在不符合綜合監控要求的現象,主要表現在日志內容的不完整和更新頻次的不及時。在這種情況下,如果可能,宜首先確立業務系統日志的相關規范;在此基礎上,采取修訂日志的內容和調整更新頻次等方法,使日志符合或至少接近規范要求。倘無法使業務應用系統的日志規范化,而日志中的內容相對豐富,則可采取實時處理分析等方法,以及時提取出所需的狀態要素數據。
替代方法:對那些既不生成日志、更不產生自身狀態數據、且狀態數據無法直接提取的監視對象(如部分探測設備等),如其必須納入到監控范圍之內,則須采取其它替代方法,通過其它途徑,間接實現對這些對象的監視。
3.狀態指標的確立
監視對象不同,監視的目的和判識狀態的標準也不相同,監視服務器及存儲設備是考察它是否正常運行、以及其CPU、內存和存儲空間的使用情況,監視業務流程是考察其在規定的時間節點上游數據的到達情況以及到達數據的質量,監視業務應用系統則主要考察應用軟件自身的運行情況以及業務工作(如數據處理)的實際情況,等等。參見表1:

表1 監控指標數據分類
因此,每類對象中的每一個具體監視對象,都必須設立經過認真審核的、可確信符合其狀態特征的狀態判定指標,并確認每一個監視對象的狀態數據和狀態指標是良好匹配的。
(一)氣象大數據云平臺概述
全國綜合氣象信息共享系統(CIMISS)1.0版本已于2016年正式業務化,并完成了國省兩級部署,初步實現了在氣象部門內統一數據環境的戰略目標,為氣象部門業務系統部署分布由國省地縣四級向國省兩級過渡奠定了數據基礎。
氣象數據作為珍貴的資源,只有集約化管理,方才可能發揮出其應有的效益。因此,以CIMISS2.0的研發為契機,構建氣象大數據云平臺,既是目前信息化大潮的形勢所致,也是氣象學科和業務的發展所需。
氣象大數據云平臺是基于專有云和公共云構建的氣象大數據云平臺,對數據進行全網匯聚,統一支撐全國各級應用,并開放共享,提供社會眾創服務,如圖2所示。

圖2 氣象大數據云平臺總體架構圖
其中,1個國家級大數據中心、1個數據備份中心、31個省級數據節點和1個公共云數據節點共同構成了氣象大數據云平臺。省級數據節點將本省收集的數據上傳至國家級大數據中心,備份數據中心從國家級大數據中心同步數據,公共云數據節點與國家級大數據中心、備份數據中心和各省數據節點間通過專線通道交換數據。國家級大數據中心異常時,備份數據中心代替國家級大數據中心;省級數據中心異常時,備份數據中心或國家級大數據中心提供該省及市縣核心實時業務應急訪問。
常規來源的氣象數據(即:由氣象部門通過探測業務系統等采集和生成的氣象數據)仍主要通過專有云進行收集,新型來源的相關數據主要通過公共云進行匯聚。平臺將數據進行全網同步和管理,通過服務接口提供氣象業務、管理、服務和科研等應用訪問,并回存業務產品,此外通過公共云提供社會眾創支撐服務。
氣象大數據云平臺基于氣象“專有云+公共云”,對氣象數據、社會數據、行業數據、互聯網數據、物聯網數據等資源進行全網快速匯聚,進行規范的質量控制和加工處理,生產數據產品,進行全生命周期的存儲管理,并提供標準統一、訪問高效的服務接口,對業務產品進行便捷的回存管理。
氣象大數據云平臺提供氣象應用開源框架,集成豐富的預報分析模型,支撐智能預報預測系統構建和運行;提供多源數據匯聚和挖掘分析能力,支撐大數據服務和社會眾創。對數據和業務的全流程進行可視化監控管理,對數據和基礎設施資源進行科學化調度管理和智能化運營。基于專有云和公共云,為氣象業務和眾創應用提供集約高效、按需供給的軟硬件基礎設施資源,對數據、系統、設施等提供可靠、全方位的安全防護。
限于篇幅,氣象大數據云平臺的架構及功能不予展開。下面重點討論大數據平臺的核心——數據管理平臺的相關問題。
(二)數據管理平臺需要解決的核心難題
資源豐沛、功能齊備、性能優越、使用便捷的數據管理平臺(即:CIMISS2.0)是氣象大數據云平臺的核心,其工作的復雜性不言而喻,需要面對和解決一系列無法回避的問題。從使用者的角度考察,以“大數據”為特征的數據管理平臺存在著一些共性問題,王軒先生將這些問題歸納成四個方面,即:數據不可知、數據不可控、數據不可取、數據不可聯。
根據氣象部門的特點,這四個問題可具體解釋成:
(1)數據不可知:用戶不知道數據管理平臺中有哪些數據(或數據集),面對眾多數據和數據集,不知道哪些數據符合自己的應用需求、哪些數據是關鍵數據、哪些則是關聯或派生數據、到哪里去獲取這些數據以及這些數據應如何使用。
(2)數據不可控:數據標準的不完整導致數據管理平臺中數據的不完整以及數據獲取途徑的不規范;質量控制覆蓋面的缺失導致一些觀測數據因質量問題而難以被充分利用;技術架構的落后和流程的復雜導致數據管理平臺的管理效率不高。
(3)數據不可取:用戶知道自己業務/科研所需要的是哪些數據,并且知道這些數據的確存在于數據管理平臺之中,也獲得了這些數據的使用許可;但因種種非管理層面的原因,用戶無法便捷自助地獲取到這些數據,從而導致業務需求難以及時滿足。
(4)數據不可聯:數據管理平臺匯聚了所有可以獲取的氣象數據,內容豐富,但一些數據和知識之間的關聯還比較弱,許多必要的知識體系尚未建立起來,從而無法把數據和知識體系關聯起來,這在業務運維管理領域尤為突出:員工難以做到狀態數據與知識之間的快速轉換,不能對數據進行自助的的探索和挖掘,數據的深層價值難以體現。
事實上,上述四個問題的存在由來已久,只是在當前大數據時代的背景下,在營造大數據平臺的過程中更為突出而已。而如果不能有效解決這四個問題,作為氣象大數據平臺核心的數據管理平臺(CIMISS2.0)的支持能力將很難滿足要求,建設目標便難以實現。
(三)關于問題的分析
本節延續3.2節的思路,從上述四個問題,即:數據的可知性、可控性、可用性和可關聯性四個方面,對氣象數據管理平臺(即:CIMISS2.0)進行探討。
1.數據的可知性
氣象部門自上世紀九十年代起便開始嘗試運用數據庫技術管理氣象數據,二十多年來積累了較為豐富的管理經驗,因此對于傳統意義上的“氣象數據”,亦即由行標《QX/T 102-2009氣象資料分類與編碼》所明確定義的氣象觀測數據及相關業務產品(下簡稱“傳統氣象數據”),氣象部門已形成了一套較為成熟的管理方法,即:通過規范的元數據管理,實現對于傳統氣象數據的有效管理和服務,從而可較為圓滿地解決這部分數據的“不可知問題”。
然而CIMISS2.0所需要收集、管理和使用的數據不止限于上述數據范圍。事實上,除上述數據內容外,為直接支撐各業務工作,CIMISS2.0還應管理各類業務系統(平臺)所需的中間產品;為支撐綜合監控系統,CIMISS2.0亦應管理各類狀態數據,以及相應的各類運行維護知識庫;如果CIMISS2.0被賦予支撐氣象部門的電子政務工作,它甚至還應管理人事、財務、項目等各類管理型數據。因此CIMISS2.0所管理數據的范圍已大大超出《氣象資料分類與編碼》所確定的數據范圍,而超出的部分(下簡稱“新增數據”)至今并未予以明確的數據定義;即:氣象數據架構的補充修訂工作并未隨之而及時完成。該項工作的滯后,無疑加大了這些新增數據的管理難度。
規范的做法應當是首先完成這些新增數據的數據定義,以及相應的元數據設計和構建;在此基礎上適當采用元數據管理技術,實現對這些新增數據的有效管理。亦即:在完成數據架構的補充修訂的基礎上,實現對新增數據的規范化管理。然而即便現在就開始著手完成這些工作,也需要耗費相當的時間和精力方可完成,遠水難解近渴。而在沒有完成數據定義的前提下,如何規范地管理這些新增數據,使這些數據在用戶眼里看得見、找得到,是一個需要靜下心來仔細推敲的問題。
2.數據的可控性
從用戶的視角考察,數據的可控性主要體現在數據質量和數據規范兩個方面,其中,數據質量包括數據的正確性、一致性、完整性和代表性等幾個方面,而數據規范則主要指數據的規格規范和數據的業務規范,即:數據在內容和格式等方面是規范的(規格規范);同時在產生頻次、可獲取時間、可獲取的時空范圍以及數據量等方面也是規范的(業務規范)。如果數據在質量和規范方面有可靠的保障,則該數據在用戶眼中便是“可控”的,因為他可在規定的時間獲取到規定數量的、內容和格式符合規范的、具有正確性、一致性和完整性保障的數據。
對于“傳統氣象數據”,氣象部門已經建立起一整套相對嚴格的業務體系和業務規范,并對其中一些類別的數據建立起相對嚴格的質量控制系統,可控性有一定的保障。然而對于那些“新增數據”而言,情況卻很難樂觀,相應的質量控制體系尚未建立起來,相關的業務體系和規范即便建立起來,也不盡協調統一;數據的可控性缺乏有效的保障。
要想使“新增數據”達到“可控”要求,必須提供“新增數據”的質量保障,并建立起相應的業務體系和規范。這涉及到了數據質量管理和數據治理兩個方面的工作內容。
3.數據的可用性
如果把數據質量(尤其是數據的正確性)歸入數據可控性范疇,那么數據的可用性便主要體現在數據的易于獲取和便于使用。
數據的易于獲取不僅限于數據讀取的便利性、以及對核心用戶使用習慣的適當尊重,而且應當包括讀取方法和規則的規范性和延續性,即:一類數據的讀取方式一旦確立,便將一直持續下去,不因數據庫更新換代而發生改變。
數據對于熟悉并經常使用它的使用者而言,使用的便利性問題并不突出,但對于陌生者(即初次正面接觸該數據的用戶)而言,卻并非如此。如何使陌生者在最短的時間內了解數據并正確地使用數據,是對數據是否便于使用的最重要的考量指標。
與此類似,氣象部門在構建氣象數據管理系統時,非常重視“傳統氣象數據”的可用性,以CIMISS1.0為例,不僅建立了頗被業界稱道的規范化數據接口(“氣象數據統一服務接口”,縮寫:MUSIC),而且所有數據集都配有較詳細的文字說明、使用案例甚至常用計算機語言的讀取程序,使得傳統氣象數據在可用性方面擁有一定的口碑。同時,為使該系統能夠支持一些核心業務系統,CIMISS1.0甚至不惜內部數據大量冗余,專門為一些核心業務系統定制了符合其格式和使用要求的數據子庫。因此“傳統氣象數據”的可用性是有一定保障的。對于CIMISS2.0而言,這些成功經驗完全可以在新增數據的可用性方面予以借鑒和發展。
4.數據的可關聯性
分析產生關聯,CIMISS2.0中數據的可關聯性,是指該平臺具有可在其上直接進行較為深入充分的數據分析的能力,這些能力具體由CIMISS2.0所直接支撐的各個專業化平臺予以實現。
CIMISS2.0所管理的數據中,氣象要素之間的關聯性、以及天氣過程與氣象要素變化的關系,有其經典的物理規則和數學背景;傳統的統計氣候學自始至終都在尋找著氣候要素與氣候變化之間的關系。從本質上說,傳統氣象數據的內部關聯關系的確立,是氣象學科得以建立的基礎;目前許多規律早已被發現,并借以建立起相應的學科,如動力氣象學等。因此,傳統氣象數據中的數據關聯,更多地是屬于氣象科學范疇,而不是技術問題。
對于新增數據的可關聯性問題,因對于這些數據的組織和管理的經驗相對欠缺,一些配屬的知識管理體系和知識庫尚未建立起來,因此其數據組織方案需要全面考慮;既需要考慮在線數據分析的要求,也需要考慮一些配套的在建系統(如綜合監控系統等)的業務需求。
總之,從使用者的角度、以上述四個共性問題的可解決程度來考察,我們現有的知識、經驗和體系機制中上存有很多短板甚至漏洞,需要盡快設法彌補。
氣象信息業務中的數據工作千頭萬緒,目前最為核心的內容無外乎數據的管理、數據產品的研制以及數據的服務。
(一)數據的管理工作
氣象數據需要構建完備的管理體系,方能有效地對這些具有極珍貴價值的數據進行全方位管理,筆者此前已有專文論述,不再贅言。從上面兩個典型應用可以看出,其涉及的數據管理領域包括:數據操作管理、數據質量管理、數據架構管理、數據治理等多項內容。而由于我們在這些領域乃至整個管理體系建設和管理措施落實等方面工作的滯后,已經開始對我們的工作產生負面影響了。因此,數據管理體系的建立并非只是一些時尚名詞的堆砌以及現有工作在名詞下的重新排列組合,一些缺漏必須增補、一些短板必須修繕,與之相關的工作必須進一步推進。
“以問題為導向”的工作方針固然不錯,但如果機械地被動地理解并執行這一方針,遇到一個問題解決一個問題,則容易陷入“頭疼醫頭、腳疼醫腳”的局面。如何發現問題產生的根源,在其未爆發之前便予以解決,防患于未然,這才應該是氣象信息工作者追求的目標,所謂“上工治未病”,指的就是這種境界。就氣象數據管理而言,構建起完備的數據管理體系,應當是趨向這一境界的有效途徑和方法。
(二)數據產品的研制工作
人工智能是目前繼大數據之后又一波為業界乃至全社會廣泛關注的信息化浪潮,關于它對目前以及未來人類社會產生的深刻影響,有各種樂觀、平和、悲觀乃至絕望的推測。不可否認的是,人工智能正以超乎人們心理承受能力的速度快速介入人們的生活,以及社會的各個領域——氣象學科也不例外。
人工智能有眾多分支,就氣象預報而言,較為適用的無疑是“深度學習”,而深度學習需要充足的樣本做為其訓練基礎。因此,能夠客觀真實反映天氣實況、以及各個氣象專題(如:臺風、龍卷、颮線、暴雨、干旱、洪澇、高溫等)的氣象數據產品(包括數據集)的建立、樣本的質量水平以及樣本數量的豐富程度,是“深度學習”能否應用于氣象預報領域的基礎和先決條件。
考察一下被冠以“氣象大數據”大名的目前我們所擁有的所有氣象數據,不難發現:這些數以PB級的所謂大數據當中,有60%以上是近十年積累起來的,當前采集數據的時空密度十分密集,種類也很多;然而向后追溯,則時代越久遠,數據越稀疏,種類也越少,“氣象大數據”的近因效應非常突出。以溫度要素的采集頻率為例,當前測站溫度要素的時間頻率是分鐘級,二十年前的頻率是小時級,而十九世紀以前的由歷史氣候學家通過各種方式建立起來的歷史氣候數據序列,其溫度的時間間隔(時間頻率)則是年際甚至十年際和百年際。長時間序列的、具有良好(或適當)時空密度的、可真實反映當時天氣實況的氣象數據序列產品尚未真正建立起來。此外,雖然國家和一些省級業務單位出于業務需求,各自建立了支撐其相關業務的氣象災害個例庫,但在規模、災種、規格及使用方式等方面彼此間皆或多或少存在差異,一些典型個例的天氣類別至今存在爭議,權威的、樣本數量充足的各類專題庫尚未真正建立起來。所以,雖然“氣象大數據”體量不小,但我們的數據準備并不充分,數據基礎也并不堅實。
因此,研制以再分析資料和多源融合產品為代表的高質量、高時空密度和長時間序列的基礎氣象數據產品,既是氣象業務/科研工作的迫切需求,也是氣象現代化的重要標志,更是未來發展的奠基性工作,應當長久地持續發展下去。與此同時,規范并建立各類專題個例庫,形成權威的、專題鮮明且個例豐富的、可良好支撐相關業務的個例庫,也應盡快提上議事日程,并舉全部門之力予以盡快建成,以期盡早發揮效益,并造福于后來者。
(三)數據平臺的意義和作用
氣象數據的集約化管理和優質服務是氣象信息業務的重要內容,數據只有被使用方能發揮出價值,因此數據的使用效果和效率、用戶在使用過程中的實際感受,是數據管理工作是否卓有成效的試金石。
從時效上劃分,氣象數據服務可分為實時業務服務和非實時業務服務兩類。對于氣象部門實時業務(含同城數據服務業務)的數據支持,長久以來部門內已形成了一套完整嚴格的業務規范及業務體系予以全力保障,以達到并保持氣象信息業務部門當時所能達到的最高服務水準和效果。
對那些實時業務之外的服務對象,其數據服務方式在近四十年來發生過許多變化,由最初的紙質氣象檔案抄錄服務,到電話咨詢和數據軟盤/磁帶/光盤的記錄(刻錄)和郵寄,直到目前的網站數據自助檢索和直接下載。自本世紀初便開始建立并對外提供氣象數據共享服務的、目前冠以“中國氣象數據網”名稱的氣象數據對外共享系統,多年來在氣象數據共享服務方面走在許多部委的前列,為業界所稱道,并多次受到科技部的表揚。“中國氣象數據網”與目前正在設計中的CIMISS2.0一道,構建起氣象部門對外和對內的數據共享平臺。
平臺是資源快速配置的基礎環境,數據平臺的建立,解決了各業務、科研工作的數據資源問題。將業務平臺和科研平臺構建在數據平臺之上,以數據平臺直接支持業務和科研工作,而不是將數據下載(或傳輸)到業務/科研平臺(系統)本地來處理,是大幅改善氣象數據服務能力和效果、進一步提高工作效率的有效途徑。基于這一常識,設計中的氣象大數據云平臺系統準備在CIMISS2.0(即“氣象數據管理平臺”)之上,構建智能預報與分析支撐平臺、大數據服務眾創支撐平臺以及業務監控平臺等(見圖3),以實現對各項業務和科研工作的直接數據支持和服務。

圖3 氣象大數據云平臺系統結構
以數據平臺作為數據服務的基本載體,努力踐行“復雜的問題簡單化,簡單的事情標準化,標準的工作自動化,自動的系統智能化”的“IT四化”理念,氣象大數據云平臺的建立將極有可能在氣象部門營造出業務流程趨于最優、業務系統效率趨于最高、科研環境趨于更好、各項工作的效率、效益和效能越來越高的良好局面。這是值得人們期待的。
值得一提的是,為了在全社會營造“互聯網氣象+”的良好局面,實現智慧氣象“開放的氣象服務”和“深度的產業融合”的目標,作為氣象數據對外共享服務窗口和平臺的“中國氣象數據網”,其未來的發展方向和路徑,也應盡早思考并開始積極探索。
建立完備的氣象數據管理體系,這并非空洞的時髦辭藻,從上面的討論可以看出,事實上數據管理體系的相關內容自始至終融入在氣象信息業務的日常數據工作之中,許多內容是難以省略或繞開的,否則其負面影響便會像幽靈一樣,時刻徘徊在相關工作的周圍,糾纏在工作當中。因此,完備的氣象數據管理體系應當而且必須盡早建立起來。衷心希望這項工作的重要性能夠被更多的人所了解并接受。
盡管我們已經擁有了體量頗為可觀、為業界所稱道、不少互聯網企業費盡心機試圖獲取的氣象數據,但無論是業務應用和科學研究,還是新領域新技術(如人工智能)在氣象預報領域的的應用探索,現有的數據都遠遠無法滿足需求。因此,高質量、高時空密度、長時間序列的基礎氣象數據產品的研制,是未來氣象事業發展的基礎條件。
氣象數據工作是極端重要的,但同時也是十分寂寞、相當單調、難以出成果,并極易遭受誤解和批評的,需要參與該領域的同事們具有良好的耐心、甘于寂寞并長久地保持精益求精的工匠精神。
氣象數據工作的確任重道遠。
作者單位:國家氣象信息中心