賀潔穎 唐偉 周勇 沈文海
始于20世紀50年代的人工智能經過多年的演進,現已發展成一門涵蓋計算機科學、統計學、腦神經學、社會科學等諸多領域的交叉學科。氣象是一門典型的數據分析應用學科,其和人工智能的淵源已久。早在人工智能萌芽期,國內外氣象專家就已開始探索將人工智能技術應用于氣象預報相關研究中。
國外氣象領域對人工智能的研究和應用自20世紀80年代就開始開展,40年來已有很多可借鑒的成果。強風暴天氣(主要包括破壞性直線大風、龍卷和冰雹災害)每年會造成嚴重的經濟損失和人員傷亡,一直是氣象災害預測研究的重點和難點。國外有很多應用機器學習算法針對強風暴開展研究的成果,如采用前饋神經網絡方法對單個風暴單體來預測發生直線大風或龍卷風的概率,采用逐步回歸正向選擇法預測強風暴,采用樸素貝葉斯分類器方法來預測強風暴。一些研究針對直線大風的預測進行專門的研究,如采用模糊標簽神經網絡方法針對強風暴中的直線大風進行預測,采用隨機森林和梯度提升決策樹方法對直線大風進行預測。一些研究采用梯度提升決策樹、隨機森林、彈性網絡方法等研究風暴持續時間、冰雹發生概率的預測。
此外,在清潔能源預測、航空湍流臨近預報、云的分類和降水估計等領域也有不少應用機器學習方法開展的研究。如采用人工神經網絡、自回歸移動平均模型、支持向量機、回歸樹、相似集合方法對風速、風能、太陽輻照度等進行預測。一些研究采用模糊邏輯、隨機森林算法等開展航空湍流的臨近預報研究。一些研究采用人工神經網絡方法、多參數支持向量機方法、分層K均值聚類方法等針對衛星資料開展云分類和降水估計研究。還有一些研究采用神經網絡方法、模糊邏輯方法等開展氣象數據融合和數據提取的研究,在氣象預報業務上發揮了很好的作用。
我國氣象領域對人工智能應用的歷史也可以追溯到 20世紀80年代到90年代。當時的特點主要是初級專家系統在氣象災害預測上的應用和人工神經網絡方法在暴雨預報、云的識別等方面的應用。在2000年以后也陸續有一些研究,如采用遷移學習、遺傳算法、模糊聚類、人工神經網絡、支持向量機等方法對氣象衛星云圖進行云的識別和分類,采用人工神經網絡、隨機森林、支持向量機等犯法對氣象衛星資料進行降水估計和降水分類。還有一些研究基于氣象衛星、環境衛星、陸地衛星資料,采用人工神經網絡、支持向量機、模糊邏輯、決策樹、貝葉斯方法等開展的氣象資料反演、災害性天氣識別、生態監測、數據融合和提取等研究。
2006年,隨著深度學習的出現和取得的研究進展,人工智能在全球掀起第三次浪潮,并行計算、大數據等的發展使得人工智能技術展現了巨大的應用潛力。2017年起,人工智能,特別是深度學習在氣象科學和業務中的應用已受到我國氣象專家們的重視。經統計,在氣象領域涉及人工智能相關算法的SCI和國際會議論文中,2014-2018年我國論文發表數和至少被引用一次論文數在國際上僅次于美國,且和美國差距逐年縮小。熱點研究領域主要包括觀測數據質量控制、數值模式資料同化、數值模式參數計算(如云和對流參數化)、模式產品后處理、天氣系統識別、可再生能源行業應用、航空湍流預報、業務流程優化、智能決策輔助系統等方面。我國氣象部門通過和清華大學、北京大學、中科院等科研院校以及阿里巴巴、百度、IBM等企業開展合作,以知識產權共享的方式,已經在觀測識別、數據處理、短時臨近預報、多源融合定量降水預報、強對流潛勢預報、霾預報、相似臺風檢索、預報公文自動制作等多個業務領域取得若干研究成果。其中,基于深度學習的臨近預報已經取得了很好的進展,預報模型不僅能跟蹤雷達回波的移動方向,而且能較好地反映雷達回波的生消變化,較傳統雷達回波外推方法準確率更高。
隨著人工智能技術的不斷更迭發展,在氣象科學領域中的應用前景將愈加廣闊。以深度學習方法為例,在時空背景的有序序列和數據建模方面,由于深度學習所應用的相關數據類型與氣象科學的數據之間存在極大的相似性,這為深度學習成功的應用在氣象科學領域提供了新機遇。利用深度學習可以快速和有效的解決分類、異常檢測、回歸、空間或時間相關狀態預測等問題,而無需使用主觀的人工注釋或依賴于預定義閾值的方法。另一方面,深度學習也可以快速識別和使用事件空間形狀中的信息,如自動提取遙感數據中的多尺度特征,從而大大提高分類精度。
與此同時,深度學習在氣象科學應用中也存著許多挑戰。首先是可解釋性,由于深度學習算法的潛在特性,從數據中發現的關系并不一定存在因果關系,實現可解釋性也是當前深度學習的研究焦點。其次是物理一致性,深度學習模型可以非常好的擬合觀測,但是預測可能存在物理上的不一致或不可信。再次是數據的復雜和不確定性,由于不同的傳感器顯示出不同的成像幾何形狀、時空分辨率、物理意義、內容和統計數據,因此集成多傳感器數據并非易事。此外,衛星觀測序列還存在著各種噪聲源、不確定性水平、數據缺失和間隙等問題,也是帶來數據的復雜和不確定性的主要原因。第三是缺少標記樣本,深度學習需要大量的標記樣本訓練集,但由于標注數據集存在著概念、所涉及的數據集的大小、專業標注人力成本等困難,大型的、標記好的氣象科學數據集并不完善和充足。最后是對計算的需求。目前,氣象部門每天都要處理TB級的高精度數據。雖然典型的計算機視覺應用已能處理512×512像素的圖像尺寸,但是氣象數據如數值模式輸出數據、衛星數據很多是全球尺度的,中等分辨率(約1km)的全球氣象場的大小約為40,000×20,000像素,即比計算機視覺能處理的多三個數量級。因此,氣象數據應用深度學習的計算需求量非常巨大。
從歷史上看,物理建模和人工智能通常被視為兩個不同的領域,具有理論驅動與數據驅動兩個截然不同的科學范式。然而,兩種方法實際上是互補的,物理方法原則上可以直接解釋,并提供超出觀測條件的外推潛力,而數據驅動方法在適應數據方面具有高度的靈活性,并且易于發現不確定性問題中的新模式。這兩種方法之間的協同作用一直受到關注,未來的氣象模型應該整合基于物理過程的和人工智能的方法。但我們也應該清醒的認識到理論與觀測、假設生成與理論驅動假設檢驗之間的科學相互作用將繼續存在,數據驅動的人工智能方法在氣象科學研究中不會取代物理建模,而是對物理建模強有力的補充和豐富。即,研究物理和數據驅動模型之間的各種協同作用,其最終目標是混合建模方法:這些方法應遵循物理定律,具有概念化,因而可解釋的結構,同時在理論薄弱的情況下完全適應數據。
具體而言,隨著深度學習模擬能力以及氣象觀測能力的不斷進步,人工智能在氣象科學應用的發展將在以下幾個方面有所進展。隨著深度學習的不斷應用,未來可能會在圖像識別(如極端天氣型分類和異常檢測)、超分辨率處理(氣候模式降尺度)、時間預測和空間預測等方面取得較大進展。
改進模式的參數化方案。物理模型需要參數,但其中許多參數不易從基本原則中推導出來,只能用經驗性的數據來代替。深度學習可以學習參數化,以最佳方式描述地面真實情況。
改進模型后處理能力。深度學習有助于識別、可視化和理解模型誤差的模式,使便于校正模型輸出和改進模式。
提高雷達、衛星圖像等的圖像識別能力。如可以通過圖像識別改進臺風等極端天氣型的分類和異常檢測,還可以改進臨近預報能力。
改進氣候預測能力。由于氣候預測存在很大的不確定性,深度學習可以通過對氣候數據的學習得到新的預測模型,還可以通過超分辨率處理方法進行氣候模式的降尺度應用。
推進地球科學的進一步交叉融合。隨著觀測數據的不斷拓展和人工智能計算能力的不斷提高,人工智能,特別是深度學習,提供了很有前途的工具,可以為地球系統各組成部分構建新的數據驅動模型,從而重新建立我們對地球的理解。這將有利于地球科學中大氣科學、地理學、地質學等學科從發展理念、算法建模、仿真應用等方面集成和協同發展,同時進一步推進各學科的深度融合。
人工智能技術仍在飛速發展,Gartner公司預計其核心算法深度學習有望在未來2到5年達到成熟期并投入實際生產應用。研究發現,人工智能在氣象領域有寬廣的應用前景。在氣象科學方法上,數值預報方法仍然是核心和科學進步的關鍵,數據驅動的人工智能方法不會取代物理驅動的數值預報方法,而是對數值預報強有力的補充和豐富,將是基于物理過程和深度學習的混合建模方法。此外,從整體來看,未來人工智能將會貫穿氣象觀測、數據、信息網絡、預報、服務全業務過程。這不僅將影響氣象預報方法的改進,更將影響整個氣象行業的發展布局。因此,氣象部門應抓緊人工智能發展機遇,做好頂層設計和統籌布局,以更好的姿態迎接人工智能時代的到來。
作者單位:山西省氣象科學研究所 賀潔穎、唐偉
中國氣象局資產管理事務中心 周勇、沈文海
本文受到2019年度氣象軟科學重點項目“氣象發展“十四五”規劃預研:人工智能應用重大工程及政策”(項目編號:2019ZDIANXM19)的支持。