魏曉琳 陳訓來 江崟 李輝 毛夏
(作者單位:魏曉琳、陳訓來、李輝、毛夏,深圳市氣象局;江崟,深圳市國家氣候觀象臺)
為促進人工智能(AI)技術在天氣預報上的應用,深圳市氣象局連續兩年(2017—2018年)通過與阿里巴巴公司、香港天文臺合作,共同組織了短時強降水智能臨近預報為主題的“全球AI氣象挑戰賽”,征集到卷積神經網絡、深度神經網絡、決策樹模型等基于AI技術的短時強降水臨近預報方法,形成了一種新型的社會化眾創機制。
短時強降水是指1 h雨量大于等于20 mm的降水事件,其導致的主要災害是暴洪,是所有氣象相關災害中發生頻次最高且導致傷亡最多的災害,臨近預報則是指短時間內(0~6 h,其中0~2 h為重點)發生明顯變化的天氣現象的預報,包括雷暴、強對流、降水和沙塵暴等。由于致災程度高,雷暴和強對流是研究最多的、最具挑戰性的臨近預報研究對象,從實際業務的角度看,目前對大多數雷暴和強對流天氣的高時空分辨率的可用預報和警報時效仍然不超過2 h。研究表明,基于高分辨率的天氣預報模式WRF(Weather Research and Forecasting)以及逐時同化雷達、GPS水汽、風廓線等觀測資料后,利用深圳稠密的自動氣象站監測數據針對短時強降水的定時定量預報的嚴格TS評分顯示,第一小時的降水臨近預報的準確率在10%以下,第二小時起準確率均在3%以下。因此對于短時強降水的短臨預報,特別是第二小時開始的臨近預報是天氣預報中的重點和難點問題。
傳統的臨近預報技術主要是基于多普勒天氣雷達觀測數據并結合其他資料對雷暴生成、發展和衰減過程的臨近預報。新一代天氣雷達由于可探測大氣中的多種天氣系統及其結構,由于其大功率、高靈敏度和全相參性能,能可靠地定量測量降水以及降水的生消、演變、范圍、強弱以及降水分布,在臨近天氣預報和災害性天氣警報方面有著很高的應用價值。利用新一代天氣雷達進行臨近預報的方法有外推法、相似法、經驗預報、降水的定量估測及預報、通過同化雷達資料利用中尺度數值模式開展數值臨近預報等,雖然我國強對流天氣短時臨近預報業務已經取得了巨大進展,但在強對流天氣的監測技術、快速同化更新的數值預報和集合數值預報支撐技術、強對流天氣預報檢驗技術、強對流天氣機理研究和氣候時空分布特征分析等方面仍然面臨很多挑戰。
近年來,人工智能技術發展較快,在天氣預報領域的應用,無論在國內外均持續受到關注,并被認為是較為適合處理天氣預報這類復雜問題的有效方法。面對復雜的大氣系統的演變,與傳統的臨近預報方法從探尋大氣運動的本質規律出發不同,人工智能具有針對模糊、不確定性問題進行分析、聯想、記憶學習和推斷的能力,在氣象領域的應用已具有較寬的覆蓋面,從探測、數據處理、預報預測、到服務產品均有涉及,可通過大數據分析、信息識別、機器學習等技術解決各類難以通過數理模型直接給出確定性方案的復雜問題。AI技術除了通過機器學習解決預報模式中的不確定因素外,另一個明顯優勢是對各類復雜信息的識別與處理,可以改進模式初始信息的質量,也可以通過對信息的識別與學習開展短時臨近預報。Shi Xingjian等通過機器深度學習,模擬雷達回波未來2 h的移動路徑,較傳統基于光流矢量計算方法預測雷達回波移動具有了新的優勢。Yao and Li等采用卷積神經網絡技術,結合了尺度不變的特征變換和泰勒凍結假設相結合的云團軌跡追蹤技術,基于雷達資料對第二小時的單點強降水預報取得良好的效果。
為促進傳統的天氣預報方法與AI技術的融合應用,深圳市氣象局自2017年起建立了一種新型的眾創機制,通過在阿里巴巴的天池平臺上發布標準雷達數據集,面向全球舉辦AI氣象挑戰賽,吸引從事AI、機器學習的人才到平臺上來針對短時強降水智能臨近預報問題發展原創的算法。在2017—2018年的實踐經驗中,取得了一定的成效。
1.1.1 主辦方、賽題和數據集
2017年,深圳市氣象局以短時強降水智能臨近預報技術為突破點,聯合阿里云計算有限公司和CIKM2017(第26屆信息與知識管理國際會議)作為主辦方,首次組織了以短時強降水智能臨近預報為主題的挑戰賽,引導社會力量參與氣象智能預報技術研究。在賽題的選擇上,針對目前短時臨近預報方法對短時強降水的定時、定點、定量預報能力有限,尤其是第二小時以后的預報準確率顯著下降的特點,以提高單點短時強降水的臨近預報精準度為目標,提出了“單點短時定量降水預測”的賽題。
競賽使用的數據集共包含14000組數據,其中1萬組為訓練數據集,另外各2000組作為測試數據集,分別用于比賽第一階段和第二階段的競賽。其中訓練數據集包含雷達數據和目標站點的第一至第二小時之間的降水量,而測試數據集僅包含雷達數據。選手需根據主辦方提供的1萬組訓練數據集通過機器學習等方法進行訓練,建立算法模型,然后對第一和第二階段的測試數據給出未來第一至第二小時之間的降水量的預測。
數據集的編制基于廣東省2014—2016年3年的歷史多普勒雷達拼圖數據(數據已做脫敏處理),以自動站小時雨量≥20 mm為主要指標,通過時空抽稀和隨機選取等方式確定了14000個目標自動站點及目標時刻,以目標站點為中心提取水平方向上100 km×100 km的正方形、垂直方向上共4層(從0.5~3.5 km每隔1 km)、目標時刻過去1.5 h內逐6 min的雷達回波圖,在訓練數據集中每組數據還提供了目標站點在目標時刻未來1和2 h的降水量數據(圖1),評測的方法為均方根誤差,均方根誤差越小排名越靠前。

圖1 2017年全球AI氣象挑戰賽賽題示意圖
1.1.2 比賽規則及結果
除主辦方內部工作人員外,任何人均可參賽。競賽分為發布訓練數據與第一階段測試數據集、第一階段比賽、第二階段比賽、入圍選手提交報告和源代碼及公布成績4個階段。在第一階段、第二階段比賽期間,參賽選手可以提交盡可能多的結果,以第二階段的歷史提交最優的一次結果作為最終的比賽成績。
經CIKM2017大會組委會評審,深圳市氣象局聯合阿里云共同組織的挑戰賽被確定為由國際計算機學會(ACM)于2017年11月在新加坡主辦的第26屆CIKM 國際會議的四大賽題之一,并通過CIKM國際會議官網和阿里天池平臺向國內外同時公布賽題和數據,比賽時間持續近半年,最后共有來自中國、新加坡、美國、英國以及港澳臺等10余個國家和地區的1395個團隊、1650人參加,參賽團隊包括清華大學、新加坡國立大學,香港科技大學、中國科學院等國內外著名高校院所以及高科技企業的專家和研究人員。參賽團隊充分應用卷積神經網絡、深度神經網絡、決策樹模型等深度學習算法,不斷優化結果,總共提交了多達7917次的評估結果,前三名隊伍及成績見表1。
第一名清華大學團隊采用卷積神經網絡技術,結合了尺度不變的特征變換和泰勒凍結假設相結合的云團軌跡追蹤技術,預報效果明顯高于其他團隊,比賽最終成績較大賽提供的RMSE基準線14.69減小了3.7,這對氣象部門開展強降水的智能預報技術研究提供了借鑒和參考。在CIKM國際會議期間,大會組委會安排氣象智能預報挑戰賽專題分會場報告,得到了大數據、人工智能等研究人員的廣泛關注。

表1 2017年全球AI氣象挑戰賽獲獎隊伍及成績
1.2.1 主辦方、賽題和數據集
2018年香港天文臺加入賽事,由深圳市氣象局、香港天文臺、阿里云計算有限公司和IEEE ICDM2018國際會議4家聯合主辦,IEEE ICDM的全稱是IEEE International Conference on Data Mining,為數據挖掘領域的三大頂級國際會議。IEEE ICDM提供了一個展示原創研究成果的國際論壇,研究范圍涉及數據挖掘與人工智能領域的許多內容,包括算法、軟件和系統以及應用程序等,吸引了大量數據挖掘與人工智能相關領域的研究人員和應用程序開發人員,涵蓋統計學、機器學習、模式識別、數據庫和數據倉庫、數據可視化、高性能計算等各個學科和領域。此次ICDM2018主辦的大數據競賽有兩項,其中之一為全球AI氣象挑戰賽,另一賽題為美國麻省理工學院主辦的多用途語音識別大數據競賽。
經精心設計,2018年的賽題由2017年的“由面到點”(即由雷達回波圖預測單點降水)難度加大為“由面到面”(即由雷達回波圖預測雷達回波圖)。數據集的量顯著加大,融入香港的雷達數據,選取2010—2017年前汛期廣東及香港的雷達數據,數據集采取灰度的國際通用標準數據格式,構成標準雷達數據集SRAD2018(Standardized Radar Dataset 2018),SRAD2018共提供32萬組數據,其中30萬組為訓練數據集,另外各1萬組為初賽和決賽的測試數據集,訓練數據集的個例數量為2017年的30倍。訓練數據集的每一組數據包括有61張雷達圖像,空間分辨率為1 km,時間分辨率為6 min。而初賽和決賽的測試數據集的每組數據僅提供前3 h、間隔6 min的雷達數據,選手需要預測每組數據在后3 h內以30 min為間隔的雷達圖像結果(圖2)。在評測辦法上,為了提高征集到的算法在實際業務中的應用價值,基于Heidke技巧評分(Heidke skill score,HSS)(其說明可參考http://www.cawcr.gov.au/projects/verification/),深圳市氣象局和香港天文臺聯合對HSS方法進行改進,當預報時效越長和強度越大,則所占的評分比重越高。

圖2 2018年全球AI氣象挑戰賽賽題示意圖
1.2.2 比賽規則及結果
與2017年相同,大賽面向全社會開放報名,除主辦方內部工作人員外任何人士均可參賽。選手可1~4人組隊參賽,每位選手只能加入一支隊伍,否則會被取消參賽資格;除官方發布的SRAD2018數據集外,如參賽者還使用了其他數據信息將被視為作弊并取消參賽資格。與2017年相同,競賽同樣分為4個階段,取第二階段的歷史提交最優的結果為代表隊最終成績。
2018年5月23日深港氣象部門通過阿里云天池平臺再度發起全球AI氣象挑戰賽,前后歷時6個月,影響力持續提升,共有來自全球45個國家和地區的1739支隊伍、2012名選手參加,其中海外選手243人,覆蓋45個國家和地區(含港、澳、臺),共有114支隊伍產出有效成績,選手分布42%為學生,5%為教職工、科研人員,29%為公司職員,24%為其他。53%的選手具有碩士及以上學歷,參賽團隊來自北京大學、中國科學院、香港中文大學、加州大學洛杉磯分校、康奈爾大學、新加坡國立大學等國內外著名高校院所以及高科技企業。根據參賽團隊提交的技術報告和源程序,2018全球AI氣象挑戰賽組委會組織專家進行了審核,從程序復現運行結果一致性、技術原創性、文檔完整性、技術合理和業務可行性等方面綜合評審,來自香港中文大學(深圳)、中山大學等單位和個人獲本年度全球AI氣象挑戰賽的前3名(表2),此次賽事征集到基于trajectory GRU、Conv2D LSTM以及傳統光流法等針對賽題進行原創改進的智能臨近預報算法,以本次競賽的數據評分效果來看,基于AI方法的評分高于光流法的評分,顯示了人工智能技術在解決臨近預報難題中的巨大潛力。

表2 2018年全球AI氣象挑戰賽獲獎隊伍及成績
2018與2017年最大的不同點在于題目的難度增加、數據量顯著加大,2017年是由多層雷達回波圖預測單點的降水,而2018年是由雷達回波圖預測雷達回波圖,在實際的短臨預報業務中,顯然后者更為實用,征集的算法可以迅速投入業務使用,實踐證明在競賽中,人工智能的算法獲得了冠軍,表現優于傳統的光流法,當然這仍需在實際業務中進行更多的檢驗。
連續兩年的全球AI氣象挑戰賽參考和借鑒了ImageNet的發展軌跡,ImageNet項目是世界上圖像識別最大的數據庫,提供了超過1400萬個圖像,自2010年以來,該項目每年舉辦一次軟件比賽,即ImageNet大規模視覺識別挑戰賽(ILSVRC),競賽在給定的數據集上評估其算法,并在幾項視覺識別任務中爭奪更高的準確性,2010—2017年短短幾年時間里,物體分類冠軍的精確度從 71.8% 上升到 97.3%,超越了人類物體分類水平,也有力證明了更大的數據會帶來更好的決策(https://www.sohu.com/a/160316515_680198)。
2017—2018年深圳市氣象局聯合香港天文臺、阿里云計算有限公司通過全球AI氣象挑戰賽的成功舉辦已經初步構建了從發布數據集、提供算法運行環境和計算存儲空間,吸引位于全世界各地的從事AI技術的專業人員到平臺上針對智能臨近預報的賽題提交原創算法,在給定的數據集上評估其算法的新型的社會化眾創機制。從眾創的結果來看,征集到卷積神經網絡、trajectory GRU、Conv2D LSTM等人工智能算法用于解決氣象上降水臨近預報難題,并且在競賽給定的個例中,總體表現上智能臨近預報方法優于傳統的光流法。
ImageNet創始人李飛飛教授指出:構建優良數據集的工作是 AI 研究的核心,數據和算法一樣至關重要(https://www.sohu.com/a/160316515_680198)。因此數據集是人工智能天氣預報中至為重要的一環,未來將致力于從以下幾個方面進一步完善:一是將現有的30萬組標準雷達數據集,擴展為百萬量級以上的數據集,這需要將當前粵港澳的雷達數據拓展至更大的空間范圍;二是采取更嚴格、更適用于AI算法研發的雷達數據控制技術,對雷達基數據帶來的雜波、缺值等做更精心的處理,最大限度降低對機器學習帶來的干擾;三是對智能臨近預報的客觀評價算法繼續優化,使評分的結果與預報員的主觀感受更匹配;四是繼續完善標準雷達數據集下載、使用以及人工智能算法共享的使用條款。
針對眾創機制未來的發展方向,我們的構想是在現有的眾創機制的基礎上,創建致力于解決氣象業務難題的社會化眾包平臺AIMNet,英文AIMNet的含義即基于AI技術針對性的解決氣象難題(Meteorology)的網絡平臺。該平臺將主要包含如下幾種功能:一是持續更新發布標準雷達數據集,并向全球征集經過質量控制的雷達數據,按照開源、脫密、共享、共研、共用、格式統一的原則匯集更多國家和地區的雷達基礎數據,形成人工智能訓練資源庫;二是與超算中心合作,為AIMNet平臺提供算法運行環境和計算存儲資源,吸引從事人工智能研究的人員到平臺上提交原創或改進的臨近預報算法,形成短時強降水智能臨近預報算法庫;三是提供客觀的、專業的評測方法,對進入平臺上的短時強降水智能臨近預報算法進行客觀評分,形成產品排行榜及產品超市;四是將征集優選的算法在全國氣象部門推廣落地應用,并由氣象業務部門提供應用反饋的意見。最終,通過AIMNet平臺的搭建,形成短時強降水智能臨近預報的大數據資源庫、算法征集、客觀優選、應用反饋的社會化眾創機制的良性閉環,促進AI與天氣預報的高度融合和螺旋式上升發展。
本文總結了2017—2018年深圳市氣象局與阿里巴巴公司、香港天文臺(2018年參與)聯合主辦的全球AI氣象挑戰賽,總結了挑戰賽的經驗和成果,并展望了未來發展的思路和理念,主要結論如下。
1)在人工智能與氣象這種交叉融合的新興技術上,氣象專業人員缺乏人工智能領域的專業知識,迫切需要通過技術的融合,促進智能臨近預報的快速發展。全球AI氣象挑戰賽的成功舉辦顯示了一種新型的短時強降水智能臨近預報的眾創機制已初見雛形和成效,有效激發了從事AI的專業人士研究氣象問題,并征集到一些優秀的人工智能算法為氣象所用,尤其是2018年征集到的算法可直接在業務中投入使用。
2)未來智能臨近預報的發展,數據和算法同樣重要,深圳市氣象局將通過AIMNet平臺的創建和發展,著力推動標準雷達數據集的共享共用以倍數級增長,吸引更多AI技術人員參與短時強降水智能臨近預報算法的發展,在統一的平臺上,依托相同的大數據和評測方法,形成客觀、權威的評分和排序,優選的算法將在全國氣象部門內進行落地應用,形成問題的提出、解決、反饋的良性發展閉環。
3)未來AIMNet平臺的創建除了可以促進氣象部門行業內的應用,同時也將搭建權威的、公開的平臺,成效突出的算法可以迅速在平臺上獲得商用價值的認可和應用,促進商業氣象經濟的發展。
致謝:本項目由國家重點研發計劃(2016YFC0203602)資助。
深入閱讀
Shi X, Chen Z, Wang H, et al, 2015. Convolutional LSTM network:a machine learning approach for precipitation nowcasting.Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal: MIT Press.
Shi X, Gao Z, Lausen L, et al, 2017. Deep learning for precipitation nowcasting: a benchmark and a new model. Proceedings of the 31th Conference on Neural Information Processing Systems.Long Beach, CA, USA.
Wilson J W, Feng Y R, Chen M, et al, 2010. Nowcasting challenges during the Beijing Olympics: Success, failures, and implications for future nowcasting systems. Weather and Forecasting, 25:1691-1714.
Yao Y, Li Z, 2017. Short-term precipitation forecasting based on radar reflectivity images. Proceedings of International Conference on Information and Knowledge Management. Shenzhen Meteorological Bureau.
段鶴, 夏文梅, 蘇曉力, 等, 2014. 短時強降水特征統計及臨近預警.氣象, 40(10): 1194-1206.
許小峰, 2018. 從物理模型到智能分析——降低天氣預報不確定性的新探索. 氣象, 44(3): 341-350.
俞小鼎, 2013. 短時強降水臨近預報的思路與方法. 暴雨災害,32(3): 202-208.
俞小鼎, 周小剛, 王秀明, 2012. 雷暴與強對流臨近天氣預報技術進展. 氣象學報, 70(3): 311-337.
張蕾, 王明潔, 李輝, 2015. 短時強降水臨近預報相對準確率的探討. 廣東氣象, 37(2): 1-6.
張沛源, 楊洪平, 胡紹萍, 2008. 新一代天氣雷達在臨近預報和災害性天氣警報中的應用. 氣象, 34(1): 3-11.
鄭永光, 張小玲, 周慶亮, 等, 2010. 強對流天氣短時臨近預報業務技術進展與挑戰. 氣象, 36(7): 33-42.
Advances in Meteorological Science and Technology2019年3期