


摘要:
長序列、高時空分辨率氣象數據集對氣象業務和科研具有重要意義,但是應用過程中存在數據質量低、空間分辨率不足等問題。隨著人工智能的發展,機器學習以及深度學習算法在氣象領域逐步開展應用。針對氣象數據集研制中的技術難點問題,梳理了人工智能技術的4個關鍵應用場景,即觀測數據的質量控制、缺測數據的插補和重構、多源數據的融合以及低分辨網格數據的降尺度,對各類機器學習模型在上述場景應用中的優勢和不足進行了綜述,并采用文獻計量方法對研究前沿及發展趨勢進行了定量分析。研究表明:相比傳統方法,人工智能算法在計算效率、結果準確性、應用靈活性等方面更具競爭力。建議從建立高質量訓練數據集、加強多源數據和異構數據的應用以及探索基于氣象數據物理機制的建模等多個方面,進一步推動人工智能在氣象數據產品研制中的應用。
關" 鍵" 詞:
氣象數據集; 人工智能; 機器學習; 深度學習; 質量控制; 降尺度
中圖法分類號: P409
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2025.01.012
收稿日期:2024-05-11;接受日期:2024-09-09
基金項目:
中國長江電力股份有限公司科研項目(Z242302005);水利部重大科技計劃項目(SKS-2022004)
作者簡介:
李" 波,男,高級工程師,主要從事水電氣象預報研究工作。E-mail:li_bo@ctg.com.cn
通信作者:
潘" 勐,男,高級工程師,研究方向為氣象信息技術。E-mail:20330061@qq.com
Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.
文章編號:1001-4179(2025) 01-0088-09
引用本文:
李波,潘勐,孫越.
人工智能在氣象數據集研制中的應用綜述
[J].人民長江,2025,56(1):88-96.
0" 引 言
高價值數據產品是預報、預測、服務等氣象業務高質量發展的基礎,對于科學認識天氣與氣候變化過程、開展相關物理機制研究均具有重要的意義。隨著綜合氣象觀測業務的不斷發展,中國已建成由地面自動氣象站、天氣雷達站、探空站、風云氣象衛星等組成的綜合立體、智慧協同的氣象觀測系統[1]。在國際上,世界氣象組織積極推動建設綜合全球觀測系統,更好地整合和共享來自各個國家氣象水文部門以及其他組織的觀測數據,以高效和可持續的方式滿足在天氣、氣候、水和相關環境服務領域日益增長的觀測需求[2]。
進入大數據時代,面對海量、多源氣象數據,研制高價值數據集產品是推動氣象數據價值釋放的重要途徑。氣象數據集為可標識數據的集合,可以分為地面氣象資料、高空氣象資料、氣象衛星資料等多個類別,包含數據質量信息、時間標識信息、地理覆蓋范圍等元數據信息[3]。數據集具有數據質量高、格式規范、讀取操作規范的特點,便于共享、應用以及開展服務。傳統數據集的制作主要側重于數據的收集與整理,以及簡單的加工處理,已無法滿足氣象精細化服務與應用的要求;同時,傳統數據集主要針對站點數據,也無法滿足各行業對格點化的時空連續的氣象數據產品越來越高的需求。隨著多源觀測數據量和數據種類越來越多,研制長序列、高時空分辨率的網格數據集可以進一步為氣象業務和科研提供有力的數據支撐[4]。
近年來,隨著信息技術和智能算法技術的發展,人工智能技術在氣象領域的融合與應用逐漸深入。國內外學者在數據插補和重構、質量控制以及實況產品研發、產品質檢等領域開展了人工智能氣象應用算法的探索[5]。人工智能技術中機器學習在計算效率、準確性、可移植性等方面具有較大的優勢,在數據集研制方面有很高的適配性和廣闊的應用前景。本文主要針對常規氣象觀測要素,從數據、方法和應用3個方面對人工智能技術在氣象數據集研制中的應用現狀進行總結和探討,并對該領域的發展方向進行展望。
1" 數據來源
長序列、高時空分辨率氣象數據集的研制通常基于站點觀測數據、衛星遙感數據和模式模擬數據,通過對這些數據的收集、加工處理、分析融合得到能反映氣象要素精細化時空特征的數據產品。
地面自動氣象站是觀測氣象要素最直接和精確的方式。在氣象研究中,一般將站點觀測數據作為“真值”。但是地面氣象站分布不均,特別是在山區和地形復雜的區域十分稀疏。另一種地面觀測是基于氣象雷達,但是雷達的探測范圍受地形障礙的影響很大,雷達波束阻塞、電磁波衰減和其他干擾因素均會造成雷達觀測的誤差。
衛星遙感數據具有空間分布均勻、覆蓋廣、數據連續的優點。對于降水來說,衛星遙感數據能夠捕捉到降水情勢,同時能實現對無站點覆蓋區域的降水監測[6]。但是衛星數據可能受到各種誤差源的影響,例如重訪時間的差距、云層遮擋和大氣輻射對地物反射率的干擾,以及反演算法導致的不確定性等[7-8]。
數值模擬數據是利用超大型計算機,應用地球流體動力方程和有關物理法則,對全球或區域的歷史(未來)天氣進行定量化再現(預測)。模式模擬數據也具有數據連續、覆蓋范圍廣的優點。但是由于初始場和數值模型的不確定性,模式模擬結果存在不同程度的誤差,同時還存在空間分辨率不足的缺點。其中,基于數值模式的再分析數據在氣象數據集產品的研制中具有廣泛的應用。再分析數據是使用資料同化技術將模式預報和歷史觀測資料融合,從而獲取空間覆蓋完整、時間序列均一、大氣狀態變量協調的長時間序列氣象要素實況分析場[9-10]。
此外,在氣象數據集研制過程中還會使用地理環境數據,以此構建氣象要素變量和環境變量之間的關系來捕捉氣象要素和預測因子之間復雜的非線性關系[11]。常用的地理環境數據包括歸一化植被指數、經度、緯度、海拔、坡度、坡向和地表覆蓋類型等。
2" 人工智能在數據集研制領域的常見方法
人工智能是一個結合計算機科學和強大數據集來解決問題的領域,與氣象工作在方法論上是相通的。人工智能技術在氣象數據領域的應用主要是機器學習、深度學習相關的算法和模型結合氣象數據特征應用不斷調整和優化。
機器學習是人工智能技術的重要組成部分,可以讓計算機在不需要明確編程的情況下從數據中學習,然后利用經驗來改善自身的性能[12]。現有的機器學習種類繁多,按學習形式主要可分為監督式學習、非監督式學習、半監督式學習、深度學習和強化學習[13-14]。監督學習是從標記的訓練數據來推斷一個功能的機器學習任務,常見的算法有決策樹、隨機森林、支持向量、線性回歸等。無監督學習根據類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題,可以用來判定潛在類別(即聚類)或者改變表征形式(即降維),常見算法有K均值算法、主成分分析法等。半監督學習是介于監督和無監督之間的學習方式,使用大量的未標記數據,以及同時使用標記數據,來進行模式識別工作,通常目標是預測標簽,從而可以提高算法的性能。
深度學習是機器學習的一個分支,是一種試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的算法[15]。深度學習的實質是通過構建具有很多隱層的機器學習模型和海量的訓練數據來學習有用的特征,從而提升分類或預測的準確性。深度學習具有學習能力強、數據驅動和上限高等特點,常用的模型有:① 深度神經網絡(DNN),是一種多層次的神經網絡模型[16],通過多個非線性變換將原始數據映射到高維空間中,實現對復雜關系的建模和學習,通常用于分類和回歸任務;② 卷積神經網絡(CNN),是包含卷積層、池化層、全連接層的多層神經網絡模型[17],常用于圖像識別、計算機視覺等領域;③ 循環神經網絡(RNN),最主要的特點是包含記憶單元,可以處理任意長度的序列數據[18],在時間序列預測等任務中具有廣泛的應用;④ 生成對抗網絡(GAN),是由生成器和判別器兩部分組成的網絡模型[19],其中生成器的作用是不斷優化自己生成的數據讓判別器判斷不出來,判別器的作用也是通過優化自己讓判斷更準確,現在主要在圖像生成、語音合成、自然語言生成等領域中廣泛應用。
3" 人工智能在數據集研制中的關鍵應用場景
基于地面自動氣象站、雷達、衛星等觀測數據和模式模擬數據研制長序列、高時空分辨率的氣象數據集,通常會面臨觀測數據錯誤、缺測,不同分辨率數據之間的時空不匹配、存在系統性偏差,以及現有網格數據產品分辨率低等系列問題。通過機器學習建模的方式,可以實現觀測數據的質量控制、缺測數據的插補和重構、多源數據融合以及低分辨率數據的降尺度處理,從而達到研制高質量數據集的目的。
3.1" 質量控制
觀測數據的質量是氣象業務、科研、服務的基礎,也是決定數據集和數據產品質量的關鍵。各種觀測手段,例如地面氣象觀測站、天氣雷達及氣象衛星,都會受到各種類型的誤差干擾。因此,有必要針對其特定誤差結構定制不同的錯誤數據判別算法來對所獲得的數據進行質量控制(QC),以確保數據質量[20]。
質量控制的任務就是要將有問題或影響應用的資料通過一定的技術手段標注出來或將其從資料序列中剔除[21]。從機器學習的角度來看,觀測數據的QC是一項分類任務,其中最簡單的可分為兩類:好數據和壞數據[22]。很多學者提出了基于有監督學習的質控方法,例如,省級地面氣象資料業務系統(MDOSv2.2)[23]將孤立森林算法引入降水質量異常數據檢測,提出了多源降水資料質控方法,并綜合運用衛星、雷達及地面多視覺觀測的大氣狀態參量研制了降水質量異常事件檢測算法,將降水識別為晴空降水、虛假小降水、孤站降水、單站大降水、偏大降水等事件。基于決策樹模型建立了地面降水多源數據質量診斷模型,經診斷數據最終被劃分為錯誤、可疑和正確3類(圖1)。
SVM是一種包含輸入輸出映射關系的監督學習算法,在解決小樣本數據和高維數據方面具有明顯的優勢。Wu等[24]使用SVM方法結合損失函數,可以得到觀測數據的不確定性分布,在處理觀測數據時具有更高的精度。Sha等[25]提出了一種使用CNN對不良觀測值進行分類的降水自動質量控制方法,該方法通過監督學習使用人工QC標簽進行訓練,并通過網格降水產品和高程對原始觀測值進行分類,分析表明基于CNN的QC方法可以捕捉站點
周圍和上游的降水模式,從而達到質控的目的。
為了避免好樣本數量級遠大于壞樣本,影響監督學習的準確性,Castelo[26]提出了一種基于異常檢測的海洋學數據質量控制方法,基于機器學習的異常檢測模型可以學習好數據的行為,并將壞數據識別為異常值,這樣可避免不良數據的相對樣本量和絕對樣本量對QC分類的影響。基于異常檢測也可以實現對資料質量的評價,如劉瑩等[27]采用隨機森林和極端梯度提升法建立地面觀測氣象要素估計回歸模型,通過要素偏差統計特征確定異常事件類型,達到識別氣象數據質量異常事件的目的,可對地面氣象數據長期質量問題進行實時監測。
3.2" 數據插補和重構
對缺測數據和無歷史觀測數據進行插補和重構是研制長時間連續數據集的基礎。對于地面觀測站來說,自然條件及人為影響導致數據停測、缺測、漏測現象時有發生。此外,由于自動觀測站建站時間多在2005年以后,很多區域存在無長時間觀測資料的問題。而機器學習模型可以從已觀測數據中學習到數據的規律或缺值模式,從而實現對未觀測數據的準確估計。
LSTM是循環神經網絡的一種形式,不但可以從已觀測數據之中學習規律,也可從數據缺失值模式中進一步學習,提高數據插補精度[28]。Song等[29]對比了傳統插值方法、時間序列統計方法、RNN和LSTM神經網絡對植物莖干水分數據缺失的插補性能,驗證了基于LSTM神經網絡的數據填充方法在填充長時間丟失時間序列數據方面具有很大的優勢。針對野外小氣象觀測站點半小時溫度觀測長時間數據缺失問題,鄭欣彤等[30]采用時間序列分析和深度學習等方法,對缺失數據進行高精度插補,試驗結果表明BiLSTM-I深度學習溫度插補方法要優于其他方法,可滿足高精度溫度數據插補需要。針對氣候變化研究對百年數據的需求,Wegmann等[31]提出了一種基于機器學習的非線性氣候變異性重建方法,該方法使用RNN從現有的模型輸出和再分析數據中學習,基于站點數據重建了400多年來的全球月度溫度異常。
GAN網絡可以用于學習多變量時間序列的總體分布,從而對觀測數據中的缺失值進行插補,例如Luo等[32]提出基于端到端GAN的插補模型E2GAN來估算多變量時間序列中的缺失值,通過獲得更好的樣本特征表示來提高插補性能,從而重建樣本并改進插補。針對在歷史數據缺失情況下新能源發電場景生成方法失效的問題,張承圣等[33]提出一種基于條件深度卷積生成對抗網絡(C-DCGAN)的新能源發電場景數據遷移方法,以歷史數據大規模缺失的新能源電站為目標電站,以歷史數據完整的鄰近站為源電站,通過GAN學習源電站與目標電站之間的場景數據映射關系,進而根據源電站場景數據生成目標電站場景數據,所生成的數據符合真實場景數據分布規律。
近年來,深度神經網絡技術的出現有效地推動了圖像補全領域的發展,例如上下文編碼器、U-Net、CGAN、DCGAN等[34]。天氣雷達在掃描過程中會接收到大量非氣象回波信息,如地物回波、生物回波、同波長干擾回波等。Sun等[35]將天氣雷達波束阻塞校正問題視為一個圖像補全問題,設計了一個具有密集連接的全卷積神經網絡,并使用多類交叉熵損失函數對模型進行優化,對于觀測圖像補全取得了較好的校正效果。Tan等[36]將GAN應用于恢復極化雷達觀測中的部分波束阻塞區域,結果表明深度學習模型優于傳統的插值方法,應用基于深度學習的修復方法后,降水系統的連續性都得到了極大的提高。
同理,對于衛星遙感數據來說,也存在由于云的遮擋或傳感器故障造成圖像時間序列中的空白問題。Wang等[37]提出了一種通過間隙填充去除厚云的空間光譜隨機森林方法,該方法是基于隨機森林同時使用已知圖像的空間相鄰和多光譜信息構建的,具有擬合非線性關系和自適應分配可變貢獻的能力,學習已知圖像和模糊圖像之間潛在的復雜關系從而更準確地預測。Wang等[38]也提出了一種基于深度學習重建方法的內容序列紋理生成網絡,該方法考慮了圖像的內容、時間序列和空間紋理的恢復,在時間序列中缺失區域較大或重疊的情況下可以恢復具有詳細紋理的時間序列圖像。
此外,基于機器學習的圖像重建思想也可以用于數據重建。例如針對全球歷史氣溫數據集中存在20世紀中期之前缺測數據多的問題,Kadow等[39]利用圖像修復技術來填補網格化空間氣候數據集中缺失的數據點,使用堆疊的部分卷積和自動掩碼更新機制來重建缺失值,恢復了1877年7月記錄的厄爾尼諾現象的缺失空間模式;試驗結果表明該方法可以填充缺失氣候數據的大而不規則的區域,并能夠重建傳統空間插值技術無法捕捉到的特定氣候模式。
3.3" 多源數據融合
數據融合是對多來源的信息所提供的關于某一環境特征的不完整信息加以綜合,以形成相對完整一致、準確統一的信息的過程,是用于整合不同數據優勢的常用方法[40]。利用數據融合,綜合多種來源氣象資料,是獲得高精度、高質量、時空連續的多源數據融合氣象格點數據集行之有效的手段[41]。
以降水為例,利用數據融合方法能夠綜合具有各自優點的多源降水數據,來實現對某一區域的降水特征形成相對全面的監測[42]。人工神經網絡(ANN)作為一種高度復雜的非線性動力學習系統,適合處理需要同時考慮許多因素和條件的、不精確和模糊的信息處理問題。Hong等[43]使用ANN方法對青藏高原地區的站點降水、衛星降水以及ERA5再分析降水數據進行融合,研究表明融合數據能較好地反映缺資料地區的降水分布。Zhang等[44]提出了雙機器學習方法用于多種衛星降水融合,并比較了4種機器學習方法、4種雙機器學習方法以及3種線性權重法的融合效果,結果表明雙機器學習方法能夠提升衛星降水質量。Xu等[45]使用ANN方法對柴達木盆地的站點降水和TRMM降水進行融合,結果表明以海拔、經度和緯度為降水主要影響因素的數據挖掘可以有效改進衛星降水的精度。南天一等[46]對比了CNN、ANN以及主流統計方法的融合算法對青藏高原多源降水(站點、格點、衛星、動力降尺度)融合和水文模擬的效果,結果表明CNN對青藏高原降水融合的效果更優。此外,圖神經網絡通過神經網絡來學習圖結構數據中的特征和模式,通過對非歐氏空間的數據進行建模,捕獲數據的內部依賴關系,例如吳銘等[47]通過構建衛星-觀測站多模態數據融合框架進行多模態特征融合,并提出基于多圖融合的圖卷積神經網絡框架,從多角度挖掘站點地理位置之間的關系、不同氣象要素之間的內在聯系,可以很好地達到多源數據融合的目的。
3.4" 數據降尺度
降尺度是將大尺度、低分辨率的格點信息轉化為小尺度、高分辨率的信息,是研制高分辨率數據集的關鍵技術。
由于氣象要素時空結構特征復雜,尤其是對于降水,得到高質量的降尺度數據一直是數據集研制的難題。經典CNN方法常被用于氣候降尺度,但CNN模型的性能并不總是優于傳統的統計降尺度方法[48-50]。這可能是由于淺層CNN模型無法描述復雜的結構特征,而具有較深層的CNN模型會受到爆炸梯度和退化問題的影響[49]。此外,CNN傾向于學習模擬訓練數據中已有的規律,而無法預測未知領域中的極端、罕見事件,這使得極端事件(例如極端降水)的降尺度具有挑戰性。除了再現局部尺度的極端事件之外,降尺度模型面臨的另一個挑戰是在數據稀疏區域缺乏訓練數據。
相比傳統神經網絡,深度學習擁有更多的神經網絡層數,具備更強的學習能力和更有效的訓練機制。用于深度學習的遷移學習使用從具有大量樣本的任務中獲得的知識來執行可能具有少量數據甚至沒有數據的類似任務[51],并且具有改善數據稀疏區域上的降尺度的巨大潛力。近年來,超分辨率重建技術作為一種可以將低分辨率圖像重建成高分辨率圖像的技術,常被應用于醫療成像、衛星遙感、公共安全監控、多媒體通訊等領域。大氣的物理場(比如500 hPa氣壓、地面溫度等)也可以視為有RGB三通道的圖片,不同的變量場或者不同的垂直層堆疊起來可以視為多通道的圖片。同時,圖像超分辨率與氣象空間降尺度有著相似的目標,即盡可能減少重建損失。因此,基于超分辨率技術,將低分辨率數據結合地形,通過神經網絡得到高分辨率數據,可實現降尺度[52](圖2)。
目前各式基于深度學習的超分辨率算法在各種公開數據集上取得了較好的降尺度效果。CNN和GAN是兩種常見的超分算法框架。例如,Wang等[53]提出了一種新的超分辨率深度殘差網絡(SRDRN)方法用于降尺度降水和溫度。SRDRN方法是基于改進的超分辨率CNN架構構建的,數據增強技術解決了由于高度不平衡的降水和非降水天數以及稀疏的極端降水而導致的過度擬合問題,很好地捕捉了局部極端事件,并顯示出在沒有局部尺度數據的情況下進行精確降尺度的巨大潛力。Vandal等[52]將深度學習超分辨率技術應用于時間降尺度,采用了SRCNN超分辨率模型作為降尺度算法。SRCNN模型將深度學習與傳統稀疏編碼之間的關系作為依據,將3層網絡劃分為圖像塊提取、非線性映射以及最終的圖像重建結構。周康等[54]在SRGAN模型的基礎上提出了CPGAN降尺度方法,可以實現對降水時間序列的降尺度。Toumelin等[55]采用CNN模型訓練模式模擬數據以復制大氣模型的行為,然后基于高分辨率(30 m)地形信息對低分辨率風場進行降尺度處理,結果表明該模型能夠僅使用地形信息來表示山區風場的復雜性,在復雜地形中重現風場的主要特征(例如山脊上的加速度、背風減速、障礙物周圍的偏差)。Yu等[56]提出了一種具有軸向相似性約束的存儲網絡,以軸向注意力的方式將低分辨率數據插值到高分辨率;為了精確的細節重建,基于高分辨率遙感數據提出了一種地形引導增強損失函數,該函數將風的空間分布和地形完美地結合在一起實現了對風場的降尺度。Hhlein等[57]提出了一種基于U-Net的CNN模型DeepRU,它能夠推斷出風結構,將31 km分辨率的ERA5風場降尺度到9 km,同時還能具有較高的時效。此外,深度學習技術在對氣溫、相對濕度等其他氣象要素的降尺度上也取得了較好的效果[53,58-62]。
3.5" 研究前沿趨勢分析
本節采用文獻計量定量分析方法,以Web of Science核心數據庫為數據源,以上述4個關鍵應用場景、相關氣象要素以及機器學習算法構建檢索條件,采用LDA自然語言主題模型挖掘得到人工智能技術在各個應用場景的前沿主題;然后利用主題新穎度(Nj)、主題強度(Sj)、主題影響力(Aj)、主題增長度(Gj)4個指標,并基于CRITIC法加權得到前沿主題綜合指數[63],定量分析各應用場景的研究前沿發展趨勢。其中,主題新穎度指標從時間角度分析主題新穎性,主題影響力指標與主題強度指標分別從文獻引用及文獻集中度分析主題的關注度,主題增長度指標從科研成果數量上測度主題的成長趨勢。經綜合評價得到的各應用場景前沿主題如表1所列。
(1) 2018~2022年,在數據質量控制方面全球發表SCI論文91篇,共識別出4項研究主題。該領域前沿研究大多關注使用神經網絡等機器學習方法對雷達數據進行質量控制、偏差校正和缺失數據的重建等。
(2) 2018~2022年,在數據插補和重構方面全球共發表1 518篇SCI論文,綜合指標前5位的前沿主題如表1所列。該領域前沿研究聚焦于利用機器學習等技術進行降水、氣溫等氣象數據的重建,并用于災害
預測等。其中,最新且受到較多研究者關注的研究主題是“利用插值技術預測降水空間分布”,論文增長速度也最快;而“基于卷積神經網絡的光學遙感數據重建”相關研究影響力最大,引用量高。
(3) 2018~2022年,在多源數據融合方面全球共發表1 104篇SCI論文,綜合指標前5位的前沿主題如表1所列。該領域前沿研究重點關注利用深度學習等技術對多類型、多時空尺度、地面及衛星觀測源的數據進行融合,目的是提升分辨率、進行綜合預測等,尤其對降水方面的研究較多。綜合來看,“基于深度學習的激光雷達和衛星數據融合”相關研究最為前沿。
(4) 2018~2022年,在數據降尺度方面全球共發表477篇SCI論文,綜合指標前5位的前沿主題如表1所列。該領域前沿研究重點關注利用機器學習的降水量降尺度方法研究,包括時間、空間降尺度等方面。綜合來看,最為前沿的研究主題是“利用數據融合和機器學習的數據降尺度方法”,關注采用多源數據和機器學習方法進行數據降尺度。
4" 討 論
以上研究表明人工智能技術在氣象數據集研制的4個關鍵應用場景——觀測數據的質量控制、缺測數據的插補和重構、多源數據的融合以及低分辨網格數據的降尺度中有廣泛的應用前景。隨著未來各類觀測數據的持續性增長,通過數據產品提供更加精準、可靠、多樣的數據支持是釋放數據要素價值的新要求。從數據本身出發,在下一步工作中可以從以下幾個方面入手,進一步推動人工智能技術與數據產品研制的深度融合:
(1) 在質量控制方面,加強標準化訓練數據集的收集與共享。目前常用于氣象數據質量控制的算法屬于有監督學習。該方法依賴于有標簽的訓練數據,實際情況下獲得大量有標簽數據的成本是十分高昂的。雖然深度學習可以解決缺乏標簽數據的問題,但是存在計算量大、硬件需求高、模型設計復雜的缺點。氣象觀測數據存在樣本分布不平衡、故障樣本較少、異常特征不明顯等問題,因為異常數據通常比正常數據更為罕見,難以收集足夠的真實異常數據來訓練模型。因此,需重視樣本數據采集,建立標準化訓練數據集。可以通過數據共享平臺和規范數據采集流程的方式,為用戶提供高質量人工智能訓練集,這也是提高機器學習模型的根本。
(2) 在插補和重構方面,加強多源數據的協同應用。目前對數據的插補或重構模型主要是基于數據本身,例如對缺測站點降水的插補主要是基于鄰近站點觀測。隨著觀測手段的不斷多元化,數據產品不斷豐富,對降水來說除了傳統的地面觀測站以外,還有雷達、衛星、雨滴譜等觀測數據,同時還能根據降水和地形、風向風速的關系借助其他的要素增加插補模型的輸入因子。
(3) 在多源數據融合方面,加強多源異構數據的融合方法研究。傳統的數據融合主要局限在不同來源的同一種類數據產品。氣象觀測中存在海量、多源、異構的數據,數據形態結構也呈現多樣化,既有數字、表格等結構化數據,也有文本、圖片、聲音、視頻等非結構化及半結構化數據。因此,需發揮機器學習自動學習和適應性強的特點,處理整合大規模、復雜的異構數據,捕捉不同數據模態之間復雜的關系,從而更好地挖掘多源數據的價值。
(4) 在數據降尺度方面,探索氣象物理機制與人工智能模型的融合應用。人工智能模型很大程度上依賴于使用的數據,對數據背后物理原理的可解釋性差,應用于低分辨率網格數據的降尺度時存在空間泛化能力差、極值刻畫能力差的問題。動力降尺度方法則是基于低分辨率的全球氣候模型和高分辨率的區域氣候模型(RCM)完成,這種方法的主要限制是數值模型計算成本高。Doury等[64]嘗試了用UNet神經網絡學習構建RCM的仿真器,結果顯示了較好的降尺度效果,同時相比數值模型降低了計算成本。這種數據-知識耦合驅動的人工智能機制是探索人工智能技術在氣象領域應用的方向之一。
5" 結 語
針對人工智能技術在氣象數據集研制中的應用現狀,本文簡要介紹了數據來源和常見方法,聚焦數據集研制中的4個關鍵應用場景,總結發現:相比傳統方法,眾多機器學習方法展現了其顯著的優勢,例如數據結果的準確性、對多種非線性過程的適用性、計算效率高、易用性好等。針對數據質量問題,機器學習方法可以實現更高效的質量控制和評估,同時對缺測和空白數據可以實現準確的插補和重建,從而為數據集研制提供高質量數據源。同時機器學習或深度學習能對大量信息進行自主學習,建立能描述氣象要素復雜特征和非線性過程的模型,達到多源數據融合和低分辨率網格數據降尺度的目的。最后,從數據本身出發對下一步的工作進行了展望,指出可以從建立高質量訓練數據集、加強多源數據和異構數據的應用以及探索基于氣象數據物理機制的建模等多個方面,進一步推動人工智能技術在氣象數據產品研制中的應用。
參考文獻:
[1]" 王天天.乘勢而上 全面推進綜合氣象觀測業務高質量發展[N].中國氣象報,2022-11-30(1).
[2]" 楊曉武,林雪嬌,張楠,等.世界氣象組織(WMO)全球綜合觀測系統(WIGOS)最新進展[J].氣象科技進展,2022,12(5):120-126.
[3]" 中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.氣象數據集核心元數據:GB/T 33674—2017[S].北京:中國標準出版社,2017.
[4]" 趙珊珊,周向陽,童錦施.中國典型降水產品精度多時間尺度變化及空間分布[J].人民長江,2024,55(4):103-117.
[5]" 杜智濤,姜明波,杜曉勇,等.機器學習在氣象領域的應用現狀與展望[J].氣象科技,2021,49(6):930-941.
[6]" 熊立華,劉成凱,陳石磊,等.遙感降水資料后處理研究綜述[J].水科學進展,2021,32(4):627-637.
[7]" 仇曉蘭,胡玉新,上官松濤,等.遙感衛星大數據高精度一體化處理技術[J].大數據,2022,8(2):15-27.
[8]" 段震,王超,邸燕,等.IMERG系列產品在大汶河流域的降水監測能力評價[J].人民長江,2023,54(7):89-97.
[9]" 李俊,方宗義.衛星氣象的發展:機遇與挑戰[J].氣象,2012,38(2):129-146.
[10]廖捷,胡開喜,江慧,等.全球大氣再分析常規氣象觀測資料的預處理與同化應用[J].氣象科技進展,2018,8(1):133-142.
[11]YU X J,ZHANG L X,ZHOU T J,et al.The Asian subtropical westerly jet stream in CRA-40,ERA5,and CFSR reanalysis data:comparative assessment[J].Journal of Meteorological Research,2021,35(1):46-63.
[12]CHEN C,HU B,LI Y.Easy-to-use spatial random forest-based downscaling-calibration method for producing high resolution and accurate precipitation data[J].Hydrology and Earth System Science,2021,25:5667-5682.
[13]SAMUEL A L.Machine learning[J].The Technology Review,1959,62(1):42-45.
[14]MAHESH B.Machine learning algorithms-a review[J].International Journal of Science and Research,2020,9(1):381-386.
[15]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.
[16]SZE V,CHEN Y H,YANG T J,et al.Efficient processing of deep neural networks:a tutorial and survey[J].Proceedings of the IEEE,2017,105(12):2295-2329.
[17]ALBAWI S,MOHAMMED T A,AL-ZAWI S.Understanding of a convolutional neural network[C]∥2017 International Conference On Engineering And Technology,2017.
[18]MEDSKER L R,JAIN L C.Recurrent neural networks:design and Applications[J].Computer Science and Engineering,1999(1):416.
[19]CRESWELL A,WHITE T,DUMOULIN V,et al.Generative adversarial networks:an overview[J].IEEE Signal Processing Magazine,2018,35(1):53-65.
[20]JAN S.Precipitation Science[M].Amsterdam:Elsevier,2022:91-133.
[21]王海軍,楊志彪,楊代才,等.自動氣象站實時資料自動質量控制方法及其應用[J].氣象,2007,33(10):102-109.
[22]SMITH D,TIMMS G,DE SOUZA P,et al.A bayesian framework for the automated online assessment of sensor data quality[J].Sensors,2012,12(7):9476-9501.
[23]劉瑩等,王海軍,范增祿,等.省級地面氣象資料業務系統(MDOSv2.2)[R].武漢:湖北省氣象信息與技術保障中心,2019.
[24]WU Y P,TAO G Q.Application of a new loss function-based support vector machine algorithm in quality control of measurement observation data[J].Mathematical Problems in Engineering,2022(1):7266719.
[25]SHA Y K,GAGNE D J,WEST G,et al.Deep-learning-based precipitation observation quality control[J].Journal of Atmospheric and Oceanic Technology,2021,5:1075-1091.
[26]CASTELO G P.A machine learning approach to quality control oceanographic data[J].Computers amp; Geosciences,2021,155:104803.
[27]劉瑩,閆蕎蕎,劉園園,等.基于多源數據和機器學習的氣象數據異常事件識別方法:202310400212.8[P].2023-07-14.
[28]周祥,張世明,蘇林鵬,等.基于注意力機制與LSTM-CCN的月降水量預測[J].人民長江,2024,55(6):129-135.
[29]SONG W,GAO C,ZHAO Y,et al.A time series data filling method based on LSTM:taking the stem moisture as an example[J].Sensors,2020,20(18):5045.
[30]鄭欣彤,邊婷婷,張德強,等.ARIMA和LSTM方法長時間溫度觀測數據缺失值插補的比較[J].計算機應用,2022,42(增1):130-135.
[31]WEGMANN,M,JAUME-SANTERO F.Artificial intelligence achieves easy-to-adapt nonlinear global temperature reconstructions using minimal local data[J].Communications Earth amp; Environment,2023,4:217.
[32]LUO Y H,ZHANG Y,CAI X R,et al.E2GAN:end-to-end generative adversarial network for multivariate time series imputation[C]∥ Proceedings of the 28th International Joint Conference on Artificial Intelligence.Macao,2019:3094-3100.
[33]張承圣,邵振國,陳飛雄,等.基于條件深度卷積生成對抗網絡的新能源發電場景數據遷移方法[J].電網技術,2022,46(6):2182-2190.
[34]LIU Q,YANG Z Y,JI R,et al.Deep Vision in analysis and recognition of radar data:achievements,advancements and challenges[J].IEEE Systems Man and Cybernetics Magazine,2023,9(4):4-12.
[35]SUN J,WU H,LIU Q,et al.Dense-FCN:a deep learning approach for weather radar beam blockage correction[C]∥2022 IEEE International Symposium on Dependable,Autonomic and Secure Computing(DASC),2022:1-6.
[36]TAN S,CHEN H,YAO S,et al.Weather radar beam blockage correction using deep learning[C]∥ 2023 United States National Committee of URSI National Radio Science Meeting(USNC-URSI NRSM),2023:296-297.
[37]WANG Q,WANG L,ZHU X,et al.Remote sensing image gap filling based on spatial-spectral random forests[J].Science of Remote Sensing,2022,5:10048.
[38]WANG Y,ZHOU X,AO Z,et al.Gap-filling and missing information recovery for time series of MODIS data using deep learning-based methods[J].Remote Sensing,2022,14(19):4692.
[39]KADOW C,HALL D M,ULBRICH U.Artificial intelligence reconstructs missing climate information[J].Nature Geoscience,2020,13:408-413.
[40]葉瑤,黃瑤,宋雯雯,等.多源融合實況降水分析產品在大渡河流域的適用性評估[J].水利水電快報,2024,45(10):12-17.
[41]師春香,谷軍霞,韓帥,等.全國智能網格實況融合分析產品進展[C]∥第35屆中國氣象學會年會 S20 深度信息化:應用支持與智能發展,2018:5.
[42]覃曉東,朱仟,周東旸,等.基于深度學習的多源降水數據融合方法及其應用[J].人民長江,2023,54(11):68-75.
[43]HONG Z,HAN Z,LI X,et al.Generation of an improved precipitation data set from multisource information over the Tibetan Plateau[J].Journal of Hydrometeorology,2021,22:1275-1295.
[44]ZHANG L,LI X,ZHENG D,et al.Merging multiple satellite-based precipitation products and gauge observations using a novel double machine learning approach[J].Journal of Hydrology,2021,594:125969.
[45]XU G,WANG Z,XIA T.Mapping areal precipitation with fusion data by ANN machine learning in sparse gauged region[J].Applied Sciences,2019,9(11):2294.
[46]南天一,陳杰,丁智威,等.基于深度學習的青藏高原多源降水融合[J].中國科學:地球科學,2023,53(4):836-855.
[47]吳銘,張闖,朱洵,等.基于圖神經網絡多模態氣象數據融合的氣象要素預報方法:202310751074.8[P].2023-09-08.
[48]BAO-MEDINA J,MANZANAS R,GUTIRREZ J M.Configuration and intercomparison of deep learning neural models for statistical downscaling[J].Geoscientific Model Development,2019,13:2109-2124.
[49]PAN B,HSU K,AGHAKOUCHAK A,et al.Improving precipitation estimation using convolutional neural network[J].Water Resources Research,2019,55(3):2301-2321.
[50]VANDAL T,KODRA E,DY J,et al.Quantifying uncertainty in discrete-continuous and skewed data with Bayesian deep learning[C]∥ Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining,2018:2377-2386.
[51]YOSINSKI J,CLUNE J,BENGIO Y,et al.How transferable are features in deep neural networks?[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems,2014,2:3320-3328.
[52]VANDAL T,KODRA E,GANGULY S,et al.DeepSD:generating high resolution climate change projections through single image super-resolution[C]∥Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2017:1663-1672.
[53]WANG F,TIAN D,LOWE L,KALIN L,et al.Deep learning for daily precipitation and temperature downscaling[J].Water Resources Research,2021,57:e2020WR029308.
[54]周康,丁立新,程建新.基于深度學習超分辨率網絡的降水時間降尺度預測方法:202110077737.3[P].2021-04-30.
[55]LE TOUMELIN L,GOUTTEVIN I,HELBIG N,et al.Emulating the adaptation of wind fields to complex terrain with deep learning[J].Artificial Intelligence for the Earth Systems,2023,2(1):e220034.
[56]YU T,YANG R,HUANG Y,et al.Terrain-guided flatten memory network for deep spatial wind downscaling[J].Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:9468-9481.
[57]HHLEIN K,KERN M,HEWSON T,et al.A Comparative study of convolutional neural network models for wind field downscaling[J].Meteorological Applications,2020,27:e1961.
[58]SHEN Z,SHI C,SHEN R,et al.Spatial downscaling of near-surface air temperature basedon deep learning cross-attention mechanism[J].Remote Sensing,2023,15(21):5084.
[59]WEI X,WANG G,FENG D,et al.Deep-learning-based harmonization and super-resolution of near-surface air temperature from CMIP6 models(1850-2100)[J].International Journal of Climatology,2023,43(3):1461-1479.
[60]CAO Y,ZENG B,ZHANG F,et al.A spatial downscaling method for multielement meteorological data:case study from a water conservation area of the upper Yellow River basin[J].Theoretical and Applied Climatology,2023,153:853-871.
[61]TIE R,SHI C,WAN G,et al.CLDASSD:reconstructing fine textures of the temperature field using super-resolution technology[J].Advances in Atmospheric Sciences,2022,39:117-130.
[62]TIE R,SHI C,WAN G,et al.To accurately and lightly downscale the temperature field by deep learning[J].Journal of Atmospheric and Oceanic Technology,2022,39(4):479-490.
[63]陳穩,陳偉.科學與技術對比視角下的前沿主題識別與演化分析[J].情報雜志,2022,41(1):67-73,163.
[64]DOURY A,SOMOT S,GADAT S,et al.Regional climate model emulator based on deep learning:concept and first evaluation of a novel hybrid downscaling approach[J].Climate Dynamics,2022,60:1-29.
(編輯:謝玲嫻)
Review on application of artificial intelligence in meteorological datasets development
LI Bo1,PAN Meng2,SUN Yue2
(1.China Yangtze Power Co.,Ltd.,Yichang 443002,China;
2.Hubei Meteorological Information and Technological Support Center,Wuhan 430074,China)
Abstract:
Long-term meteorological datasets with high spatio-temporal resolution are of great significance to meteorological operations and scientific research.However,challenges such as low quality and low spatial resolution emerge during application of existing datasets.With the development of artificial intelligence,machine learning and deep learning algorithms have been applied in the field of meteorology.Addressing the technical challenges in the development of meteorological datasets,we outlined four application scenarios for artificial intelligence technologies:quality control of observations,interpolation and reconstruction of missing data,fusion of multi-source data,and downscaling of low-resolution gridding data.We comprehensively reviewed on the advantages and disadvantages of various machine learning models in these application scenarios and conducted a quantitative analysis on research frontiers and development trends using bibliometric methods.The research showed that compared to traditional methods,artificial intelligence algorithms are more competitive in terms of computational efficiency,accuracy,and application flexibility.It is recommended to further promote the application of artificial intelligence in the development of meteorological data products by establishing high-quality training datasets,enhancing the use of multi-source and heterogeneous data,and exploring modeling based on the physical mechanisms of meteorological data.
Key words:
meteorological datasets; artificial intelligence; machine learning; deep learning; quality control; downscaling