張仙 吳瓊 陳以祺 黎亞少 王巍巍
摘要 降水云系的發展過程及其特征分析,是云降水物理學中的一個重要問題.本文選取一次云發展過程中的700 hPa云水含量(Cloud Water Content,CWC)和大氣垂直方向上氣流速度(Omega,OMG)的1 h值,以信息熵來度量CWC空間分布的混沌程度,輔以OMG的時間變化來判斷云的發展,并提出了一種基于多尺度分解、Holt模型、自回歸滑動平均模型(Autoregressive Integrated Moving Average Model,ARIMA)和Lagrange Multiplier的組合預測方法.結果表明:1)CWC熵具有非線性和非平穩性;2)在云的不同發展階段,北方CWC熵序列的均值都小于南方,方差普遍大于南方;3)OMG區域均值與CWC熵的小波低頻重構的極值點在時間上有很好的對應關系,相近的極值點在南方中占50%,在北方中占83.3%,表明CWC熵可以在一定程度上反映云系的發展;4)CWC熵序列往往具有多種時間尺度特征,故進行多尺度分解之后再組合建模的Holt-ARIMA-Lagrange Multiplier模型比單一預測方法、單層分解的預測模型更優,準確率提高3%以上.關鍵詞 云水含量;信息熵;小波分解;經驗模態分解(EMD);自回歸滑動平均模型(ARIMA);Holt兩參數指數平滑法
中圖分類號P457.6
文獻標志碼A
0 引言
云是自然界水循環的有形結果,內部存在復雜的反饋機制.云水含量能夠反映云系的組織和形態,其信息熵能夠描述云系的自組織狀況.段海霞等[1]通過渦旋自組織動力學研究了西北地區幾次降水過程,得到了暴雨過程中降水云團自組織預報判斷的依據.張小娟等[2]于2019年利用中尺度數值模式WRF的數值模擬,結合衛星資料等,分析了冰雹云系的發展演變特征及其云物理結構.陳逸倫[3]基于云系和降水系統的整體性,揭示了云團時空變化特征.學者們也對中國不同地區云水量的時空分布及變化趨勢進行了分析,云水量存在季節變化特征,南多北少[4-5].云水含量是氣候數值模擬的預報參量之一,也是研究云系內部發展的重要參數.
實測數據概率分布的離散性較高,故信息熵成為度量云水含量不確定程度的有效工具.1995年,張學文等[6]提出熵氣象學方法.王惠娟[7]提出基于信息熵的PM2.5濃度的不確定研究,在小范圍內同時考慮了指標的變化規律和空間分布.Berta 等[8]研究了熵的不確定度以及測量的可逆性.李麗娟等[9]總結了熵不確定度研究的發展歷史和進展,對不確定關系進行推廣,得到了更加普適的數學關系表達式.
氣象數據通常具有非平穩、波動大等特點,在時間序列分解研究方面,單一的分解誤差常常較大.由于不同分解方法各有優勢與不足,采用混合多尺度分解方法,再對分解后的分量序列分別進行預測,然后集成,最終的預測效果較好[10].例如,自回歸滑動平均模型(Autoregressive Integrated Moving Average Model,ARIMA)適用于平穩和非平穩序列,故ARIMA具有廣泛的適用性.Geetha等[11]通過ARIMA模型預測了颶風在未來一段時間內的發展趨勢;Xiong 等[12]提出一種混合建模框架,將區間Holt指數平滑法和多輸出支持向量回歸相結合,發現對線性趨勢數據的預測效果較好;汪漂[13]提出混合區間多尺度分解模型,將區間序列分解成區間趨勢和殘差,分別利用Holt、支持向量機和BP神經網絡預測;Wu等[14]提出一種基于二次分解的AQI組合預測的優化算法,綜合考慮了多種影響因素.針對非線性、非平穩、多時間尺度的時間序列,采用多尺度分解與組合預測的方法能夠有效提高模型的預測性能[15-17].
本文選取一次云發展過程中的700 hPa云水含量的信息熵,借助分量分解、Holt、ARIMA模型和Lagrange Multiplier集成等方法,建立一種適用于非線性、非平穩氣象數據的組合預測模型,以期為云物理學中云系組織形態演變規律研究提供幫助.
1 數據和描述性統計分析
1.1 研究數據選取2020年9月30日至10月3日中國部分地區(96.62°~143.39°E,26.16°~53.13°N,圖1)700 hPa云水含量(Cloud Water Content,CWC)和大氣垂直方向上氣流運動速度(Airflow Velocity in the Vertical Direction of the Atmosphere,OMG)的1 h數據,表1列出數據提取的閾值.共有96個時間點,時間1表示2020年9月30日0時,時間2表示9月30日1時,……,時間96表示10月3日23時,期間有一次降水過程.研究數據來自外場觀測資料和Weather Research and Forecast Model模式資料,范圍包括東北地區、華北地區、中部地區和絕大部分西南地區等,以40°N為界的南、北各呈現出一大片云,格點為6 km×6 km.
大氣垂直方向上的運動與云中水汽的凝結密切相關,直接影響云的發展.根據OMG來劃分4 d內云系發展階段,如圖2a所示,根據北方大氣垂直方向上氣流速度均值的變化情況,以一個周期運動為一個階段,將4 d內云的整體變化分為5個階段.分別是:第1階段:0~27;第2階段:28~38;第3階段:39~76;第4階段:77~86;第5階段:87~96.如圖2b所示,根據南方大氣垂直方向上氣流速度均值的整體變化情況,將4 d內云的變化分為6個階段.分別是:第1階段:0~24;第2階段:25~47;第3階段:48~62;第4階段:63~74;第5階段:75~85;第6階段:86~96.
圖2 2020-09-30—10-03北方和南方的OMG Fig.2 OMG values in the north (a) andthe south (b) from Sept. 30 to Oct. 3 of 2020
1.2 CWC信息熵的概況
為了研究云系如何組織和發展,信息熵是一個重要的工具.熵的本質內涵是變化和不確定度,熵越小,其有序度越高,反之則混亂程度越高[6].為了研究云水含量CWC的混沌程度,本文通過其信息熵值來進行接下來的分解與預測研究.
為了反映云系狀況,針對每個時刻CWC超閾值的空間分布數據,計算信息熵值,連接所有時刻的熵值繪制時序圖(圖3).南方CWC熵整體上大于北方,說明南方CWC空間分布數據的不確定度更大,并且周期性較北方明顯.通過箱線圖(圖4)對比南、北方CWC熵的離散情況以及異常值,南方異常值數據較多且南分布較為集中.
進行ADF(Augmented Dickey-Fuller)平穩性檢驗,得到北方數據的P值為0.58,布爾判定結果為h=0,南方數據的P值為0.81,布爾判定結果為h=0,說明南、北方CWC熵序列均是非平穩的.進一步,進行BDS檢驗(表2),最大嵌入維數設為6,BDS統計量的值隨著嵌入維度的增加而增加,且P值都小于0.01,說明南、北方CWC熵都有顯著的非線性.
依據圖2劃分的云系發展階段,繪制箱線圖來對比南、北方云在不同發展階段下的差異.由圖5可知,北方的中位數呈先下降后上升趨勢,南方先升后降又升.隨著云系的發展,南方離散程度持續下降,而北方變化不大.
由表3可知,在云系的不同發展階段,北方CWC信息熵均值都小于南方,方差普遍大于南方.北方最大均值出現在第5階段,為2.92,最大方差在第3階段,為0.05;南方最大均值在第4階段,為3.18,最大方差在第1階段,為0.02.
2 CWC信息熵的多尺度分解CWC信息熵是非線性、非平穩的時間序列,且云系中存在復雜的物理變化過程.為了研究時間序列的內部信息與序列結構,通常將CWC熵在一組基上展開,進行多尺度分解.不同的多尺度分解方法有不同的參數設置和層數,本文綜合考慮不同分解方法的優缺點,選擇小波分解[18]和經驗模態(Empirical Mode Decomposition,EMD)分解.小波分解保留信號時域上的特征和頻域上的分辨率,但是基函數以及分解層數需要自行設置.EMD分解不需要提前設置基函數和分解層數,具有很好的自適應能力,但存在邊緣效應.因此,本文綜合運用了小波分解和EMD分解兩種方法.
2.1 小波分解與重構選擇sym4作為小波分解的基函數,分解層數設為6層,結果如圖6,其中,S1,S2,…,S5表示CWC信息熵分解后的分量,RES為趨勢序列,趨勢序列反映整體趨勢.雖然將CWC信息熵值分解成平穩有規律的序列,但是分解的層數太多,單獨研究每個序列過程較為繁瑣,導致很難給出所有分量的物理解釋,并且會加大后期預測的難度,故需要重構分解后的序列.將S1,S2,S33個部分疊加作為高頻項a1,代表CWC信息熵的較大波動,S4,S5疊加作為低頻項a2,代表CWC信息熵的較小波動,RES為分解后的趨勢序列,重構結果如圖7所示.計算重構序列的3個輔助指標.方差貢獻率是重構后序列的方差與原序列方差之比,衡量分量對原序列的貢獻率.平均周期定義為各個分量樣本數與極大值或者極小值點個數之比,用來表征序列的周期長短,平均周期的單位是點數.相關系數則是描述各個分量與原序列的線性相關程度.計算結果如表4所示,無論南方還是北方,3個輔助指標均為趨勢項>低頻項>高頻項.
此外,OMG區域均值能夠在一定程度上反映云的發展階段,例如:出現極大值點往往表示云系處于發展階段,出現極小值點表示云系處于消散階段.CWC熵值重構低頻項的極值如果也能出現相應的信號,說明利用CWC熵值開展研究是具有信息挖掘價值的,有助于判斷云系發展階段.OMG區域均值與CWC信息熵小波分解的重構低頻項極值點相近,甚至有些是重合的,如表5所示.相近,這里指時間相差在2個時間點以內.對于OMG均值序列,CWC信息熵的小波分解低頻重構的相近極值點為南方占44.4%,北方占55.5%;對于CWC熵值重構低頻項,南方OMG均值的極值點的相近占50%,北方占83.3%.這里的百分比,反映的是CWC熵值重構低頻項與OMG均值的極值點的信號響應程度.
2.2 EMD分解與重構EMD分解方法[19]需要設置停止條件defstop=[0.05,0.5,0.05],迭代次數為1 000次,結果如圖8所示,其中IMF1,IMF2,…,IMFn是分解后的序列,RES為分解后的趨勢序列.
考慮到分解層數太多不利于預測,將IMF1和IMF2兩個部分疊加作為高頻項a1,IMF3和IMF4疊加作為低頻項a2,RES為分解后的趨勢序列,重構如圖9所示.
由表6可見:1)方差貢獻率:低頻項>趨勢項>高頻項;2)周期:趨勢項>低頻項>高頻項.相關系數都通過了α=0.05的顯著性檢驗,南方CWC熵:趨勢項>低頻項>高頻項;北方CWC熵:低頻項>高頻項>趨勢項.運用不同分解方法,各個指標方差貢獻率和相關系數的計算結果的排序可能存在差異,周期的排序沒有發生變化.
3 CWC信息熵的組合預測
3.1 趨勢項的Holt預測
3.2 高頻項和低頻項的ARIMA預測對CWC信息熵分解后的高頻項和低頻項的時間序列進行Box.test白噪聲檢驗[23]和單位根平穩性檢驗[24].表8顯示,南、北方小波重構和EMD重構后的高頻項均是平穩的非白噪聲序列,故不需要差分;北方小波重構和南方EMD重構的低頻項均是非平穩序列,需要進行差分,且兩個序列的一階差分即可滿足序列的平穩性.綜合考慮兩種情況選擇最優模型,結果如表9所示.
選擇CWC信息熵前66個數據進行訓練建模、后30個的數據進行預測,結果如圖11和12所示.ARIMA模型對于波動情況預測較好,但是對峰值、谷值等預測精度還有待提高,低頻項的訓練效果明顯優于高頻項.
3.3 Lagrange Multiplier組合預測
3.4 組合模型性能分析
選取3個誤差評價指標評估預測模型的性能,擬合優度R2取值范圍為0~1,越接近于1擬合效果越好,平均絕對百分比誤差MAPE和均方根誤差RMSE的范圍都是[0,+∞),越小越好[25].由表10可見,不同分解方法下,組合預測誤差有一定的差異.北方和南方CWC信息熵的組合模型,EMD分解下的RMSE和R2都更優,小波分解下的MAPE更優.不同的分解方法各有優劣,故本文選擇兩種分解方法進行研究.
此外,對建立的Holt-ARIMA-Lagrange Multiplier組合模型進行對比分析.模型1未對CWC信息熵進行分解,直接采用ARIMA模型預測;模型2采用BP神經網絡[26]預測;模型3和模型4分別使用一種多尺度分解,然后對分解后的趨勢項序列進行Holt預測,高頻和低頻項序列進行ARIMA預測,最后將單項預測結果相加,得到最終預測結果;模型5為本文提出的組合模型.由表11可見,本文建立的組合模型對南北方CWC信息熵的預測效果最好.模型1對不分解序列進行預測,根據準確率等于1減去誤差進行計算,只有52.33%.對比模型1、3、4,對序列進行多尺度分解后可以提高預測準確率.對比模型3、4、5,綜合兩種分解方法的預測效果優于單一分解,模型準確率提高了3%~4%.
4 結論
在降水云系的發展過程中,700 hPa云水含量是表征云的生成、發展、消散等階段的重要云物理量.本文提出混合多尺度分解的Holt-ARIMA-Lagrange Multiplier組合模型,對2020年9月30日—10月3日一次降水云系發展過程中的CWC空間分布信息熵的1 h值進行時間序列研究,不僅能夠定量衡量云發展過程中的CWC的混沌程度及其變化規律,也能夠對于云系的自組織狀況進行初步分析.1)計算CWC信息熵的1 h值,發現,以40°N為界,北方和南方的標準差分別為0.26和0.13,偏度分別為-0.67和-1.23,峰度分別是2.95和4.北方波動性較大,南方更加左偏且分布更加陡峭.在時間序列特征上,南北方的BDS統計量P值均小于0.01,ADF統計量的P值均大于0.05,說明南北方CWC信息熵序列均是非線性且非平穩的.2)在云的不同發展階段,CWC信息熵的特征各不相同.北方的中位數先降后升,南方先升后降又升.隨著云系的發展,南方離散程度持續下降,而北方變化不大.北方方差最大為0.05,均值最大為2.92;南方方差最大為0.02,均值最大為3.18.3)OMG均值與CWC信息熵的小波低頻重構的極值點存在著一定的對應關系,設定±2 h為時間相近的范圍,則相近的極值點在南方云中占50%,在北方云中占83.3%,說明CWC熵可以在一定程度上反映云系的發展.4)綜合運用小波分解和經驗模態分解,并重構CWC信息熵的分量,基于ARIMA模型預測重構后的高頻項和低頻項、基于Holt模型預測趨勢項,最后基于Lagrange Multiplier法集成CWC信息熵的預測值,建立Holt-ARIMA-Lagrange Multiplier組合模型.通過實證分析,本文提出的組合模型比單一預測方法、單層分解的預測模型的準確率提高了3%以上.
參考文獻 References
[1]段海霞,李耀輝,張強,等.西北區域幾次暴雨過程中的自組織現象[J].高原氣象,2011,30(4):890-900DUAN Haixia,LI Yaohui,ZHANG Qiang,et al.Phenomenon of vortex self-organization of several rainstorm processes in northwest region of China[J].Plateau Meteorology,2011,30(4):890-900
[2] 張小娟,陶玥,劉國強,等.一次冰雹天氣過程的云系發展演變及云物理特征研究[J].氣象,2019,45(3):415-425ZHANG Xiaojuan,TAO Yue,LIU Guoqiang,et al.Study on the evolution of hailstorm and its cloud physical characteristics[J].Meteorological Monthly,2019,45(3):415-425
[3] 陳逸倫.基于多源衛星數據的云團和雨團識別及其特征研究[D].合肥:中國科學技術大學,2019CHEN Yilun.Identification of cloud clusters and rain cells and their features from multi-satellite observations[D].Hefei:University of Science and Technology of China,2019
[4] 程敬雅,游慶龍,蔡淼.全球云水量氣候分布及變化趨勢特征分析[J].氣候與環境研究,2021,26(5):541-555CHENG Jingya,YOU Qinglong,CAI Miao.Climatic distribution and trend characteristics of global cloud water content[J].Climatic and Environmental Research,2021,26(5):541-555
[5] 劉菊菊,游慶龍,周毓荃,等.基于ERA-Interim的中國云水量時空分布和變化趨勢[J].高原氣象,2018,37(6):1590-1604LIU Juju,YOU Qinglong,ZHOU Yuquan,et al.Spatiotemporal distribution and trend of cloud water content in China based on ERA-Interim reanalysis[J].Plateau Meteorology,2018,37(6):1590-1604
[6] 張學文,馬力.熵氣象學簡介[J].氣象,1995,21(1):52-56ZHANG Xuewen,MA Li.Entropy meteorology[J].Meteorological Monthly,1995,21(1):52-56
[7] 王惠娟.基于信息熵的大氣PM2.5濃度的不確定性研究[D].武漢:武漢理工大學,2016WANG Huijuan.The research of PM2.5 atmospheric concentration uncertainty based on information entropy[D].Wuhan:Wuhan University of Technology,2016
[8] Berta M,Wehner S,Wilde M M.Entropic uncertainty and measurement reversibility[J].New Journal of Physics,2016,18(7):073004
[9] 李麗娟,明飛,宋學科,等.熵不確定度關系綜述[J].物理學報,2022,71(7):25-41LI Lijuan,MING Fei,SONG Xueke,et al.Review on entropic uncertainty relations[J].Acta Physica Sinica,2022,71(7):25-41
[10] 車金星.復雜數據的變量選擇與預測方法研究[D].西安:西安電子科技大學,2019CHE Jinxing.Variable selection and forecasting method for complex data[D].Xian:Xidian University,2019[11] Geetha A,Nasira G M.Time series modeling and forecasting:tropical cyclone prediction using ARIMA model[C]//2016 3rd International Conference on Computing for Sustainable Global Development (INDIACom).New Delhi,India.IEEE,2016:3080-3086[12] Xiong T,Li C G,Bao Y K.Interval-valued time series forecasting using a novel hybrid HoltI and MSVR model[J].Economic Modelling,2017,60:11-23[13] 汪漂.混合區間多尺度分解的區間時間序列組合預測[J].運籌與管理,2021,30(10):159-164WANG Piao.An interval time series combination forecasting approach based on hybrid interval multi-scale decomposition[J].Operations Research and Management Science,2021,30(10):159-164
[14] Wu Q L,Lin H X.A novel optimal-hybrid model for daily air quality index prediction considering air pollutant factors[J].Science of the Total Environment,2019,683:808-821
[15] Monjoly S,André M,Calif R,et al.Hourly forecasting of global solar radiation based on multiscale decomposition methods:a hybrid approach[J].Energy,2017,119:288-298
[16] 李棟,薛惠鋒,張燕.基于經驗模態分解的降水量組合預測模型[J].計算機仿真,2019,36(3):458-463LI Dong,XUE Huifeng,ZHANG Yan.Combined forecasting model of precipitation based on empirical mode decomposition[J].Computer Simulation,2019,36(3):458-463
[17] Xiang Y,Gou L,He L H,et al.A SVR-ANN combined model based on ensemble EMD for rainfall prediction[J].Applied Soft Computing,2018,73:874-883
[18] 龐金鳳,劉波,張波,等.基于小波分解的沙塵天氣發生日數預測組合模型研究:以2008—2016年策勒沙漠-綠洲過渡帶沙塵天氣發生時序為例[J].氣象,2019,45(5):651-658PANG Jinfeng,LIU Bo,ZHANG Bo,et al.Study on the combined model of forecasting the days of sand-dust weather based on wavelet decomposition:taking the time series of dust weather in the transitional zone of Qira desert-oasis during 2008-2016 as an example[J].Meteorological Monthly,2019,45(5):651-658
[19] Chen Q C,Wen D,Li X Q,et al.Empirical mode decomposition based long short-term memory neural network forecasting model for the short-term metro passenger flow[J].PLoS One,2019,14(9):e0222365
[20] 楊國華,鄭豪豐,張鴻皓,等.基于Holt-Winters指數平滑和時間卷積網絡的短期負荷預測[J].電力系統自動化,2022,46(6):73-82YANG Guohua,ZHENG Haofeng,ZHANG Honghao,et al.Short-term load forecasting based on Holt-Winters exponential smoothing and temporal convolutional network[J].Automation of Electric Power Systems,2022,46(6):73-82
[21] 劉金培,汪漂,黃燕燕,等.基于區間時間序列小波多尺度分解的組合預測方法[J].統計與決策,2020,36(19):5-9LIU Jinpei,WANG Piao,HUANG Yanyan,et al.Combined forecasting method based on interval time series wavelet multi-scale decomposition[J].Statistics & Decision,2020,36(19):5-9
[22] Yang B,Xiang X Q,Kong W Z,et al.Adaptive multi-task learning using Lagrange multiplier for automatic art analysis[J].Multimedia Tools and Applications,2022,81(3):3715-3733
[23] 李為東,李莉,徐巖.基于時間序列分析的北京地區PM2.5濃度研究[J].運籌學學報,2018,22(2):115-126LI Weidong,LI Li,XU Yan.The concentration research of PM2.5 in Beijing with time series analysis[J].Operations Research Transactions,2018,22(2):115-126
[24] 左秀霞.帶高次趨勢項的ADF單位根檢驗[J].數量經濟技術經濟研究,2019,36(1):152-169ZUO Xiuxia.ADF unit root test with high order trend term[J].The Journal of Quantitative & Technical Economics,2019,36(1):152-169
[25] 丁嚴,許德合,曹連海,等.基于CEEMD的LSTM和ARIMA模型干旱預測適用性研究:以新疆為例[J].干旱區研究,2022,39(3):734-744DING Yan,XU Dehe,CAO Lianhai,et al.Applicability of the LSTM and ARIMA model in drought prediction based on CEEMD:a case study of Xinjiang[J].Arid Zone Research,2022,39(3):734-744
[26] Li X N,Cheng X,Wu W J,et al.Forecasting of bioaerosol concentration by a back propagation neural network model[J].Science of the Total Environment,2020,698:134315Information entropy time series of CWC based onHolt-ARIMA-Lagrange Multiplier
ZHANG Xian WU Qiong CHEN Yiqi LI Yashao WANG Weiwei
1Meteorological Center of Air Traffic Regulation of Civil Aviation in North China,Beijing 100621
2School of Mathematics and Statistics,Nanjing University of Information Science & Technology,Nanjing 210044
3Experimental Teaching Center for Meteorology and Environment,Nanjing University of Information Science & Technology,Nanjing 210044
Abstract The development process and characteristic analysis of precipitation cloud system is an important issue in the field of cloud precipitation physics.Here,the 700 hPa Cloud Water Content (CWC) and the 1h value of airflow velocity (omega,OMG) in the vertical direction of the atmosphere are used to measure the chaos degree of CWC distribution via the information entropy and judge the cloud development via OMG time series,hence a combined prediction model is proposed based on hybrid multi-scale decomposition,Holt model,Autoregressive Integrated Moving Average model (ARIMA) and Lagrange Multiplier.The results show that,the CWC entropy has nonlinear and non-stationary characteristics;the clouds over the north have smaller means of the CWC entropy sequence and larger variance compared with those over the south regardless of the cloud development stage;a good temporal corresponding relationship is found between the regional average OMG and the extreme point reconstructed by the wavelet low-frequency of the CWC entropy,and close extreme value points account for 50% in clouds over the south and 83.3% in clouds over the north,showing that CWC entropy can somehow reflect the cloud development;the multiple timescale features of CWC entropy sequences make the multi-scale decomposed Holt-ARIMA-Lagrange Multiplier model more accurate than the single prediction method and single-layer decomposed prediction model,with accuracy improvement of more than 3%.
Key words cloud water content (CWC);information entropy;wavelet decomposition;empirical mode decomposition (EMD);autoregressive integrated moving average (ARIMA);Holt two-parameter exponential smoothing