葛耀棟



摘 ?要:全球變暖是目前全球氣溫變化的主要特征,分析影響全球氣溫的眾多因素,本文將選取CO2濃度、地球凈輻射、海洋溫度作為影響全球氣溫的影響因素研究。對全球氣溫的準確預測,將在農業生產分配、自然災害防治等方面有重要作用。若對全球氣溫進行較為精確的預測,可使用機器學習模型實現。主流的機器學習模型有隨機森林、支持向量機、神經網絡、Adaboost、Xgboost等。這些模型在問題維度較低、空間復雜度不太高的情況下,均可達到95%以上的準確率。本文將采用隨機森林模型作為核心算法,完成對全球氣溫的預測。同時采用滑動平均、指數平滑、非線性規劃等方法,完成對三種影響因素的時間序列預測,以及預測結果的優化。
關鍵詞:氣溫變化;隨機森林;預測
模型建立
近十多年來,全球氣溫仍呈現出上升趨勢,同時世界各地的極端氣候、自然災害也愈加頻發[1],對人們的日常生產以及自然環境造成嚴重影響。本文通過對已有數據進行分析,利用設計氣溫變化的預測模型實現對未來全球氣溫的預測估計。
1.隨機森林模型的建立
隨機森林模型為集成算法[2]的一種,其分類器單元為決策樹。原始數據共四維,分別為CO2濃度、地球凈輻射、海洋溫度、全球氣溫。將CO2濃度、地球凈輻射、海洋溫度作為模型訓練的特征輸入,對全球氣溫進行預測。原數據共130條,覆蓋年份1880-2009年,分別取原數據前50年、80年、105年以及全部用作隨機森林模型訓練,其余年份數據用作模型預測。在本文解決的問題中,需實現對未來30年內全球氣溫的預測。觀察原始數據可知其均存在上升的趨勢,預測數據勢必會超出訓練集的數據范圍,僅通過重新選取訓練數據集的方式在此問題中無法發揮作用。因此,本文將選取一階差分的方法對原始數據退勢,圖1為原始數據退勢后序列。
退勢后的序列變得平穩且存在一定的周期性,能夠用作模型的預測。將CO2濃度退勢序列、地球凈輻射退勢序列、海洋溫度退勢序列作為新模型的特征輸入,全球氣溫退勢序列作為新模型的預測值。本文選取70%數據用于模型訓練。由于退勢后序列全部為差分量,模型的評估需選用原始數據,在差分量還原的過程中需要求和操作,因此必須將全部預測數據用作模型評估。模型評估函數選用平均絕對百分比誤差(Mean Absolute Percentage Error)。
式中為樣本數量,為原始數據標簽值,為模型預測值。
通過隨機搜索(Random Searching)、網格搜索(Grid Searching)方法找到模型的最優參數[4],分類器數量(n_estimators)為700,最大深度(max_depth)為8,內部節點再劃分所需最小樣本數(min_samples_split)為12,葉子節點最少樣本數(min_samples_leaf)為1,最終將預測結果求和,完成模型評估。至此,完成模型的構建。
模型可以反應各特征的重要性占比,通過模型可知,特征重要性占比為:CO2濃度退勢序列6.5%、地球凈輻射退勢序列3.4%、海洋溫度退勢序列90.1%。海洋溫度退勢序列重要性的占比最大,與本文開始的觀測猜想一致。
2.滑動平均法對CO2濃度的預測
CO2濃度數據具備一定指數特性,可通過對數函數將其轉化為直線進行預測。但模型的輸入為CO2濃度退勢序列,對數操作將對退勢序列造成不小影響,影響最終預測結果。本文采用滑動平均法,完成對CO2濃度的預測。
窗口大小為5,初始化窗口權重為,增長因子,懲罰系數,其中窗口權重需滿足以下約束條件:
設預測值為,的計算公式如下:
結合實際參數應逐漸減小,參數應逐漸增大,通過非線性規劃算法求解到一組合適的窗口權重參數,完成對CO2濃度以及CO2濃度退勢序列的預測。
3.指數平滑法對地球凈輻射、海洋溫度的預測
地球凈輻射序列與海洋溫度退勢序列均表現出周期性,可采用小波分析、指數平滑等方法實現預測。本文采用三次指數平滑方法(Holt-Winter)預測。選取合適的周期參數,并采用非線性規劃算法優化預測結果。
4.預測結果的優化
將預測結果重新整合,使用訓練好的隨機森林模型完成對未來30年的全球氣溫預測。預測結果與目標函數在1880、1920、1930、1965等特殊時間點重合,整體趨勢同原始全球氣溫序列。對模型預測結果做出修正,本文采用線性回歸修正模型預測結果。修正公式如下:
式中為待修正預測值,為擬合直線預測值,為全球氣溫原始數據,為全球氣溫原始數據長度,為待求解的參數。通過非線性規劃算法,得到一組合適參數,完成對模型預測結果的修正,修正結果如圖2所示。
結論
本文通過隨機森林模型,結合滑動平均、指數平滑法完成對未來30年全球氣溫的預測,使用非線性規劃法修正預測結果。找到可能影響全球變暖的主要因素,包括海洋溫度、CO2濃度等。其中影響全球氣溫最直接的因素為海洋溫度,但海洋溫度的升高只是結果,其可能與不同年代的火山活動、太陽黑子活動有關,是需要科研人員考察的另一方向;次要因素為CO2濃度的增大。通過預測結果可以看出,全球氣溫在近一段時間內仍存在上升趨勢。
參考文獻
[1] ?王澄海,李健,許曉光.中國近50年氣溫變化準3年周期的普遍性及氣溫未來的可能變化趨勢[J].高原氣象,2012,31(01):126-136.
[2] ?吳興惠,周玉萍,邢海花.集成學習之隨機森林分類算法的研究與應用[J].電腦知識與技術,2020,16(21):26-27.