劉晴晴
(安徽大學,安徽 合肥230601)
組合預測是各單項預測方法的加權平均,通過提取各種單項方法賦予的有用信息來提高整體預測精度[1]。近年來,組合預測模型的獨特優勢獲得了眾多國內外學者的青睞,是未來組合預測發展的方向,已廣泛應用于經濟、交通、環境等各個領域[2-5]。目前組合預測的發展大多基于定權系數來構建模型,這樣就忽略了各單項預測方法預測數據之間的相互關系。為了進一步提高預測的性能和適應性,有必要探索變權重的組合預測模型。本文將K 近鄰算法運用于變權組合預測模型預測時點權系數的計算上。以傳統的變權組合預測權系數的計算方法為基礎,利用K 近鄰算法來篩選與預測時點最相關的已發生時點來計算預測時點的權重,而不是將已發生時點進行簡單平均,這樣確定的預測時點的權重就會避免更多不相關信息。


簡單平均法確定的預測權重是對過去連續時間點的最優權重進行平均,很明顯這樣確定的預測時點的權重會涵蓋多個不相關時點的信息。
K 近鄰算法是基于某種距離度量找出某樣本與其最近的K個樣本的一類算法[6],本文引入此方法來篩選與預測時點最相關的時點以解決傳統簡單平均法在計算預測時點權重時的信息冗余問題。

本文將選擇武漢市2018 年8 月20 日至2019 年8 月20 日的PM2.5 濃度數據進行實驗,使用的單項預測方法包括自回歸滑動平均(ARIMA)模型、支持向量回歸(SVR)模型、人工神經網絡(ANN)模型和長短期記憶(LSTM)神經網絡模型。為了降低計算的復雜度并保證維度相同,本文對每個時間節點取相同個數的近鄰。通過實驗對比,發現本文PM2.5 濃度預測中設定k 為6時取得了最好的實驗效果。為了驗證基于K 近鄰的變權組合預測模型效果,本文將定權組合預測模型與簡單平均法的變權組合預測模型也納入實驗對比中。圖1 顯示了30%測試集范圍內PM2.5 濃度的預測值與觀測值的擬合序列對比。

圖1 三種組合預測模型的擬合序列圖
圖1 中,模型1 為基于簡單平均法的變權組合預測,模型2為本文基于K 近鄰法的變權組合預測,模型3 為定權組合預測。圖1 表明,三種組合預測的結果與PM2.5 濃度的真實時間序列趨勢大體上是一致的,但是兩種變權組合預測更能有效地模擬PM2.5 濃度的時間序列變化特征,尤其是本文提出的基于K 近鄰的變權組合預測模型對一些明顯高于或低于鄰近值的特殊點,也能實現很好的預測。
本文采用誤差平方和(SSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)四個預測誤差指標對模型進行評估。表1 列出了三種不同組合預測模型的預測精度。

表1 三種不同組合預測模型的預測精度
以上結果顯示SSE、RMSE、MAE 和MAPE 四種預測誤差在模型2 中都是最小的,很明顯可以看出兩種變權組合預測模型的精度要高于定權組合預測模型的精度,變權組合預測模型2的效果又比變權組合預測模型1 的效果好。
為了更好的展示預測值與觀測值的效果,分別繪制模型1(變權)、模型2(變權)以及模型3(定權)之間的擬合效果如圖2所示。
與圖1 的結果一致,三種組合預測模型都能有效地模擬觀測值的時間序列特征,但是與觀測值之間的解釋方差分別為94.7%、95.2%和96.7%,因此擬合效果由低到高為模型3(定權)、模型1(變權)和模型2(變權),說明本文提出的基于K 近鄰的變權組合預測模型對PM2.5 濃度時間序列特征具有更好地捕捉性能。
本文從變權組合預測模型的預測時點權重的計算方法作為出發點,為改進傳統的簡單平均法,提出了基于K 近鄰算法的變權組合預測模型,實驗結果表明本文基于K 近鄰的變權組合預測模型的預測效果有著明顯優勢。無論是在擬合效果還是誤差評估中都表現出了優于其他對比模型的預測性能和穩定性。

圖2 三種不同組合預測模型的擬合效果