徐海峰,黃小莉,張 政
(西華大學 電氣與電子信息學院,四川 成都 610000)
空氣污染是當今世界面臨的十分嚴峻的問題,不僅對人體健康存在嚴重威脅,還對戶外活動產生限制。空氣質量指數(Air Quality Index,AQI),是衡量空氣質量的關鍵指標。通常而言,AQI的數值越大,表明空氣的污染越嚴重,對人體的危害愈大。
目前而言,許多高校和企業在空氣質量預測方面做了大量的研究。例如,華中科技大學韋德志在2009年使用BP神經網絡對華中某市空氣質量進行預測,能準確分析出主要污染因子及其日平均濃度[1];河北科技大學張冬雯團隊在2020年提出了基于長短期記憶單元(LSTM)的神經網絡模型,成功預報了美國休斯頓和印度德里地區的空氣質量水平,結果優于使用BP神經網絡[2];中國科學院沈陽計算技術研究所祁柏林團隊在2021年提出了基于GCN和LSTM的空氣質量預測模型,分別提取小微型監測站之間的空間特征和特征并綜合時空特征進行預測,結果要優于LSTM神經網絡[3];上海師范大學趙前矩等在2022年提出RF-CRNN模型預測上海市空氣質量,使用隨機森林(Random Forest,RF)算法選擇特征,使用CRNN模型預測取得良好效果[4];Du Shengdong等提出了一種基于一維CNNs和Bi-LSTM的聯合混合深度學習框架,用于多元空氣質量相關時間序列數據的共享表示特征學習,預測PM2.5具有較高的準確性[5];Yan Rui等提出建立多時間多站點深度學習模型(LSTM,CNN,CNN-LSTM)預測北京每小時空氣質量取得良好效果[6]。
上述研究中采用的大多是單一的或改進的神經網絡模型,而單一的模型的優勢與局限性各不相同,一定程度上會影響整體的預測效果。本文提出一種自適應Boosting組合模型應用于空氣質量預測領域,對于充分發揮單一模型的優勢,提高預測準確性具有重要意義。
受到醫院“會診”機制的啟發,提出一種自適應的Boosting組合模型。將Boosting模型中的XGBoost模型、LightGBM模型和AdaBoost模型作為基礎模型,采用誤差平方和倒數法等五種方法,根據三個模型在當前預測任務上的預測精度自適應地分配權重,如同醫生會診,醫生的話語權根據病人病情和醫生擅長的領域分配。自適應Boosting組合模型旨在充分利用三個模型優勢,提高空氣質量的預測精度。
將獲取的實驗數據輸入,采用簡單加權平均法、有效度確定權重系數法、誤差平方和倒數法、標準差法、等權重法,根據三個基礎模型的預測精度自動分配其所占權重,將三個模型的預測結果乘以權重再疊加,得到最終的預測值。自適應Boosting組合模型流程圖如圖1所示。

圖1 空氣質量組合預測模型流程圖
XGBoost模型是由華盛頓大學陳天奇博士在2016年提出的一種Boosting模型。與傳統GBDT算法相比,利用二階泰勒公式展開損失函數、在目標函數中加入正則化項[7]等方法提升了運行速度和分類效果。LightGBM是微軟在2017年發布的基于決策樹算法的改進框架。相比于其他的Boosting集成方法,其訓練速度更快,內存占用更少,在面對大樣本高緯度數據時耗時較少。自適應增強算法簡稱AdaBoost算法,是目前被廣泛使用的Boosting算法之一,具有較高的檢測速率和不易出現過適應現象等優點[8]。
1.2.1 誤差平方和倒數法
誤差平方和倒數法是指根據基礎模型在預測任務誤差平方和來確定基礎模型權重,計算公式如式(1)所示,子模型的誤差平方和越小,說明預測效果越好,所占的權重越高。

式中SSEk表示第k個子模型的誤差平方和,ωk表示第k個子模型所占的權重。
1.2.2 簡單加權平均法
將每個基礎模型的誤差平方和按照降序排列,誤差平方和越大的模型排名越靠前,排名越靠前的模型分配的權重越小,計算公式如下:

式中ei表示第i個基礎模型的排名,ωk表示第k個子模型所占的權重。
1.2.3 有效度確定權重系數法
預測有效度是反映預測精度的有效指標之一,根據模型精度大小對其預測能力進行有效度測定[9]。計算有效度需先求出子模型的預測精度序列,再分別求出精度序列的均值與標準差,如式(3)所示。

式中Ak表示第k個子模型的預測精度序列,Ek表示第k個子模型的精度序列的均值,而σk表示的是第k個子模型的精度序列的方差,Dk為第k個子模型的預測有效度,ωk為第k個子模型所占的權重。
1.2.4 等權重法
等權重法是指每個子模型的權重相同,如式(4)所示。

式中N表示基礎模型的總數,ωk表示第k個子模型所占的權重。
1.2.5 標準差法
標準差是方差的均方根值,也代表著模型的預測值與真實值的偏離情況,根據標準差確定子模型的權重,標準差越小,所占的權重就越大,計算公式如下:

式中Sk代表第k個子模型的標準差,ωk表示第k個子模型所占的權重。
為了直觀反映自適應Boosting組合模型在空氣質量預測領域的效果,選擇平均絕對誤差(MAE)、決定系數(R2)、均方根誤差(RMSE)三個指標評價模型預測效果,計算公式如下。

式中y(i)表示樣本實際值,y^(i)表示樣本預測值,yˉ表示樣本實際平均值。MAE、RMSE描述的是樣本實際值與模型預測值的偏離程度,兩者均越小越好;R2用于判斷預測值與真實值的擬合情況,越接近于1越好。
實驗數據是從空氣質量監測平臺上獲取到的中 國 某 城 市2020年7月13日0:00到2021年7月13日0:00的空氣質量數據。去除缺失值后共計8 506條,數據集中的指標信息如表1所示。實驗環境為電子信息實驗室,仿真軟件為Python 3.9,計算機處理器為i5-12400,內存為16 GB,操作系統為Windows 11。

表1 實驗數據指標信息表
特征選擇能夠提高學習算法性能和數據泛化能 力[10]。本 文 使 用RF、XGBoost和LightGBM三 種 模型對數據集的所有特征進行重要性排序,為了保證特征選取結果全面,將根據三種算法排序的綜合結果進行選擇特征,特征重要性排序如表2所示。

表2 特征重要性表
RF模型、XGBoost模型與LightGBM模型對數據集的所有特征進行重要性排序如圖2、圖3和圖4所示。
圖2為RF模型生成的特征重要性排序圖,圖3為XGBoost模型生成的特征重要性排序圖,圖4為LightGBM模型生成的特征重要性排序圖,縱坐標為特征名稱,橫坐標為特征重要性值。分析圖2、圖3、圖4 可知,三種模型對所有特征的重要性排序不盡相同,但是三種模型均是PM2.5、PM10、NO2、O3排在前四,因此可以認為PM2.5、PM10、NO2、O3是影響空氣質量的主要因素。值得注意的是,RF模型的排序結果中direction(風向)與wind(風速)對空氣質量影響最小,XGBoost模型的排序結果中是SO2與wind(風速),而LightGBM模型認為是direction(風向)與SO2。為了提高數據的泛化能力以及模型的預測精度,本文選擇PM2.5、PM10、NO2、O3、CO、SO2、temperature(溫度)、direction(風向)、pressure(壓強)、wind(風速)、humidity(濕度)作為特征。

圖2 RF模型特征重要性排序圖

圖3 XGBoost模型特征重要性排序圖

圖4 LightGBM模型特征重要性排序圖
將選擇好的特征以及實驗數據按照訓練集與測試集占比為7:3的比例劃分,為了避免因每次數據集劃分不同帶來的誤差,將前5 955條數據固定作為訓練集,將剩余數據作為測試集送入到自適應Boosting模型進行訓練,利用誤差平方和倒數法等五種方法根據AdaBoost、XGBoost與LightGBM三個模型的表現自適應地分配權重,將三個模型的預測結果按照權重重構得到最終的預測結果。
將數據送入模型中訓練,AdaBoost、XGBoost與LightGBM三個單一模型以及五種權重計算方法下的組合模型的綜合評價指標如表3所示。
由表3可以可知,在單一模型中,效果最好的是LightGBM模 型,MAE為8.108 7,RMSE為10.407 8,R2為0.849 6,三項指標均為單一模型中的最優。每種組合方法構造的自適應Boosting組合模型的RMSE與MAE均小于單一的模型,R2均大于單一模型。組合模型中精度最高的是采用誤差平方和倒數法進 行 組 合,MAE為7.124 4,RMSE為9.367 1,R2為0.863 9,與單一模型相比,MAE平均減小了1.95,RMSE平均減小了2.26,R2平均提高了0.05,驗證了自適應Boosting組合模型的有效性,同時也證明了自適應Boosting組合模型能提高空氣質量預測精度。

表3 模型綜合指標對比表
將各種組合方法以及單一模型在2021年3月23日0:00至2021年3月23日23:00的AQI預 測曲線與真實值進行對比,如圖5和圖6所示。

圖5 單一模型預測曲線對比圖

圖6各種組合方法預測曲線對比圖
圖5 是三個單一Boosting模型、誤差平方和倒數法組合模型與真實值的AQI曲線。分析圖5可知,單一模型中LightGBM模型與XGBoost模型的預測值的走勢與真實值基本一致但數值普遍偏低,AdaBoost模型的AQI預測值與真實值之間的誤差最大。誤差平方和倒數法組合模型的AQI預測曲線能準確地預測出AQI真實值的變化趨勢并且預測值與真實值誤差較小,綜合表3和圖5的結論,證明采用誤差平方和倒數法進行自適應權重計算的組合模型預測效果優于單一的Boosting模型。
圖6是五種權重計算方法的組合模型與真實值的AQI曲線。分析圖6可知,每種權重計算法方法下的組合模型的預測值與真實值的趨勢基本相同,但除誤差平方和倒數法外的其他組合模型預測的AQI數值與真實值由較大偏差。誤差平方和倒數法組合模型在大部分時間點上能精確地預測,對于相鄰時間點AQI值劇烈變化的情況不易受到影響也能較好地適應,對峰值和谷值的預測存在著偏差但是并不影響AQI等級的劃分,不會對空氣質量預報產生較大影響。
本文提出的自適應Boosting組合模型中,誤差平方和倒數法組合模型在綜合指標方面平均絕對誤差、均方根誤差以及決定系數均優于其他的組合模型和單一的Boosting模型,在與真實值的擬合程度方面曲線走勢與真實值一致,預測的數值與真實值最為接近。從預測曲線可以看出,誤差平方和倒數法組合模型對AQI的擬合效果最好,而且誤差平方和倒數法組合模型不易受到相鄰時間節點AQI值劇烈變化的影響。綜上可以得出結論,自適應Boosting組合模型可以充分發揮單一Boosting模型的優勢,提高預測精度。