王超
(安徽大學,安徽 合肥230601)
隨著工業經濟迅速發展,地區空氣污染日益嚴重。王瑋等指出大氣污染的基本要素主要由氣溶膠和氣態污染物組成[1], 而氣溶膠是PM2.5的主要要素。雖然PM2.5在大氣成分中含量占比很小,卻對空氣質量和能見度等有重要的影響。PM2.5粒直徑小,含有著大量的有毒且有害物質,并且其在大氣中的滯留時間較長、輸送距離相對其他污染物更遠,對人體健康和其他動植物質量影響巨大,對環境破壞嚴重。因此,PM2.5濃度預測顯得尤為重要,對改善空氣質量和人體健康防護具有重要的價值和意義。
目前,大多數學者關于PM2.5濃度預測的研究方法主要分為確定性的機理模型和依靠數據驅動的統計模型[2]。傳統的預測方法是直接使用最簡單的線性回歸預測,其特點是回歸后的結果簡單,但無法體現氣候因素之間的非線性關系。由于線性回歸的局限性,非線性回歸、神經網絡(ANN)和支持向量機(SVM)等模型在大氣污染濃度預測問題上取得較好地應用[3-4]。孫寶磊等使用神經網絡對6 種污染物的日均濃度進行預測,污染物濃度預測值和實測值趨勢吻合度較高[5]。Sun 等[6]證實LSSVM應用于PM2.5日均濃度預測具有較高預測精度。王平[3]等用山西省太原市城區4 個監測站點的PM10日濃度數據作為研究,首先通過小波變換將一維輸入數據轉化為高頻信息與低頻信息組合構成的高維數據,然后輸入進SVM 模型,建立了wavelet-SVM預測模型,相較于傳統SVM 模型預測結果具有更高的精度。李建新等[4]以贛州市2017 年全年的空氣質量和氣象數據為研究對象,通過最大相關最小冗余算法(MRMR)提取出最優的特征子集,同時構造混合核函數(HK)對傳統的支持向量機模型(SVM)進行改進, 最終建立MRMR-HK-SVM 模型,其研究結果表明,MRMR-HK-SVM 模型具有更好的泛化能力。隨著機器學習的快速發展,神經網絡模型已成功應用于大氣污染濃度預測,但對于高維特征的數據存在局部最優和過擬合等問題。而支持向量機模型基于統計學習理論,以最小結構風險化為原則,克服了過擬合等問題,在PM2.5濃度預測表現出良好的泛化能力。

圖1 普通線性回歸與MRMR 線性回歸結果對比
PM2.5的濃度受多種因素的影響,一般包括氣象因素和污染物因素,而氣象、污染物因素的變化對PM2.5動態變化的影響具有不確定性。為此,本文通過使用gam 方法來確認其他指標包含的能夠解釋PM2.5的信息,在采用MRMR 算法對指標進行特征選擇,最后使用SVR 對PM2.5進行濃度預測。
本文使用安徽省5 個城市2016 年到2019 年共四年的逐日氣象數據進行預測估計,并同時使用合肥市周圍市的氣象數據來彌補空間作用對PM2.5指標的影響。本文選擇的氣候指標地點由合肥以及周圍城市:銅陵、六安、滁州、蚌埠一共五個地點構成,一共12 個氣候指標。
為探索各個指標之間的非線性關系以及一個指標對另一個指標的解釋程度,對樣本進行廣義加權。
本文提出了對5 個城市的12 個自變量進行篩選的方法,如果僅僅使用非線性的解釋程度來衡量,往往會造成各指標之間的內部信息的冗余,為了解決信息量的冗余問題為此本文對指標進行特征提取。
由于各個指標存在較強的相關性和非線性,必須考慮數據冗余問題。GAM方法則是利用非參數回歸的置信度來表示解釋變量對于目標變量的影響,沒有考慮到各解釋變量之間的交互信息冗余,所以需引入最大相關和最小冗余的方法對候選變量進行篩選得出了以下用于解釋因變量的6 個指標(合肥市的PM2.5濃度、合肥市的二氧化硫濃度,蚌埠的一氧化碳濃度、蚌埠市的AQI 值、蚌埠最大風速以及滁州二氧化氮濃度)。以上指標均為預測自變量,故都是前一日的平均值。

圖2 普通SVR 與MRMR-SVR 結果對比
為比較分類器性能,本文首先對5 個城市的12 個指標進行OLS 回歸,在通過MRMR 進行特征提取后的指標進行回歸(圖1)。普通線性回歸的結果與MRMR 線性回歸的結果對比結果顯示,OLS 的回歸能夠較好的擬合PM2.5的真實值,引入MRMR 后并沒有導致結果和之前的結果具有較大的差異,但擬合效果仍有小幅度提高,這說明MRMR 方法也確實提取出了有用的變量。但對于線性回歸來說,不僅使訓練效率提高,還能夠去除變量內部的多重共線性。在對模型指標進行解釋的程度上來說,可以很大程度上避免了模型的意義與實際的意義相悖的情況(圖2)。普通線性回歸與MRMR 線性回歸結果對比顯示,基于MRMR-SVR 下的支持向量回歸的擬合線較為平緩,而使用單純的SVR 方法則會使得訓練集在訓練數據上出現過擬合現象,會出現普通SVR 的擬合曲線尖端較高并有低谷很低的現象,在該方法下的預測結果很不理想。而使用MRMR 方法后雖然使得測試集數據的擬合效果不理想,但是會使得測試集以及實際運用過程中PM2.5的分布趨勢更能體現出來,所以結果會有所改善。

表1 模型評價結果
如表1 所示,在對指標進行MRMR 特征提取出最優子集為SVR 輸入,評價模型的RMSE、MAE 和MAPE 在MRMR-SVR 模型的訓練結果為17.98、13.47 和33.77%,相較于Normal-OLS、MRMR-OLS 和Normal-SVR 的誤差具有大幅度下降,而且特征提取能夠很大程度上減少計算機的內存消耗。相比于其他的用于改進尋找模型最優解的算法,更為直接有效。
各個指標之間存在較強的非線性和相關性,采用gam 方法驗證周圍地區的氣候影響缺失存在,并行進降維,MRMR 特征提取能夠很大程度上減少計算機的內存消耗。在進行特征提取之后,即解決了數據冗余問題也保留了大部分原始信息,使得MRMR-OLS 模型的預測結果有小幅度提升,均方誤差有所下降,SVR 更適合對高維非線性數據進行訓練,實驗結果表明用于PM2.5濃度時空數據預測取得了很好的效果,MRMR-SVR 模型相較于其他模型預測精度顯著提高,均方根誤差也大幅度下降。