鄭茂波 孟佳俊 魯越
摘? 要:基于天氣數據進行空氣質量預測,首先收集成都市A區2018年4月1日到2018年6月3日64天24個天氣屬性,然后對天氣屬性進行篩選、數據處理;接著,建立KNN分類模型,利用k折交叉驗證和多數表決原則對64個樣本進行分類;最后在傳統KNN分類模型的基礎上,使用反距離加權建模,結果表明模型有較好的泛化能力和預測效果。
關鍵詞:天氣數據;空氣質量;k折交叉驗證;反距離加權;KNN算法
中圖分類號:X823 文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2020)34-0037-03
Abstract: This paper forecasts air quality based on weather data. 24 weather attributes from April 1, 2018 to June 3, 2018 are collected from April 1, 2018 to June 3, 2018. Then, the KNN classification model is established, and 64 samples are classified by k fold cross verification and majority voting principle. Finally, on the basis of the traditional KNN classification model, the model is established by inverse distance weighting, and the results show that the model has good generalization ability and prediction effect.
Keywords: weather data; air quality; k fold cross verification; inverse distance weighting; KNN algorithm
引言
近年來,由于能源消耗的不斷增加,空氣污染日益加劇,空氣質量問題已經嚴重影響到人們的正常生活,各種呼吸道疾病頻發。空氣污染不僅對人類的身體健康造成了極大的損害,還對生態環境造成了嚴重的負面影響。2018年7月,國務院頒布了《打贏藍天保衛戰三年行動計劃》,明確四個“明顯”主要任務:明顯降低細顆粒物(PM2.5)濃度、明顯減少重污染天數、明顯改善空氣質量和明顯增強人民的藍天幸福感。因此,進行空氣質量預測,為當地政府及時提供信息,避免嚴重空氣污染事故的發生是很有必要的[1]。
針對大氣質量的計量分析和預測,劉杰等[2]提出應用支持向量機和模糊粒化時間序列相結合的方法,對PM2.5質量濃度未來變化趨勢和范圍進行預測;楊錦偉等[3]基于馬爾科夫模型建立了空氣污染物濃度預測模型;陸志濤等[4]基于RAM擴展模型構建了評估空氣質量狀況的空氣質量指數以及評估空氣質量提升空間的空氣質量發展指數,并將其應用于我國城市空氣質量的評價研究;賀金龍等[5]運用灰色系統理論建立污染物GM(1,1)預測模型,實現了對北京市環境污染情況的預測;姜孿娟等[6]以江蘇省為例,提出一種基于BP神經網絡的空氣污染預測模型。
綜合上述文獻可以看出,學者們從不同的角度,采用不同的方法,對大氣環境進行評價。本文將傳統KNN分類算法進行改進,對成都市A區2018年64個樣本進行反距離加權、采用循環尋找最佳的K,并利用14個天氣屬性數據值進行空氣質量的預測。
1 數據來源及處理
1.1 天氣數據
從中國氣象數據網(http://data.cma.cn/site/index.html)獲得成都市A區2018年4月1日到2018年6月3日每天的天氣數據,共64組樣本數據,每組樣本數據包含24個屬性。
1.2 空氣質量數據
從成都市環境空氣質量發布系統(http://182.150.31.86:9875/Default.aspx)公開獲取對應時間的空氣質量指數(AQI),根據環境空氣質量指數(AQI)技術規定(試行)的標準[7],對應不同的空氣質量類別,如表1所示。
表1 空氣質量指數
1.3 數據處理
1.3.1 數據篩選
去掉天氣數據的24個屬性中跟空氣質量關系不大和主觀的定性的屬性數據,即去掉現在天氣、風力、體感溫度、水平能見度、總云量、云量、低云量、2分鐘平均風向(角度)、最大風速的風向、極大風速的風向共10個屬性。
1.3.2 數據整理
獲取的天氣數據都是以小時為單位,而空氣質量數據(AQI)是以天為單位,所以先要對天氣數據進行處理,對余下的14個不同屬性數據采用了以下方法:
(1)取累加和:降水量
(2)取最大值:最高氣溫、最高氣壓、最大風速、極大風速
(3)取最小值:最低氣溫、最低氣壓、最小相對濕度
(4)取平均值:氣壓、海平面氣壓、溫度、2分鐘平均風速、相對濕度、水汽壓
2 KNN模型
2.1 KNN模型原理
KNN算法的基本原理是通過選取K個離測試點最近的訓練樣本點,并輸出這K個樣本點中數量最多的樣本標簽即多數表決原則,從而得到測試點的類別。
假設每一個訓練樣本有n個特征值,那么每一個樣本都可以用一個n維行向量表示:X(x1,x2...xn),樣本點的每一個樣本所屬的類別均已知,同樣,每一個測試點樣本也可以表示為:Y=(y1,y2...yn),要實現KNN算法,需要計算出每一個樣本點到測試點的距離,然后選取距離最近的K個樣本,獲取K個樣本中每一個樣本的類別標簽,再找出K個樣本中數量最多的標簽即多數表決原則,最后返回該標簽并獲得最后測試樣本類別結果。
2.2 數據標準化
本文采用最大值最小值標準化,使所有數據均處于[0,1]區間內,新的數據值?自′等于原始值?自與最小值?自min的差除以最大值?自max與最小值?自min的差,即:
?自′=(1)
2.3 距離公式
針對天氣數據的特點,采用歐氏距離來測定樣本相似度,則距離d為:
d=?自′?自′2(2)
2.4 k-折交叉驗證
(1)首先將前50組樣本數據作為訓練集,剩下的14組樣本數據作為測試集。
(2)增強模型的泛化能力,對50組樣本數據采用k-折交叉驗證(注:與KNN算法的K不一樣),即將訓練集平均分成k等分,每次將其中的k-1組樣本數據作為訓練,剩下的1組樣本數據作為驗證集,一共進行k次,取k次的平均正確率來驗證模型。考慮到每組的樣本數據的數量,本文取k=5,即將訓練集分成5組,每組為10個樣本數據。
2.5 多數表決原則
圖1中,圓圈要被決定賦予哪個類,是三角形還是四方形?如果K=3,由于三角形所占比例為2/3,圓圈將被賦予三角形那個類,如果K=5,由于四方形比例為3/5,因此圓圈被賦予四方形類。
以2.1-2.5建立的KNN模型稱為模型一。
3 模型的改進和結果
3.1 反距離加權
如圖1所示,內環的兩個三角形對圓圈的影響是不是一樣的?從相似的角度出發,兩個樣本距離越近,說明屬性越相似,也就是類別更接近。所以,在多數表決原則的基礎上,需要對不同距離的樣本給出權重,距離越近,所占權重越大。選取反距離加權,記權重系數為w,則
w=?(3)
其中?姿表示待定常數,是為防止d過小導致的w趨于無窮大,以此建立模型稱為模型二。
3.2 K值的選擇
在模型訓練中,以2.4中的k-折交叉驗證的分類平均正確率為目標,采用循環搜索,尋找最佳的K和?姿。
3.3 模型結果
模型得到的訓練參數和分類結果見表2。從表2可以看到,在訓練集,模型二比模型一的分類正確率只有少許提高;但是在測試集卻有大幅度提高,這說明模型二較模型一有效。同時模型二的測試集的正確率高于訓練集,說明模型二有不錯的泛化能力。
3.4 模型結果的分析
上述模型的正確率都在70%左右,分析結果主要有以下兩個原因:
(1)樣本數據集較少:總共只有50組訓練樣本,造成訓練不足以致影響正確率。
(2)樣本不均衡:分析50組訓練樣本發現大多數標簽(即AQI分類)集中在第Ⅱ,III類,其它類別較少。
4 模型評價
采用傳統的KNN算法,效果不佳,并且泛化能力弱,采用反距離加權的KNN算法,明顯提高了模型的分類正確率。同時,使用k-折交叉驗證可以有效提高模型的泛化能力。
下一步研究考慮的方向:
(1)搜集的樣本數據集的數量足夠且保持均衡。
(2)樣本屬性數據的處理:當樣本屬性數量較多時,不同屬性的重要程度也不是一樣的,可以考慮屬性加權或者是采用主成分分析進行降維處理。
參考文獻:
[1]CHEN Y,SHI R,SHU S,et al.Ensemble and enhanced PM10 concentration forecast model based on stepwise regression and wavelet analysis[J]. Atmospheric Environment, 2013,74:346-359.
[2]劉杰,楊鵬,呂文生,等.模糊時序與支持向量機建模相結合的PM(2.5)質量濃度預測[J].北京科技大學學報,2014,36(12):1694-1702.
[3]楊錦偉,孫寶磊.基于灰色馬爾科夫模型的平頂山市空氣污染物濃度預測[J].數學的實踐與認識,2014,44(2):64-70.
[4]陸志濤,周鵬,吳菲.基于RAM拓展模型的我國城市空氣質量評價[J].環境經濟研究,2017,2(2):93-107.
[5]賀金龍,吳晟,周海河,等.基于GM(1,1)-PCA的環境預測與分析研究[J].信息技術,2018(1):105-109.
[6]姜孿娟.BP神經網絡算法在空氣質量預測中的應用——以江蘇為例[J].信息與電腦:理論版,2018(24):69-70,73.
[7]生態環境部.環境空氣質量指數(AQI)技術規定(試行)[EB/OL].中華人民共和國生態環境部,2012-03-02[2019-8-24].http://www.gov.cn/zwgk/2012-03/02/content_2081374.htm