999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于天氣數據對空氣質量預測的改進KNN算法

2020-12-02 07:48:07鄭茂波孟佳俊魯越
科技創新與應用 2020年34期

鄭茂波 孟佳俊 魯越

摘? 要:基于天氣數據進行空氣質量預測,首先收集成都市A區2018年4月1日到2018年6月3日64天24個天氣屬性,然后對天氣屬性進行篩選、數據處理;接著,建立KNN分類模型,利用k折交叉驗證和多數表決原則對64個樣本進行分類;最后在傳統KNN分類模型的基礎上,使用反距離加權建模,結果表明模型有較好的泛化能力和預測效果。

關鍵詞:天氣數據;空氣質量;k折交叉驗證;反距離加權;KNN算法

中圖分類號:X823 文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2020)34-0037-03

Abstract: This paper forecasts air quality based on weather data. 24 weather attributes from April 1, 2018 to June 3, 2018 are collected from April 1, 2018 to June 3, 2018. Then, the KNN classification model is established, and 64 samples are classified by k fold cross verification and majority voting principle. Finally, on the basis of the traditional KNN classification model, the model is established by inverse distance weighting, and the results show that the model has good generalization ability and prediction effect.

Keywords: weather data; air quality; k fold cross verification; inverse distance weighting; KNN algorithm

引言

近年來,由于能源消耗的不斷增加,空氣污染日益加劇,空氣質量問題已經嚴重影響到人們的正常生活,各種呼吸道疾病頻發。空氣污染不僅對人類的身體健康造成了極大的損害,還對生態環境造成了嚴重的負面影響。2018年7月,國務院頒布了《打贏藍天保衛戰三年行動計劃》,明確四個“明顯”主要任務:明顯降低細顆粒物(PM2.5)濃度、明顯減少重污染天數、明顯改善空氣質量和明顯增強人民的藍天幸福感。因此,進行空氣質量預測,為當地政府及時提供信息,避免嚴重空氣污染事故的發生是很有必要的[1]。

針對大氣質量的計量分析和預測,劉杰等[2]提出應用支持向量機和模糊粒化時間序列相結合的方法,對PM2.5質量濃度未來變化趨勢和范圍進行預測;楊錦偉等[3]基于馬爾科夫模型建立了空氣污染物濃度預測模型;陸志濤等[4]基于RAM擴展模型構建了評估空氣質量狀況的空氣質量指數以及評估空氣質量提升空間的空氣質量發展指數,并將其應用于我國城市空氣質量的評價研究;賀金龍等[5]運用灰色系統理論建立污染物GM(1,1)預測模型,實現了對北京市環境污染情況的預測;姜孿娟等[6]以江蘇省為例,提出一種基于BP神經網絡的空氣污染預測模型。

綜合上述文獻可以看出,學者們從不同的角度,采用不同的方法,對大氣環境進行評價。本文將傳統KNN分類算法進行改進,對成都市A區2018年64個樣本進行反距離加權、采用循環尋找最佳的K,并利用14個天氣屬性數據值進行空氣質量的預測。

1 數據來源及處理

1.1 天氣數據

從中國氣象數據網(http://data.cma.cn/site/index.html)獲得成都市A區2018年4月1日到2018年6月3日每天的天氣數據,共64組樣本數據,每組樣本數據包含24個屬性。

1.2 空氣質量數據

從成都市環境空氣質量發布系統(http://182.150.31.86:9875/Default.aspx)公開獲取對應時間的空氣質量指數(AQI),根據環境空氣質量指數(AQI)技術規定(試行)的標準[7],對應不同的空氣質量類別,如表1所示。

表1 空氣質量指數

1.3 數據處理

1.3.1 數據篩選

去掉天氣數據的24個屬性中跟空氣質量關系不大和主觀的定性的屬性數據,即去掉現在天氣、風力、體感溫度、水平能見度、總云量、云量、低云量、2分鐘平均風向(角度)、最大風速的風向、極大風速的風向共10個屬性。

1.3.2 數據整理

獲取的天氣數據都是以小時為單位,而空氣質量數據(AQI)是以天為單位,所以先要對天氣數據進行處理,對余下的14個不同屬性數據采用了以下方法:

(1)取累加和:降水量

(2)取最大值:最高氣溫、最高氣壓、最大風速、極大風速

(3)取最小值:最低氣溫、最低氣壓、最小相對濕度

(4)取平均值:氣壓、海平面氣壓、溫度、2分鐘平均風速、相對濕度、水汽壓

2 KNN模型

2.1 KNN模型原理

KNN算法的基本原理是通過選取K個離測試點最近的訓練樣本點,并輸出這K個樣本點中數量最多的樣本標簽即多數表決原則,從而得到測試點的類別。

假設每一個訓練樣本有n個特征值,那么每一個樣本都可以用一個n維行向量表示:X(x1,x2...xn),樣本點的每一個樣本所屬的類別均已知,同樣,每一個測試點樣本也可以表示為:Y=(y1,y2...yn),要實現KNN算法,需要計算出每一個樣本點到測試點的距離,然后選取距離最近的K個樣本,獲取K個樣本中每一個樣本的類別標簽,再找出K個樣本中數量最多的標簽即多數表決原則,最后返回該標簽并獲得最后測試樣本類別結果。

2.2 數據標準化

本文采用最大值最小值標準化,使所有數據均處于[0,1]區間內,新的數據值?自′等于原始值?自與最小值?自min的差除以最大值?自max與最小值?自min的差,即:

?自′=(1)

2.3 距離公式

針對天氣數據的特點,采用歐氏距離來測定樣本相似度,則距離d為:

d=?自′?自′2(2)

2.4 k-折交叉驗證

(1)首先將前50組樣本數據作為訓練集,剩下的14組樣本數據作為測試集。

(2)增強模型的泛化能力,對50組樣本數據采用k-折交叉驗證(注:與KNN算法的K不一樣),即將訓練集平均分成k等分,每次將其中的k-1組樣本數據作為訓練,剩下的1組樣本數據作為驗證集,一共進行k次,取k次的平均正確率來驗證模型。考慮到每組的樣本數據的數量,本文取k=5,即將訓練集分成5組,每組為10個樣本數據。

2.5 多數表決原則

圖1中,圓圈要被決定賦予哪個類,是三角形還是四方形?如果K=3,由于三角形所占比例為2/3,圓圈將被賦予三角形那個類,如果K=5,由于四方形比例為3/5,因此圓圈被賦予四方形類。

以2.1-2.5建立的KNN模型稱為模型一。

3 模型的改進和結果

3.1 反距離加權

如圖1所示,內環的兩個三角形對圓圈的影響是不是一樣的?從相似的角度出發,兩個樣本距離越近,說明屬性越相似,也就是類別更接近。所以,在多數表決原則的基礎上,需要對不同距離的樣本給出權重,距離越近,所占權重越大。選取反距離加權,記權重系數為w,則

w=?(3)

其中?姿表示待定常數,是為防止d過小導致的w趨于無窮大,以此建立模型稱為模型二。

3.2 K值的選擇

在模型訓練中,以2.4中的k-折交叉驗證的分類平均正確率為目標,采用循環搜索,尋找最佳的K和?姿。

3.3 模型結果

模型得到的訓練參數和分類結果見表2。從表2可以看到,在訓練集,模型二比模型一的分類正確率只有少許提高;但是在測試集卻有大幅度提高,這說明模型二較模型一有效。同時模型二的測試集的正確率高于訓練集,說明模型二有不錯的泛化能力。

3.4 模型結果的分析

上述模型的正確率都在70%左右,分析結果主要有以下兩個原因:

(1)樣本數據集較少:總共只有50組訓練樣本,造成訓練不足以致影響正確率。

(2)樣本不均衡:分析50組訓練樣本發現大多數標簽(即AQI分類)集中在第Ⅱ,III類,其它類別較少。

4 模型評價

采用傳統的KNN算法,效果不佳,并且泛化能力弱,采用反距離加權的KNN算法,明顯提高了模型的分類正確率。同時,使用k-折交叉驗證可以有效提高模型的泛化能力。

下一步研究考慮的方向:

(1)搜集的樣本數據集的數量足夠且保持均衡。

(2)樣本屬性數據的處理:當樣本屬性數量較多時,不同屬性的重要程度也不是一樣的,可以考慮屬性加權或者是采用主成分分析進行降維處理。

參考文獻:

[1]CHEN Y,SHI R,SHU S,et al.Ensemble and enhanced PM10 concentration forecast model based on stepwise regression and wavelet analysis[J]. Atmospheric Environment, 2013,74:346-359.

[2]劉杰,楊鵬,呂文生,等.模糊時序與支持向量機建模相結合的PM(2.5)質量濃度預測[J].北京科技大學學報,2014,36(12):1694-1702.

[3]楊錦偉,孫寶磊.基于灰色馬爾科夫模型的平頂山市空氣污染物濃度預測[J].數學的實踐與認識,2014,44(2):64-70.

[4]陸志濤,周鵬,吳菲.基于RAM拓展模型的我國城市空氣質量評價[J].環境經濟研究,2017,2(2):93-107.

[5]賀金龍,吳晟,周海河,等.基于GM(1,1)-PCA的環境預測與分析研究[J].信息技術,2018(1):105-109.

[6]姜孿娟.BP神經網絡算法在空氣質量預測中的應用——以江蘇為例[J].信息與電腦:理論版,2018(24):69-70,73.

[7]生態環境部.環境空氣質量指數(AQI)技術規定(試行)[EB/OL].中華人民共和國生態環境部,2012-03-02[2019-8-24].http://www.gov.cn/zwgk/2012-03/02/content_2081374.htm

主站蜘蛛池模板: 54pao国产成人免费视频| 萌白酱国产一区二区| 国产白丝av| 国产二级毛片| 一本大道无码高清| 日本免费a视频| 精品一区二区三区四区五区| 亚洲经典在线中文字幕| 波多野结衣一二三| 综合色区亚洲熟妇在线| 伊人中文网| 高清视频一区| 丰满人妻被猛烈进入无码| 国产日韩精品欧美一区灰| 日韩小视频在线播放| 国产理论一区| 国产精品va免费视频| 美女无遮挡免费网站| 亚洲黄色网站视频| 亚洲人成在线精品| 精品国产成人高清在线| 9久久伊人精品综合| 亚洲国产日韩在线观看| 伊人色综合久久天天| 综合社区亚洲熟妇p| 精品国产美女福到在线不卡f| 99偷拍视频精品一区二区| 亚洲天堂免费观看| 国产综合色在线视频播放线视| 日本少妇又色又爽又高潮| 嫩草国产在线| 2018日日摸夜夜添狠狠躁| 欧洲亚洲一区| 日韩精品高清自在线| 特级做a爰片毛片免费69| 日本成人精品视频| 日韩免费视频播播| yy6080理论大片一级久久| 精品欧美视频| 亚洲成A人V欧美综合天堂| 一区二区影院| 制服丝袜 91视频| 国产激情无码一区二区免费| 91黄视频在线观看| 亚洲精品成人福利在线电影| 国产JIZzJIzz视频全部免费| 精品久久久久久中文字幕女| 日韩天堂在线观看| 激情爆乳一区二区| 成人看片欧美一区二区| 国产成人无码AV在线播放动漫| 成人久久18免费网站| 亚洲va视频| 亚洲无码四虎黄色网站| 毛片网站观看| 成人亚洲视频| 国产成人三级| 国产精品妖精视频| 日韩无码视频专区| 亚洲中文精品人人永久免费| 亚洲色无码专线精品观看| 手机在线国产精品| 久久无码av三级| 日韩欧美中文字幕在线韩免费| 91精品情国产情侣高潮对白蜜| 亚洲香蕉在线| 伊人久久大香线蕉综合影视| 久久semm亚洲国产| 午夜国产精品视频| 久久青草热| 中文字幕欧美日韩| 日韩av电影一区二区三区四区| 国产xxxxx免费视频| 强奷白丝美女在线观看| 精品国产Av电影无码久久久| 强奷白丝美女在线观看 | 在线人成精品免费视频| 亚洲精品国产精品乱码不卞| 国产精品女同一区三区五区| 色网站在线免费观看| 免费一级毛片在线观看| 波多野结衣久久高清免费|