999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

常州地區PM2.5濃度預測對比分析

2023-11-07 03:22:00雨,周杰,陳
農業災害研究 2023年8期
關鍵詞:效果模型

孫 雨,周 杰,陳 明

江蘇省常州市氣象局,江蘇常州 213000

PM2.5濃度過高不僅會影響人體健康,造成的灰霾天氣還會使得能見度下降,不利于車輛和飛機的正常行駛,易于引發交通事故。近年來,隨著“藍天保衛戰”的防控治理,我國大氣污染防治工作取得了顯著成效。在此背景下,鞏固治理成果、總結經驗繼續推動空氣質量持續改善,打好新一輪“藍天保衛戰”成為各界關注的焦點[1]。

根據《2021中國環境狀況公報》[2],2021年全國339個地級及以上城市中,扣除塵沙影響,空氣污染指數超過標準值的城市有121個,占城市總數的35.7%。在所有的重度污染及以上天數中,以PM2.5為首要污染物的天數占總天數的39.7%,依然是影響我國空氣質量的第一污染物。常州市生態環境局官網空氣質量月度排名也顯示PM2.5和臭氧是近5年常州地區月空氣質量主要污染物。

目前,專家學者們已提出了多種研究角度,研究PM2.5濃度的預測方法,這些預測方法大致可以分為3種:基于統計學的預測方法、基于確定性模型的預測方法、基于機器學習的預測方法[3-5]。

近年來,機器學習在PM2.5濃度預測方面已經取得了一些成果[6-8],大多數學者專注于改進一種機器學習算法或融合多種機器學習方法,并沒有過多地對多個機器學習算法進行對比分析。因此,基于非線性回歸算法、KNN算法、RF算法、BPNN算法、Xgboost算法以及CNN算法,建立相應PM2.5濃度預測學習模型,選取相關氣象因素預測PM2.5日均濃度,對預測結果進行對比,并分析各個學習模型的優劣。

1 數據來源與研究方法

1.1 數據來源與預處理

數據來自常州國家基本氣象站,包括2016年4月—2020年11月共5年間的大氣成分數據和A文件。大氣成分數據包括氣溶膠小時數據、反應性氣體5 min數據、A文件小時數據,經過數據處理后的最終數據形式為日均數據,日均數據的計算方式是根據氣象學上定義的一天,自前一日21:00至本日20:00。根據相關論文[9]和先驗知識,選取與PM2.5濃度相關的15個氣象要素和相關大氣成分數據,分別為PM10、SO2、O3、NO、NO2、NOx、CO、溫度、氣壓、相對濕度、能見度、降水量、蒸發量、2 min平均風速和0 cm地溫。

通過相關圖分析,選取的15種氣象因素和PM2.5濃度的相關系數R2分布范圍為0.3~0.86,PM10、SO2、NO、NO2、NOx、CO、氣壓與PM2.5呈現正相關,O3、氣溫、相對濕度、能見度、降水量、2 min平均風速、蒸發量和0 cm地溫與PM2.5呈負相關關系,因此選取的這15個氣象因素都是合理有效的。

與PM2.5正相關強度最高的3個氣象因素及其正相關系數分別為PM100.87、CO 0.59、NO20.57,與PM2.5負相關強度最高的3個氣象因素及其負相關系數分別為能見度0.52、2 min平均風速0.4、氣溫0.39。

提取的原始數據直接作為初始數據集不僅會造成學習模型精度變差,而且也會影響預測效果。此處的原始數據主要存在以下幾個問題:(1)不同氣象因素之間具有不同的量綱和單位,如氣壓單位為hPa,范圍為987~10 407 hPa,降水單位為mm,范圍為0~98 mm,2種數據差別過大,不利于后續樣本訓練,因此使用歸一化處理此問題。(2)在數據采集和數據上傳的過程中,有極大可能會受到設備故障、外在環境、人為活動等的影響,使得收集到的數據包含缺失數據、無效數據等。解決方法是各項數據對短時間內缺失值(表現為-999.99和1 000的值)和部分異常值采用牛頓插值法進行估算插值,長時間內缺失數據通過中國環境監測總站數據補全缺失日均數據。插值法的基本原理是利用缺失數據的前后已知值建立插值函數,缺失函數就可以利用插值函數求得,牛頓插值公式為:

針對異常值,借助箱形圖進行分析(圖略),箱形圖不受異常值的影響,可以以一種相對穩定的方式描述數據的離散分布情況。箱形圖上邊緣線和下邊緣線之間的值為正常值,PM2.5濃度正常值分布在33~70 μg/m3;其余部分為異常值,異常值的處理應具體問題具體分析,觀察是否前后幾天濃度有相同變化規律,是則保留,否則可以取前后5 d同時間的平均值替代。處理完缺失值和異常值之后分布規律正常了很多,但仍然存在長時間缺失數據的問題,牛頓插值法和箱形圖并不能處理該問題,缺失部分經查找為2017年3月21日—4月14日的數據,通過中國環境監測總站數據補全該段時間日均數據。以PM2.5濃度數據為例,圖1顯示數據預處理前后對比,灰色部分為原始數據中待修改部分,黑色部分為修改無效值和異常值后PM2.5日均數據。

圖1 PM2.5濃度數據預處理前后對比

1.2 研究方法

實驗流程如下:首先,數據的預處理和數據集的構造;其次,預測模型的設計和訓練;再次,模型測試、優化及保存;最后,預測并對結果進行評估與分析。數據預處理完成后,數據集共有1 684條日均數據,選取其中的80%作為訓練集,20%作為測試集。在構建模型的過程中,需要選取一些指標數據衡量模型的性能,常用的回歸預測模型評價指標有平均絕對誤差MAE、均方根誤差RMSE、相關系數R2、平均絕對百分比誤差MAPRE。在以下評估公式中,x(i)表示第i個樣本的預測值,yi表示第i個樣本的實際值,y表示樣本實際值的均值。R2值越接近1,RMSE、MAE和MAPRE越小,則表示模型擬合效果越好。

1.2.1 多元線性回歸模型 該模型訓練集直接決定了多元線性回歸模型的精度,將15個影響PM2.5濃度的氣象因子看作自變量,將PM2.5濃度看作因變量。通過最小二乘法計算出每個自變量前的回歸系數,建立回歸模型,用殘差平方和表示誤差函數。

1.2.2 KNN模型 訓練樣本查找測試樣本中與該樣本最近的K個樣本值,PM2.5濃度值等權平均后即為該預測樣本最終值。其中,可調節部分有3個,K值、樣本最近計算方式、最終預測值計算方式。經過調參,K值取3,即找與預測樣本最近的3個樣本進行計算,樣本最近計算方式為歐氏距離計算方法,最終預測值計算方式為等權平均。

1.2.3 RF模型 每次隨機有放回地從樣本中抽取m個樣本建立決策樹,建立達到預先設置的決策樹個數k則停止,最后將所有決策樹結果求平均,即為預測樣本的預測值。其中,可以調節的參數為樹的數量k=100,設置葉子數防止過擬合,最佳葉子數量n=5。

1.2.4 BP神經網絡模型 信號正向傳輸時,每次正向信號傳播完成后會自動判定是否符合預定的訓練次數和預設的誤差,反向傳播時,根據輸出值和真實值存在的誤差,從后往前調整每層神經元上的權值,使得輸出值不斷逼近真實值。

此處構造了15個節點的輸入層,m個神經元的一個隱藏層,最后一個神經元的輸出層。m根據經驗公式a取1~10,分別計算這10個隱藏層情況下模型的MSE。MSE最小時,對應的m=5,即為所求隱藏層中神經元的個數。隱藏層激活函數為tansig函數,輸出層激活函數為purelin函數。訓練次數預設1 000次,學習率設置0.005,誤差預設為10-5。

1.2.5 Xgboost極限梯度提升樹模型Xgboost中的決策樹會根據前面所有樹相加之和(預測值)與實際值之間的誤差,以及樹的復雜度之和作為目標,建立下一棵樹,不斷縮小預測值和實際值之間的誤差,最終的預測結果為所有樹的值相加計算獲得。該模型可以調節的參數為預設樹的數量和學習率,通過調參本實驗,設置樹的數量為110棵,學習率為0.2。

1.2.6 卷積神經網絡模型 CNN結構包含輸入層,多個卷積層和池化層,全連接層和輸出層。卷積層的卷積作用是提取特征,計算一般使用3×3卷積核,在輸入數據方面,根據步長進行滑動計算,多個卷積核則生成多個計算結果;池化層為降采樣層,目的是減少參數,方便計算但又不會丟失數據重要信息。該模型可以調節的參數為神經網絡卷積層、池化層數、窗口滑動步長和卷積核數。通過調參,本實驗設置4層卷積層,卷積核分別為3×1、3×1、2×1、2×1,步長均為1;4層池化層,1層全連接層。

2 結果與分析

在6種算法模型的預測結果對比圖中(圖2),橫坐標為預測值,縱坐標為實際值,單位均為μg/m3,將預測值和實際值對應數值畫成點圖形式,圖中虛線是預測值等于真實值的情況,因此,點越收斂于虛線,則表示模型效果越好,點偏離虛線位置較遠,則表示該點為異常值。

圖2 6種學習模型預測結果對比

多元線性回歸模型RSME為12.499 0,MAE為9.038 1,R2為0.797 3,MAPE為34.87%;KNN模型RSME為11.847 6,MAE為8.672 4,R2為0.817 9,MAPE為18.84%;RF模型RSME為9.722 1,MAE為7.070 7,R2為0.877 4,MAPE為15.93%;BPNN模型RSME為10.629 5,MAE為7.361 4,R2為0.853 4,MAPE為16.33%;Xgboost模型RSME為9.679 2,MAE為6.985 8,R2為0.878 4,MAPE為15.00%;CNN模型RSME為10.355 7,MAE為7.696 4,R2為0.860 9,MAPE為17.39%。

圖中多元線性回歸和BP神經網絡有明顯預測異常值,相比于CNN模型,RF模型和Xgboost模型點圖收斂于虛線的效果更好,KNN算法的點圖較發散。結合各項指標數據,表明整體上RF模型和Xgboost模型2種算法的模型預測效果最好,并且Xgboost模型效果略優于RF模型。

通過分析Xgboost模型預測與PM2.5濃度相關的氣象因子的重要性可知,PM10濃度、相對濕度、氣溫與PM2.5濃度的相關性最高;其次是BPNN模型和CNN模型,CNN模型作為一種強大的模型,沒有達到預想中的效果,考慮到卷積更注重空間特征關聯與圖像的識別方面,而訓練數據是一維數據,且無空間關聯信息;多元線性回歸模型和KNN模型效果最差。

圖3為Xgboost模型擬合效果,分別為測試集PM2.5濃度實際值與預測值數值直接對比,以及將測試集數據升序后實際值與預測值的對比,預測值大多落入實際值正負平均絕對誤差范圍(虛線)內。當PM2.5濃度大于180 μg/m3時,較多預測值在虛線范圍外,結合其他模型對應擬合效果圖,當PM2.5濃度低于30 μg/m3、高于60 μg/m3時,擬合效果明顯較差。

圖3 Xgboost模型擬合效果

3 結論

使用6種機器學習模型對常州地區2016—2020年間的PM2.5濃度進行訓練和預測分析。PM2.5實際值主要分布在30~60 μg/m3范圍內,在此范圍內,6種模型擬合效果大都在實際值的正負平均絕對誤差范圍內,但當PM2.5濃度低于30 μg/m3或高于60 μg/m3時,多元線性回歸模型和KM模型不夠理想;從6個模型的對比來看,Xgboost、RF模型擬合效果較好,相關系數可達87.84%;PM10濃度、相對濕度、氣溫與PM2.5濃度相關性最高,表明在缺少PM2.5濃度數據的情況下,仍然可以通過其他氣象因子估算出PM2.5的濃度值。

猜你喜歡
效果模型
一半模型
按摩效果確有理論依據
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
3D打印中的模型分割與打包
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
3D—DSA與3D—CTA成像在顱內動脈瘤早期診斷中的應用效果比較
主站蜘蛛池模板: 久草网视频在线| 久久人人爽人人爽人人片aV东京热| 婷婷综合亚洲| a毛片免费在线观看| 国产日本欧美亚洲精品视| 国产成人无码综合亚洲日韩不卡| 国产中文一区二区苍井空| 国产凹凸视频在线观看| 波多野结衣无码AV在线| 四虎在线观看视频高清无码 | 欧美一区二区三区国产精品| 黄色三级毛片网站| 亚洲第七页| 精品国产Ⅴ无码大片在线观看81| 欧美日韩在线成人| 麻豆精品在线| 欧美区一区| 国产在线精品网址你懂的| 免费人欧美成又黄又爽的视频| jizz亚洲高清在线观看| 欧洲亚洲一区| 性欧美在线| 秋霞午夜国产精品成人片| 欧美亚洲一区二区三区导航| 久久免费成人| 国产国产人成免费视频77777| 欧美精品xx| 色综合综合网| 色婷婷久久| 亚洲精品你懂的| 综1合AV在线播放| 国产精品午夜电影| 伊人久久婷婷| 久久成人免费| 亚洲无码免费黄色网址| 中文字幕人成乱码熟女免费| 久久综合结合久久狠狠狠97色| 国产女人综合久久精品视| 91激情视频| 三级国产在线观看| 日本中文字幕久久网站| 国产成人综合亚洲欧美在| 亚洲精品在线影院| 亚洲高清中文字幕在线看不卡| 国产噜噜噜视频在线观看| 538国产视频| 国产成年无码AⅤ片在线| 色有码无码视频| 激情五月婷婷综合网| 国产精品理论片| 欧美日韩国产在线播放| 九九线精品视频在线观看| 人妻中文久热无码丝袜| 九九热精品在线视频| 中日无码在线观看| 久久婷婷六月| 国产精品无码影视久久久久久久| 午夜福利亚洲精品| 天天综合亚洲| 国模视频一区二区| 热热久久狠狠偷偷色男同| 亚洲日本精品一区二区| 高清色本在线www| a级毛片毛片免费观看久潮| 亚洲中久无码永久在线观看软件| 国产亚洲精品91| 99精品视频在线观看免费播放| 中文字幕在线一区二区在线| 国产黄网永久免费| 亚洲国产第一区二区香蕉| 国产91麻豆免费观看| 中文字幕 日韩 欧美| 波多野结衣一区二区三区AV| 国产精女同一区二区三区久| 福利视频99| 国产欧美日韩综合一区在线播放| 91人妻日韩人妻无码专区精品| 毛片国产精品完整版| 国产啪在线| 久久精品人妻中文视频| 亚洲免费福利视频| 2021国产精品自拍|