999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)預(yù)處理對LSTM網(wǎng)絡(luò)大氣污染預(yù)測精度分析?

2021-08-08 11:11:58杜英魁張乙芳原忠虎關(guān)屏彭
計算機(jī)與數(shù)字工程 2021年7期
關(guān)鍵詞:模型

杜英魁張乙芳原忠虎關(guān) 屏彭 躍

(1.沈陽大學(xué)信息工程學(xué)院 沈陽110000)(2.沈陽恒源偉業(yè)環(huán)境檢測服務(wù)有限公司 沈陽110000)(3.遼寧省環(huán)境監(jiān)測實(shí)驗(yàn)中心 沈陽110000)

1 引言

隨著經(jīng)濟(jì)的快速發(fā)展,大氣污染也逐日嚴(yán)重。沈陽作為東北老工業(yè)的重點(diǎn)城市,大氣環(huán)境質(zhì)量也不容樂觀。2013年1月到2019年3月共75個月份,沈陽空氣質(zhì)量月均指數(shù)(AQI)Ⅰ級(優(yōu))月數(shù)0個(0%),Ⅱ級(良)月數(shù)47個(62.7%),Ⅲ級(輕度污染)月數(shù)22個(29.3%),Ⅳ(中度污染)月數(shù)4個(5.3%),Ⅴ(重度污染)月數(shù)2個(2.7%)。大氣污染已經(jīng)成為沈陽市迫在眉睫的問題。研究大氣污染濃度的變化,掌握其變化規(guī)律對大氣污染的治理、改善大氣污染是十分有必要的。

針對大氣污染物濃度預(yù)測問題,國內(nèi)外學(xué)者提出了一系列的預(yù)測模型。騰浩宇[1]使用多元回歸模型預(yù)測PM2.5濃度,趙學(xué)敏[2]使用灰色GM(1,1)預(yù)測模型對北京市大氣污染濃度進(jìn)行預(yù)測,但都沒有考慮大氣污染物濃度數(shù)據(jù)具有時序性和非線性的特點(diǎn);岳鵬程[3]使用模糊時序和支持向量機(jī)對SO2濃度進(jìn)行預(yù)測,解決了大氣污染物時序性特點(diǎn),但支持向量機(jī)中的參數(shù)難以確定,參數(shù)的選取過于依賴主觀經(jīng)驗(yàn)[4];范竣翔[5]建立RNN空氣污染時空預(yù)報模型,RNN模型擅長處理連續(xù)的時間序列數(shù)據(jù),但在運(yùn)算過程中容易出現(xiàn)梯度消失問題。大氣污染物濃度數(shù)據(jù)采集過程中,存在數(shù)據(jù)質(zhì)量層次不齊、存在異常值和缺失值等數(shù)據(jù)質(zhì)量問題[6]。如果不能選擇合適的數(shù)據(jù)預(yù)處理方法,可能會對數(shù)據(jù)的分析結(jié)果產(chǎn)生嚴(yán)重偏差,因此數(shù)據(jù)預(yù)處理方法的選取顯得尤為重要。

本文利用LSTM模型擅長處理時序的、非線性數(shù)據(jù)的特點(diǎn),具有適用性強(qiáng)、防止梯度消失等優(yōu)點(diǎn)[7]。與不同缺失值處理方法相結(jié)合,建立LSTM空氣污染預(yù)測模型。主要工作包括:通過箱線圖法識別出各種污染物濃度數(shù)據(jù)中的異常值,并采用異常值視為缺失值的處理方法;使用均值替換法、回歸插補(bǔ)法以及多重插補(bǔ)法對數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,比較三種缺失值處理方法的效果;建立LSTM預(yù)測模型,分別使用三種預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練與檢驗(yàn),比較LSTM模型的精度。

2 數(shù)據(jù)預(yù)處理

2.1 數(shù)據(jù)來源

本文所使用的沈陽市大氣污染物濃度數(shù)據(jù),主要來源于國家空氣質(zhì)量自動監(jiān)測點(diǎn)位的空氣質(zhì)量自動監(jiān)測數(shù)據(jù)。所采集的沈陽市大氣污染物濃度數(shù)據(jù)具體為2016年11月1日 至2019年3月31日,共881天5286個大氣污染物濃度的日均值數(shù)據(jù),主要包括顆粒物PM2.5,顆粒物PM10,二氧化硫(SO2),二氧化氮(NO2),一氧化氮(CO),臭氧(O3)六種污染物。

2.2 數(shù)據(jù)異常值分析與處理

異常值的存在會對數(shù)據(jù)的計算分析帶來不良影響,本文采用箱線圖法分析采集數(shù)據(jù)中的異常值[8],箱線圖為我們提供了識別異常值的一個標(biāo)準(zhǔn):異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值[9],如圖1所示。據(jù)統(tǒng)計六種污染物異常值共為57個,占總數(shù)據(jù)的4.15%。同時采用異常值視為缺失值的方法,對異常值進(jìn)行填補(bǔ)。

圖1 六種污染物異常值識別

2.3 數(shù)據(jù)缺失值識別與處理

數(shù)據(jù)收集的過程中,由于數(shù)據(jù)采集失誤、數(shù)據(jù)存儲失敗、機(jī)器損毀等原因會導(dǎo)致數(shù)據(jù)的不完整性。一般來說,缺失值的處理包括兩個步驟:即缺失值數(shù)據(jù)識別和缺失值處理。

原始數(shù)據(jù)缺失值的識別如圖2所示,按照不同類別和比例,展示了大氣污染物濃度原始數(shù)據(jù)的基本情況,淺色表示濃度值小,深色表示濃度值大,黑色表示缺失值。

圖2 原始數(shù)據(jù)缺失值識別

本文采集的大氣污染物濃度數(shù)據(jù)總量為5286條,缺失量為237,缺失率為5.38%。表1對原始數(shù)據(jù)缺失值進(jìn)行了詳細(xì)統(tǒng)計。本文分別使用均值替換法、回歸插補(bǔ)法以及多重插補(bǔ)法[10],對缺失值進(jìn)行處理,并比較其處理效果。

表1 缺失值統(tǒng)計

均值替換法保留了與缺失變量無關(guān)的其他變量的信息,最大程度上保證了數(shù)據(jù)真實(shí)性與完整性的特點(diǎn)[11]。即采用均值替換法分別計算出PM2.5均值為44、PM10均值為81、SO2均值為28、NO2均值為41、O3均值為53、CO均值為1。對污染物濃度數(shù)據(jù)進(jìn)行均值替換法處理的頻數(shù)分布對比,如圖3所示。

圖3 均值替補(bǔ)法前后數(shù)據(jù)頻數(shù)分布圖

通過污染物變量與時間變量建立回歸模型,利用回歸方程的預(yù)測值對缺失數(shù)據(jù)進(jìn)行回歸插補(bǔ)[12]。對污染物濃度數(shù)據(jù)進(jìn)行回歸插補(bǔ)法處理的頻數(shù)分布對比,如圖4所示。

圖4 回歸插補(bǔ)法前后數(shù)據(jù)頻數(shù)分布圖

對原始數(shù)據(jù)進(jìn)行多重插補(bǔ),利用每一個插補(bǔ)值對缺失數(shù)據(jù)插補(bǔ)得到相應(yīng)個數(shù)的完整樣本[13]。對污染物濃度數(shù)據(jù)進(jìn)行均值替換法處理的頻數(shù)分布對比,如圖5所示。

圖5 多重插補(bǔ)法前后數(shù)據(jù)頻數(shù)分布圖

通過以上三種方法對原始數(shù)據(jù)時間序列集進(jìn)行缺失值處理后,可明顯看出,處理后數(shù)據(jù)頻數(shù)發(fā)生了明顯變化。沈陽市六種污染物濃度變化的時間序列分布折線圖如圖6所示,六種污染物濃度變化趨勢具有較為明顯的周期性特征。其中PM2.5、PM10、SO2、NO2每年的11月份到次年的3月份濃度較高,主要原因是沈陽市仍然以燃煤為主,冬天采暖期煤的消耗量較大,供暖期的燃煤量是非供暖期的3倍[14],使得冬季這四種污染物濃度較高;每年2月至8月O3的濃度較高,主要原因是夏季沈陽市溫度較高,同時汽車保有量的迅速增加[15]也是O3濃度升高的原因之一。CO濃度值主要在(0,2)之間波動,對沈陽市空氣質(zhì)量的影響較小,故本文不進(jìn)行CO污染物濃度變化研究。

圖6 六種污染物濃度時間序列分布折線圖

3 模型建模

3.1 LSTM神經(jīng)網(wǎng)絡(luò)簡介

長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的變形結(jié)構(gòu)[16],在隱藏層各神經(jīng)單元中增加單元狀態(tài)量,使時間序列上的記憶信息可控;在隱藏層各單元傳遞時通過遺忘門、輸入門、輸出門控制歷史信息與當(dāng)前信息的記憶和遺忘程度。

3.2 輸入層、輸出層神經(jīng)元設(shè)置

本文采用三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入層和輸出層是通過實(shí)際情況而設(shè)計的,輸入層輸入數(shù)據(jù)為PM2.5、PM10、SO2、NO2、O3共五個特征變量,神經(jīng)元個數(shù)為5;輸出層預(yù)測輸入層五個特征變量的濃度變化,神經(jīng)元個數(shù)亦為5。

3.3 隱藏層神經(jīng)元設(shè)置

目前對于隱藏層神經(jīng)元個數(shù)的選取沒有準(zhǔn)確的算法公式,只能結(jié)合經(jīng)驗(yàn)公式和不斷進(jìn)行試驗(yàn)的方式來確定[17],經(jīng)驗(yàn)公式如下:

其中n為輸入層的神經(jīng)元個數(shù),n1為輸出層神經(jīng)元個數(shù),a是(1,10)范圍內(nèi)的任意整數(shù),M是隱藏層的神經(jīng)元個數(shù)。由式(1)可得,M的取值范圍是(4,13),式(2)可得M取值為3,故隱含層的神經(jīng)元個數(shù)范圍為(3,13)之間的整數(shù),在這范圍內(nèi)采用試湊法,對11種不同隱藏層神經(jīng)元個數(shù)進(jìn)行對比訓(xùn)練,利用MAE和RMSE作為模型精度評價指標(biāo)(式(3)和式(4)),找出最合適的隱藏層神經(jīng)元個數(shù)為3。激活函數(shù)為Sigmoid,學(xué)習(xí)率(learningrate)設(shè)置為0.01,每次訓(xùn)練輸入的樣本數(shù)(batch_size)為50,迭代次數(shù)(numepochs)為150次。

式中:MAE為平方絕對誤差,n為數(shù)據(jù)總個數(shù),yi為數(shù)據(jù)的真實(shí)值,y?i為數(shù)據(jù)的預(yù)測值。

式中:RMSE為均方根誤差,n為數(shù)據(jù)總個數(shù),yi為數(shù)據(jù)的真實(shí)值,y?i為數(shù)據(jù)的預(yù)測值。

4 實(shí)驗(yàn)分析

通過三種不同數(shù)據(jù)預(yù)處理形成三組新的數(shù)據(jù)集,以及直接刪除缺失值的原始數(shù)據(jù)集,分別對這四組數(shù)據(jù)集進(jìn)行歸一化處理,并分別選取2016年11月~2018年12月 數(shù) 據(jù) 作 為 訓(xùn) 練 集,2019年1月~2019年3月數(shù)據(jù)作為測試集;利用前一天五種污染物濃度值作為模型輸入,后一天五種污染物濃度值作為模型輸出,進(jìn)行LSTM模型仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2、表3所示。

表2 缺失值處理方法的預(yù)測精度評價指標(biāo)MAE對比

表3 缺失值處理方法的預(yù)測精度評價指標(biāo)RMSE對比

通過表2、表3可知,模型的隱藏層神經(jīng)元個數(shù)為3時,模型的評價指標(biāo)最好,并且不同缺失值的處理方法的評價指標(biāo)也不同,故對缺失值處理方法與模型精準(zhǔn)度進(jìn)行排序如表4所示。

表4 隱藏層神經(jīng)元個數(shù)為3的缺失值處理方法排序

通過以上分析可得:多重插補(bǔ)法的RMSE和MAE的值均為最小,模型的預(yù)測精度最高,而原始數(shù)據(jù)的預(yù)測精度最低。與原始數(shù)據(jù)相比,多重插補(bǔ)法的精準(zhǔn)度評價指標(biāo)MAE提高了22%,RMSE提高了13%,所以應(yīng)采取多重插補(bǔ)法進(jìn)行缺失值處理;圖7是采用多重插補(bǔ)法的LSTM模型對五種污染物濃度的原始數(shù)據(jù)與預(yù)測結(jié)果的曲線對比圖,可以看出該模型對污染物濃度的變化趨勢預(yù)測較好,根據(jù)模型計算出MAE誤差約為13.3,預(yù)測值與實(shí)際值擬合較好,同時具有良好的泛化能力。

圖7 多重插補(bǔ)法的LSTM預(yù)測模型對圖

5 結(jié)語

通過對沈陽市8個國控站點(diǎn)數(shù)據(jù)的采集、處理和挖掘,得出沈陽的主要污染物是PM25、PM10、SO2、NO2、O3,同時污染物濃度變化具有一定的周期性。本文建立三層LSTM時間序列模型可以精確地預(yù)測五種污染物濃度,實(shí)驗(yàn)結(jié)果表明通過數(shù)據(jù)和缺失值預(yù)處理,可以有效提高預(yù)測精度,其中多重插補(bǔ)法的精度提升最高。本文對于LSTM模型的隱藏層神經(jīng)元個數(shù)設(shè)置,采用的是經(jīng)驗(yàn)公式法和試湊法的結(jié)合,因此隱藏層神經(jīng)元的最優(yōu)個數(shù)的選取上仍然有進(jìn)一步優(yōu)化的空間。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: www.91在线播放| 亚洲欧美日本国产专区一区| 久久96热在精品国产高清| 91丨九色丨首页在线播放| 制服丝袜一区二区三区在线| 亚洲AV人人澡人人双人| 精品国产免费观看| 欧美日韩高清| 久久久久久久97| 欧美天堂在线| 国产在线精品人成导航| av在线无码浏览| 亚洲福利片无码最新在线播放| 欧美五月婷婷| 免费精品一区二区h| 香蕉久久国产超碰青草| 亚洲无码视频喷水| 一本二本三本不卡无码| 色哟哟国产精品| 一级毛片免费观看不卡视频| 在线色国产| 欧美国产日产一区二区| 91久久精品日日躁夜夜躁欧美| 91在线中文| 日韩少妇激情一区二区| 黄色网址免费在线| 人妻少妇久久久久久97人妻| 996免费视频国产在线播放| 亚洲福利网址| 国产无码精品在线播放| 五月六月伊人狠狠丁香网| 国产一级妓女av网站| 久久性视频| 在线精品欧美日韩| 免费人成在线观看成人片| 最新加勒比隔壁人妻| 强奷白丝美女在线观看| 久久综合干| 日本欧美成人免费| 亚洲精品无码久久久久苍井空| 日本午夜在线视频| 免费看黄片一区二区三区| yjizz国产在线视频网| 国产精品亚欧美一区二区| 日韩在线网址| 午夜视频免费试看| 中文字幕久久波多野结衣| 福利视频99| 在线视频精品一区| 中文字幕人妻av一区二区| 国产精品久久精品| 久久久噜噜噜久久中文字幕色伊伊 | 日本高清在线看免费观看| 中文字幕亚洲专区第19页| 无码免费视频| 就去色综合| 一区二区三区成人| 亚洲二三区| 亚洲精品无码不卡在线播放| 免费看美女自慰的网站| 亚洲国产成人精品一二区| 日韩不卡高清视频| 亚洲中文字幕在线一区播放| 国产凹凸视频在线观看| 一级毛片无毒不卡直接观看| 四虎影视库国产精品一区| 久久久久国色AV免费观看性色| 国产美女久久久久不卡| 亚洲中字无码AV电影在线观看| 任我操在线视频| 亚洲综合在线网| 一级做a爰片久久毛片毛片| 亚洲一区二区无码视频| 亚洲一区二区三区在线视频| 成人福利免费在线观看| 亚洲AⅤ无码日韩AV无码网站| 国产视频欧美| 国产91色| 欧美一级大片在线观看| 青青青亚洲精品国产| 一本一道波多野结衣一区二区| 99久视频|