999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時空特征提取的空氣污染物PM2.5預測

2023-12-01 03:14:54凌德森王曉凱
計算機測量與控制 2023年11期
關鍵詞:特征提取模型

凌德森,王曉凱

(山西大學 物理電子工程學院,太原 030006)

0 引言

經過藍天保衛戰的努力,我國城市的細顆粒物(PM2.5)已經下降了許多,但在北方的很多城市到了秋冬季節后,霧霾現象依然很嚴重,嚴重影響了人們的日常生活,而霧霾的主要成分為細顆粒物(PM2.5),因此對PM2.5值的預測對空氣污染防治、守護藍天保衛成果具有重要意義。

目前,國內外的學者在PM2.5預測方面已有了大量的研究[1],主要的方法有數據驅動方法[2],如Rui Zhao等[3]利用多元線性回歸(MLR,multiple linear regression)模型來實現PM2.5的短期預測,Liu Wei等[4]利用粒子群算法優化支持向量機(SVM,support vector machine)對PM2.5等級進行預測,之后隨著人工神經的發展,深度學習作為機器學習的一個分支,是經典機器學習的一個進步。與經典機器學習不同,經典機器學習仍然需要人工輔助來提取特征,深度學習具有自動學習原始數據特征的優點。如賈佳美等[5]利用BP神經網絡對PM2.5日均濃度進行預測;Jeya[6]等利用雙向LSTM模型預測PM2.5污染物濃度,并采用均方根誤差、平均絕對誤差以及平均絕對百分比誤差進行誤差評估分析,最終結果表明此模型相較于對比模型精度得到了較大的提升。另外,混合預測模型也是最近幾年重點研究對象,如Bai等[7]利用改進的極限學習機結合離群點檢測和校正算法、數據分解策略和多目標優化算法,形成了PM2.5濃度的混合模型,蔣洪訊等[8]提出了一種基于小波分解(WD,wavelet decomposition)的長短期記憶網絡(LSTM,long short-term memory network)用來預測PM2.5的濃度,結果表明數據經過分解處理后,能夠降低數據噪聲的影響,提高模型的預測性能。為了提高模型的預測精度,學者還利用模型對數據的隱藏特征進行提取,如Jin等[9]利用經驗模態分解(EMD,empirical mode decomposition)將PM2.5數據進行分解,并將分解后的數據根據頻率分量進行分組,最后利用CNN-GRU模型進行預測,實驗結果表明利用卷積神經網絡(CNN,convolution neural network)網絡進行特征提取之后會進一步提高模型的預測精度,衛曉旭等[10]提出一種多元預測模型,先利用CNN網絡對多因素數據進行空間特征提取,再使用雙向長短期記憶(BiLSTM,bidirectional long short-term memory network)網絡對多因素數據中包含的時間特征進行挖掘并預測,進一步提高了模型對污染物濃度預測的精度。但是該模型先對數據的空間特征進行提取,再對時間特征進行挖掘,這可能會導致在空間特征提取后數據中某些時間特征被忽略的問題。

目前,雖然很多的模型也都考慮了多因素之間的相互影響[11-13],但多數的研究中只是偏向于對數據的時間特征信息或空間特征信息的挖掘,并沒有同時對時間特征和空間特征進行提取,如前文介紹的CNN網絡,雖然相較于單一模型有了很大的提升,但模型對數據特征的提取不夠完善,不能很好的挖掘數據的隱藏信息,也是阻礙預測精度提升的原因。因此本文提出了一種時空特征提取的PM2.5濃度預測模型方法,為了能夠更容易獲取預測數據的內部特征,先利用STL算法對預測序列進行分解,再將分解后的序列混合著其他污染物數據和大氣因素數據傳入ConvLSTM網絡進行時間特征和空間特征進行同時提取,之后傳入到利用貝葉斯優化后的GRU網絡進行預測。結果表明,本文提出的模型具有更高的精度。

1 研究方法的基本原理

1.1 ConvLSTM網絡

ConvLSTM是雙重組合的深度學習方法,它是 LSTM 架構的混合變體,使用卷積算子而不是矩陣乘法來進行狀態輸入和狀態到狀態轉換[14]。這使算法能夠處理時空數據并使用本地鄰居的輸入和先前的狀態來確定網格中特定單元格的即將到來的狀態[15]。其運行機制如下:

it=σ(Wxi*Xt+Whi*Ht-1+Wci°Ct-1+bi)

(1)

ft=σ(Wxf*Xt+Whf*Ht-1+Wcf°Ct-1+bf)

(2)

Ct=ft°Ct-1+it°tanh(Wxc*Xt+Whc*Ht-1+bc)

(3)

ot=σ(Wxo*Xt+Who*Ht-1+Wco°Ct+bo)

(4)

Ht=ot°tanh(Ct)

(5)

式(1)~(5)中:*和o分別表示卷積和Hadamard乘積,i,f和o分別表示輸入門、遺忘門和輸出門,H表示時間序列的隱藏狀態,C表示每個細胞的輸出,σ為激活函數,W表示連接狀態之間的權重。

1.2 STL分解算法

STL分解算法是一種常見的時間序列分解算法,它通過局部加權回歸(Loess)[16]將時間序列分解為趨勢項、季節項和隨機波動的殘差項,如式(6)表示。

xt=Tt+St+Rt,t=1,2,…,N

(6)

其中:xt、Tt、St和Rt分別表示在t時刻的時間序列觀測值、趨勢項、季節項和殘差項。另外STL可分為內循環和外循環,其中內循環主要用來進行趨勢擬合和周期分量的計算,內循環的主要步驟如下。

步驟4:將步驟2得到的時間序列進行趨勢項去除,為:

(7)

步驟7:判斷步驟6得到的時間序列是否收斂,若不收斂重新執行步驟1到步驟6,直到時間序列收斂,若收斂則內循環結束。

外循環通過引入穩健權重來處理內循環中出現的異常殘差值,可以減少迭代過程中異常值的影響,從而提高了算法的魯棒性[17]。

1.3 貝葉斯優化

貝葉斯優化是由Pelikan等[18]學者在1998年提出的,它在已知有限樣本條件下,通過構造黑箱函數輸出的后驗概率來尋找函數的最優值,其主要目標是在超參數空間內尋找到泛化性能最優的多維超參數x*,公式如下:

(8)

式中,f(x)是超參數向量x到模型泛化性能的映射。由于用黑箱函數評估模型代價高昂且復雜,為了克服此缺點,常常利用高斯過程模型作為代理模型來評估模型,改進后的模型可以考慮之前的參數信息,不斷地更新先驗知識[19]。在超參數優化的問題中,貝葉斯優化是當前為數不多的,具有較好的收斂性理論保證的超參數估計方法[20]。

1.4 GRU網絡

GRU網絡是Chung等[21]在2014年提出的一種新的RNN變體循環神經網絡(RNN)的一種變體,是在LSTM網絡上的進一步的改進,它能夠在降低了細胞結構復雜度的同時,保證和LSTM的模型精度相當的同時,提高網絡的運行效率,使得網絡在訓練中能夠更快的收斂[22]。其前向傳公式如下:

rt=σ(Wr·[ht-1,xt])

(9)

zt=σ(Wz·[ht-1,xt])

(10)

(11)

(12)

2 實驗方法與實驗數據

2.1 實驗方法

為了使模型具備時空特征提取的能力,本文采用ConvLSTM模型進行時空特征提取,將提取后的特征再利用GRU網絡進行預測。此外,在加入多種特征因素后,直接使用空氣污染物原始數據進行預測,會降低模型的預測精度,因此采用STL分解算法先將待預測的空氣污染物序列進行分解,再進行預測。模型結構如圖1,具體步驟如下。

圖1 STL-ConvLSTM-GRU模型的整體結構

步驟1:為了解決各種數據輸入量綱不一致的問題,這里將要預測的污染物濃度序列、相關的污染物濃度序列,以及氣象因素數據進行歸一化處理,原始數據主要是空氣污染物濃度數據。又因原始數據的分布改變可能會造成空氣污染物濃度分布信息的丟失,為了保證歸一化處理后的數據不改變原始數據的分布情況,因此本文利用Max-Min方法對數據作歸一化處理。

(13)

式中,yi為歸一化后的數據,xi為原始數據,xmax,xmin分別為原始數據中的最大值、最小值。

步驟2:將歸一化后的待預測的PM2.5污染物濃度序列,采用STL算法進行分解得到季節性序列、趨勢序列和殘差序列,能夠有效降低序列中噪聲的影響,并更有利于提高后續對數據特征的提取。

步驟3:將步驟2得到的3種子序列分別加入歸一化后的其他污染物濃度序列及氣象因素,并分別利用ConvLSTM模型進行時空特征提取,時空特征的提取能夠更加突出對預測效果影響更大的因素的影響,提高模型預測的準確率。

步驟4:利用步驟3提取得到的特征值作為GRU網絡的輸入值,預測結構的誤差值作為目標函數,使用貝葉斯算法對GRU網絡進行超參數優化。

步驟5:利用步驟4優化好的GRU預測模型對步驟3處理后的子序列分別進行預測,為了降低模型過擬合的問題,在GRU層后增加Dropout層,Dropout正則化方法能夠有效較低模型過擬合的問題。步驟6:將子序列預測結果通過Dense層進行輸出,將最后的子序列預測結果疊加,并進行反歸一化操作得到最終的預測結果。

2.2 數據來源與相關性分析

本文選擇以某市2017年1月1日至2017年7月31日每小時采樣一次的歷史實時空氣污染物濃度數據為研究樣例,數據集收集于中國環境檢測總站的全國城市空氣質量實時發布平臺(https://air.cnemc.cn)和真氣網(https://www.aqistudy.cn/)發布的數據[23],其中包括PM10、PM2.5、SO2、NO2、O3和CO 6項主要污染物濃度以及溫度、濕度、風級、風向4種氣象數據。

由于空氣污染物濃度和氣象數據收集過程十分不易,因此造成收集到的數據部分缺失,對于缺失的數據分別按照污染物和氣象數據來進行補缺,對于空氣污染物的缺失值采用相鄰數據取均值的方法,即將空缺處的污染物數據利用其上一時刻和下一時刻的值進行平均運算得出,氣象數據則直接使用0值來補全。補全后的各污染物濃度數據如圖2所示。

從圖2中可以直觀的看出六種空氣污染物濃度之間的波動具有一定的相關性,其中PM2.5、PM10、SO2、NO2、CO五種空氣污染物濃度的變化表現出一種同增同減的正相關性,而O3與其它5種空氣污染物濃度之間表現出一種一減一增的負相關性。為了更加深入的研究六種空氣污染物之間存在的相關性,本文利用皮爾遜(Pearson)相關系數進行相關性研究。

Pearson相關系數是英國數學家卡爾·皮爾遜在弗朗西斯·高爾頓的研究基礎之上演變為來。Pearson相關系數可以用來表示兩個變量之間的相關性,反應兩個變量之間變化趨勢的方向以及程度[24]。若有兩個長度為n的序列{x1,x2,…,xi,…xn} 和{y1,y2,…,yi,…yn} ,則Pearson相關系數r的計算公式為:

(14)

圖3 六種空氣污染物濃度之間的相關系數

從空氣污染物濃度的Pearson相關系數圖(圖3)中可以看出,PM2.5、PM10、SO2、NO2、CO、O3六種空氣污染物濃度之間相互存在著一定的相關性,其中PM10、PM2.5、SO2、NO2、CO之間相互呈現不同程度的正相關性,O3和其他5種空氣污染物之間呈現不同程度的負相關性。

2.3 實驗設備

為了保證所有實驗模型的公平性,本次所有實驗均在Windows11系統下,利用Python3.6、Matlab R2019b以及tensorflow2.0平臺搭建和運行實驗模型。

3 實驗過程與結果分析

3.1 STL分解

圖4 經STL分解后的PM2.5濃度

為了能夠更加準確地獲取時間序列的內部特征,將待預測的PM2.5濃度時間序列進行STL分解,經過多次實驗后,將STL分解周期設置為230小時,得到PM2.5的季節分量、反映PM2.5變化趨勢的趨勢項、以及反映PM2.5隨機波動的殘余項。從圖4中可以看出雖然PM2.5數據的波動比較混亂,但是仍然具有一定的周期性規律,從分解后的趨勢項來看從1月到7月的這段時間內隨著氣溫的逐漸升高,PM2.5濃度逐漸下降并慢慢趨于平穩,這種現象表明霧霾等PM2.5污染現象的出現可能和冬季取暖消耗的資源較多有一定的聯系。

3.2 模型參數的選擇

在模型構建過程中需要設置模型的參數,參數的選擇也是模型構建的重點,合適的參數關系到模型的預測誤差和泛化能力[25]。在實際應用的過程中ConvLSTM網絡卷積核的熟練關系到模型對特征提取的完整程度,而GRU網絡中神經元的數量、學習率的大小、正則化率的大小、迭代次數都影響著模型的最終預測結果,因此設置合適的超參數是十分重要的。

以往在超參數選擇中無論是根據自己的經驗來不斷地嘗試,還是利用網格搜索法來進行多種嘗試,都不僅耗時耗力,還會因為個人經驗的積累程度影響到最終的結果。根據1.3節的分析可知,貝葉斯優化算法能夠較大范圍的搜索超參數的范圍,減少模型陷入局部最優的情況。因此本文采用貝葉斯尋優算法來降低人力的消耗,減少嘗試法以及網格搜索法帶來的個人經驗的影響。貝葉斯尋優步驟如下:

1)設定這5個參數的選擇范圍,以及每次搜索參數的步長;

2)設置初始化尋優參數,利用控制變量的方法,先固定一個超參數的大小,依次對其它超參數進行遍歷,建立不同的預測模型;

3)每次建立的模型都會計算一次模型運行的誤差值,對比每一次誤差值的大小,選擇出這一組最優的超參數。

4)調整之前固定參數的大小,再次對其它超參數進行遍歷,根據3)的描述再次選擇出一組最優的超參數;

5)當所有的選擇參數都進行遍歷尋優之后,對比每一組最優超參數下的誤差值,選擇出計算誤差最小的一組作為模型的最優超參數。

因為經過STL分解后的PM2.5數據有三項,所有將同一模型根傳入數據的不同,分別進行超參數優化。貝葉斯尋優的最終結果如表1所示。

表1 貝葉斯尋優結果

3.3 評價指標

為了能夠更好的衡量模型的預測效果,本文采用了3個評價指標:平均絕對誤差(MAE,mean absolute error)、均方根誤差(RMSE,root mean squared error)和平均絕對百分比誤差(MAPE,mean absolute percentage error)來分析預測結果與真實值之間偏差。一般來說RMSE、MAE和MAPE值越小則預測結果與真實值之間的偏差越小,模型預測效果越好;

(15)

(16)

(17)

3.4 實驗結果分析

將討論的PM2.5數據經STL算法分解成季節項、趨勢項和殘余項3個子序列,如3.1節分析,并將3個子序列分別與其他5種污染物數據以及溫度、濕度、風級、風向4種氣象數據的前4 882條數據作為訓練集、后206條數據作為測試集,預測步長選擇8小時,即使用前的8個小時的數據預測預測后1個小時的值。模型預測結果如圖5所示。

圖5 模型預測結果

從圖5可以看出,STL-ConvLSTM-GRU模型的PM2.5濃度預測結果與實際PM2.5濃度的整體趨勢較為貼合,符合PM2.5濃度的變化波動趨勢。雖然在某些PM2.5濃度變化波動復雜的時間內,該模型的預測結果和實際PM2.5濃度有一些誤差,但從PM2.5濃度的變化趨勢上看,預測結果與實際值也是相符合的,表明該模型能夠較為準確的預測PM2.5濃度值,并且在PM2.5濃度變化復雜的情況下也能很好的預測PM2.5的波動趨勢。

3.5 對比實驗

為了驗證本文提出模型的優劣性,除了本文主要的研究模型外,還搭建了ConvLSTM-GRU模型、常見的CNN-GRU模型以及GRU模型作為實驗對比模型。

從GRU網絡的預測結果圖(圖6)可以看出,在相同模型參數的情況下,GRU網絡對PM2.5濃度的預測結果與實際值的偏離度較大,甚至在一些PM2.5濃度波動較為復雜的情形下,基本失去了預測PM2.5濃度趨勢的可能性。

將GRU網絡的預測結果與ConvLSTM-GRU模型和CNN-GRU模型的PM2.5濃度預測結果(圖7、8)進行對比可以發現,雖然ConvLSTM-GRU模型和CNN-GRU模型的預測結果離真實值都有著一定的差距,但是通過比較這3種模型預測結果與實際值的擬合程度,可以得出在這3種模型中僅僅使用單一GRU模型進行預測的效果最差,與實際走勢的偏離度最高,預測值與實際值的偏差最大,而另外兩種模型雖然也與真實值有所差距,但預測結果與實際值的偏離度卻有著明顯的改善,因此可以得出在對PM2.5濃度預測前對多因素數據進行特征提取,能夠有效的提高模型對PM2.5濃度的預測準確率。

圖6 GRU網絡的預測結果

通過對比ConvLSTM-GRU模型和CNN-GRU模型的PM2.5濃度預測結果,發現采用ConvLSTM進行時空特征提取之后,對于PM2.5濃度波動比較頻繁的部分以及濃度趨勢變化較尖銳的時刻,預測結果更加貼近真實PM2.5濃度的走勢,再通過觀察表2中各評價指標值,可以得出ConvLSTM-GRU模型RMSE、MAE以及MAPE的值要小于使用CNN進行特征提取的CNN-GRU模型,因此可以得出ConvLSTM-GRU模型的預測效果要優于CNN-GRU模型,也即是使用ConvLSTM進行時間和空間的特征提取后,比僅僅利用CNN網絡進行空間特征提取更加有效的提高了模型的預測精度。

圖7 CNN-GRU模型的預測結果

圖8 ConvLSTM-GRU模型的預測結果

通過對比STL-ConvLSTM-GRU模型和ConvLSTM-GRU模型的預測結果和結果評估表可以看出,STL-ConvLSTM-GRU模型的預測結果要更加優于ConvLSTM-GRU模型的預測結果,這表明使用STL分解算法對PM2.5數據進行分解,能夠更有效的突出數據中隱藏的特征信息、降低噪聲對PM2.5濃度預測模型的影響,并進一步提高模型的預測準確度。

通過對比4種模型的RMSE、MAE和MAPE三種評價指標,STL-ConvLSTM-GRU模型相較于其它3種模型,RMSE分別降低了5.5%、12.54%、16.54%;MAE分別降低8.2%、18.05%、28.82%,MAPE也有著不同程度的降低。從以上的分析可以得出,STL-ConvLSTM-GRU模型的預測結果相較于其它3種模型效果更優,整體結果更加貼近真實的PM2.5濃度的變化趨勢。

表2 4種預測模型性能對比

4 結束語

1)相較于單一的GRU模型,經過ConvLSTM進行時空特征提取后的GRU模型預測效果更好,因此采用ConvLSTM對PM2.5數據進行時空特征提取具有可行性。ConvLSTM-GRU模型比GRU模型的RMSE、MAE、MAPE分別降低了11.67%、22.95%、8.38%。

2)通過對比ConvLSTM-GRU模型和CNN-GRU模型的預測結果,可以得出采用ConvLSTM對數據進行時間和空間的特征提取能夠更多的挖掘出PM2.5濃度數據中的隱藏信息,提高模型的預測技能高度。

3)由于多變量預測的復雜性較高,為了更好的提取內部特征信息,利用STL算法先將待預測的PM2.5數據分解,再和其它影響因素一起利用ConvLSTM進行時空特征提取,相較于ConvLSTM-GRU模型,STL-ConvLSTM-GRU模型更進一步提高了預測精度,證明了本文所研究的模型優越性。

4)本文只是將影響因素一并傳入到預測模型中,并沒有考慮影響因素與待預測序列之間相關度大小的影響,因此后面將對數據之間相關度大小的影響進行實驗。

猜你喜歡
特征提取模型
一半模型
特征提取和最小二乘支持向量機的水下目標識別
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产亚洲美日韩AV中文字幕无码成人 | 婷婷六月天激情| 欧美成人一级| 99国产在线视频| 色综合天天综合| 成人午夜网址| 国产日韩久久久久无码精品| 亚洲精品国产乱码不卡| 午夜色综合| 三级国产在线观看| 亚洲精品在线影院| 成人在线亚洲| 国内精品伊人久久久久7777人| 一级毛片在线免费视频| 中国国产一级毛片| 国产精品无码一二三视频| 国产亚洲视频免费播放| 97影院午夜在线观看视频| 人人爽人人爽人人片| 亚洲人成网7777777国产| 亚洲天堂日本| 国产欧美日韩资源在线观看| 亚洲高清无码精品| 久久国产精品娇妻素人| 国产福利大秀91| 亚欧成人无码AV在线播放| 亚洲中文精品久久久久久不卡| 香蕉色综合| 日韩精品无码免费一区二区三区 | 99免费在线观看视频| 老色鬼欧美精品| 欧美日韩高清在线| 美女一区二区在线观看| 麻豆AV网站免费进入| 青青操国产| 国产成人综合网在线观看| 亚洲美女操| 国产成人8x视频一区二区| 欧美人与动牲交a欧美精品| a级高清毛片| 亚洲精品午夜无码电影网| 丰满的少妇人妻无码区| 国产又黄又硬又粗| 热99re99首页精品亚洲五月天| 香蕉在线视频网站| 99999久久久久久亚洲| 日本高清免费一本在线观看 | 欧类av怡春院| 91日本在线观看亚洲精品| 丁香五月激情图片| 内射人妻无码色AV天堂| 婷婷丁香在线观看| 日韩 欧美 小说 综合网 另类| 久久久黄色片| 亚洲天堂自拍| 国产精品自拍合集| 亚洲精品无码日韩国产不卡| 国产99久久亚洲综合精品西瓜tv| 亚洲一级无毛片无码在线免费视频| 亚洲福利视频一区二区| 九九线精品视频在线观看| 亚洲国产成人久久精品软件| 欧美一级在线播放| 国产精品va| 一级做a爰片久久免费| 激情国产精品一区| 在线a网站| 99re热精品视频国产免费| 国产99热| 午夜少妇精品视频小电影| 亚洲国产成人精品一二区| 又猛又黄又爽无遮挡的视频网站| 国产福利免费在线观看| 全裸无码专区| 在线观看欧美国产| 国产精品蜜臀| 久久久久久国产精品mv| 青青操视频免费观看| 亚洲精品va| 欧美日韩一区二区在线播放| 国产区人妖精品人妖精品视频| 日韩高清欧美|