李志剛,秦林林,孫 婷
(1.華北理工大學人工智能學院,河北 唐山 063210;2.河北省工業智能感知重點實驗室,河北 唐山 063210)
構建合理的空氣質量數據分析與預測模型對我國經濟發展具有重要意義。一般情況下,PM2.5被視為我國大部分地區的最重要的大氣污染物之一,且受到時空尺度的影響[1-2]。因此,本文重點關注多站點協同下的PM2.5分析與建模問題,進而構建了TS-TDBN-ELM模型。
CRQA能夠探究兩個非線性信號間相似動力學行為[3]。首先,將兩組空氣質量數據重構至高維相空間,觀察其在相空間中的運動軌跡距離。然后,采用遞歸率(Recurrence Rate,RR)、確定性(Determinism,DET)、層流性(Laminarity,LAM)和平均對角線長度(Mean Diagonal length,MDL)四個指標對二者之間的動力學特性進行定量測度,篩選出影響PM2.5的主要因素,作為后續預測模型的輸入。
此部分采用DBN-ELM模型對PM2.5進行多輸入單輸出預測。其中,采用DBN對CRQA篩選出的因素進行關鍵特征提取,將提取后的數據特征輸入ELM中,完成最終PM2.5預測。為進一步提升預測性能,引入了TLBO算法,對DBN-ELM中各個隱藏層神經元的學習率進行優化。
實驗選取目標站點天壇(Tiantan,TT)、臨近站點萬壽西宮(Wangshouxi,WSX)與臨近站點官園(Guanyuan,GY)[4]。數據包含12種因素,分別為PM2.5、PM10、SO2、NO2、CO、O3、溫 度(Temperature,T)、氣 壓(Pressure,P)、露點溫度(Dew Point Temperature,DT)、雨量(Rain,R)、風向(Wind Direction,WD)與風速(Wind Speed,WS)。為驗證模型的有效性,采用歸一化均方根誤差(Normalized Root Mean Squared Error,NRMSE)、平均絕對誤差(Mean Absolute Error,MAE)、決定系數(Coefficient of Determination,CD)評估模型性能。
下頁表1給出了多站點中因素對TTPM2.5的相似性度量指標值,與TTPM2.5相似性最強的因素已加粗顯示。RR值越高,表明當前因素與TTPM2.5出現的相似性概率越高。可以看到,在該指標下,三個站點中的R與TTPM2.5間相似性最強。DET越高,表明各個因素與TTPM2.5之間相似動態的確定性越強。由下頁表1可知,T與TTPM2.5間相似狀態具有更高的規律性和可預測性。LAM度量了PM2.5與各個影響因素之間的同步性,其值越高,表示運動狀態的同步時間就越長。在三個站點中,CO、T、T分別與TTPM2.5之間的同步性最高。MDL是度量不同因素與PM2.5之間相似性的重要指標。可以看到R、T與TTPM2.5保持著較高的相似性。綜合四種指標,確定影響TTPM2.5的主要因素,分別為TT,SO2、CO、T、P、DT與R;WSX,O3、T、DT與R;GY,CO、T、DT與R。上述因素與TTPM2.5共同作為預測模型輸入。

表1 TT中PM2.5與其他站點其他影響因素CRQA測度
下頁圖1給出了時空尺度下基于PM2.5序列的預測曲線與實際曲線對比結果。可以看出,SVM與ELM模型的PM2.5預測曲線與實際PM2.5曲線的擬合度較差。從下頁圖1可以看到,DBN-ELM與TS-TDBN-ELM模型在相應時間步上的PM2.5預測曲線與實際PM2.5曲線的變化趨勢較為一致。下頁表2給出了時空尺度下多種模型的預測性能對比結果。由下頁表2可得,TS-TDBN-ELM預測算法的NRMSE、MAE指標的值分別為0.2436、0.0146,這比其他五種對比模型相應誤差指標值更小,即該模型預測所得PM2.5與實際PM2.5間的偏差更小、精度更高。此外,還可以看出,TS-TDBN-ELM預測模型的CD值為0.9963,這說明該模型具有良好的非線性擬合能力。

表2 預測模型相應評估指標值對比

圖1 模型預測PM2.5曲線與實際PM2.5曲線對比
提出了一種多站點協同PM2.5的預測架構TSTDBN-ELM,主要包含CRQA分析與TDBN-ELM預測組成。其中,CRQA能夠挖掘多站點模式下多種因素與目標站點PM2.5的動態相關性,確定影響PM2.5的主要因素,為后續預測提供優質輸入條件。在預測部分,采用TLBO優化DBN-ELM各隱層神經元學習率,進一步提升了它的預測性能。實驗結果表明,TS-TDBN-ELM具有最優的預測性能。