999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工神經網絡算法的大氣污染統計預測模型研究進展*

2020-03-20 09:24:56王雪松張遠航
環境污染與防治 2020年3期
關鍵詞:模型

屈 坤 王雪松 張遠航

(北京大學環境科學與工程學院,環境模擬與污染控制國家重點實驗室,北京 100871)

近年來,我國的大氣污染問題受到了廣泛關注;特別是我國北方地區冬季霧霾事件多發,產生了較大的社會影響[1]。與西方發達國家發展早期的大氣污染事件不同,我國的大氣污染多以復合型污染為主,即各類二次污染物均以較高濃度存在于環境大氣中,且相互間具有復雜的耦合關系[2]。因而,在我國重點區域內開展空氣質量預測、對顆粒物與O3污染事件進行預警具有重要意義。合理、準確的預報結果可以為環境管理部門提供重要的依據,以便迅速制定應對方案,及時減輕重污染事件的危害[3],同時向公眾進行通告,促使其采取措施、保護個人健康。

大氣污染預測模型包括化學傳輸模型與統計模型兩類。其中,統計模型基于現有數據中大氣污染物濃度與各相關因素間的定量化關系進行預測,具有計算速度快、預測結果準確、計算環境要求低等優勢,在實際業務應用中有著較大的潛力。模型中常用的算法包括線性回歸、時間序列模型等傳統統計方法及人工神經網絡算法(ANNs)、支持向量機(SVM)等機器學習方法[4]。其中,ANNs因其架構靈活、預測結果準確而成為目前相關研究中關注較多的一類算法。在運用該方法開展預測時,現有模型體系各環節間差異較大,因而模型構建的體系化上仍存有不足。本研究對近年來基于ANNs的大氣污染統計預測模型的研究進展進行總結,梳理算法改進與優化的基本思路,為多層次預報預警系統的構建提供理論基礎。

1 ANNs的基本結構

ANNs是一種模擬人體神經系統神經元間信息傳播過程所得到的仿生學產物[5]。該算法對非線性關系描述能力較強,具有良好的自學習自適應性、對異常值容錯性高,在解決模式識別、聚類、預測、優化等問題中有著較好表現[6]10-12,在生態學、經濟學、社會學、氣象學等領域的研究中得到了廣泛的應用[7]39-40。

ANNs常采用多層感知器(MLP)結構,包含輸入層、輸出層,分別表示算法的輸入與輸出變量,中間各層稱為隱藏層,其中常使用Sigmoid函數等作為激活函數對輸入變量進行變換,是使模型系統具有非線性解析能力的關鍵結構。依據實際預測需求,可進行ANNs的設計,確定其連接方式與分層結構[8]。為了進一步提高算法的預測精度,實際研究中所使用的ANNs通常具有復雜的結構,但其基本結構組成仍與MLP類似。

2 基于ANNs的大氣污染統計預測模型構建

ANNs在大氣污染物濃度預測、大氣污染預警等方面的應用已得到了廣泛關注,其在各大洲城市、各主要污染物的預測結果均有文獻報道。該方法在發展早期多基于單一污染物的歷史濃度展開,對其影響因素考慮較少,所選用算法相對簡單,在參數選取、算法結構的調整與優化等方面關注不多,這都限制了模型預測的效果[9-10]。近年來,隨著ANNs在實際中得到廣泛應用,以其為基礎的大氣污染統計預測模型的性能也得以不斷提升。相關研究中所關注的重點內容如圖1所示,具體包括變量的選取與預處理、模型結構的調整與優化以及集成模型的運用等,下文中分別詳細介紹。

2.1 輸入、輸出變量的選取

在基于ANNs的大氣污染統計預測模型中,輸入變量可靈活選取。常用的輸入變量包括以下5類:

(1) 對污染有顯著影響的氣象參數,包括氣溫、氣壓、風速、風向、輻射、相對濕度、降水量等(站點實測值、氣象模式的預測結果均可);

(2) 同一污染物或不同污染物的歷史濃度值(時間間隔不定);

(3) 與污染相關的活動量參數,如交通流量、行車速度、堵車長度等交通參量,其在預測CO、NOx等受機動車排放影響的污染物時常用;

(4) 時間參量,包括預測的季節、日數、小時數等;

(5) 其他參量,如地形、排放相關的參量等。

在參數選取時,通常要求所選取輸入變量與所關注污染物的濃度間有顯著的相關關系。一般而言,輸入變量對于影響污染的因素表達越全面,得到的預測值越精確。引入無關變量不僅無法顯著改善模型的預測性能,反而會增加模型的復雜程度。因此,在對輸入變量進行選取時,需首先分析其對于最終預測結果的影響,常用的方法包括相關性分析、重要程度分析、關聯分析等。

除此之外,還有其他各類方法在輸入參數選取中得以應用,如蒙特卡洛方法[16]、遺傳算法[17]等。參數選取也可采用定性方法,如ELANGASINGHE等[18]使用多類影響因素間的可視化圖表(多參量極坐標圖、散點圖、風玫瑰圖、時間序列圖等)直接進行主觀判斷,篩選出可能對結果影響較大的輸入變量。

圖1 基于ANNs的大氣污染統計預測模型構建重點內容匯總Fig.1 Major contents in ANNs-based air-pollution statistical forecasting model

輸出變量需要與所關注問題直接相關。常見的輸出變量包括SO2、NO2、O3、PM2.5、PM10等污染物的小時濃度或日均濃度等;其中作為重污染事件發生時最為常見的首要污染物,O3與PM2.5濃度的預測在近年來關注較多。此外,作為一類綜合考量環境空氣質量的指示性參數,將空氣質量指數(AQI)值作為輸出變量進行直接預測也成為部分研究的關注內容[19-20]。AQI值所指示的信息簡單易懂,公眾可通過其所對應的空氣質量級別直觀了解污染水平。部分研究將污染預測作為分類問題進行處理,僅給出預測日的污染級別或污染物濃度是否超標等信息[21],此時使用簡單模型即可得到較為精確的結果。

2.2 輸入、輸出變量的處理

2.2.1 輸入變量的標準化

確定輸入變量的類別后,可選擇對其進行標準化處理。不同類別輸入變量間可能有跨數量級的差異,進而導致計算量的增加。通過標準化處理,可避免以上問題,此外也無需對各參量進行單位轉換。標準化的常用方式包括:

(1) 線性轉化至[0,1];

(2) 線性轉化至[a,b],通常選擇區間為[0.1,0.9]或[0.2,0.8];

(3) 統計學意義的數據標準化;

(4) 通過除以最大值,進行簡單標準化。

SHANKER等[22]的研究結果表明,對數據進行標準化有利于運算效率的提高、減小模型的誤差,但算法結構復雜、數據量較大時,標準化的影響較為有限。因此,對輸入變量進行標準化并非必須步驟,相當多的研究直接利用原始數據進行預測模型的構建。

2.2.2 輸入變量的組合

對輸入變量進行組合有兩類思路:一是降維處理,以減少變量間共線性的影響、提高預測效率;二是進行分類,將分類結果作為一類新的變量加入模型,使預測更具針對性。主成分分析(PCA)、聚類分析為以上兩類思路的代表性方法。

在統計預測模型中,可利用PCA對初始數據進行正交變換,得到數個線性不相關的主成分作為新的輸入變量,預測結果通常將更加準確[23]。KUMAR等[24]將PCA與ANNs相結合,構建印度德里地區的提前一日AQI值預測模型,所得預測結果在4個季節內均優于ANNs所得結果。UL SAUFIE等[25]在馬來西亞森美蘭州一站點的PM10濃度預測模型中使用了同樣的算法。在提前一日預測時,PCA對輸入變量處理后可使原ANNs預測結果的均方根誤差由13.99 μg/m3降至11.11 μg/m3,同時一致性系數由0.88提升至0.93。在芬蘭赫爾辛基、希臘塞薩洛尼基的PM2.5與PM10濃度預測模型中,VOUKANTSIS等[26]也得到了相同的結論。

聚類分析考慮到不同變量間的相似性,給出可供參考的分類結果。將類別變量作為新的輸入變量加入預測模型中,也可起到提升模型預測能力的作用。ELANGASINGHE等[27]利用新西蘭奧克蘭一近海站點的PM10濃度數據建立基于ANNs的大氣污染統計預測模型,并考慮區域傳輸過程對PM10濃度的影響,對包含PM10濃度與風速、風向信息的二維極坐標圖進行聚類。加入聚類信息后,PM10濃度的預測效果得以改善。CORTINA JANUCHS等[28]在墨西哥薩拉曼卡的MLP預測模型中考慮氣溫、濕度、風向與風速的聚類結果,在輸入變量中加入了相對應的天氣分型信息,同樣提升了PM10濃度的預測效果。

2.2.3 輸出變量的分解

實際大氣中污染物濃度的隨機性影響因素會對預測模型造成干擾。因而,在對基于ANNs的大氣污染統計預測模型進行訓練時,可將所關注污染物的濃度分解為不同頻率的周期性序列與非周期性序列的加和,并選取其中的周期性序列作為預測模型的輸出變量。通過該處理方式,預測模型能夠更好地把握污染物濃度變化的普遍性趨勢。常用方法包括小波分解、經驗模態分解(EMD)等。

小波分解適用于具有顯著局部特性信號的處理[29],在濾波或信號壓縮等方面有廣泛應用[30]。FENG等[31]就武漢市的PM10空氣質量分指數值(PM10-IAQI)建立基于Elman神經網絡的預測模型,利用小波分解將PM10-IAQI的時間序列分解為5層。其中兩個高頻序列對原始序列中的突變特性描述較好,因而能夠把握PM10濃度達到較高水平時的影響因素。對各層序列分別進行預測,所得結果能夠滿足實際預測的需求(R=0.93,平均絕對百分比誤差=9.56%)。此外,BAI等[13]559、FENG等[32]也在大氣污染物濃度的預測模型構建中引入了小波分解方法。

作為一類傳統方法,小波分解仍存有小波函數長度有限、自適應能力弱等缺點。HUANG等[33]提出了EMD方法,將信號中不同尺度的波動或趨勢逐級分解,生成一系列具有各類特征尺度的數據序列,是一種直觀、具有自適應性的信號分解方法。在EMD的基礎上,改進可得總體經驗模態分解(EEMD)、補充總體經驗模態分解(CEEMD)與完備總體經驗模態分解(ICEEMD)等方法[34],在大氣污染統計預測模型中的應用均有報道。ZHOU等[35]關注西安市的PM2.5濃度預測,將EEMD方法與廣義回歸神經網絡算法(GRNN)相結合構建統計預測模型,并與線性回歸(MLR)、主成分回歸(PCR)、時間序列模型以及未進行EEMD分解的GRNN模型進行比對。結果顯示,無論是PM2.5的濃度水平還是變化趨勢,EEMD-GRNN算法所得預測結果均為最優。AUSATI等[36]在其研究中也得到了類似的結論,即EMD類分解方法的應用有利于統計預測模型得到更為準確的預測結果。

2.3 模型結構的調整與優化

2.3.1 ANNs類別的選取

ANNs的結構多樣,其在實際應用中可選類別眾多,通常需結合所研究問題的類別、輸入變量的特征、對預測性能的要求等因素進行綜合決策。在大氣污染統計預測模型的構建中,除MLP外,常用的ANNs算法還包括Elman神經網絡、GRNN、徑向基神經網絡(RBF-NN)與模糊神經網絡(FNN)等[37-39]。一般而言,結構較復雜的ANNs預測能力要強于結構簡單的線性神經網絡與MLP算法。在可選算法類別預測性能類似、難以判斷是否能夠適應預測的具體要求時,常設計多類算法分別進行訓練,通過比較預測結果的準確性進行選取。

2.3.2 隱藏層的結構設計

隱藏層的結構設計包括層數與節點數的設計。為簡化計算并保證預測效果,隱藏層通常選擇為單層結構[7]44;包含兩層及以上隱藏層的神經網絡模型應用相對較少。隱藏層節點數對預測模型的性能有重要影響:節點數過少,模型難以把握各數據間復雜的作用關系;節點數過多,數據本身噪音的影響被放大,模型易出現過擬合現象,同時增加計算消耗。在確定模型的隱藏層節點數時,通常參考一些與輸入層、輸出層節點數相關的經驗公式[40-43],[44]7087,常用的經驗公式分別見式(1)至式(5))。在經驗公式計算結果的基礎上進一步調整,確定滿足預測要求的最優結構。以上過程中,常利用原始數據中的交叉驗證集進行結構的評估。

(1)

(2)

(3)

(4)

(5)

式中:N為隱藏層節點數;nk為訓練數據類別數;R、m均為經驗參數,分別取5~10、0~10;Nin、Nout分別為輸入層、輸出層節點數;n為訓練總數據量。

2.3.3 激活函數的選取

相關研究較少關注激活函數選取對模型性能的影響。一般而言,大氣污染統計預測模型中多選用Logistic函數作為ANNs的激活函數。VALENCIA等[44]7089在構建哥倫比亞圣瑪爾塔的PM10預測模型時,對選用兩類激活函數(雙曲正切函數、Logistic函數)模型的預測性能進行了比較,表明雙曲正切函數所得結果要好于Logistic函數。

2.3.4 權重矩陣、收縮閾值等參數的訓練方式

后向傳播算法(BP)是ANNs中最常用的一類訓練方式,其通過尋找代價函數的最小值來得到最優參數組合。BP在應用中時常出現陷于局部極小值、過擬合等現象,因而出現了眾多性能更優的改進算法。尤其是一些仿生算法,通過模擬動物群的繁殖、捕食等活動來進行模型參數的迭代優化,進而得到最佳參數方案。常見算法有粒子群算法(PSO)、布谷鳥搜索算法(CS)等,其在大氣污染統計預測模型中的應用逐漸受到關注。

PSO通過模擬鳥類的捕食過程實現基于群體的優化,具有簡潔明了、易于實現等優點,在ANNs的訓練中具有較好效果[45]。WANG等[46]將PSO與MLP相結合,實現對香港特別行政區O3日最大小時濃度的準確預測。

CS通過模擬布谷鳥的寄生育雛方式與列維飛行方式進行參數的優化。這一優化算法簡單可行、所需參數少,在實際模型中應用較多[47]。QIN等[48]在北京市、廣州市、上海市與蘭州市構建了基于CS-EEMD-ANNs的PM2.5預測模型。其中,該模型在北京市預測結果的標準化平均誤差為9.37%,小于EEMD-ANNs所得結果(10.08%),體現出該算法對模型預測性能的提升作用。

2.3.5 其他需考慮的問題

除前文所述內容外,還可對訓練迭代的次數、原始數據的訓練方法、原始數據分類方式與數據量、原始數據是否需平滑等具體環節作出調整[6]18-23。以上內容在實際大氣污染統計預測模型的設計中考慮較少,本研究中不加以詳述。

2.4 集成模型的運用

集成模型對使用不同輸入條件、不同參數方案、不同算法及參數設置所得的各模擬結果進行匯總,其組合方式多樣且靈活,可依據模型算法的自身特點與預測目標等因素綜合選擇。集合模型可一定程度上削弱模型本身缺陷對預測結果的影響,其效果一般要優于單一模型[49]。

在實際應用中,通常將各模型所得結果的平均值作為最終的預測結果,也可依據相關參數、確定不同模型的權重值后進行平均。朱亞杰[50]針對京津冀地區的PM2.5濃度預測方法,采用直接平均、基于方差的加權平均方法對ANNs、SVM回歸算法(SVR)、分類與回歸樹(CART)、隨機森林(RF)4類基礎模型所得結果進行融合。對所得結果進行評估,表明模型集成后72 h以內預測結果的一致性系數可達0.8以上,平均絕對誤差低于50 μg/m3,均優于單一模型的預測效果。此外,兩類集成方法所得結果間差異不大。

部分研究將不同模型的結果作為輸入變量,運用與統計預測模型類似的算法建立第二層預測模塊。如在北京市PM2.5濃度的預測模型中,ZHAI等[51]利用SVR將遺傳算法(GA)-MLP等4類機器學習模型所得結果進行集成,此時測試集預測值的R2高達0.9,平均偏差僅為1.73 μg/m3。

2.5 基于不同算法的大氣污染統計預測模型性能比較

不同算法在實際大氣污染統計預測模型中應用效果的影響因素眾多。在進行模型性能比對時,所得結果與所使用的初始數據、算法結構與訓練方式、評價參數等相對應。各類算法在大氣污染統計預測模型中的適用性并沒有定論,只有對各類算法分別進行訓練、對其預測結果進行比較后才可獲知。因而,相關研究主要關注預測模型中算法性能的改進,較少進行多算法預測性能的綜合評價。

NUNNARI等[52]對基于不同算法的SO2預測模型在意大利錫拉庫薩港區與英國貝爾法斯特區域應用時的性能進行了比較。用于比較的算法共8類,包括了ANNs、FNN算法、廣義線性算法、相空間局地預測算法、線性時間序列模型等。對預測結果進行評估,總體上非線性模型的預測結果要好于線性模型。模型比對無法得到普遍性的結論,具體表現為在不同城市、選用不同統計參數以及所預測的污染水平不同時,預測效果最好的3類算法間有較大差異。

GONG等[54]不僅基于多類算法建立香港特別行政區的O3預測模型,還結合實際需求,對預測所得O3濃度是否超標的結果進行評估,綜合比較多類算法在香港特別行政區O3污染預測模型系統中的應用。該研究共考慮8類算法,包括ANNs、SVM、CART、RF、梯度增強機(GBM)、adaboost算法、裝袋算法(Bagging)與線性聚合(L-ensemble)。預測結果表明各算法的預測性能間差異不大,CART所得預測結果總體上要好于ANNs與SVM,集成模型所得結果精確度要優于單個模型。

雖然各類算法在實際預測問題中的性能優劣不易直接判斷,但對于污染物濃度的預測而言,尤其是在與各影響因素間存在非線性關系的二次污染物O3與PM2.5濃度的預測中,仍有一些粗略的結論可供參考:

(1) ANNs的預測性能一般優于線性算法,但與其他非線性算法進行比對時并不能夠得到明確的結論;

(2) 結構相對復雜的ANNs預測能力一般強于結構簡單的MLP等;

(3) 集成模型的預測性能一般優于單個模型;

(4) 結合多類參數訓練、輸入變量預處理與輸出變量分解等環節的先進算法可提升基于ANNs的大氣污染統計預測模型的整體性能。

3 結論與展望

采用機器學習方法解決實際問題的應用逐漸廣泛,作為其中結構簡單、使用靈活、預測性能良好且結構易于修正的一類算法,ANNs在大氣污染統計預測模型中的應用也成為相關研究領域的重要內容,其在空氣質量預測、重污染事件預警中的性能得以不斷提升。

模型構建是基于ANNs的大氣污染統計預測模型研究中所關注的核心問題,其重點內容包括:輸入變量與輸出變量的選取及處理、模型結構的調整與優化、集成模型的運用等。目前,基于ANNs的大氣污染統計預測模型研究重點仍集中于對算法進行改進。在實際應用中,該類模型多用于站點水平的污染物濃度預測,因而僅考慮有限尺度內、較常出現的污染影響因子。此外,模型構建在系統化與規范化上仍存有不足,原始數據與計算平臺也會成為其實際應用的限制因素。未來相關研究的重點問題將包括以下幾個方面:

(1) 完善模型構建的基礎內容。模型構建依賴于大量高質量的原始數據,為使預測模型具有普遍適用性,原始數據必然能夠全面反映各類污染情形下的影響因素。此外,在模型構建的軟、硬件條件方面仍需要進一步完善。

(2) 加強模型構建的體系化。預測模型中所使用的ANNs可改進內容眾多,提升其實際應用能力,必然要在考量客觀條件的基礎上,對各類改進方法進行系統化整理;形成模型構建的方法體系以及與實際需求相適應的集成產品,以適應實際中不同區域、不同用途大氣污染預測統計模型的需求。

(3) 進一步提升模型的預測能力。緊密聯系ANNs的發展前沿,嘗試將先進算法加入預測模型,并在實際空氣質量預測、污染預警工作中加以應用,得到更為精確的預測結果。在未來的研究中,還應致力于提高模型的空間適用性與重污染期間的預測能力。最后,對于污染物濃度的預測并不能完全滿足實際管理的需求;在逐步建立預測模型與實際過程關聯的基礎之上,可嘗試將預測模型應用于污染物的來源解析、減排方案設計等工作中。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美亚洲国产日韩电影在线| 国产精品污视频| 国产毛片基地| 欧美区一区| a亚洲视频| 在线看片免费人成视久网下载| 亚洲综合在线最大成人| 欧洲熟妇精品视频| 欧美精品啪啪一区二区三区| 日韩A∨精品日韩精品无码| 国产成人高清精品免费5388| 精品久久久久成人码免费动漫| 欧美精品v欧洲精品| 四虎影视8848永久精品| 波多野结衣一区二区三区88| 国产成人精品高清在线| 国产精品太粉嫩高中在线观看| 色视频国产| 乱人伦视频中文字幕在线| 国产一区在线视频观看| 国产一二视频| 青青草国产一区二区三区| 亚洲精品无码av中文字幕| 亚洲高清在线天堂精品| 91色在线观看| 波多野结衣二区| 国产欧美日韩专区发布| 美女无遮挡免费网站| 国产乱子精品一区二区在线观看| 美女国内精品自产拍在线播放 | 亚洲福利一区二区三区| 成人a免费α片在线视频网站| 久无码久无码av无码| 欧美19综合中文字幕| 色综合狠狠操| 国产真实乱子伦视频播放| 国产精品原创不卡在线| 国产一区免费在线观看| 国产二级毛片| 在线中文字幕日韩| 国产精品青青| 精品午夜国产福利观看| 国产在线小视频| 人妻无码AⅤ中文字| 国产国产人成免费视频77777| 国产福利不卡视频| 国产欧美日本在线观看| 天天综合色网| 午夜影院a级片| 欧美人与性动交a欧美精品| 国产精品成人一区二区不卡| 久久国产精品夜色| www.精品视频| 国产人免费人成免费视频| 99这里精品| 中国丰满人妻无码束缚啪啪| 伊人久久大香线蕉影院| 亚洲六月丁香六月婷婷蜜芽| 色综合久久久久8天国| 91视频99| 国产一区二区人大臿蕉香蕉| 91精品国产丝袜| 91日本在线观看亚洲精品| 最新痴汉在线无码AV| 免费av一区二区三区在线| 国产成人精品一区二区| 97在线碰| 五月婷婷综合色| 中文字幕66页| 91在线中文| 精品無碼一區在線觀看 | 国产人人乐人人爱| 2020精品极品国产色在线观看| 欧美视频在线播放观看免费福利资源 | 国产精品99在线观看| 亚洲成肉网| 国产网站在线看| 久久永久免费人妻精品| 成年人国产网站| 国产精品jizz在线观看软件| 高h视频在线| 亚洲无码A视频在线|