尹文君,張大偉,嚴京海,張超,李云婷,芮曉光
(1.IBM中國研究院,北京 100193;2. 北京市環境保護監測中心,大氣顆粒物監測技術北京市重點實驗室,北京 100048)
基于深度學習的大數據空氣污染預報
尹文君1,張大偉2*,嚴京海2,張超1,李云婷2,芮曉光1
(1.IBM中國研究院,北京 100193;2. 北京市環境保護監測中心,大氣顆粒物監測技術北京市重點實驗室,北京 100048)
摘 要為了更好地反映環境污染變化趨勢,為環境管理決策提供及時、全面的環境質量信息,預防嚴重污染事件發生,開展城市空氣質量預報研究是十分必要的。本文針對環境大數據時代下的城市空氣質量預報,提出了一種基于深度學習的新方法。該方法通過模擬人類大腦的神經連接結構,將數據在原空間的特征表示轉換到具有語義特征的新特征空間,自動地學習得到層次化的特征表示,從而提高預報性能。得益于這種方式,新方法與傳統方法相比,不僅可以利用空氣質量監測、氣象監測及預報等環境大數據,充分考慮污染物的時空變化、空間分布,得到語義性的污染物變化規律,還可以基于其他空氣污染預測方法的結果(如數值預報模式),自動分析其適用范圍、優勢劣勢。因此,新方法通過模擬人腦思考過程實現更充分的大數據集成,一定程度上克服了現有方法的缺陷,應用上更加具有靈活性和可操作性。最后,通過實驗證明新方法可以提高空氣污染預報性能。
關鍵詞空氣污染預報;深度學習;深度信念網絡;大數據
隨著我國可持續發展理念認知的不斷深入,在大力開展經濟建設的同時,生態文明建設也日益加強。環境污染的防治成為國家發展建設中的一項重要工作,其中的大氣污染防治更是成為重中之重。
當前,我國面臨非常嚴峻的大氣污染形勢。2015 年6月公布的由環保部組織編寫的《2014中國環境狀況公報》披露,我國開展空氣質量新標準監測的161個地級及以上城市中,空氣質量達標的城市僅有16個(約9.9%);首批開展PM2.5監測的74個城市中,不達標的高達66個(約89.2%),PM2.5濃度的年均值(64μg/m3)更是超過了世界衛生組織空氣質量導則值的6倍。為了應對當前大氣污染形勢,國家陸續出臺了一系列的政策法規。2013年9月,國務院發布《大氣污染防治行動計劃》,明確了空氣質量評價主要污染物的短期改善目標。2015年8月,中華人民共和國第十二屆全國人民代表大會修訂通過了《中華人民共和國大氣污染防治法》,該法自2016年1月1日起施行。顯然,大氣污染防治已經成為國家發展戰略中的一個重大課題。
在國務院部署的大氣污染防治十條措施①2013年6月14日,國務院總理李克強主持召開國務院常務會議,部署大氣污染防治十條措施。中,除從根源上減少大氣污染物的排放等措施,政府對重污染天氣的應急處理也被強調。空氣污染預報對于政府應急管理重污染天氣有著重要意義,不僅能警示公眾合理回避高污染天氣,還能為政府實施重污染企業限產限排、機動車限行等恰當的減緩大氣污染應急措施提供時間裕量。同時,空氣污染預報也是實現科學決策、綜合管理環境以加強空氣污染防治的有效技術手段,是將相關環境監測信息快速轉化為空氣污染防治決策依據的重要形式。正因如此,空氣污染預報受到國家的高度重視,根據《國務院關于印發大氣污染防治行動計劃的通知》(國發〔2013〕37 號)的要求,京津冀、長三角、珠三角區域于2014年年底前完成區域、省、市級重污染天氣監測預警系統建設,其他省(區、市)、副省級市、省會城市于2015年年底完成。空氣污染預報作為重污染天氣監測預警系統中核心的功能,其預報準確性對整個系統的作用有著重要的影響。空氣污染預報是一項復雜的系統工程,如何提高預報準確性是當今大氣污染防治領域研究的熱點與難題。
盡管空氣污染預報方法在近幾十年取得了長遠的發展[1],但仍存在不足。深度學習是近年來人工智能領域提出的一種新穎的機器學習方法。深度學習能通過訓練大數據,挖掘、捕捉大數據之間的深層聯系,提高分類和預測準確性,是一種有效的大數據處理方法。另外,深度學習模型的訓練較快,且隨著訓練樣本的增加,能呈現出比一般方法更優地性能成長性。基于深度學習的空氣污染預報模型能較好地克服已有預報方法的不足,原因如下:①近年來,隨著國家對環境監測的重視和投入的增大,大量空氣污染物實時監測數據得到長期積累,包括空氣污染物濃度、氣象條件等。在環境大數據背景下,深度學習技術可以利用整合海量的、多來源的環保數據,利用充足的觀測數據作為訓練樣本,保證基于深度學習的空氣污染預報模型具有較高的準確性。②深度學習模型能深度挖掘影響污染物濃度的各因子之間內在的數據關系,建立起較為準確的空氣污染物濃度與影響因子之間復雜機制模型的代理模型。深度挖掘提取高級的、語義的空氣質量變化的模式和規律,有機融合多種模型及專家知識,實現有效的空氣質量分析。③深度學習模型具有較強的擴展性,通過合理設置輸入因子的方式,能將其他方法集成到該模型中,能在一定程度上避免單一空氣污染預報模型的缺陷和不確定性,提高預報準確度。基于上述原因,本研究基于環境大數據,提出一種有效的基于深度學習的大數據空氣污染預報模型。
空氣污染預報是根據過去空氣污染物排放情況以及次日的氣象條件、大氣擴散狀況、地理地貌等因素,來預測次日該地區的空氣污染程度[1]。空氣污染預報方法可分為潛勢預報、數值預報和統計預報。
潛勢預報是基于天氣預報的“二次預報”,通過設定天氣形勢和氣象指標臨界值作為預報依據,預報可能影響空氣污染物擴散和稀釋的特有的氣象條件[3]。由于潛勢預報不考慮污染源因素,又與天氣預報的準確度相關,一般預報準確度不高。目前,潛勢預報通常不獨立使用,而是與其他方法配合使用。
數值預報是一種以空氣動力學理論為基礎,基于物理化學過程的確定性預報方法,利用數學方法建立大氣污染濃度在空氣中的稀釋擴散的數值模型,通過計算機高速計算來預報大氣污染物濃度在空氣中的動態變化[1]。國外空氣污染預報工作起步較早,目前國際上已經開發出多種數值預報的空氣質量模型,如歐拉模型中的城市大氣質量模型(urban airshed model, UAM)[4]、區域多尺度空氣質量模型(community multiscale air quality, CMAQ)[5]。近二十年來,國內研究者也陸續開發出一批數值預報模型。中國科學院的雷孝恩[6]建立了對流層高分辨率化學預報模型,該模型可預報對流層內多種氣體污染物的時空分布及演變過程。中國氣象科學研究院的徐大海[7]建立了大氣平流擴散的非靜穩多箱模型,該模型可以預報空氣污染潛勢和污染指數。中國科學院大氣物理研究所的王自發[8]建立了嵌套網格空氣質量預報系統,該系統利用中尺度氣象數值模型得到未來天氣形勢,同時考慮污染排放源情況,結合嵌套網格空氣質量預報系統,最終給出空氣質量預報結果。中國氣象局沈陽大氣環境研究所[9]在氣象中尺度數值預報模型MM5和ADMS城市模型大氣擴散模型的基礎上,分析城市空氣污染數值預報要素,結合污染源排放清單,建立了城市空氣質量預報系統。數值預報方法存在以下不足:①數值預報方法往往適合區域性的空氣污染預測,而對于城市范圍的空氣污染預測,由于復雜的地面流場和湍流結構,難以準確估計城市邊界層大氣的物化過程,使得預測效果并不盡如人意;②數值預報需要十分翔實的污染源資料,由于實際中難以獲得,通常采用簡單假設或者忽略的方式,導致數值預報準確性受限;③數值預報方法計算復雜度高,預測計算耗時較長(通常需要6~12h)[2],致使預報時效性不強。由于理論上的不足以及應用條件的高要求,數值預報方法有待進一步的完善。
統計預報不依賴于污染物的物理、化學與生態過程,通過分析空氣污染相關的輸入-輸出資料的統計規律,對未來趨勢進行預測。統計預報由于具有快捷、簡單的特點,受到許多研究者的關注。經典的統計預報方法包括時間序列分析[10]、多元回歸模型[11-12]、神經網絡模型[13-16]等。統計預報方法存在以下不足:①時間序列分析法和多元回歸模型法由于對空氣污染變化做了較多的假設,并簡化了較多的影響因子,使得方法的預報準確性不高。②人工神經網絡模型由于大量可用的訓練數據導致過擬合的現象,神經網絡的泛化能力有待提高。此外,由于空氣污染涉及大量影響因子,合理確定網絡結構的過程較為復雜,且復雜網絡的訓練耗時較長。③無法對多來源的數據(結構化、非結構化)進行有效融合與分析,無法實現對海量數據的有效全量分析。
深度學習[17]是指基于樣本數據通過一定的訓練方法得到包含多個層級的深度網絡結構的機器學習過程。深度學習模型分為前饋深度網絡、反饋深度網絡和雙向深度網絡。深度信念網絡是一種經典的雙向深度網絡,被廣泛應用于圖像分類、語音識別等領域[18],具有較強的分類、預測能力。因此,本文基于深度信念網絡提出空氣污染預報模型。
2.1 深度信念網絡
深度信念網絡(deep belief network, DBN)是由多層限制玻爾茲曼機(restricted Boltzmann machine, RBM)網絡和一層反向傳播(back-propagation, BP)網絡組成的,如圖1所示。在深度信念網絡中,上一層RBM網絡經過學習得到的特征輸出作為下一層的輸入,使每層能更好地抽象出上一層的特征,逐層提取數據特征。而頂層的BP網絡以RBM網絡提取的特征作為輸入,用于分類或者預測。

圖1 深度信念網絡結構
RBM由可視層V和隱層H構成,如圖2所示。可視層用于輸入特征數據,隱層用于特征檢測器。可視層與隱層層內各節點彼此之間無連接,即每個節點取值相互獨立。隱層各節點只能隨機取值0或者1,同時全概率分布P(V, H)滿足玻爾茲曼分布,通過全概率分布可以確定條件分布p(h|v)和p(v|h)。當輸入v時,通過p(h|v)可以得到隱層h,而得到隱層h之后,通過p(v|h)又能得到可視層,通過調整參數,使得從隱層得到的可視層v'與原來的可視層v一樣,即得到隱層為可視層的另外一種表達。因此,隱層可以作為可視層輸入數據的特征。
RBM在給定模型參數(θ)條件下的聯合分布為:


其中,i,j為節點;Wij為可視層單元和隱層單元之間的連接權值;bi和aj為偏置量。
BP神經網絡由輸入層、隱層和輸出層三層神經元組成,其結構如圖3所示。DBN中的BP網絡可以理解為有監督學習的分類器。

圖2 RBM結構

圖3 BP網絡結構
2.2 基于DBN的空氣污染預報模型
2.2.1 模型結構
DBN結構由第一層RBM可視層節點數量、輸出量個數、DBN網絡深度(RBM網絡層數),以及各層隱層節點數確定。
第一層RBM可視層節點數量由輸入樣本特征數量決定。本研究中,空氣污染預報考慮過去一天的空氣污染情況、過去一天和預報的污染物擴散條件等一共輸入64個樣本特征。其中,過去一天的污染物情況,包括PM2.5、PM10、SO2、CO、NOx和O3六種監測污染物濃度的平均值,以及空氣質量指數(air quality index, AQI)平均值。污染物擴散條件主要考慮空間上垂直各層的風速、風向、濕度、溫度和氣壓等。本文的空氣污染預報針對國家空氣環境監測的六種空氣污染物PM2.5、PM10、SO2、CO、NOx和O3,每種污染物根據標準有各自的等級。
DBN網絡深度對模型性能影響較大。研究證明,若RBM層數增加,則DBN的建模能力增強,更高層的隱層可能挖掘出更抽象的特征表示,提高網絡的預測性能[19];但過多的層數,可能導致DBN的泛化能力降低,容易出現過擬合現象[20]。
DBN每個隱層節點數對模型的性能也有一定的影響[20],指出節點數過少,則模型挖掘數據信息性能不強;節點數過多,則也容易出現過擬合現象。
2.2.2 模型訓練
DBN模型的訓練分為預訓練和微調兩步。
第1步:分別單獨無監督地訓練每一層 RBM 網絡,通過非監督貪婪逐層方法預訓練獲得生成模型的權值,確保特征向量映射到不同特征空間時,都盡可能多地保留特征信息。RBM 的訓練過程,實際上是通過確定權值求出一個最能產生訓練樣本的概率分布。也就是說,求一個分布,使得在這個分布下訓練樣本的概率最大。
第2步:DBN最后一層的BP網絡,接收RBM的輸出特征向量作為輸入特征向量,有監督地訓練分類器。每一層RBM網絡調整自身層內的權值,確保該層特征向量映射達到最優,而整個 DBN 的特征向量映射并沒達到最優,所以BP網絡將錯誤信息自頂向下傳播至每一層RBM,微調整個DBN網絡。
本文采用2014年及2015年1~9月北京市空氣質量數據作為試驗數據,其中,2014年及2015年1~7月的數據作為訓練DBN預報模型的訓練數據,8月的數據作為可行性驗證數據,且以9月的數據作為預報測試數據。
本文分別采用相關系數(Corr)和平均絕對誤差(MAE)作為評價指標。相關系數的計算公式如下:

其中,n為預測樣本點數;Ri和Pi分別為測試樣本點空氣污染物的實際平均濃度和預測平均濃度;和R分別為Ri的均值和標準差;和P分別為Pi的均值和標準差。
平均絕對誤差的計算公式如下:

為了合理地設置DBN的網絡深度,我們研究DBN層數{2,3,4}對模型預測性能的影響,設置每個隱層節點數為100。以平均絕對誤差MAE作為評價指標,研究結果如圖4所示。從圖4可知,DBN網絡深度對空氣污染預報準確性的影響不大,總體上三層結構模型的預報性能最優。本研究中,DBN網絡深度對預報性能的影響不大,主要是由于大量的訓練數據,提供了充足的數據信息,使得較少的RBM層數也能對數據特征進行深度挖掘。

圖4 DBN層數對預測性能的影響
基于上述研究結果,我們采用三層的DBN模型,進一步研究隱層節點數對模型預測性能的影響,分別設置每層隱層節點數為50、100、200,同樣以MAE作為評價指標,研究結果如圖5所示。從圖5可知,當隱層節點數取100時,模型的整體預測性能最優。因此,本研究最終將采用三層DBN模型,每個隱層節點數設為100。

圖5 DBN隱層節點數對預測性能的影響
為了驗證所提方法的準確性,將DBN預報模型與經典的機器學習預測模型線性回歸(linear regression,LR)、神經網絡(neural network,NN)、支持向量機(support vector machine,SVM)、隨機森林(random forest,RF)以及自回歸積分滑動平均模型(autoregressive integrated moving average model,ARIMA)進行比較,比較結果如表1和表2所示。
從表1和表2可知,基于DBN的預報模型的預測性能在相關系數和平均絕對誤差兩個評價指標下都明顯優于其他經典預測模型。這表明,基于深度學習的預報模型相對其他經典預報方法而言,能深度挖掘輸入樣本特征,提取影響污染物濃度的主要因素,降低樣本中噪聲的影響,從而具有較高的預報準確度。
考慮到北京城市空氣質量在采暖季和非采暖季特征差異較大,為進一步驗證基于深度學習預報模型在不同環境下的性能,本文以2014年數據作為訓練數據,分別針對2015年1、2月(采暖季)和7月(非采暖季)的空氣質量進行預測測試,預報結果如表3至表6所示。在1、2月份由于光強較弱,O3濃度相對較低,波動小,預測難度小;但是由于采暖季燃煤等污染排放強度大、逆溫等不利擴散條件頻繁,空氣污染物濃度更高、波動更大,除O3外,其他污染物預測難度變大。表3至表6顯示,即使在高污染情況下,DBN也依然保持了很好的預測性能,而其他傳統模型性能顯著下降。

表1 2015年9月空氣污染預測的相關系數

表2 2015年9月空氣污染預測的平均絕對誤差

表3 2015年1、2月空氣污染預測的相關系數

表4 2015年1、2月空氣污染預測的平均絕對誤差

表5 2015年7月空氣污染預測的相關系數

表6 2015年7月空氣污染預測的平均絕對誤差
本文針對環境大數據,探討了大數據處理技術在環保領域的應用,提出了一種基于深度學習的大數據空氣污染預報方法。該方法基于深度信念網絡,建立過去一天的空氣污染物濃度、空氣污染物天氣擴散條件、預測的次日天氣等輸入特征量與六大監測空氣污染物濃度之間的統計模型。利用環境大數據對模型進行訓練,充分挖掘空氣質量監測大數據中的語義特征,實現基于環境大數據的空氣污染預報。通過與經典的機器學習預測方法基于相關性和平均絕對誤差評價指標的比較,驗證了DBN模型在空氣污染預報的有效性。研究表明,基于深度學習的預報方法能較好地克服傳統空氣污染預報方法的缺點,尤其在大數據背景下,能更好地挖掘空氣質量監測大數據的價值,提高環境大數據的應用效果。
參考文獻
[1] 任萬輝, 蘇樅樅, 趙宏德. 城市環境空氣污染預報研究進展[J]. 環境保護科學, 2010, 36(3): 9-11.
[2] 王勤耕, 夏思佳, 萬祎雪, 等. 當前城市空氣污染預報方法存在的問題及新思路[J]. 環境科學與技術, 2009, 32(3): 189-192.
[3] 張美根, 韓志偉, 雷孝恩. 城市空氣污染預報方法簡述[J].氣候與環境研究, 2001, 6(1): 113-118.
[4] Scheffe R D, Morris R E. A review of the development and application of the Urban Airshed model[J]. Atmospheric Environment. Part B. Urban Atmosphere, 1993, 27(1): 23-39.
[5] Byun D W, Ching J K S. Science Algorithms of the EPA Models-3 Community Multiscale Air Quality (CMAQ) Modeling System[R]. EPA/600/R-99/030, Office of Research and Development, US Environmental Protection Agency, 1999.
[6] 雷孝恩, 韓志偉, 張美根, 等. 城市空氣污染數值預報模式系統[M]. 北京: 氣象出版社, 1998: 1-15.
[7] 徐大海, 朱蓉. 大氣平流擴散的非靜穩多箱模型與自潔能力預報[C]// 第五屆全國風工程及工業空氣動力學學術會議論文集. 張家界: 中國空氣動力學會, 1998.
[8] 王自發, 謝付瑩, 王喜全, 等. 嵌套網格空氣質量預報模式系統的發展與應用[J]. 大氣科學, 2006, 30 (5): 778-790. [9] 楊洪斌, 李英志, 鄒旭東, 等. 城市空氣污染數值預報的技術關鍵[J]. 環境保護與循環經濟, 2009, 29 (11): 42-45.
[10] Hsu K -J. Time series analysis of the interdependence among air pollutants[J]. Atmospheric Environment. Part B. Urban Atmosphere, 1992, 26 (4): 491-503.
[11] Cardelino C, Chang M, John J S, et al. Ozone predictions in Atlanta, Georgia: analysis of the 1999 ozone season[J]. Journal of the Air & Waste Management Association, 2001, 51 (8): 1227-1236.
[12] 周勢俊, 宋煜, 吳士杰. Kalman濾波法在城市空氣污染預報中的應用[J]. 中國環境監測, 2000, 16(4): 50-52.
[13] Viotti P, Liuti G, di Genova P. Atmospheric urban pollution: applications of an artificial neural network (ANN) to the city of Perugia[J]. Ecological Modelling, 2002, 148 (1): 27-46.
[14] 周秀杰, 蘇小紅, 袁美英. 基于BP網絡的空氣污染指數預報研究[J]. 哈爾濱工業大學學報, 2004, 36 (5): 582-585.
[15] 俞衛忠, 陳建. BP人工神經網絡模型在城市空氣污染預報中的應用[J]. 污染防治技術, 2013, 26 (3): 55-57.
[16] 王國勝, 郭聯金, 董曉清, 等. 深圳市區空氣污染的人工神經網絡預測[J]. 環境工程學報, 2015, 9 (7): 3393-3399.
[17] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18 (7): 1527-1554.
[18] 呂啟, 竇勇, 牛新, 等. 基于DBN模型的遙感圖像分類[J].計算機研究與發展, 2014, 51 (9): 1911-1918.
[19] Larochelle H, Bengio Y, Louradour J, et al. Exploring strategies for training deep neural networks[J]. Journal of Machine Learning Research, 2009, 10: 1-40.
[20] Le Roux N, Bengio Y. Representational power of restricted Boltzmann machines and deep belief networks[J]. Neural Computation, 2008, 20 (6): 1631-1649.
Deep Learning based Air Pollutant Forecasting with Big Data
Yin Wenjun1, Zhang Dawei2*, Yan Jinghai2, Zhang Chao1, Li Yunting2, Rui Xiaoguang1
(1.IBM Research - China, Beijing 100193; 2. Beijing Key Lab of Atmospheric Particle Matter Monitoring, Beijing Municipal Environmental Monitoring Center, Beijing 100048)
Abstract:It is necessary to do research about urban air quality forecasting to better refl ect the changing trend of the air pollution and provide prompt and complete environment quality information for environment management decision, as well as to avoid serious air pollution accident. For the urban air quality forecasting in the era of environmental big data, this paper proposes a novel method based on deep learning. Via simulating neural connecting structure of human brain, the deep learning method transforms the feature representation of data in the original space to a new feature space with semantic feature, and obtains hierarchical feature representation automatically to improve the performance of forecasting. Due to the merits of the deep learning, compared with traditional methods, the deep learning based model can not only utilize the environmental big data, including the air quality monitoring, weather monitoring and forecasting, and consider the spatiotemporal change and spatial distribution of air pollutant sufficiently to get the semantic change regulation of air pollutant, but also analyze the scope of its application, advantages and disadvantages based on results of other air quality forecasting methods (such as, numerical forecasting model). Therefore, the deep learning based method realizes the comprehensive integration of big data via simulating the thinking progress of human brain. The novel method is of fl exibility and feasibility for application, and overcomes the weak of the existing forecasting methods. Finally, the numerical test demonstrates that the novel method can improve the performance of air pollutant forecasting.
Keywords:air pollutant forecasting; deep learning; deep brief network; big data
中圖分類號:TP391
文獻標識碼:A
文章編號:1674-6252(2015)06-0046-07:
基金項目:環保公益性行業科研專項(201409005);國家科技支撐計劃課題(2014BAC23B03)。
作者簡介:尹文君(1976—),男,博士,主要從事環境科學與認知計算等研究。
*責任作者: 張大偉(1978—),男,高級工程師,博士,主要從事環境科學與工程研究。