侯素霞,張鑒達,李靜
1. 河北科技工程職業技術大學資源與環境工程系,河北 邢臺 054000;2. 河北師范大學資源與環境科學學院/河北省環境演變與生態建設省級重點實驗室,河北 石家莊 050024;3. 河北交通職業技術學院黨政辦公室,河北 石家莊 050011
隨著中國城市化和工業化進程不斷加快,PM10、PM2.5、SO2、NO2、O3等大氣污染問題日趨嚴重(武曉紅等,2021)。大氣污染不僅影響氣候變化、經濟和社會發展(De Marco et al.,2019),也對交通安全(Li et al.,2020)及公共健康(Dedoussi et al.,2020)帶來極大威脅。2015年全球疾病、傷害和風險因素研究表明,大氣污染是造成全球疾病負擔,特別是低收入和中等收入國家疾病負擔的主要原因(Cohen et al.,2017)。環境顆粒物帶來的日益嚴重的粉塵污染,不僅對全球可持續發展戰略產生不利影響,還對居民的健康和壽命產生威脅,大氣中 PM2.5質量濃度每增加 10 μg·m?3,全因死亡率將會增加 10%,心血管疾病死亡率會增加 3.76%(Brook et al.,2010)。根據世界衛生組織(WHO)的數據,環境顆粒物污染每年導致西班牙2.5萬人過早死亡(Choubin et al.,2020)。一項針對加州大氣污染與新型冠狀病毒(COVID-19)疫情相關性的研究表明,PM10、PM2.5、SO2、NO2等環境污染物與加州COVID-19疫情存在顯著相關性(Bashir et al.,2020)。同時,印度、意大利、法國、西班牙等多個國家的研究者均發現在COVID-19大流行中,位于空氣污染更嚴重的地區可能會面臨更高的感染及死亡風險(Chakraborty et al.,2020;Conticini et al.,2020;Saez et al.,2020)。除此之外,長期暴露于污染空氣中,也會增加各類肺部疾病及呼吸道疾病的發病率及死亡率(Liu et al.,2016)。
近年來,各國研究者已經對PM10、PM2.5、SO2、NO2、O3等大氣污染物進行了大量研究。氣象條件是影響大氣污染物濃度的重要因素之一,日照增強會導致O3濃度的上升。不同地理區域的污染物也會呈現不同的分布特征,由于冬季降雨量少,華南地區的環境顆粒物水平相對較低,同時華南地區由于燃煤量較少,SO2的濃度普遍低于NO2濃度(Xie et al.,2015;沈楠馳等,2020;葉延瓊等,2019)。除此之外,大氣中各個污染物之間也存在相互影響關系,化石燃料燃燒排放的CO2,SO2等污染物使得大氣中更易形成氣溶膠微粒,氣溶膠微粒使得氣候溫度下降,從而掩蓋了部分溫室氣體排放造成的變暖效應(Shindell et al.,2019)。然而,劇毒氣溶膠微粒的吸入每年會導致數百萬人死亡(Cohen et al.,2017)。
為控制大氣污染物對生態環境及人體健康帶來的危害,除了研究其形成分布特征及影響因素,還應對污染物濃度進行精準的預測。目前國內關于大氣污染物濃度預測的研究相對較少,選用的研究方法有多元線性回歸,隨機森林模型等。BP神經網絡作為一種自適應信息處理方法,在擬合復雜的環境系統方面展現了出色的能力,能夠發現離散和噪聲相加數據之間的高度非線性關系。
上海市作為中國的經濟中心,其空氣質量問題一直受到各界廣泛關注。本文對上海市2016—2020年的大氣主要污染物(PM2.5、PM10、SO2、NO2及O3)質量濃度進行分析,探究各污染物隨時間的年度變化、月度規律及星期效應。利用多元線性回歸模型及BP神經網絡建立污染物與氣象因素之間的相關關系,并對其濃度進行預測,分析對比不同模型的預測結果,以期為上海市及周邊地區大氣污染協同治理提供理論依據。
本文從上海市生態環境局上??諝赓|量發布平臺(https://sthj.sh.gov.cn)上收集了2016年1月1日—2020年12月31日上海市19個空氣質量監測站點的 PM2.5、PM10、SO2、NO2及 O3的日均質量濃度(μg·m?3)。2016—2020 年上海市氣象參數來自氣象數據共享平臺(https://rp5.ru/),每日氣象數據包括溫度(℃)、相對濕度(%)、平均風速(m·s?1)和水平能見度(km)。
由于 PM10在監測過程中包含 PM2.5,故 PM10的日均質量濃度理論上應大于PM2.5的日均質量濃度,但實際監測過程中,受到監測儀器及監測環境的影響,數據中可能會出現“PM2.5和PM10倒掛”點(即PM2.5日均值>PM10日均值),后期數據處理過程中將倒掛數據剔除得到PM2.5、PM10、SO2、NO2及O3的日均質量濃度各1512個數據點。
皮爾遜相關系數(r)是用來反映兩個變量線性相關程度的統計量,r的絕對值越大則表明相關性越強。根據文獻(Xie et al.,2015),本研究基于2016年1月1日—2020年1月2日1512個監測點的數據,通過皮爾遜相關系數建立了各污染物、污染物與氣象因素之間的相關關系。
多元線性回歸(MLR)模型是一種已在全球范圍內廣泛使用的空氣污染預測方法(Abdullah et al.,2020)。在大多數研究,尤其是顆粒物和臭氧研究中,它能夠對主要污染物的濃度進行適度準確的預測。該模型能通過簡單的計算和易于實現的方法來表示因變量(氣態污染物)與幾個獨立變量(氣象因素)之間的關系(Zhao et al.,2018;Liao et al.,2021)。多重共線性表示的是各個自變量之間的相關關系,由于較高的共線性會使模型的預測功能失效,因此在多元線性回歸分析之前應對自變量進行多重共線性診斷,剔除有顯著共線性的自變量。
本研究首先運用方差膨脹因子(VIF)對氣象因素(溫度、相對濕度、平均風速、水平能見度)進行多重共線性檢驗。VIF>10表明自變量間存在多重共線性,當VIF<10表明自變量間不存在多重共線性。其次,利用SPSS軟件,在95%的置信區間,對上海市大氣污染物中的PM2.5、PM10及O3濃度與氣象因素(溫度、相對濕度、平均風速、水平能見度)之間的相關性及相關程度進行多元線性回歸分析。最后,通過均方誤差(RMSE)對模型準確度進行評估,具體計算如公式(1)所示:

式中:
如圖1a所示,人工神經網絡是模仿生物神經系統的功能和結構發展起來的信息處理系統,是由大量簡單地神經元相互連接構成的復雜網絡系統,包括輸入層、隱藏層和輸入層,對非線性系統具有很強的模擬映射能力。圖1b為神經元工作機理,神經元X0通過樹突賦予權重W0,每個神經元經過累加,最后通過激活函數,獲得單個神經元的輸出結果。

圖1 人工神經網絡(a)及神經元工作機理(b)示意圖Fig. 1 Artificial neural network inversion (a) and mechanism of neural unit (b)
2.1.1 各污染物的年度變化
2016—2020年上海市空氣 PM2.5、PM10、SO2、NO2及 O3年平均質量濃度變化如圖2所示。2016年 PM2.5、PM10、SO2、NO2及 O3年平均質量濃度分別為 44.07、62.81、13.69、42.16 和 71.51 μg·m?3,2020年分別為25.03、40.82、6.00、34.99和70.74 μg·m?3,整體均呈現出下降趨勢。這主要歸因于近年來上海市政府的積極號召及有關環保部門的努力配合,使得上海市的大氣環境治理初見成效,空氣質量有了明顯改善。自《大氣十條》實施以來,國家及各地區對可吸入顆粒物的防治力度明顯加大,圖中顯示上海市PM2.5、PM10年平均質量濃度逐年下降趨勢較為明顯,防治效果顯著。根據《環境空氣質量標準》(GB 3095—2012),PM10的年均一級質量濃度限值為 40 μg·m?3。由此可見,到 2020年,上海市 PM10的年平均質量濃度已基本達到標準要求。

圖2 2016—2020年上海市PM2.5、PM10、SO2、NO2及O3質量濃度年變化Fig. 2 Annual variation of the concentrations of PM2.5, PM10, SO2,NO2 and O3 in Shanghai from 2016 to 2020
NO2及O3年平均質量濃度在2016—2017年間呈現上升趨勢,NO2年平均質量濃度隨年份變化波動較大。近5年來,O3年平均質量濃度在2017年達到最大的 78.57 μg·m?3,2017—2019 年逐年下降后,2020年又略有升高。除此之外,圖2中還顯示出,隨著可吸入顆粒物的控制、濃度的下降,O3已逐漸成為上海市大氣環境的主要污染物,也成為危害人體健康的主要污染物。已有研究表明,O3污染的健康風險比PM2.5更高(郭云等,2021)。因此,未來應加強對大氣中 O3的防治和減排,以保證居民生命健康。
2.1.2 各污染物的月度規律
2016—2020年上海市空氣 PM2.5、PM10、SO2、NO2及 O3月平均質量濃度變化如圖3所示。圖中顯示,PM2.5的月平均質量濃度全年變化整體呈“V”型分布,從一月開始基本呈現下降趨勢,極小值多集中8—10月,10—12月濃度又逐步上升,表現出明顯的季節差異,即PM2.5在冬季月份平均質量濃度較高,夏季月份平均質量濃度最低。與上海市相似,陳兵紅等(2021)在研究浙江省的 PM2.5濃度分布時也發現了冬高夏低的明顯季節差異。PM10月平均質量濃度在1—5月呈現增長趨勢,5—9月逐漸降低到最低值后開始增長,質量濃度最高值也出現在冬季,最低值出現在夏季。Liu et al.(2019)研究發現由于冬季頻繁的近地表溫度逆溫不利于氣溶膠污染物在地表邊界層的擴散和遷移,從而導致了嚴重的氣溶膠污染。逆溫現象影響了氣溶膠污染物的遷移擴散,導致PM2.5、PM10的質量濃度值在冬日處于較高水平。逆溫現象不僅會影響可吸入顆粒物的遷移擴散,也會影響大氣中 NO2的遷移擴散。圖中可以看出,近5年來,上海市NO2月平均質量濃度也呈現出冬高夏低的“V”型分布(Wallace et al.,2009)。

圖3 2016—2020上海市PM2.5、PM10、SO2、NO2及O3質量濃度月度變化Fig. 3 Month variation of the concentrations of PM2.5, PM10, SO2, NO2 and O3 in Shanghai from 2016 to 2020
O3作為近年來上海市大氣主要污染物,極大值多集中于5—6月,整體呈現夏季濃度高,冬季濃度低的趨勢。這是由于城市地區地表 O3合成的主要前驅體是氮氧化物(NOx)和揮發性有機物(VOC),冬季可吸附顆粒物污染更為嚴重,濃度較高,大氣能見度較低,削弱了輻射強度,同時冬季氣溫偏低,均不利于NOx和VOC反應合成O3(Ueno et al.,2019)。2016—2020年O3平均質量濃度最高月份及其濃度值分別為 5 月(100.95 μg·m?3),7 月(103.77 μg·m?3),6 月(103.64 μg·m?3),5 月(99.22 μg·m?3),5 月(96.19 μg·m?3)。雖然高溫和強輻射有利于 O3的產生,但圖中可以觀察到,除2017年外,其余年份上海市空氣 O3月平均濃度變化趨勢均呈現相似的“M”型分布,在氣溫最高的7—8月均出現了下降,這表明除了受到氣溫和輻射的影響,人類活動及工業生產等其它因素也可能會對大氣中 O3濃度產生顯著影響(Xie et al.,2015)。
2.1.3 各污染物的周變化趨勢
2016—2020 年上海市空氣 PM2.5、PM10、SO2、NO2及O3質量濃度周變化趨勢如圖所示。其中,SO2質量濃度最低,其濃度在周內隨日期波動較小。2016年,PM2.5、PM10、SO2周內平均質量濃度變化趨勢相似,周二至周五濃度上升,周五為污染物濃度極大值點(PM2.5:53.1 μg·m?3,PM10:70.64 μg·m?3,SO2:15.04 μg·m?3),周五至周一濃度下降。NO2(43.25 μg·m?3)及 O3(74.57 μg·m?3)的濃度極大值分別為周三和周二。2017年,O3的平均質量濃度在周六最高(84.77 μg·m?3),PM2.5(39.06 μg·m?3)和PM10(61.69 μg·m?3)濃度最大值點均在周日,周五則是 SO2(11.29 μg·m?3)和 NO2(45.22 μg·m?3)的質量濃度最高點。2019年PM2.5、PM10、SO2、NO2及O3的質量濃度最大值點分別出現在周日(31.15 μg·m?3)、周四(54.11 μg·m?3)、周二(6.55 μg·m?3)、周二(41.66 μg·m?3)及周日(74.56 μg·m?3)。2018及2020年各污染物質量濃度的極大值點均在周內。不難看出,大多數污染物濃度最高值都出現在工作日,這與工作日人們的外出頻率、出行方式及次數等社會因素有關。由于社會因素、人為因素的不確定性,同時也導致了污染物在一周內的變化規律不是很明顯。

圖4 2016—2020上海市PM2.5、PM10、SO2、NO2及O3質量濃度周變化Fig. 4 Weekly variation of the concentrations of PM2.5, PM10, SO2, NO2 and O3 in Shanghai from 2016 to 2020
利用python和可視化安裝包seaborn探討了從2016—2020年各因素(各污染物和氣象參數)之間的相關性及分布情況。圖5為各參數(污染物和氣象參數)層次熱力圖。

圖5 層次熱力圖:各參數相關性分析Fig. 5 Correlation analysis of various parameters among the heatmap
由圖5可知,可吸入顆粒物(PM2.5、PM10)質量濃度與 NO2質量濃度之間存在顯著的正相關關系,這是因為大氣中的 NO2會經一系列反應生成NH4NO3銨鹽,而銨鹽正是PM2.5的主要成分之一,致使可吸入顆粒物質量濃度升高(Zhang et al.,2021)。O3質量濃度與NO2質量濃度之間的相關系數為?0.345,呈現顯著的負相關關系,O3質量濃度與PM10質量濃度之間的相關系數為0.076,呈正相關關系,而O3質量濃度與PM2.5質量濃度之間的相關系數為0.006,其沒有顯著的相關關系。針對氣象因素(溫度、濕度、風速和可見度)而言,除了溫度與平均風速之間不存在顯著的相關性,其余氣象因素之間均存在顯著的相關關系。溫度與相對濕度、水平能見度之間的皮爾遜相關系數分別為0.191和0.230,存在顯著的正相關關系;相對濕度與平均風速、水平能見度的皮爾遜相關系數分別為?0.085和?0.302,存在顯著的負相關關系;平均風速與水平能見度之間也存在顯著的正相關關系(0.227)。圖5顯示,NO2質量濃度主要與風速呈負相關關系,其相關性為0.6;O3質量與溫度之間的相關系數為正值,表明大氣污染物中的O3質量濃度與溫度呈正相關關系,此結果與國內外許多學者研究一致。
2.3.1 多元線性模型
通過多元線性回歸分析上海市5年來的氣象因素(溫度CT、相對濕度CRH、平均風速CAWS、水平能見度CHV)與 PM2.5、PM10、NO2、O3之間的相關關系如表1所示。其中,VIF所示為各氣象因素之間的多重共線性診斷,VIF均小于10,表明各氣象因素之間不存在多重共線性。

表1 多元線性回歸模型Table 1 Multiple linear regression models
多元線性回歸分析表明,上海市的PM2.5及NO2質量濃度與各氣象因素均呈負相關,即隨著溫度升高、相對濕度的增加、平均氣壓及水平能見度的增大而減小,相對濕度,平均風速及水平能見度對PM2.5質量濃度有顯著影響。NO2質量濃度則受到4種氣象因素的顯著影響。多元線性回歸分析顯示PM10質量濃度與溫度之間顯著性水平為0.303,意味著溫度對上海市大氣 PM10質量濃度并沒有產生顯著影響,而相對濕度、平均氣壓及水平能見度則對PM10質量濃度產生了顯著性影響,PM10質量濃度隨相對濕度的增加、平均氣壓及水平能見度的增大而減小。O3質量濃度與溫度和平均風速呈正相關,與相對濕度和水平能見度呈負相關。
污染物實測值與預測值的線性擬合如圖 6所示,PM2.5、PM10、NO2、O3的調整r2分別為 0.593、0.506、0.595、0.316,均方根誤差(RMSE)分別為14.44、20.73、23.79、11.72。說明多元線性回歸模型雖然能夠解釋各污染物與氣象因子之間的相關關系,但其預測的污染物質量濃度的精確度較差。

圖6 多元線性回歸模型實測值和預測值線性擬合圖Fig. 6 Linear fitting diagram of the measured and predicted values with the multiple linear regression model
2.3.2 基于BP神經網絡的污染物質量濃度預測
圖7所示為神經網絡預測PM2.5,PM10,NO2和O3質量濃度訓練過程中迭代次數與均方誤差關系。迭代次數也是BP神經網絡訓練過程中重要的參數之一。每一次迭代都將更新一次權重,進而運算到損失函數,最后在BP算法中更新參數。圖7為不同迭代次數下BP神經網絡均方差分布情況。由圖7可知,當迭代次數為43次時,BP神經網絡訓練集和測試集都達到收斂狀態,且均方誤差在測試集最大值都為0.15。

圖7 BP神經網絡預測污染物過程中迭代次數與均方誤差關系Fig. 7 The relationship between the iteration times and the MSE in the prediction process of air pollutions using BP neural network
通過BP神經網絡對各污染物進行預測,實測值與預測值的相關性r2如圖8所示,PM2.5、PM10、NO2、O3的 r2分別為 0.986、0.974、0.976、0.983。因此,相比多元線性回歸法,BP神經網絡根據氣象參數預測污染質量物濃度具有更高的準確性,說明BP神經網絡在預測污染物質量濃度表現出強大的泛化能力。

圖8 BP神經網絡預測PM2.5、PM10、NO2、O3性能表現Fig. 8 Performance of concentration prediction of PM2.5, PM10, NO2, and O3 with BP neural network
(1)2016—2020年上海市大氣污染物PM2.5、PM10、SO2、NO2及O3質量濃度隨時間變化整體呈現下降趨勢,同時季節變化差異顯著,PM2.5及PM10質量濃度呈“冬高夏低”,而O3質量濃度呈“冬低夏高”。
(2)可吸入顆粒物(PM2.5、PM10)質量濃度與SO2、NO2質量濃度之間具有顯著相關性,O3質量濃度與 NO2質量濃度之間也存在顯著的相關關系。
(3)多元線性回歸分析表明相對濕度、平均風速及水平能見度 3個氣象因素會對上海市 PM2.5、PM10質量濃度產生顯著影響;溫度、相對濕度、平均風速及水平能見度 4個氣象因素會對上海市 O3質量濃度產生顯著影響。
(4)相比多元線性回歸法,BP神經網絡根據氣象參數預測污染物質量濃度具有更高的準確性,表現出強大的泛化能力,PM2.5、PM10與NO2、O3真實值與預測值相關系數分別為98.6%、97.4%、97.6%和98.3%。