摘要:為探究城市空氣質(zhì)量各污染物間的相互作用關(guān)系及AQI變化趨勢(shì),本研究以陜西省渭南市為例,開展了基于貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)建模與分析。研究首先采集了渭南市2021年1月至2022年6月的空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù),在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理與離散化后,基于K2算法與最大似然估計(jì)構(gòu)建了貝葉斯網(wǎng)絡(luò)模型,學(xué)習(xí)了污染物濃度與AQI之間的條件概率依賴結(jié)構(gòu)。結(jié)果表明,PM10與PM2.5是影響AQI的主要因素,其相關(guān)性分別高達(dá)0.90和0.78;貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)清晰地揭示了SO2、NO2、CO對(duì)PM2.5和PM10的直接或間接影響路徑。基于該網(wǎng)絡(luò)模型的AQI變化趨勢(shì)預(yù)測(cè)(上升/下降) 總體準(zhǔn)確率達(dá)到85%,表現(xiàn)出良好的預(yù)測(cè)性能。該研究證實(shí)了貝葉斯網(wǎng)絡(luò)在揭示空氣污染物復(fù)雜依賴關(guān)系和預(yù)測(cè)空氣質(zhì)量變化方面的有效性。
關(guān)鍵詞:貝葉斯網(wǎng)絡(luò);數(shù)據(jù)分析;PM2.5;PM10;AQI
中圖分類號(hào):TP391" " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)21-0001-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
從全球視角來(lái)看,依據(jù)世界衛(wèi)生組織城市空氣質(zhì)量數(shù)據(jù)信息庫(kù)的不完全統(tǒng)計(jì),在103個(gè)國(guó)家和地區(qū)的3 000余個(gè)城市中,超過(guò)80%的城市面臨細(xì)顆粒物的嚴(yán)重污染問(wèn)題,這些污染程度遠(yuǎn)遠(yuǎn)超出了世界衛(wèi)生組織推薦的行業(yè)技術(shù)標(biāo)準(zhǔn)。中國(guó)也未能幸免,城市空氣污染情況極其嚴(yán)峻,空氣質(zhì)量令人擔(dān)憂。不過(guò),近幾年來(lái),在一系列環(huán)保政策的約束下,大氣污染物排放總量呈下降趨勢(shì),部分曾經(jīng)遭受嚴(yán)重空氣污染的城市,空氣質(zhì)量得到了明顯改善。在中國(guó),空氣污染的關(guān)鍵來(lái)源曾是煤炭,但隨著汽車保有量的增加,污染源逐漸由煤炭轉(zhuǎn)向汽車尾氣,氮氧化物和一氧化碳。面對(duì)如此嚴(yán)峻的空氣污染形勢(shì),空氣質(zhì)量監(jiān)測(cè)與分析顯得尤為重要。在眾多的空氣質(zhì)量評(píng)價(jià)指標(biāo)中,空氣質(zhì)量指數(shù)[1](Air Quality Index,簡(jiǎn)稱AQI) 是一個(gè)關(guān)鍵指標(biāo)。它將多種主要污染物的濃度值經(jīng)過(guò)換算,綜合成一個(gè)單一的數(shù)值,直觀地反映出空氣質(zhì)量的好壞。我國(guó)在“十二五”規(guī)劃中明確了至2015年主要地區(qū)與行業(yè)的氮氧化物排放總量等減排目標(biāo),持續(xù)加大對(duì)基礎(chǔ)顆粒物的排放管控力度。而AQI能夠幫助我們更全面、更直觀地評(píng)價(jià)空氣質(zhì)量,衡量在空氣污染治理方面的成效,從而更好地推動(dòng)空氣質(zhì)量的改善[2]。
有關(guān)大氣空氣質(zhì)量數(shù)據(jù)預(yù)測(cè)和分析方面的研究綜述情況如下:傳統(tǒng)統(tǒng)計(jì)方法——灰色系統(tǒng)理論,如Pan Lin等(2011) 創(chuàng)新性地將灰動(dòng)力模式群與灰關(guān)聯(lián)度分析相結(jié)合,通過(guò)量化天津空氣質(zhì)量變化的動(dòng)態(tài)特征,揭示了氣象因子與污染物濃度間的非線性關(guān)聯(lián)機(jī)制。該方法在數(shù)據(jù)量有限的條件下展現(xiàn)出獨(dú)特的建模優(yōu)勢(shì)。機(jī)器學(xué)習(xí)方法——如程蓉和錢雪忠[3]針對(duì)SVM/ANN模型的過(guò)擬合問(wèn)題,采用隨機(jī)森林算法構(gòu)建大氣污染預(yù)測(cè)模型。楊濤鋒、彭藝[4]開發(fā)ARIMA-SVM復(fù)合模型,將時(shí)間序列分解與機(jī)器學(xué)習(xí)結(jié)合。實(shí)驗(yàn)表明,該模型在AQI預(yù)測(cè)中MAPE值較單一模型降低18.7%,驗(yàn)證了混合建模的有效性。深度學(xué)習(xí)方法——如Jingyang Wang等(2020) 提出CT-LSTM架構(gòu),通過(guò)卡方檢驗(yàn)篩選關(guān)鍵污染因子,構(gòu)建了具有時(shí)空特征捕捉能力的預(yù)測(cè)模型。在多城市數(shù)據(jù)集上,其RMSE較傳統(tǒng)SVR/MLP模型降低23.4%。集成化復(fù)合模型方法——如Jianzhou Wang等(2021) 構(gòu)建可擴(kuò)展的集成預(yù)報(bào)系統(tǒng),創(chuàng)新性地將氣象場(chǎng)模擬、污染源解析與機(jī)器學(xué)習(xí)耦合。該模型在京津冀區(qū)域?qū)崪y(cè)中,AQI預(yù)測(cè)準(zhǔn)確率突破89%,為多尺度污染防控提供了新范式。
綜上所述,傳統(tǒng)統(tǒng)計(jì)方法的優(yōu)點(diǎn)是簡(jiǎn)單,但難以處理非線性、多變量關(guān)系。機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn)是能處理非線性問(wèn)題,但缺點(diǎn)在于多為“黑箱”模型,難以解釋變量間的因果或依賴關(guān)系,且對(duì)數(shù)據(jù)質(zhì)量要求高。與上述“黑箱”模型不同,貝葉斯網(wǎng)絡(luò)(BN) 作為一種概率圖模型,不僅具備良好的預(yù)測(cè)能力,其核心優(yōu)勢(shì)在于能夠以直觀的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)揭示變量間的不確定性依賴關(guān)系,具有很強(qiáng)的可解釋性。在城市空氣質(zhì)量分析領(lǐng)域,特別是針對(duì)特定城市污染物成因溯源和AQI趨勢(shì)預(yù)測(cè)的綜合性研究尚不多見。
本研究旨在應(yīng)用貝葉斯網(wǎng)絡(luò)模型,對(duì)渭南市的空氣質(zhì)量數(shù)據(jù)進(jìn)行深入分析。具體研究目標(biāo)包括:1) 構(gòu)建能夠反映渭南市主要空氣污染物與AQI之間條件依賴關(guān)系的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu);2) 基于該網(wǎng)絡(luò)進(jìn)行概率推理,量化各污染物對(duì)AQI的影響強(qiáng)度;3) 利用該模型對(duì)AQI的變化趨勢(shì)進(jìn)行預(yù)測(cè),并評(píng)估其性能。本研究以期為理解區(qū)域空氣污染特征提供新的視角,并驗(yàn)證貝葉斯網(wǎng)絡(luò)在該領(lǐng)域的應(yīng)用潛力。
1 研究方法
1.1 數(shù)據(jù)來(lái)源與預(yù)處理
本文所用數(shù)據(jù)通過(guò)網(wǎng)絡(luò)爬蟲獲取,主要爬取了渭南市的空氣質(zhì)量數(shù)據(jù),按照日期、AQI、質(zhì)量等級(jí)、PM2.5、PM10、SO2、NO2、CO、O3等內(nèi)容存放于Excel中。數(shù)據(jù)時(shí)間范圍為2021年1月1日至2022年6月22日,共收集到539條渭南市空氣質(zhì)量數(shù)據(jù)。前377條為訓(xùn)練集,后162條為測(cè)試集。本文在分析數(shù)據(jù)集中特征值的日期及質(zhì)量等級(jí)后,刪除了這兩列。隨后,從剩余的數(shù)值變量中選取PM2.5、PM10、SO2、CO、NO2、O3作為影響AQI變化趨勢(shì)的主要因素。
對(duì)數(shù)據(jù)進(jìn)行離散化處理:在訓(xùn)練集中,將相鄰兩天的PM2.5、PM10、SO2、NO2、CO和AQI的差值定義為變化趨勢(shì),分別包括下降、不變和上升三種狀態(tài)。在程序中,分別使用2、1、0進(jìn)行表示。具體操作為,使用程序?qū)?dāng)天的PM2.5、PM10、SO2、NO2、CO和AQI與前一天的對(duì)應(yīng)數(shù)值進(jìn)行比較,若出現(xiàn)下降趨勢(shì),則用2表示;不變和上升分別用1和0進(jìn)行標(biāo)記。
1.2 貝葉斯網(wǎng)絡(luò)建模
1) 理論基礎(chǔ)
貝葉斯網(wǎng)絡(luò)[5]是由多個(gè)節(jié)點(diǎn)組成的有向無(wú)環(huán)圖,用于表示變量及其之間的依賴關(guān)系,通過(guò)節(jié)點(diǎn)之間的有向邊構(gòu)成一個(gè)完整的結(jié)構(gòu)。它將復(fù)雜系統(tǒng)內(nèi)各獨(dú)立變量間的關(guān)系描述為一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)拓?fù)洹X惾~斯網(wǎng)絡(luò)是描述大量隨機(jī)變量概率分布的有效建模工具,節(jié)點(diǎn)代表隨機(jī)變量,節(jié)點(diǎn)之間的有向邊表示父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的聯(lián)系,表達(dá)變量間的依賴關(guān)系,這些依賴關(guān)系的強(qiáng)度通過(guò)條件概率進(jìn)行量化。若記隨機(jī)變量集為[{X1,X2,...,Xn}]的節(jié)點(diǎn)集,[Pa(Xi)]表示為[Xi]的所有父節(jié)點(diǎn),則其聯(lián)合概率分布可以表示為公式(2) :
[P(X1,X2,...,Xn)=i=1N P(Xi|pa(Xi))]" " " (1)
貝葉斯網(wǎng)格學(xué)習(xí)過(guò)程包括隨機(jī)變量間依賴關(guān)系的結(jié)構(gòu)學(xué)習(xí)與參數(shù)學(xué)習(xí),結(jié)構(gòu)學(xué)習(xí)表現(xiàn)為有向無(wú)環(huán)圖(DAG) 。參數(shù)學(xué)習(xí)就是根據(jù)現(xiàn)有的知識(shí),推理出未知函數(shù)。
2) 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)
貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)旨在從數(shù)據(jù)中推斷變量間最優(yōu)的依賴關(guān)系(即有向無(wú)環(huán)圖,DAG) 。本研究采用基于評(píng)分搜索的方法中的K2算法,將學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一個(gè)優(yōu)化問(wèn)題:定義評(píng)估網(wǎng)絡(luò)結(jié)構(gòu)擬合數(shù)據(jù)質(zhì)量的評(píng)分函數(shù),然后在所有可能的DAG空間中搜索評(píng)分最高的結(jié)構(gòu)。評(píng)分函數(shù)采用貝葉斯信息準(zhǔn)則(BIC) 。K2算法結(jié)合預(yù)定義變量順序和BIC評(píng)分,通過(guò)貪心地、逐個(gè)節(jié)點(diǎn)地添加最能提升局部評(píng)分的父節(jié)點(diǎn),高效地學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。其效率依賴于變量順序的合理設(shè)定,且BIC準(zhǔn)則有效防止過(guò)擬合。
在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)固定后,參數(shù)學(xué)習(xí)通過(guò)最大似然估計(jì)(MLE) 推導(dǎo)條件概率表(CPT) 。MLE最大化訓(xùn)練數(shù)據(jù)的似然函數(shù):對(duì)于每個(gè)節(jié)點(diǎn),給定父節(jié)點(diǎn)配置,CPT參數(shù)估計(jì)為該節(jié)點(diǎn)取值在數(shù)據(jù)集中的經(jīng)驗(yàn)頻率。MLE方法簡(jiǎn)單、一致,但需充分?jǐn)?shù)據(jù)以避免過(guò)擬合。
2 結(jié)果與分析
2.1 探索性數(shù)據(jù)分析
分析數(shù)據(jù)集中特征值的日期及質(zhì)量等級(jí),可歸納為日期、AQI、質(zhì)量等級(jí)、PM2.5、PM10、SO2、CO、NO2、O3等。由于日期和質(zhì)量等級(jí)無(wú)法用于預(yù)測(cè)AQI的變化趨勢(shì),故刪除了這兩個(gè)列,從剩余的數(shù)值變量中選取PM2.5、PM10、SO2、CO、NO2、O3作為主要影響AQI變化趨勢(shì)的因素。使用散點(diǎn)分布圖和corr函數(shù),分析它們與AQI的相關(guān)性。
通過(guò)表1的結(jié)果顯示,AQI與PM2.5的相關(guān)性高達(dá)78%,PM10與AQI的相關(guān)性高達(dá)90%。此外,SO2、CO和NO2與AQI也存在一定的相關(guān)性,O3與AQI呈負(fù)相關(guān),相關(guān)性為2.4%。因此,選擇PM2.5、PM10、SO2、NO2、CO作為特征變量對(duì)AQI的變化趨勢(shì)進(jìn)行預(yù)測(cè)是較為合適的。這僅為初步探索,變量間的非線性和條件依賴關(guān)系有待貝葉斯網(wǎng)絡(luò)進(jìn)一步揭示。
2.2 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)分析
為便于建模分析,選用功能強(qiáng)大的Pgmpy程序包作為概率圖模型工具包,其中包括貝葉斯網(wǎng)絡(luò)、馬爾可夫蒙特卡洛概率圖模型等常用概率圖模型的實(shí)現(xiàn)與推理方法。Pgmpy包能夠處理環(huán)境空氣質(zhì)量問(wèn)題,特別是PM2.5和PM10這兩類微粒物質(zhì)的分析與預(yù)測(cè)。Pgmpy同時(shí)支持參數(shù)學(xué)習(xí)與結(jié)構(gòu)學(xué)習(xí),可實(shí)現(xiàn)貝葉斯搜索評(píng)分方法、獨(dú)立性檢驗(yàn)等相關(guān)算法,適用于空氣質(zhì)量問(wèn)題的建模與評(píng)估。
PM10包含PM2.5,PM2.5更具綜合性和代表性,幾乎包含所有類型的污染物,因此,如果能夠有效控制PM2.5,PM10的濃度也會(huì)相應(yīng)得到控制。但PM10仍以污染源直接排放為主,對(duì)污染源的治理是PM10有效控制的關(guān)鍵。在采樣顆粒物時(shí),應(yīng)盡可能選擇具有代表性的地區(qū)進(jìn)行測(cè)試。部分PM2.5則來(lái)源于大氣中的化學(xué)反應(yīng),包括氮氧化合物、二氧化硫及揮發(fā)性有機(jī)化合物(VOC) 的產(chǎn)物,這類物質(zhì)通過(guò)大氣過(guò)程形成并不斷累積,對(duì)人體健康危害極大。因此,通過(guò)降低這些污染物的含量,可以有效控制PM2.5濃度。
通過(guò)建立貝葉斯網(wǎng)絡(luò),可以更好地理解這些微粒物質(zhì)及其形成機(jī)制,從而制定更加合理和有針對(duì)性的控制措施。PM2.5和PM10均能顯著影響AQI,SO2、NO2和CO也有影響。基于對(duì)特征變量的分析,下面構(gòu)建貝葉斯網(wǎng)絡(luò)有向圖模型[6],見圖1。
從圖1中可以看出,影響AQI的直接父節(jié)點(diǎn)為PM10-1、PM25-1、CO-1、SO2-1和NO2-1,表明影響AQI最直接、最關(guān)鍵的因素主要來(lái)自PM10、PM2.5、CO、SO2和NO2,這與大氣化學(xué)中二次顆粒物的生成機(jī)理相符。
2.3 概率推理與敏感性分析
通過(guò)貝葉斯網(wǎng)絡(luò)推斷[7],可得到在PM10 = 0、PM10 = 2,即PM10上升、不變、下降三種情況下,AQI變化趨勢(shì)的概率分布情況。由表2可知,AQI不變的概率極小,且每一時(shí)刻AQI均處于變化之中。
條件概率和網(wǎng)絡(luò)結(jié)構(gòu)是通過(guò)predict函數(shù)[8]得出的。在預(yù)測(cè)過(guò)程中,將測(cè)試集中的PM2.5、PM10、SO2、NO2、CO五個(gè)節(jié)點(diǎn)作為證據(jù)變量[9],預(yù)測(cè)AQI變化趨勢(shì)為“上升”或“下降”的概率,同時(shí)計(jì)算這兩種情況的準(zhǔn)確率。具體計(jì)算方法如下:總準(zhǔn)確率 = 正確估計(jì)數(shù)/估計(jì)樣本數(shù);0的準(zhǔn)確率 = 正確估計(jì)的0的數(shù)量/估計(jì)集中0的數(shù)量;2的準(zhǔn)確率 = 正確估計(jì)的2的數(shù)量/估計(jì)集中2的數(shù)量。
2.4 預(yù)測(cè)性能評(píng)估
模型計(jì)算結(jié)果為:預(yù)測(cè)正確數(shù)量為137,正確率為84.56%;預(yù)測(cè)錯(cuò)誤數(shù)量為25,錯(cuò)誤率為15.43%。其中,AQI下降的預(yù)測(cè)準(zhǔn)確率為88.4%,上升的準(zhǔn)確率為82.4%。整體來(lái)看,預(yù)測(cè)準(zhǔn)確率約為85%,見圖2。從數(shù)據(jù)結(jié)果來(lái)看,貝葉斯網(wǎng)絡(luò)預(yù)測(cè)表現(xiàn)穩(wěn)定,效果良好。相較于其他分類預(yù)測(cè)方法[10],貝葉斯網(wǎng)絡(luò)有效降低了模型復(fù)雜度,提升了預(yù)測(cè)和檢測(cè)結(jié)果的準(zhǔn)確性。
3 結(jié)束語(yǔ)
本文成功運(yùn)用貝葉斯網(wǎng)絡(luò)模型對(duì)渭南市空氣質(zhì)量數(shù)據(jù)進(jìn)行了分析與預(yù)測(cè)。通過(guò)結(jié)構(gòu)學(xué)習(xí),構(gòu)建了反映各污染物與AQI之間復(fù)雜依賴關(guān)系的網(wǎng)絡(luò)模型,并通過(guò)概率推理和趨勢(shì)預(yù)測(cè)驗(yàn)證了模型的有效性。研究發(fā)現(xiàn),PM10與PM2.5是影響AQI的最主要因素,其相關(guān)性分別高達(dá)0.90和0.78;貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)清晰揭示了SO2、NO2、CO對(duì)PM2.5和PM10的直接或間接影響路徑。基于該網(wǎng)絡(luò)模型的AQI變化趨勢(shì)預(yù)測(cè)(上升/下降) 總體準(zhǔn)確率達(dá)到85%,表現(xiàn)出良好的預(yù)測(cè)性能。本研究證實(shí)了貝葉斯網(wǎng)絡(luò)在揭示空氣污染物復(fù)雜依賴關(guān)系和預(yù)測(cè)空氣質(zhì)量變化方面的有效性。
本研究不僅為渭南市空氣污染成因分析提供了量化依據(jù),也展示了貝葉斯網(wǎng)絡(luò)作為一種可解釋性強(qiáng)的機(jī)器學(xué)習(xí)模型,在環(huán)境數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用價(jià)值。本研究的局限性在于未考慮氣象因素(如風(fēng)速、濕度) 和時(shí)間滯后效應(yīng)。未來(lái)研究可將更多相關(guān)變量納入模型,并探索動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN) 的應(yīng)用,以捕捉空氣質(zhì)量數(shù)據(jù)的時(shí)間序列特征,從而構(gòu)建更精準(zhǔn)的預(yù)測(cè)與診斷模型。
參考文獻(xiàn):
[1] 向桃.我國(guó)工業(yè)廢水集中處理法律制度研究:以長(zhǎng)壽經(jīng)濟(jì)技術(shù)開發(fā)區(qū)為例[D].重慶:西南大學(xué),2014.
[2] 沈木珠.WTO環(huán)境規(guī)則與我國(guó)環(huán)境法律制度的完善及創(chuàng)新思考[J].法律科學(xué) 西北政法學(xué)院學(xué)報(bào),2003,21(4):104-116.
[3] 程蓉,錢雪忠.基于神經(jīng)隨機(jī)森林的局部空氣質(zhì)量預(yù)測(cè)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(7):1958-1966.
[4] 楊濤鋒,彭藝.基于改進(jìn)PSO的ARIMA-SVM空氣質(zhì)量預(yù)測(cè)研究[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,42(5):854-862.
[5] 曹杰.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)與應(yīng)用研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2017.
[6] 李航,聶芳藝.基于貝葉斯網(wǎng)絡(luò)的物流無(wú)人機(jī)碰撞風(fēng)險(xiǎn)評(píng)估[J].科學(xué)技術(shù)與工程,2023,23(15):6700-6706.
[7] 王雙成,高瑞,杜瑞杰.具有超父結(jié)點(diǎn)時(shí)間序列貝葉斯網(wǎng)絡(luò)集成回歸模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(12):2748-2761.
[8] 崔佳旭,楊博.貝葉斯優(yōu)化方法和應(yīng)用綜述[J].軟件學(xué)報(bào),2018,29(10):3068-3090.
[9] 李碩豪,張軍.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2015,32(3):641-646.
[10] 尤游,張林靜.貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)在空氣質(zhì)量指數(shù)預(yù)測(cè)中的應(yīng)用[J].重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版),2022,24(1):78-82.
【通聯(lián)編輯:唐一東】