廖錫歐
(首都師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京100048)
PM2.5指環(huán)境空氣中直徑不大于2.5微米的顆粒物,它在空氣中能懸浮較長(zhǎng)時(shí)間??諝庵蠵M2.5的含量越高,空氣污染就越嚴(yán)重。與其他直徑較大的大氣顆粒物相比,PM2.5粒徑小,面積大,活性強(qiáng),容易附帶有毒、有害物質(zhì)(如重金屬、微生物等),并且在大氣中能停留較長(zhǎng)的時(shí)間、輸送距離較遠(yuǎn),因此PM2.5對(duì)人體健康和大氣環(huán)境質(zhì)量的影響更大。研究發(fā)現(xiàn),相比于PM10,PM2.5所攜帶的有害物質(zhì)更多,且易被人體的呼吸道黏膜吸附于體內(nèi),引發(fā)一系列的呼吸道和肺部疾病。
對(duì)于PM2.5的研究,相關(guān)性分析、主成分分析、多元線性回歸分析等都是主流的分析方法。宋紅鳳等對(duì)杭州地區(qū)的AQI項(xiàng)指標(biāo)建立了多元回歸線性模型,并對(duì)PM2.5和其他五項(xiàng)指標(biāo)及其對(duì)應(yīng)污染物含量之間的關(guān)系進(jìn)行研究。李波等通過對(duì)長(zhǎng)沙市的AQI指標(biāo)進(jìn)行相關(guān)性分析,并建立自回歸移動(dòng)平均模型對(duì)長(zhǎng)沙市的PM2.5進(jìn)行預(yù)測(cè)。叢琳等人建立了PM2.5與其余指標(biāo)的線性回歸模型,同時(shí)基于主成分分析進(jìn)行改進(jìn),建立了更為精確的多元回歸模型。
北京是我國(guó)的政治、文化中心,也是我國(guó)最早進(jìn)入工業(yè)化的城市之一,隨著工業(yè)化的發(fā)展,工業(yè)化污染不斷加劇,環(huán)境遭受污染。進(jìn)入21世紀(jì)以來,由空氣污染造成的“霧霾”問題一直是眾多學(xué)者討論和研究的對(duì)象。為了研究PM2.5與其他指標(biāo)的關(guān)系,本文采用主成分回歸分析,找到影響北京市空氣質(zhì)量的關(guān)鍵因素,為日后相關(guān)研究和環(huán)境治理提供理論依據(jù)。
本文所采用的數(shù)據(jù)全部來自中國(guó)空氣質(zhì)量在線分析平臺(tái),北京市2020年一年的AQI指數(shù)及AQI的六項(xiàng)指標(biāo),無(wú)缺失數(shù)據(jù),故可以直接對(duì)數(shù)據(jù)進(jìn)行建模。此外,將各變量換算成同一單位,以消除量綱對(duì)數(shù)據(jù)分析的影響。
對(duì)北京市空氣質(zhì)量評(píng)價(jià)進(jìn)行匯總,從表1中空氣質(zhì)量良的累計(jì)頻率可以看出2020年北京市大多數(shù)時(shí)間空氣質(zhì)量是良好的,輕度污染的頻率為18.31%,中、重度污染的頻率僅為3.01%和2.73%。這表明,近幾年北京市的空氣質(zhì)量治理初顯成效,但仍有中度污染和重度污染的時(shí)候,因此空氣質(zhì)量的改善和治理的工作仍需繼續(xù)落實(shí)。

表1 2019年1月至2021年1月北京市空氣質(zhì)量情況
選取2020年每日的AQI指數(shù)各項(xiàng)指標(biāo),通過R語(yǔ)言分別繪制出PM2.5與其他指標(biāo)的散點(diǎn)圖。
由圖1不難看出PM2.5與其他變量之間存在較為明顯的線性關(guān)系。而CO和NO2,PM10和CO之間存在較為明顯的相關(guān)性,因此初步判斷各自變量之間存在復(fù)共線性。為了驗(yàn)證這一猜測(cè),我們考慮自變量PM10數(shù)據(jù)的列向量xi1,SO2數(shù)據(jù)的列向量xi2,CO數(shù)據(jù)的列向量xi3,NO2數(shù)據(jù)的列向量xi4,O3數(shù)據(jù)的列向量xi5,i=1,2,...,366組成的設(shè)計(jì)矩陣X。

圖1 各變量之間的散點(diǎn)圖

表2 各變量的相關(guān)性
通過收集2020年366天北京市AQI各項(xiàng)指標(biāo)的數(shù)據(jù),利用R語(yǔ)言對(duì)PM10、SO2、CO、NO2、O3進(jìn)行主成分分析。從表3可以看出,前兩個(gè)主成分的累計(jì)貢獻(xiàn)率高達(dá)74.21%,超過了70%。說明前兩個(gè)主成分很好地包含了原始數(shù)據(jù)的大部分信息,主成分分析良好。

表3 主成分的累計(jì)貢獻(xiàn)率
提取前兩個(gè)主成分,表4是主成分載荷矩陣,呈現(xiàn)了前兩個(gè)主成分在各變量上的載荷值??梢钥闯觯谝粋€(gè)主成分(下記z1)在PM10、SO2、CO、NO2上的載荷較大;而第二主成分(下記z2)主要作用在O3上的載荷較大。因此,兩個(gè)主成分是相互獨(dú)立的,不存在復(fù)共線性問題,可進(jìn)行回歸分析。下面我們以PM2.5為因變量,兩個(gè)主成分為自變量,通過主成分回歸分析,探索因變量PM2.5與自變量PM10、SO2、CO、NO2、O3之間的相關(guān)關(guān)系。

表4 主成分載荷矩陣
因?yàn)閮蓚€(gè)主成分不存在復(fù)共線性,再由圖2可以看出,z1和z2無(wú)線性關(guān)系。PM2.5與z1之間存在明顯的線性關(guān)系,PM2.5與z2主成分存在線性關(guān)系。并且PM2.5與第一主成分的相關(guān)度是極高的,因此對(duì)這兩個(gè)主成分做多元線性回歸是合理的。

圖2 主成分散點(diǎn)圖
用R語(yǔ)言對(duì)z1、z2做主成分回歸,由表5可以看出,模型擬合度較高,解釋了絕大部分的數(shù)據(jù)信息。并且通過了回歸方程顯著性的檢驗(yàn),因此對(duì)PM2.5和z1、z2建立回歸模型是顯著有效的。同時(shí),主成分回歸系數(shù)的檢驗(yàn)說明兩個(gè)主成分的回歸系數(shù)均呈顯著特征,即主成分與變量是顯著相關(guān)的。于是,可以得到主成分的多元線性回歸方程為:y=15.7853z1+6.5180z2+37.8525;其中,變量y代表的是PM2.5。

表5 主成分回歸結(jié)果
由此可以看出,PM2.5與z1、z2都成正比。為進(jìn)一步提高模型的精確程度,利用統(tǒng)計(jì)診斷找出異常點(diǎn),并解釋原因,接著用忽略異常值點(diǎn)之后的數(shù)據(jù)再生成主成分回歸模型。
考慮多元線性回歸模型Y=Xβ+ε,E(ε)=0,Var(ε)=σ2In,定義cook距離為,i=1,...,n;這里
于是,對(duì)于每一組觀測(cè)數(shù)據(jù),可以用一個(gè)Di來刻畫它對(duì)回歸系數(shù)估計(jì)影響的大小。但直接計(jì)算Di會(huì)很不方便,因此引入Di的簡(jiǎn)便公式:

這里hii是帽子矩陣H=X(X′X)′X′的第i個(gè)對(duì)角元,ri是學(xué)生化殘差。由此定義的cook距離衡量了第i組數(shù)據(jù)到試驗(yàn)中心的距離,顯然,若cook距離越大,則該組數(shù)據(jù)離其他實(shí)驗(yàn)數(shù)據(jù)越遠(yuǎn)。若一組數(shù)據(jù)距離試驗(yàn)中心很遠(yuǎn),并且對(duì)應(yīng)的學(xué)生化殘差又很大,那么它必定是強(qiáng)影響數(shù)據(jù),這是一種基于描述性統(tǒng)計(jì)的異常值檢驗(yàn)方法。
利用R語(yǔ)言軟件,分別計(jì)算出所有樣本點(diǎn)的cook距離,制作散點(diǎn)圖,在一定標(biāo)準(zhǔn)下計(jì)算出強(qiáng)影響點(diǎn)的范圍,確定強(qiáng)影響點(diǎn)(見圖3)。

圖3 cook距離散點(diǎn)圖
一般來說,如果一組數(shù)據(jù)點(diǎn)的cook距離大于4/(n-k-1)時(shí),我們稱它為異常值點(diǎn)。這里n為數(shù)據(jù)觀測(cè)組數(shù),k為自變量個(gè)數(shù)。由此得到強(qiáng)影響點(diǎn)集,發(fā)現(xiàn)北京市的強(qiáng)影響點(diǎn)主要集中在每年11月至次年的2月,而這段時(shí)間正好是北京的冬天,空氣質(zhì)量表現(xiàn)為輕度污染或中度污染,認(rèn)為主要是由于冬季供暖燒煤、乘車出行尾氣排放所導(dǎo)致。
在刪除強(qiáng)影響點(diǎn)之后,對(duì)剩下的數(shù)據(jù)進(jìn)行主成分回歸。從表6可以看出,在刪除強(qiáng)影響點(diǎn)之后,擬合優(yōu)度R2得到了提高,模型解釋程度得到了優(yōu)化。另外,考慮到刪除一些數(shù)據(jù)后對(duì)模型主成分選擇的影響,因此采用逐步回歸的方法對(duì)zi進(jìn)行篩選。經(jīng)過逐步回歸后,z1、z2仍得到保留,并且都通過了回歸系數(shù)顯著性檢驗(yàn),AIC值得到顯著降低。因此,我們?nèi)员A魞蓚€(gè)主成分,最終得到線性回歸模型:

表6 修正后的主成分回歸結(jié)果

其中,

本文通過收集2020年北京市的AQI及其六項(xiàng)指標(biāo),研究了導(dǎo)致北京市“霧霾”問題的主要因素PM2.5與其他觀測(cè)指標(biāo)之間的相關(guān)關(guān)系,在利用主成分回歸分析消除了變量間復(fù)共線性影響之后建立了多元線性回歸方程,并對(duì)方程進(jìn)行了優(yōu)化,最終得到了PM2.5與其他變量指標(biāo)的線性回歸方程。由回歸方程可以看出,PM2.5與第一主成分的相關(guān)性較大,即與PM10、SO2、CO、NO2有較大的關(guān)系,而與O3的關(guān)系相對(duì)較弱。因此為了改善北京市的空氣質(zhì)量,必須先控制空氣中塵土的含量,城市施工面積需要控制,而對(duì)于SO2、CO、NO2這類氣體,則需要控制汽車尾氣排放,減少私家車出行,多乘坐公共交通;在冬天供暖的時(shí)候,可以考慮用地?zé)岬刃履茉粗饾u替代燒煤供暖。同時(shí),政府還應(yīng)加大綠化面積,開發(fā)新能源產(chǎn)品,從污染等源頭治理污染問題。

表7 逐步回歸后的結(jié)果