王翠云 ,胡學(xué)平,相旭東
(安慶師范學(xué)院 數(shù)學(xué)與計算科學(xué)學(xué)院,安徽 安慶246133)
PM2.5影響因素的主成分回歸分析與預(yù)測
王翠云 ,胡學(xué)平,相旭東
(安慶師范學(xué)院 數(shù)學(xué)與計算科學(xué)學(xué)院,安徽 安慶246133)
應(yīng)用主成分分析和多元回歸分析法對空氣質(zhì)量指數(shù)(AQI)進(jìn)行分析,首先對數(shù)據(jù)進(jìn)行Alpha可靠性分析、主成分分析得到兩個主成分變量,進(jìn)而對它們和PM2.5濃度進(jìn)行多元回歸分析,并且進(jìn)行顯著性檢驗,發(fā)現(xiàn)PM2.5與這兩個主成分變量具有線性回歸關(guān)系,最終得到一個1-α的置信區(qū)間,從而結(jié)合實際提出一些降低PM2.5濃度的對策。
PM2.5;Alpha可靠性分析;主成分分析;多元回歸分析
近年來,空氣質(zhì)量不斷下降,作為最能代表空氣質(zhì)量的PM2.5指數(shù),被人們廣泛關(guān)注。影響PM2.5指數(shù)的因素有很多,要分析這一問題必需降維,而主成分回歸模型是一種降維模型,被普遍應(yīng)用于各行各業(yè)的學(xué)術(shù)分析以及科學(xué)研究。降維后的變量線性無關(guān),所代表的信息不會彼此重復(fù),且?guī)缀醮砣吭夹畔ⅲ@也是它在很多研究領(lǐng)域中得到應(yīng)用的根本原因。如程毛林[1]利用主成分的線性及非線性回歸模型對經(jīng)濟(jì)增長的邊際效應(yīng)和彈性效應(yīng)做了具體分析,對經(jīng)濟(jì)學(xué)的效應(yīng)分析有一定的參考作用;蔣云波等人[2]對上市公司的績效評價建立了主成分模型,得到了71家IT行業(yè)上市公司的模型結(jié)果,即績效評價,這種績效評價方法為其他行業(yè)公司提供了很好的參考;何暢[3]則通過應(yīng)用主成分分析法找出影響CPI指數(shù)的主要影響因素,這為下一步通過時間序列方法來解析CPI指數(shù)與宏觀經(jīng)濟(jì)走勢之間的緊密聯(lián)系以及進(jìn)一步為國家或者個人的預(yù)判起到了很好的鋪墊作用。
本文利用主成份分析和多元回歸分析法,對某市2013年1月1日到5月31日的AQI數(shù)據(jù)進(jìn)行分析,通過探究O3-1h,O3-8h,CO,PM10,SO2,NO2,T等7項主要指標(biāo)與PM2.5之間的關(guān)系,獲得一個多元回歸方程。從而根據(jù)某一時刻的上述各項數(shù)據(jù)來預(yù)測PM2.5的濃度及其未來變化趨勢。先分析Alpha可靠性。
假設(shè)I) 模型只考慮PM2.5與O3-1h,O3-8h,CO,PM10,SO2,NO2,T有相關(guān)關(guān)系。
假設(shè)II) 假設(shè)O3-1h,O3-8h,CO,PM10,SO2,NO2,T對PM2.5的影響無多重共線性。
所提供的樣本并不能直接說明PM2.5濃度只與O3-1h,O3-8h,CO,PM10,SO2,NO2,T這7個變量有相關(guān)關(guān)系,那么這些數(shù)據(jù)對于PM2.5的分析是否可靠性,則需要用Alpha可靠性分析進(jìn)一步度量。由SPSS軟件對本文數(shù)據(jù)進(jìn)行Alpha可靠性分析結(jié)果如表1所示。

表1 相關(guān)矩陣
由表1中各個變量的相關(guān)矩陣,可見V1與V2的相關(guān)程度最密切(r=0.952)。Cronbachα系數(shù)[4]即通過所得數(shù)據(jù)表取得真分?jǐn)?shù)的概率,它也是對數(shù)據(jù)以及一切項目的評定成績的相關(guān)系數(shù)的平方。由表2可知,在數(shù)據(jù)的信度檢驗中,Cronbachα系數(shù)為0.757,開方為0.87,可信度很高,此AQI數(shù)據(jù)可靠,可以用來對PM2.5進(jìn)行分析以及預(yù)測。下面給出具體的過程。
主成分分析[5]是確定研究問題、選定變量后,確定幾個線性無關(guān)且包含極可能多原始變量信息的新變量來替換原始變量。設(shè)X1,X2,X3,…,Xp為影響PM2.5的p個隨機(jī)自變量,記X=(X1,X2,…,Xp),協(xié)方差矩為∑=(σji)p×p=E[X-E(X)][X-E(X)]T。記∑的特征值為λ1≥λ2≥…≥λp≥0及其相應(yīng)的正交單位化特征向量為e1,e2,…,ep,則由文獻(xiàn)[6]可知:
X的第i個主成分為
Yi=eiTX=e1iX1+e2iX2+…+epiXp,i=1,2,…,p,且有
由以上分析知PM2.5與O3-1h,O3-8h,CO,PM10,SO2,NO2,T這7指標(biāo)之間有著相關(guān)關(guān)系,然而,這些樣品的某些觀測指標(biāo)和其所屬類型沒有必然的邏輯關(guān)系,因此通過SPSS軟件用主成分分析的方法來分析這7個指標(biāo)對PM2.5的影響。
令V1:變量O3-1h;V2:變量O3-8h;V3:變量CO;V4:變量PM10;V5:變量SO2;V6:變量NO2;V7:變量T;Y:變量PM2.5

表3 總方差解釋

表4 主成分矩陣
表3分析了每個主成分的特征根及其代表原始信息的能力, 特征根大于1的主成分變量一般是SPSS軟件保留的,本表中特征根大于1的主成分有2個,它們共代表了原始信息的84.74%,已足夠起到對影響PM2.5的因素進(jìn)行分析及對PM2.5濃度進(jìn)行預(yù)測的作用,因此本文只保留了2個主成分。由表4給出了這兩個主成分的各個系數(shù),因此可以得到這兩個主成分的表達(dá)式如下。
第一主成分變量:
由表3可知,第一主成分含有所有原變量48.6%的信息量。而它與變量O3-1h成正比例,即當(dāng)O3-1h含量每增加1單位時,第一主成分變量會相應(yīng)增加0.212單位;同理,當(dāng)O3-8h含量每變化1單位時,它會相應(yīng)變化0.089單位;依此類推,當(dāng)溫度T增加1度時,第一主成分變量反而會減少0.051單位。可見,PM10對第一主成分的影響最大,而溫度T對它影響最小,且成反比例變化。
第二主成分變量:
同理,由表3可知,第一及第二主成分含有所有原變量84.7%的信息量,且由主成分分析法的根本可知這兩個主成分無線性相關(guān)性。因而第二主成分變量分別與O3-1h,O3-8h,PM10,T這4個影響因素呈正相關(guān)關(guān)系,而與CO,SO2,NO2這3個影響因素呈反比例關(guān)系,且它受O3-8h影響最大,受NO2的影響最小。
前節(jié)已將原始7個自變量通過“濃縮”為Y1,Y2這兩個主成分變量,降低了分析和解決問題的難度。下面則需要檢驗Y和Y1,Y2之間是否具有線性關(guān)系,然后再通過SPSS對它們做多元線性回歸分析。首先,作Y和Y1,Y2的線性圖和散點圖,分別如圖1、圖2。
由圖1和圖2分析可知: Y和Y1,Y2之間具有明顯的線性趨勢。
因此,接著用SPSS對Y和Y1,Y2進(jìn)行多元線性回歸分析[7],結(jié)果如表5。

表5 方差分析

表6 模型總結(jié)

表7 回歸系數(shù)

由方差分析表5可知,回歸方程的臨界顯著性水平SignificanceF也小于0.000 1,因而是極高度顯著地。由表7給出的回歸方程的各回歸系數(shù)可得線性回歸分析結(jié)果為
Y1,Y2代入可得下式:
12.428V3*+12.905V4*+12.692V5*+
12.406V6*-0.561V7*
由于所有的多元回歸系數(shù),例如3.086,1.395等,都是去除所分析變量和其他自變量對Y的公共影響后,分析變量對Y的邊際影響,因此,PM2.5與O3-1h,O3-8h,CO,PM10,SO2,NO2這6個變量都成正相關(guān),顯然PM10對PM2.5濃度的相關(guān)性最大,其系數(shù)為12.905,因此在預(yù)防PM2.5對大氣的影響之前,首先需要控制對PM10的排放;其次,CO,SO2對PM2.5的相關(guān)性次之,則O3-8h最小,最小并不代表可以任其在大氣中排放,這4個因素的濃度增加會使PM2.5濃度呈正相關(guān)的變大,進(jìn)而影響空氣質(zhì)量;最后溫度T與PM2.5濃度呈負(fù)相關(guān)關(guān)系。因此,濕度、溫度、壓強、O3-1h,O3-8h等影響因素的濃度不同,它們對大氣環(huán)境中PM2.5的濃度的影響也不同。因此,為了減少空氣中可吸入顆粒物的濃度,首先需要減少石油及煤炭等的燃燒,提高其利用率,嚴(yán)格控制并盡量減少生活中SO2,PM10及CO的排放量,并且能適當(dāng)?shù)恼{(diào)節(jié)城市溫度等外界條件,或者在天氣寒冷的時候做好對PM2.5濃度升高的準(zhǔn)備,從而降低PM2.5對市民的生活、城市的發(fā)展可能造成的惡劣影響。
通過P值檢驗法[8],由第2節(jié)的多元線性回歸分析的SPSS計算結(jié)果可得回歸方程檢驗的P值為0.000α,因而回歸方程是極高度顯著的;再由Y1,Y2的檢驗結(jié)果, P值分別為0.000,0.125,可知兩個解釋變量Y1,Y2的作用都是顯著的,所得回歸方程可以用來預(yù)測。下面來對其進(jìn)行預(yù)測。
當(dāng)給定解釋變量的一組取值(v01,…,v07)時,根據(jù)主成分方程可計算求得y01,y02,進(jìn)而由回歸方程可得Y的一個回歸值:
它是對PM2.5:
y0=91.269+13.799y01+0.173y02+ε0
的一個點估計,所以y0的置信度為1-α的預(yù)測區(qū)間為
注 N為樣本數(shù)目,p=2,

[1]程毛林. 基于主成分回歸模型的經(jīng)濟(jì)增長因素分析[J]. 運籌與管理, 2012, 21(1): 175-179.
[2]蔣云波, 陳維政. 上市公司績效評價模型構(gòu)建研究[J]. 西南石油大學(xué)學(xué)報(社會科學(xué)版), 2010, 3(5): 73-78.
[3]何暢. CPI指數(shù)的主成分分析及對經(jīng)濟(jì)走勢的影響[J]. 山西財經(jīng)大學(xué)學(xué)報, 2011, 33(3): 47-53.
[4]郭惠昕, 戴娟, 唐蒲華, 等. 基于隨機(jī)集的不完整信息可靠性分析方法[J]. 機(jī)械科學(xué)與技術(shù), 2011, 30(2): 290-296.
[5]楊淑菊. 主成分分析在學(xué)生成績評價中的應(yīng)用[J]. 數(shù)學(xué)的實踐與認(rèn)識, 2012, 42(16): 103-112.
[6]梅長林, 周家良. 實用統(tǒng)計方法[M]. 上海: 科學(xué)出版社, 2002: 53-60.
[7]張建同, 孫昌言. 以Excel和SPSS為工具的管理統(tǒng)計[M]. 北京: 清華大學(xué)出版社, 2005:18-24.
[8]姚菊香, 王盤興, 鮑學(xué)俊, 等. 相關(guān)系數(shù)顯著性檢驗的幾何意義[J]. 南京氣象學(xué)院學(xué)報, 2007, 30(4): 566-570.
Analyzing and Forecasting the Influence Factor of PM2.5 Based on Principal Component Regression
WANG Cui-yun, HU Xue-ping, XIANG Xu-dong
(School of Mathematics and Conputation Science,Anqing Teachers College, Anqing 246133, China )
By investigating the AQI data with Principal component analysis and Multivariate regression analysis, We get two kinds of statistical extrapolate and analysis results regarding the value of PM2.5. First, by means of Alpha reliability analysis and principal component analysis, we get two principal components. Then we analyze them and PM2.5 by multivariate regression analysis and we give it a test of significance. The testing provides strong evidence to suggest that there is indeed a significant linear regression correlation between them. A confidence interval about the value of PM2.5 is obstained. Some methods to reduce the PM2.5 can be put forward.
PM2.5, Alpha reliability analysis, principal component analysis, multivariate regression analysis
2015-04-01
安徽省高校自然科學(xué)基金重點項目(KJ2013A179)。
王翠云,女,河南信陽人,安慶師范學(xué)院經(jīng)濟(jì)與管理學(xué)院碩士研究生,研究方向為管理統(tǒng)計與企業(yè)發(fā)展;胡學(xué)平,男,安徽宿松人,博士,安慶師范學(xué)院數(shù)學(xué)與計算科學(xué)學(xué)院教授,研究方向為隨機(jī)過程及應(yīng)用。
時間:2016-1-5 13:01 網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/34.1150.N.20160105.1301.007.html
F126.1
A
1007-4260(2015)04-0024-04
10.13757/j.cnki.cn34-1150/n.2015.04.007