呂欣格 田劍南 王超 張琨



摘要:基于主成分分析法對黃河呼和浩特段進行了主因子分析、得分排名,從而得出了不同斷面的水環境質量現狀,并進行了分析。結果說明:生化需氧量、氨氮、總磷為主成分因子,其總貢獻方差為89.489%;在得分排名中依次為河口鎮(0.212)、喇嘛灣(0.103)、頭道拐(-0.303);在結果分析中,生化需氧量處于3.00-3.600mg/m3之間,為該段流域的最大值污染物,且頭道拐斷面污染程度最大。主成分分析法反映了該段流域7類主要污染物、3個斷面及整個斷面的聯系及區別。通過進一步分析,表明該評價方法是客觀合理的,同時也揭示了此方法在監測因子和監測量不足的情況下較為實用。
關鍵詞:主成分分析;水環境;污染物;評價;分析
中圖分類號:TV131.2 文獻標識碼:A 文章編號:2095-672X(2016)05-0015-06
DOI:10.16647/j.cnki.cn15-1369/X.2016.05.004
Water environment quality assessment Based on Principal Component
Analysis of the Yellow River, Huhhot
Lv Xinge1,Tian Jiannan2,Wang Chao1,Zhang Kun1
(1.Inner Mongolia Academy of Environmental Sciences,Huhhot 010011;
2. Environmental Protection Bureau of Hongshan District,Chifeng, Inner Mongolia 010018)
Abstract:The main factor analyze and ranking score to Yellow River (Hohhot section) based on principal component analysis,the present situation of water environment quality in different sections are given,and carried on the objective analyze.Result shows:BOD,NH3-N and P as main component factors, the total contribution of variance is 89.489%;in the score ranking, Hekouzhen (0.212),Lamawan(0.103)andToudaoguai (-0.303);results of analysis that BOD about between 3.00-3.600mg?m-3 is the largest values of pollutants for the river and the largest pollution degree is Toudaoguai section.the relation and difference among the 7 kinds of main pollutants,the 3 sections and the entire section by principal component analysis method reflected.After further analysis,indicate this evaluation method is objective and reasonable,this is a practical method under the condition of insufficient monitoring factors and quantities also be revealed.
Keywords:Principal component analysis;Water environment;Pollutants;Evaluate;Analysis
主成分分析是將眾多具有一定相關性的指標,重新組合成一組相互無關的綜合變量來替代原指標,從而達到降維的一種統計分析方法,在降維過程中可消除評價指標之間的相關影響、減少原數據信息的損失、避免各個指標權數確定的缺陷。目前主成分分析法已被引入生態調查研究、城市環境質量研究、水及土壤中污染物評價研究等。近年來在地下水、湖泊、水庫等水環境領域的應運備受關注[1-2],包括水環境介質中主要污染物的界別及相關污染物分布特性的客觀評價及分析,對于流速較大的流域水環境中污染物分布特點及其有關定量化研究已成為流域水環境研究的焦點。指數評價法、模糊評價法、灰色評價法、物元分析法等已成功用于水環境質量評價中,但此類方法具有時間和空間的局限性且需要大量監測數據[3-4],尤其在流域水環境中的應用無法客觀、合理的體現污染物分布特征[5]。主成分分析方法避免了這類問題,可有效的分析出流域水環境不同斷面污染物數據對流域某一段的影響,從而揭示了其污染物內在聯系及分布特征。本文先對黃河流域呼和浩特段的主要污染物進行主成分分析評價,從而得出主成分污染物組成及其得分,以所得結果為依據,結合此段流域的實際情況對所得結果進行簡要分析。
1 資料選取及分析方法
1.1 資料選取
利用《黃河流域(內蒙古段)水環境風險調查及防范措施研究》中的水質監測數據作為主成分分析流域水環境質量評價的數據源。選取黃河流域呼和浩特段頭道拐、河口鎮、喇嘛灣3個斷面,連續3年,每年連續10個月(除去1、2月冰封期)的主要污染因子作為評價指標。樣本總數為90個,分析指標包括:生化需氧量(BOD)、化學需氧量(COD)、氨氮(NH3-N)、總氮(總N)、總磷(總P,以P計)、鋅(Zn)、鉛(pb)。樣本檢測方法及處理按照《地表水環境質量標準》(GB3838-2002)中相關要求進行(表1)。
1.2 分析方法
采用主成分分析法即將多個變量轉化為少數幾個綜合變量,各主成分之間互不相關,從而使這些主成
分能夠反映出初始變量的大部分信息[6]。主成分分析法基本步驟如下[7-9]:
第一步:估計樣本數為90,選取的污染物指標數為7,由估計樣本數據可得矩陣X=(xij)m×7,其中xij表示第i個斷面的第j項污染物指標數據。
第二步:消除各污染物指標之間在量綱化和數量級上的異同,標準化指標數據,得到標準化矩陣。
第三步:根據標準化矩陣建立協方差矩陣R,其中Rij(i,j=1,2,…,7)為原始變量Xi與Xj的相關系數,其計算公式為:
[Rij=k=190(Xkj-Xi)(Xkj-Xj)k=190(Xkj-Xi)2(Xkj-Xj)2]
第四步:根據協方差矩陣R求出特征值、主成分貢獻率和累計方差貢獻率,確定主成分個數主成分[Zi]的貢獻率[Wi=λij=17λj],累計貢獻率為[j=1mλjj=17λj]。選取特征值大于1且累計貢獻率達80%-95%的特征值λ1,λ2,…,λm所對應的1,2,…,m(m≤7,中m即為主成分的個數)的污染因子為主成分。
第五步:建立初始因子載荷矩陣,計算流域水質綜合評分函數及綜合值,并進行降序排列。
考慮到流域水環境的流動性及各水質因子的相關性,最終采用SPSS17.0軟件對相關分析模塊進行處理[10-12]。
2 評價結果
2.1 確定主成分個數
首先進行KMO檢驗系數和巴特利球體檢驗,KMO檢驗系數為0.719>0.50,巴特利球體檢驗系數為0<0.05,所以可以進行主成分分析[13-14]。
主成分判定是將原有的7個污染指標作為變量,通過降維,轉化為便于反應實際情況且互不相關的幾個變量。由于所采集的90個數據包含7種污染物,因此,數據量綱不同。所以,在進行主成分結果分析前要進行數據標準化處理(表2)。
從全部解釋方差表中看出,第一、第二、第三主成分特征值大于1,方差累計百分比大于80%,第一、第二、第三主成分方差百分比分別占38.113%、26.075%、25.301%,其余四組成分總貢獻方差為10.511%,從而說明第一、第二、第三主成分可以概述7個污染指標的信息[15]。因此,選取前3個因子作為主成分,代表黃河流域呼和浩特段主要的污染物指標。
2.2 主成分污染物識別
在成分矩陣中,給出了主成分載荷矩陣,每一列載荷值都顯示了各個變量與有關主成分的相關系數,每一列主成分值最大的可確定為重要污染因子即主成分污染物(表3)。
從成分矩陣中可得出:生化需氧量在第一主成分上載荷較大,亦即與第一主成分的相關程度較高;氨氮在第二主成分上的載荷值較大,即相關程度較高;總磷在第三主成分上的載荷較大,即相關程度較高[16]。
因此可將主成分命名如下:
第一主成分:生化需氧量主成分;
第二主成分:氨氮主成分;
第三主成分:總磷主成分。
2.3 主成分得分評估
在主成分分析結果的基礎上構建新的坐標系,將原始變量在新坐標系下投影后,可得新坐標系下的變量值,即主成分得分(表3)。
利用水環境污染物濃度值與相應主成分得分系數相乘加和主成分得分,對水環境污染物總得分進行排名,按照排序可確定出不同斷面主成分污染物的污染程度大小[17](表4),即可以進行水環境質量評價。
表4中排名已經說明了黃河流域呼和浩特段所調查的7種主要污染物的整體污染程度,河口鎮斷面水環境質量最好,其次為喇嘛灣鎮斷面,頭道拐斷面水環境質量最差。但由于排名第一的河口鎮斷面及排名第二的喇嘛灣斷面整體得分相近,因此,特此引入估計邊界均值圖[18-20](圖1)。估計邊際均值就是在控制了其它6種污染物之后,只是單純在其1種污染物的作用下污染物的變化值,且污染物的的變化值都是其它6種污染物共同作用的結果。
由圖1中可看出:在3-12月河口鎮斷面(實線)估計邊界均值處于0.09-0.13之間[21,22],且與喇嘛灣斷面(短虛線)、頭道拐斷面(長虛線)交錯點最多,即交互作用較強,污染程度較小。頭道拐斷面和喇嘛灣斷面估計邊界均值分別處于0.09-0.15、0.10-0.15,由于估計邊界均值區間、最大值均大于河口鎮斷面,因此,污染程度較大。頭道拐斷面與其它兩斷面的交錯點大于喇嘛灣斷面與其它兩斷面的交錯點,即可表明喇嘛灣斷面水環境質量由于頭道拐斷面。
由表5及圖1的分析結果相結合,可得出頭道拐斷面整體污染程度最大,致使其它兩端面受到不同程度的影響,河口鎮斷面的污染程度最小。
3 結果與分析
依據主成分分析法對各斷面污染程度的評價結果進行分析(圖2),生化需氧量差別明顯,氨氮和總磷差別不太明顯。因此可得出:黃河流域呼和浩特段主要的大值污染物為生化需氧量,氨氮和總磷雖有一定影響,但數值相對較小。
頭道拐斷面生化需氧量3.00-3.600mg?m-3,氨氮0.066-0.883mg?m-3,總磷0.054-0.186 mg?m-3,致使頭道拐斷面污染程度較大主要是由生化需氧量較大引起,其原因[23-27]:第一,頭道拐斷面緊接包頭段斷面,包頭屬于重工業城市,黃河排污口約20個,排入黃河流域的污水量較大;第二,頭道拐斷面排污口約3個,均屬于工業污水排放;第三,目前國家控制指標為化學需氧量、氨氮,對生化需氧量沒有明確的總量控制指標,因此生化需氧量差異明顯,氨氮和總磷差異不明顯且數值較小;第四:排入流域的主要為工業廢水,工業廢水主要含有化學需氧量、生化需氧量、氨氮。氨氮及總磷較小,主要因為氨氮為國控指標,污水排放對氨氮的含量要求比較嚴格,且工業及生活廢水自身排放濃度不高,約為0.50mg?L-1;總磷在污水中處理效率高,約為89%,大于生化需氧量和氨氮的處理效率約83%和85%,最終排入該段流域的濃度約為0.26 mg?L-1;附近農田引用黃河水會造成氮流失,從轉化為氨氮,但這種遷移量速率較慢,而且農田自身含量也不高。所以,生化需氧量對黃河流域呼和浩特段影響較大,尤其是頭道拐斷面,氨氮、總磷對該段流域也具有影響,但較生化需氧量小。
喇嘛灣斷面水環境質量排名第二,生化需氧量2.200-3.700mg/m3,氨氮0.060-0.850mg/m3,總磷0.030-0.180mg/m3,主要原因:頭道拐斷面的污染物隨著水體的流動,具有消化降解的功能,之所以比河口鎮水環境質量較差是由于喇嘛灣段設置的3個排污口,主要為重工業園區(例如:電廠,化工廠)所排的廢水造成。
河口鎮斷面水環境質量最好,生化需氧量2.00-3.500mg?m-3,氨氮0.057-0.816mg?m-3,總磷0.012-0.178 mg?m-3,均低于其它兩斷面,是由于此段排放口約為3個,而且主要以城鎮污水為主,附近無重工業園區。
由于頭道拐斷面污染程度最大,因此,對此斷面進行較為詳細的分析[28-31]。由頭道拐斷面主成分污染物變化圖(圖3)可知:由于7-11月份氣溫相對較高,工業用水量相應要加大,比如冷卻水、循環水等,所以,生化需氧量7-11月處于一年最高階段,并處于上升趨勢;氨氮在3-6月份處于一年較高時間段,是由于在此期間農田處于灌水階段,會產生氮流失,而且此階段硝化菌活性較差容易轉化為氨氮,工業污水也對此有一定影響;由于總磷處理效率較氨氮和生化需氧量高,且污水中的含量極小,農田氮磷流失也不是很嚴重,因此,總磷在一年當中處于平穩狀態,污染量較小。
3 結論
基于主成分分析法評價了七類污染物對黃河流域呼和浩特段三個斷面的污染程度,同時也說明了7類污染物與三個斷面及整個斷面的相互關系和區別。通過主成分分析七類污染物并分析出了三種主成分,并對此進行了得分排名,既反映了水環境污染物對黃河流域呼和浩特斷面的影響,也概括了三個斷面的水環境質量現狀。最后對所得結果進行了較為詳細的分析,生化需氧量對整個斷面,尤其是頭道拐斷面的影響最大。
由于污染物指標及斷面數量稍有不足,可能造成評價結果有微小偏差,在今后的水環境研究中將不斷改善。主成分分析法用于水環境質量的評價和分析處于嘗試階段,不能完全優越于目前的水環境質量標準中的評價法,但通過此評價方法的應用,不僅反應了黃河流域呼和浩特段的實際情況,而且結果分析與實際情況相符合,同時減少了監測因子和監測量。因此,主成分分析法應用于流域水環境質量的評價與分析是較為簡便的、合理的。
參考文獻
[1]李哲強,侯美英,白云鵬.基于SPSS的主成分分析在水環境質量評價中的應用[J].河海水利,2008,(3):49-53.
[2]郭天印;李海良.主成分分析在湖泊富營養化污染程度綜合評價中的應用[J].陜西工學學院報,2002,18(3):65-68.
[3]ZHANG Yan,ZHANG Hong,GAO Xiang et al.Improved AHP method and its application in lake environmental comprehensive quality evaluation—a case study of Xuanwu Lake, Nanjing, China[J]. Nature,Environmentand Pollution Technology, 2013,4(8):54-56.
[4]Meini Yang,Dingfang Li,Jinbo Yang.Wei Xiong.FANN-based surface water quality evaluation model and its application in the Shaoguan area[J].Geo - spatial Information Science,2007,10(4):303-310.
[5]YANG Yuhong,YAN Baixing,SHEN Wanbin. Assessment of Point and Nonpoint Sources Pollution in Songhua River Basin,Northeast China by Using Revised Water Quality Model[J].Environ Earth Sci,2010,20(1):32-38.
[6]朱星宇,陳勇強. SPSS多元統計分析方法及應用[M].北京:清華大學出版社, 2011:241-243.
[7]Tai PENG,Lianning ZHOU,Nian LIU. Application of Principal Component Analysis with SPSS in Water Quality Assessment of Shenzhen Eastern Beach Laboratory[J].Agricultural Science & Technology, 2009,15(4):688-691.
[8]Yutaka Tanaka,Yoshimasa Odaka.Influential observations in principal factor analysis [J].Psychometrika,1989,54 (3): 475-485.
[9]Liang Guo,Ying Zhao,Peng Wang.Determination of the principal factors of river water quality through cluster analysis method and its prediction[J].Frontiers of Environmental Science & Engineering, 2012,6(2):238-245.
[10]Daniel T. L. Shek,Cecilia M. S. Ma,Joav Merrick.Longitudinal Data Analyses Using Linear Mixed Models in SPSS: Concepts, Procedures and Illustrations[J].TheScientificWorldJOURNAL,2010,11(2):42-76.
[11]Michael E.Robinson,Ian J.Sadler,Patrick D.O'Connor.Detection of Submaximal Effort and Assessment of Stability of the Coefficient of Variation[J].Journal of Occupa-tional Rehabilitation,1997,7(4):207-215.
[12]高吉喜,段飛舟,香寶.主成分分析在農田土壤環境評價中的應用[J].地理研究,2006,26(5):836-842.
[13]Alexander A.Frolov,Dusan Husek,Pavel Y.Polyakov.Two Expectation-Maximization algorithms for Boolean Factor Analysis[J].Neurocomputing,2012,2(55):121-127.
[14]A. M. Lara-Porras1,E.Ramos-?balos,New Methoodologies In Statistics: A Different Way of Studying SPSS [J].Revista Investigació Operacional,2009,30(2):185-189.
[15]HE Qing-hua,HE Xiang-yu,ZHU Jian-xin.Fault detection of excavators hydraulic system based on dynamic principal component analysis[J].Journal of Central South University of Technology,2008,15(5):700-705.
[16]Xinguang Wang,Nicholas ODwyer,Mark Halaki.A review on the coordinative structure of human walking and the application of principal component analysis[J].Neural Regeneration Research,2013,8(5):662-670.
[17]MA Hui-zi,ZHAO Bang-hong.Research on Rural Consumer Demand in Hebei Province Based on Principal Component Analysis[J].Asian Agricultural Research,2011,3(5):55-58.
[18]C. F. Spiekerman,D. Y. Lin.Marginal regression models for multivariate failure time data[J].Journal of the American Statistical Association,2000,1(35):324–354.
[19]Robert J.Gray,Yi L.Optimal Weight Functions for Marginal Proportional Hazards Analysis of Clustered Failure Time Data[J].Lifetime Data Analysis,2009,36(11):123-128.
[20]Jianwen Cai,Ross L.Prentice.Regression Estimation Using Multivariate Failure Time Data and a Common Baseline Hazard Function Model[J].Lifetime Data Analysis,1997,3(3):197-213.
[21]Feng Liu,Wei Wei.On the Estimation of Stability Boundaries of Nonlinear Dynamic Systems[A].2011.
[22]Feng Liu,Wei Wei.On expansion of estimated
stability region:Theory,methodology,and application 、to power systems[J].Science China,2011,54(6):1394-1406.
[23]LIU Jian-fei,LI Ning,LU Jia,ZENG Xiang-ye et al.PAPR reduction based on improved Nyquist pulse shaping technology in OFDM-RoF systems[J].Optoelectronics Letters,2013:9(1):57-60.
[24]劉婷婷,張晟,王定勇,呂平毓.嘉陵江水體中CODMn和BOD5的季節變化及輸出[J].西南大學學報(自然科學版),2009.31(1):168-172.
[25]張學青,夏星輝,楊志峰.黃河水體氨氮超標原因探討[J].環境科學,2007,28(7):1435-1441.
[26]Saunders D L,Kalff J,Nitrogen retention in wetlands, lakes and rivers[J].Hydrobiologia,2014,30(3):205-212.
[27]夏星輝,周勁松,楊志峰.黃河流域河水氮污染分析[J].環境科學學報,2001,21(5):563-568.
[28]Su-lin XIANG,Wen-bin ZHOU,Phosphorus forms and distribution in the sediments of Poyang Lake China[J].Journal of Sediment Research,2011,26(2):230-238.
[29]姜欣,許士國,練建軍,孟慶國.北方河流動態水環境容量分析與計算[J].生態與農村環境報,2013,29(4):409-414;
[30]Feng Liu,Wei Wei.On expansion of estimated stability region:Theory,methodology,and application to power systems[J].Science China,2011,54(6):1394-1406.
[31]孟偉,于濤,鄭丙輝,鄧義祥等.黃河流域氮磷營養鹽動態特征及主要影響因素[J].環境科學學報2007,27(12):2046-2051.