杜俊鵬,呂 軍,吳計生,趙立勇,魏春鳳,張 宇
(1.松遼水資源保護科學研究所,吉林 長春 130021;2.吉林省潤佳水利工程咨詢有限公司,吉林 長春 130032)
水質評價的方法有很多,從上世紀70年代開始,學者們通過各種不同的方法來評價河流水質情況。具體的方法有:單因子評價法、指數評價法、模糊評價法、神經網絡評價法、主成分分析法、聚類分析法、灰色評價法、物元分析評價法等。其中主成分分析法是利用降維思想,在損失很少原始信息的前提下把多個指標轉化為幾個綜合指標的多元統計方法。聚類分析是一種建立分類的多元統計分析方法,它能夠將一批樣本(或變量)數據根據其諸多特征,按照性質上的親疏程度在沒有先驗知識的情況下進行自動分類,產生多個分類結果,類內部個體特征具有相似性,不同類間個體特征的差異性較大。[1-7]
長春市經濟技術開發區簡稱經開區是1992年成立,1993年經國務院批準的國家級經濟技術開發區。地處長春市東部,位于長春向東北拓展的工業主軸線。行政面積112km2,分為南北兩區,轄四街一鎮,常住人口40萬人,共有各類市場主體4萬戶。經開區內共有河流16條、人工湖1處。其中:伊通河流域分別為伊通河右岸(衛星路——自由大路段),全長約3570m;新開河右岸(東榮大路-金錢小白橋段)及東新開河(東前屯入口-洋浦大街段),全長約4470m;小河沿子河右岸(新城大街-伊通河段),全長約5120m;鯰魚溝(繞城高速-伊通河段),全長約5770m。飲馬河流域分別為霧開河支流干霧海河,全長約8050m;干霧海河支流中山溝,全長約6969m;干霧海河支流南陽溝,全長約470m;興隆山隆東溝,全長約1350m。北海公園人工湖水域面積2887.85m2。全區共布置地表水監測點27個,監測項目為PH、溶解氧、COD、高錳酸鉀指數、氨氮、總磷,監測數據由經開區河長制辦公室提供,為2019年經開區全年平均地表水監測數據。
本文采用主成分分析法和系統聚類分析法相結合,具體如下。
步驟1:數據標準化。對原始數據進行標準化,以消除數據量綱及數量級的影響。
步驟2:根據標準化后的數據計算相關系數矩陣。
步驟3:計算相關系數矩陣的特征值與特征向量。相關系數矩陣的特征值λi其實就是主成分F的方差,一般選取特征根大于1的主成分進行分析。
步驟4:計算方差貢獻率并確定主成分。

步驟6:計算各主成分表達式Fi即主成分荷載值lij與對應的標準化后的指標值xij相乘。
步驟7:計算主成分綜合得分值F。即各主成分得分值Fi與相應權重的乘積之和,對應權重為對應特征值在選取總特征值中的占比。
通過主成分分析法,可得各監測斷面主成分得分值和總得分值。得分值越高,說明該斷面污染越嚴重。
步驟1:首先對原始數據進行預處理,即標準化處理。
步驟2:根據標準化后的數據計算相關系數矩陣。利用標準化后的數據,計算各變量之間相關系數,對相關系數矩陣逐層分析,步驟1和步驟2與主成分分析法一樣。
步驟3:對不同變量類型下個體距離采用平方歐氏距離計算,個體與小類、小類與小類間距離采用組間平均距離計算,逐步計算至各類對象歸為一類,繪制聚類分析譜系圖。
通過系統聚類分析譜系圖,可以看出哪幾類變量或者樣本具有較大的關聯性,從而對變量進行分類分析,對樣本進行分類管理。
通過主成分分析和系統聚類分析,利用SPSS軟件,對經開區水質監測斷面進行水質評價,具體如下。首先對監測的27個水質斷面進行標準化處理,見表1。

表1 標準化數據表
接著計算相關系數矩陣見表2。從相關系數矩陣表可以看出,大部分相關系數大于0.3,說明各部分變量的相關性是比較強的,它們存在信息上的重疊,因此對原始數據進行主成分分析是比較合適的。并且從表中可以看出,COD與高錳酸鹽指數的相關性最強,系數達到0.878,氨氮與總磷的相關性也較強,系數達到0.716。

表2 相關系數矩陣表
接下來通過KMO和巴特利特檢驗進一步說明研究方法的正確性。見表3,從表3可以得出KMO值為0.701,巴特利特球形度檢驗顯著性為0.000。通常我們認為KMO檢驗結果在0.5~0.7之間,同時巴特利特檢驗結果的顯著性小于0.05,則表示原始數據適宜進行主成分分析。KMO檢驗結果大于0.7則非常適合主成分分析,低于0.5則不適合用主成分分析[8]。因此本項目是非常適合用主成分分成來進行水質評價的。

表3 KMO和巴特利特檢驗表
計算特征值與特征向量,見表4。查閱相關文獻知,當特征值小于1時,表示該主成分的解釋力度還不如直接引入原變量平均值的解釋力度大[9-10],因此考慮將特征值大于1作為納入標準。本例中選用兩個特征值,分別為λ1=3.201,λ2=1.138,此時累積方差貢獻率為72.316%,也就是說通過選取兩個主成分,就可以表達原始指標絕大部分的信息。并且可以進一步知道,第一主成分的影響最大,方差百分比為53.356%。
計算主成分荷載值,即特征向量。見表5。從主成分荷載矩陣可以看出,錳酸鹽指數、COD、總磷、總氮在第一主成分荷載較大,PH在第二主成分荷載較大。負值代表的是負相關。因此可以得出高錳酸鹽指數、COD、總磷和氨氮是主要的污染因子。

表4 總方差解釋表

表5 主成分荷載矩陣表(特征向量)
接著從系統聚類分析法,來分析各個變量的相關性。通過SPSS軟件繪制生成譜系圖,如圖1所示,從譜系圖可以看出,COD與高錳酸鉀的關聯性較強,氨氮和總磷的關聯性較強,溶解氧與任何一個變量的關聯性都較差,這也從另一種方法驗證了相關系數矩陣表和主成分荷載矩陣表即主成分分析法的正確性,更加直觀、形象的展示了各個變量之間的親疏關系。

圖1 評價聯接(組間)譜系圖

表6 各監測斷面主成分綜合得分值和單因子水質綜合評價對比表
通過相關系數矩陣表、主成分荷載矩陣表和譜系圖可以得到,高錳酸鹽指數、COD、總磷和氨氮為主要的污染因子,并且高錳酸鉀指數和COD的關聯度較大,總磷和氨氮的關聯度較大。通過計算各個監測斷面的主成分綜合得分值,在與單因子水質評價進行比較,見表6,可以看出經開區河流水質總體較差,大多數為Ⅴ類水體。水質最好的監測斷面為伊通河(衛星大橋斷面)、伊通河(自由大橋斷面)水質為Ⅲ類。鯰魚溝(地表水末端)斷面、小稗子溝(入境斷面)、小稗子溝(匯入東新開河前斷面,竇開河為小稗子溝支流,匯入小稗子溝斷面)水質最差。本文的研究思路,可以為其他河流的水質評價提供參考依據,為水資源管理、水污染防治提供科學方法。接下來作者將用神經網絡法、灰色評價法等多種方法對水質進一步評價,從更多方面完善其工作。