鄭澤豪
(重慶交通大學 河海學院,重慶 400074)
對流域實行長期水質監測,旨在科學評估河流的水質狀況及掌握水質變化規律,是流域水環境管理的基礎性也是重要性的工作。為有效、準確地反映流域水體水質狀況,需要建立合適的水質監測網絡。隨著監測網絡范圍的擴大,大量監測數據產生的同時,監測成本也必然隨之增加。在對獲得的指標數據分析的同時,進一步深入分析各指標之間的內在聯系,對優化水質監測網絡有重要意義。對于有著長時間序列,多個監測指標,多個斷面的流域,采取何種統計分析方法對動態監測數據進行挖掘和綜合分析,并借此指導水質監測網絡的優化、提高監測點的代表性,是水質監測和評價的研究重點和方向[1]。
隨著水體環境研究的不斷深入,多元統計分析方法被廣泛運用到水質評價實踐中,根據部分學者所做的研究發現,對于存在多指標的監測數據,運用聚類分析統計法可以做出更為客觀、準確的評價[2]。本文水質數據分析采用層次聚類分析方法,通過對水質指標的相關系數進行聚類,分析比較各水質指標之間的相關關系,對具有相關關系的指標進行聚類,并對聚類結果進行回歸檢驗,實現降低水質指標維數的目的,為流域水質監測工作的優化提供一定的科學依據。
研究區是淡水河一級支流,屬于東江水系。流域受南亞熱帶季風氣候影響,全年溫度適宜,豐富的降水給河道帶來大量的水資源。河道干流全長為13余km,流域面積約為129.4 km2。根據區域內雨量站1961—2014年實測年雨量資料統計顯示,多年降雨平均值為2 073.5 mm,且雨量在年內每月分配嚴重不均,表現為每年4—9月有大量降雨,降雨量約占全年雨量的85%[3]。多年以來,區域內平均年徑流深為1 050 mm,平均水面蒸發量為1 345.7 mm。
本文選取了6個監測斷面,選取的監測指標為PH、溶解氧(DO)、高錳酸鹽指數(CODMn)、氨氮(NH3-N)、總磷(TP)、總氮(TN)和化學需氧量(CODCr)等7項。數據資料為2018年6個監測斷面7項監測指標的連續監測數據,按照國家環境質量標準《地表水環境質量標準》(GB 3838—2002)[4]進行評價。
聚類分析法是將研究的樣品或變量之間的相似程度大的先歸為一類,把另外還具有一定相似性的聚為一類,然后繼續聚類進程,最終將所有樣本或變量都各自分類,達到“物以類聚”的效果。運用較多的聚類分析算法有層次聚類算法(HCA)、K-Means聚類算法、自組織映射聚類算法(SOM)等[5],其中層次聚類分析應用最為廣泛,層次聚類分析又分為Q型(樣本分類)和R型(變量分類)。通過挖掘樣本或變量之間的相似性,將相似程度大的統計量作為代表進行分析,可以簡化數據即減少變量個數,達到變量降維的目的[6]。本文意在通過R型聚類分析的方法,在多個水質指標中篩選出能夠代表其他指標的變量,將該變量與其他指標進行相關性分析,降低指標維數,優化水質監測及評價工作。
對數據標準化處理是進行數據分析的一項首要工作,尤其是對于基于距離的算法更為重要。零-均值標準化(標準差標準化)是一種常見的將數據標準化的方法,經處理后的數據符合正態分布,故本文采用此法[7]:
(1)

經過標準化后的數據,可計算各變量之間的相關系數。聚類分析算法是按照各變量之間存在的差異性進行分析的,而變量間的差異性通過距離反映,距離越近,相似性越明顯。距離量度方式有多種,本次選用皮爾遜相關系數量度各變量之間距離,數學定義為[8]:
(2)
式中n為樣本總數;xi和yi分別為兩變量的變量值。
利用SPSS25.0計算各水質指標之間的相關系數矩陣結果可參見表1。

表1 各水質指標相關系數矩陣
若算得相關系數的絕對值越大,則兩指標間的關系越緊密[9]。由矩陣結果表1可知,該河水質指標中CODMn與CODCr相關性最好,TP和NH3-N相關性排在第2位,其他指標之間的相關性弱于上述兩者。根據污染源普查統計得到,沿岸部分企業COD、NH3-N和TP的直排入河量占總排放量的13%、15%和19%,且研究區為城市河流,流經居民區和農田,截污納管率較低,河道為污水、污物受納終端,長期的生活污水和農業面源污染排入河道,是NH3-N和TP的主要來源。CODMn與CODCr作為地表水常規監測項目,可反映水體受有機物污染的狀況;TP和NH3-N是河流治理中污染物排放控制的兩個重要因子。若兩兩之間存在相關關系,則可用CODCr濃度估算CODMn濃度,用NH3-N的濃度估算TP的濃度,以對濃度監測值進行預測,降低監測頻次,提升應急監測能力。
由相關系數矩陣可知各指標間的親疏關系,為更明了地觀察結果,對相關系數進行R型聚類分析,類與類間距離采用組間平均鏈接距離計算,一步步將各統計量歸為一類,作出聚類樹形分類示意(見圖1)。

圖1 各指標聚類樹狀示意
由SPSS軟件生成的樹狀示意可以看出,CODMn和CODCr兩者、NH3-N和TP兩者距離最為接近,兩兩連線合并成一類;接著是TN與(TP、NH3-N)連成一類,它們間的距離大于NH3-N和TP距離;然后是前兩個大類合并為一類,以此逐級連線的方式將所有個體聚成一類。結合相關系數矩陣和聚類分析結果可知,CODMn濃度和CODCr濃度、NH3-N濃度和TP濃度之間的相關性極其顯著。
為了更好地描述水質指標間的線性關系,明確水質指標間的數學統計關系,采用回歸方程驗證的形式,利用SPSS軟件分別對CODCr和CODMn、NH3-N和TP進行回歸分析,線性回歸關系如圖2,線性回歸過程如表2。從圖2中可以看出CODMn值隨著CODCr值增大呈現總體增大的趨勢,TP值隨著NH3-N值增大而增大。由表2可知,在CODMn=a×CODCr+b表達式中,a=0.140,b=1.549,R2=0.629,t檢驗值為3.868,與P=0.05相當的臨界值t0.05=2.030相比,P<0.05,符合差異性檢驗,表明CODCr濃度和CODMn濃度存在線性回歸關系。同理,在TP=a×NH3-N+b表達中,a=0.069,b=0.230,R2=0.598,t檢驗值為3.376,符合差異性檢驗,表明NH3-N濃度和TP濃度存在線性回歸關系。綜和上述分析,列出CODCr和CODMn、NH3-N和TP的線性回歸關系式:
(3)

圖2 線性回歸擬合示意

表2 線性回歸過程
為了驗證2.4中統計的兩個線性回歸方程的適用性,選取2018年1—12月斷面X的CODCr和NH3-N監測值,分別計算CODMn和TP的濃度,并與斷面X實測的CODMn和TP濃度值進行對比,結果見表3。由表3分析知,斷面X全年的監測值與計算值之間的相對偏差小于5%的數據超過50%,說明統計得到的線性回歸關系式具有較強的的實用性和較高的準確性。

表3 斷面X數據對比 mg/L
1) 通過對監測的水質指標間的相關性進行分析,確定水環境中的CODCr和CODMn、NH3-N和TP關系密切,統計得到的回歸方程關系式滿足擬合度檢驗,表明指標間具有較強的線性相關關系。
2) 本文通過對相關關系矩陣進行聚類分析,篩選出相關系數最大的指標,用較少的指標表示研究區域的水體質量,減少了指標重疊的情況,說明本文運用的方法在有大量監測數據的情況下,可以降低水質指標的維數,簡化數據,優化水質評價過程,達到降低水質監測成本的目的。
3) 針對有多指標、長時間監測數據的區域,可以根據本文的方法,對各斷面水質指標進行多元統計分析,明確河流污染狀況,為其它地表水水質指標間相關性研究提供參考。