程郅涵,靳軍濤,張金松,
(1.哈爾濱工業大學(深圳),深圳 518055;2.深圳市水務(集團)有限公司,深圳 518031)
城市水廠出廠水經過龐大供水管網系統后水質受到不同程度的二次污染,造成用戶龍頭水處存在水質不達標的風險[1]。有效提升供水管網水質安全保障水平已成為供水企業關注的重點,為此各供水企業建立了系統的管網水水質監測體系,積累了大量的管網水監測數據。由于水質指標種類多,數據量大,且管網水水質影響因素復雜,如何采用科學方法對水質指標進行降維,刪繁化簡,提高數據利用水平是目前需要解決的問題。本研究以南方某市近 4 年供水管網末梢水水質監測數據為研究對象,借助 SPSS 軟件,采用主成分分析法和對應分析法對管網末梢水質進行了時空變化、主要響應指標及指標相關性等方面的解析,以期提高監測數據利用效率,指導供水管網水質安全保障工作。
該市供水企業采用HACCP體系方法建立了從源頭到龍頭的水質監測體系,其中針對管網末梢水采用人工采樣檢測和在線自動檢測兩種方法。人工采樣檢測共設有200個采樣點,檢測類別包括常規檢測、月檢測及半年檢測,常規檢測包括10項指標,每月2次;月檢測指標包括42項,每月1次;半年檢測包括指標106項,每年2次。在線檢測主要針對余氯、濁度等4項指標,實時檢測,每15 min上傳一次數據。本研究數據來源自人工采樣檢測中的常規檢測數據。同時綜合考慮采樣點覆蓋地域和所屬水廠的廣泛性和代表性,從200個采樣點中選擇南山工區、西麗、下梅林等采樣點,所選采樣點基本信息如表1所示。

表1 采樣點基本信息
采樣點所處地理位置如圖1所示。

圖1 采樣點地理位置Fig.1 Geographical location of the sampling sites
1.2.1主成分分析法
主成分分析法(Principal Component Analysis)是一種考量多元數據相關性、共同影響性的數學統計方法。在保證必要原始信息覆蓋率前提下,用少數幾個綜合變量揭示原有多個變量間的內部結構,提煉出的綜合變量被稱為主成分[2]。
該方法基本思想可概括為通過正交變換將一組存在不同程度相關性的變量轉換為一組線性不相關的變量。在幾何上表現為將原有變量坐標系變換成新正交坐標系,并使之指向樣本點最密集的p個正交方向,然后對多維變量系統進行降維處理,用原有變量的z(z≤p)個線性組合解釋原有數據集信息[3]。
1.2.2對應分析法
對應分析法(Correspondence Analysis)也被稱為關聯分析或R-Q因子分析,是一種定性分析多元變量內在關聯的統計分析方法,主要通過分析由不同種類變量構成的交互匯總圖揭示原始變量間的聯系[4]。
該方法基本思想可概括為在低緯度空間中以點的形式表示原始數據集列聯表行和列中各變量的比例結構。進行R、Q因子分析的協方差矩陣A、B具有相同的主因子方差貢獻,這是不同種類變量能夠在一張因子荷載圖中展示的內在核心[5-6]。直觀性和便捷性是對應分析最主要的特點。
1.2.3具體操作流程
利用 SPSS19.0 軟件進行主成分分析時,具體操作流程[7]可歸納為:
1)確定分析數據集,本文選取 pH、耗氧量、 Fe、總氯、氨氮、硫酸鹽、氯化物、總有機碳、濁度、硬度 10 項水質指標,南山工區、西麗等 14 個采樣點每兩個月采樣一次,2014-2017年度336 組數據,剔除含缺失值數據,有效數據共計328 組。
2)數據標準化,消除多維數據間量綱差異,使其呈正態分布。
3)KMO(Kaiser-Meyer-Olkin)檢驗和 Bartlett 球形度檢驗判斷原始數據集是否適宜進行主成分分析,一般認為 KMO 數值大于0.5,Bartlett 檢驗顯著性小于 0.05 可以進行主成分分析。
4)確定提取主成分數量,綜合考慮以下3個因素:①特征值λ大于1;②單一主成分信息貢獻率至少5%~10%;③累計信息貢獻率至少60%~70%。
5)求解主成分特征向量,綜合考慮成分矩陣系數的單一變量解釋性和總變量集解釋性,盡量避免復雜數據結構和多個主成分同時解釋一個變量的情況。
6)依據式(1)、式(2)、式(3)構建主成分評價表達式。
(1)
(2)
(3)
式中:aij為第i個原始變量和第j個主成分對應的成分矩陣系數;bij為主成分表達式中對應每個原始變量的特征系數;λj為第j個主成分的特征值;zxi為第i個原始變量標準化后的數據值;Zj為第j個主成分的分析值;Z為主成分分析最終的分析值。
利用 SPSS19.0 軟件進行對應分析時,具體操作流程[7]可歸納為:
1)由原始數據集求解計算矩陣W,水質指標變量的協方差矩陣A和地點變量的協方差矩陣B完成對應分析數據前期準備,具體計算公式如式(4)、式(5)、式(6)所示。
(4)
A=WTW
(5)
B=WWT
(6)
式中:xi為每組數據的行和;xj為每組數據的列和;T為數據集的整和。
2)對矩陣A進行R型因子分析,對矩陣B進行Q型因子分析,選取前K個累計貢獻率達70%~90%的主因子。
3)在同一因子荷載圖上匯總R、Q分析結果。
4)因子荷載圖解讀。
選取 pH、耗氧量、 Fe、總氯、氨氮、硫酸鹽、氯化物、總有機碳、濁度、硬度 10 項指標對管網水質整體情況進行分析[8]。
從達標情況看,除Fe外其余9項指標均滿足國家生活飲用水供水標準(GB5749—2006),Fe檢測值分布極為集中,中位值為0.01 mg/L,但在南山工區、沙河、布心北采樣點存在異常超標情況。pH值在6.8~7.8之間浮動,中位值為7.33,半數以上采樣點中位值接近上四分位數,檢測值呈現左偏態分布,水質狀態呈現低堿性;總氯在各采樣點間檢測值波動較大,下梅林、梅林一村采樣點總氯中位值達0.8 mg/L和0.69 mg/L,與之相比南山工區、沙河采樣點總氯中位值只有0.33 mg/L和0.39 mg/L,但都高于國標管網末梢水總氯0.05 mg/L的規定下限;各采樣點硫酸鹽和氯化物檢測值分布較為分散,中位值分別為9.63 mg/L和10.74 mg/L,遠低于國標250 mg/L的規定上限;渾濁度除南山工區外分布集中,中位值0.14NTU,南山工區渾濁度檢測值遠高于其余采樣點,最大值達0.95 NTU;硬度在各采樣點中位值僅有39.3 mg/L,遠低于國標450 mg/L的規定范圍,屬于低硬度水。
為進一步識別該市管網水特點,利用 Langelier 飽和指數和拉森比率 LR 對管網水水質化學穩定性進行分析[9]。指數定義如式(7)、式(8)所示,水質穩定性分析圖如圖2所示。
IL=pH-pHs
(7)
式中:pH為管網水的實際pH;pHs為管網水在碳酸鈣飽和平衡時的pH,即飽和pH;
(8)

圖2 管網水Langelier指數及拉森比率LR分布比例Fig.2 Langelier inder of water in pipe network and the distributon of Larson ratio
Langelier 指數是從熱力學平衡角度出發,認為當水中碳酸鹽處于過飽和狀態,即IL>0時,管網水有結構傾向;當碳酸鹽未飽和,即IL<0時,管網水有腐蝕傾向。由圖 3 可以看出,全部采樣點管網水Langelier指數均小于0,且86.9%的數值處于-0.5~-1.5之間,具有較強的腐蝕性。拉森比率LR是從水中腐蝕組分對緩蝕組分的比例出發,認為LR指數越低,水體腐蝕性越小,當LR<0.5時,水體腐蝕程度即可接收。僅有3.4%的管網水LR<0.5,96.6%的管網水拉森比率大于0.5,表明該市管網水具有較強的腐蝕性,存在陰離子穿透管道內壁腐蝕瘤,引發黃水的風險。
綜上,該市管網水整體達標情況優良,其中不同采樣點總氯含量波動大,部分采樣點存在 Fe 超標和濁度異常波動現象,整體達標率在 99.9% 以上。通過水質穩定特性分析發現該市管網水具有低堿低硬度、水質化學穩定性較差、腐蝕性強的特點。
對數據集進行標準化處理,消除不同變量數據間的量綱差異。標準化后數據進行KMO檢驗和Bartlett球形度檢驗,得到KMO值0.688(>0.5);Bartlett檢驗近似卡方值883.168較大,顯著性Sig為0.00(<0.05)。表明數據集相關系數矩陣并非單位陣,原始變量間存在相關性,可以進行主成分分析及對應分析。
2.2.1主成分提取
利用SPSS軟件,依據主成分提取的方差最大化原則,數據集方差及方差貢獻匯總如表2所示。

表2 主成分分析方差解釋表
結合表 2 數據,綜合考慮特征值λ大于1、單一主成分信息貢獻率至少5%~10%、累計信息貢獻率至少60%~70% 3方面因素,最終選取4個主成分變異替代原有9項水質指標,可覆蓋解釋原數據集68.336%的信息量。每項主成分與原始水質指標對應關系見成分系數矩陣表,即表3。該表可用于解釋各個主成分變量的變異情況,系數絕對值越接近于1,表明主成分在該指標上的荷載越高,該指標越有可能成為管網水水質的主要評價指標。并借助Pearson相關系數法,對10項水質指標相關性進行定量檢驗,見表4。
由表3可得各主成分與高荷載原始變量間的對應關系,主成分1在硫酸鹽、氯化物、硬度指標上具有較高荷載,覆蓋原始數據集信息貢獻率25.556%;主成分2在Fe、濁度、總氯指標上具有較高荷載,信息貢獻率17.760%,第1、2主成分貢獻比率值相較3、4主成分更高,對覆蓋原始數據集信息具有很大貢獻;不存在多個主成分在同一原始變量上荷載較高的情況,主成分解釋性良好。根據某一主成分解釋某一水質特征的性質,并結合表4 Pearson相關系數值(>0.5),可以認為硫酸鹽、氯化物、硬度之間,Fe、濁度、總氯之間,總有機碳和耗氧量之間具有相對其他水質指標更高的相關性。

表3 成分矩陣系數表

表4 水質指標間Pearson相關系數表
2.1.2水質評價
依據表3數據和公式(1)、式(2)、式(3)構建管網水水質主成分評價模型。最終分析值Z越小代表整體水質情況越好。不同年度及月份水質Z值變化如圖4所示,不同采樣點及其對應水廠覆蓋區域Z值變化如圖5所示。

圖3 不同年度及月份水質Z值折線圖Fig.3 Line chart of Z value of water qualiky in different years and months

圖4 不同采樣點及其對應水廠覆蓋區水質Z值箱型圖Fig.4 Box plot of Z value of watter quality in different sampling sites and covering area of Corresponding water plants
從年度上看2016年全年分析值中位數為-0.612,且各采樣點Z值均處于較低水平,整體管網水水質最優;2015年全年分析值中位數為0.651,各采樣點Z值處于較高水平,或因多地管網改造工程引起的管網水轉向、串并接等原因導致管網水水質穩定性變差,水質異常現象。從Z值波動情況看,2014—2017年間月Z值均值、中位數共出現陡增9次,其中6次“陡增”現象處于該市夏秋季節,這與我國南方地區夏季高溫多雨、藻類大量滋生、面源污染相對嚴重,致使水源水水質較差現象相一致。
由圖5可以看出,梅林水廠覆蓋區下梅林和梅林一村采樣點水質分析值最低,且4年間排名皆為第1,與其在優質飲用水改造工程中增加的“臭氧接觸氧化+活性炭過濾”的深度處理工藝密不可分,其次排名前列的沙頭角水廠覆蓋區和筆架山水廠覆蓋區也都在進行優質飲用水改造工程。而排名靠后的南山水廠覆蓋區和東湖水廠覆蓋區至今仍使用“混凝-過濾-沉淀”傳統水處理工藝。
基于不同年度14個采樣點10項水質指標中位值,依據式(4)、式(5)、式(6)構建協方差矩陣A、B,分別進行R、Q因子分析,在前兩個主因子累計信息貢獻率大于80%的情況下,在同一二維因子荷載圖中展示分析內容,如圖6所示。

圖5 分年度水質指標-采樣點投影因子荷載圖Fig.5 Projector load dingram betureen annual water quality indicator and Sampling sites
總體而言,各年度采樣點及水質指標投影點在主因子軸上分布國年度不同而不同,但都呈遠離中心分布,可將各年度全部投影點大致分為兩類,一類由Fe、濁度、耗氧量指標,華新、9號小區采樣點代表;一類由總氯和硫酸鹽指標,沙河、南山工區采樣點代表。由因子荷載投影圖理論知,投影點位置越接近,相互之間關聯性越強,因此,可以認為沙河和南山工區,華新和9號小區采樣點間的水質更類似,Fe、濁度、耗氧量指標所反映水質信息的重疊度更高,以及Fe、濁度指標對華新、9號小區采樣點的水質情況具有更強的解釋性和反應力度。
從水質指標角度看,因子軸坐標代表投影點與不同主因子之間的相關性,綜合四年情況,在單一信息貢獻率超過60%的成分1軸上,Fe、濁度、硫酸鹽、總氯、耗氧量的荷載絕對值大于其他因子荷載,結合向量垂線準則,水質指標垂點越接近采樣點向量正向的水質指標對該采樣點水質信息的解釋比率越高,可以認為14個采樣點的主要響應水質指標為Fe、濁度、硫酸鹽、總氯、耗氧量。
從采樣點角度看,成分 1 軸也反映了采樣點的水質整體分異性,依據采樣點主成分評價結果,綜合4年情況對比分區,成分 1 軸荷載值高的采樣點整體水質更優,荷載值低的采樣點整體水質偏差。
本文運用統計學方法對南方某市近4年供水管網末梢水水質的時空變化特征、主要響應指標及指標間相關性進行了研究分析。主成分分析法評價結果表明:1)該市管網末梢水年度總體水質存在差異,其中以2016年為最佳;2)夏秋季節更易出現水質異常現象,5~9月應加強管網末梢水水質管控;3)區域上看已完成深度處理改造的梅林水廠供水覆蓋區管網末梢水水質最優,南山水廠供水覆蓋區管網末梢水水質最差;4)水質指標硫酸鹽、氯化物、硬度之間,Fe、濁度、總氯之間具有相對其他水質指標更高的相關性。對應分析法結果表明:1)該市管網水末梢水水質主要響應指標可重點關注Fe、濁度、總氯、硫酸鹽和耗氧量;2)其中Fe、濁度、耗氧量呈正相關性強,上述指標與硫酸鹽、總氯呈負相關性。