朱延平,吳霖璟,于佳麗,顧趙福,舒詩湖
(1.東華大學環境科學與工程學院, 上海 201620;2.上海市供水管理事務中心, 上海 200092;3.上海污染控制與生態安全研究院, 上海 200092)
在城市化進程中,我國部分城市通過構建水質在線監測系統以應對日益凸顯的二次供水環節的問題。目前,上海市已在部分住宅小區安裝超過200個二次供水水質在線監測儀表,遠期將實現每小區至少安裝1套水質在線儀表的目標。在線水質監測儀可實現對二次供水水質連續采樣、實時檢測、數據反饋和信息處理等任務[1]。然而由于設備異常、外界干擾等原因,采集的數據有時不能滿足分析的需求,因此,需要梳理二次供水在線監測數據中常見的錯誤,并進行數據質量評估,從而支撐二次供水的智慧化管理。
經過多年水質提升工程的實施,二次供水的水質可滿足微生物指標、毒理指標、放射性指標等國家標準[2]。二次供水水質在線監測系統需要滿足監測數據容量大、實時性強等特點,同時具有監測對象有限、信息密度低、穩定性不足等問題。常見的飲用水水質分析方法有神經網絡法[3]、投影尋蹤方法[4]、灰色指數法[5]、物元分析法[6-7]等,不適用于分析二次供水在線監測水質。因此,二次供水水質在線監測大數據應選擇快速、有效的處理方法,以便后續分析和水質預警工作的展開。K-means聚類分析被廣泛應用于水質分析[8],其顯著優點是可以定量和客觀地應用聚類有效性指標評估聚類結果[9]。熵值法在確定權重上可以從某種程度上避免傳統方法在權重確定中主觀因素的影響[10-11]。本文研究基于K-means聚類法和熵值法的二次供水水質在線監測評價方法及其應用。
二次供水監測點通常設置在泵房泵后、屋頂水箱、一體化箱式泵站泵后的出水口,方便在配電箱或電梯機房就近取電。因此,致錯因素大概可歸納為3類:1)環境因素,主要影響因子為通訊信號和工作環境溫度;2)設備因素,主要影響因子為設備時鐘故障、遠程傳輸單元、電池狀態和設備穩定性能;3)其他因素,主要歸納為自互聯網攻擊風險和設備運行管理兩方面的影響[12]。
常見的二次供水水質在線監測數據根據以上3類致錯因素又可分為4種數據錯誤類型,分別為時間間斷型、時間錯位型、記錄缺失型、短暫數值尖峰型(又稱“毛刺”)。4類數據錯誤主要可歸納為2大數據特征:數據特征對數據質量的影響較大,但易于識別和發現;數據特征對數據質量的影響較小,但排查困難、致錯環節復雜。具體的數據錯誤類型、致錯因素和數據錯誤特征三者的關系如圖1所示。

圖1 致錯因素、數據錯誤類型、數據錯誤特征關系圖Fig.1 Factors of errors, types of wrong data and data error characteristics diagrams
運行正常的智能設備根據設定時間記錄數據,當上傳數據的時間間隔超過用戶設定時,可視為時間間斷型數據錯誤,根據間斷時間的長短可以分為數分鐘、數小時和數天。
時間間斷型數據錯誤主要由2種因素引起數據故障:1)較弱的通訊信號可能造成監測設備未能在傳輸時間內上傳全部數據[13];2)盡管在線監測設備的就近取電方式可以保障穩定的運行,但電池狀態可能會導致數據中斷,一般水質在線監測設備的電池壽命為5年左右。
相鄰數據時間間隔正確,但數據記錄的時刻發生了改變,這種數據錯誤被認為是時間錯位型錯誤,主要歸因于設備的遠程傳輸單元的時鐘故障。
當對應記錄時間的記錄值為空白或“0”認定為缺失型數據錯誤,此類錯誤通常是由于設備故障或環境惡劣引起的數據“丟包”導致。該類數據錯誤一般包含2種情況:1)水質在線監測儀器對溫度敏感,通常工作環境溫度為5~40 ℃,當工作環境溫度超出適用范圍則可能導致設備靈敏度下降,甚至失靈(這類問題可以通過設備的維護管理工作得到改善);2)由于設備自身的遠程傳輸單元故障,導致設備上傳錯誤的檢測值至工作站。
短暫數值尖峰類型的錯誤表現為部分記錄數值在時間序列上呈“毛刺”狀,這通常與設備穩定性和適應監測環境能力有關:1)剛運行的智能監測設備,監測探頭或分析單元的穩定性不足導致出現許多極端數據;2)剛運行遠傳水表的監測靈敏性較強,對監測環境敏感。
長期無波動型數據錯誤表現為同一監測點的時間相鄰檢測差值超過1 h的情況下始終為0,這與工作環境(環境溫度)和運維管理有關:1)監測設備未及時進行設備管理導致靈敏度下降;2)工作環境的惡劣造成智能設備故障(如檢測探頭失靈)導致分析結果始終不變。
本研究對L市的36個監測點(檢測時間為2020年1—10月)的數據監測結果進行質量評估分析,具體數據質量說明和數據錯誤的判定標準如表1所示。

表1 數據質量分析總體結果匯總Table 1 Summary of overall results of data quality analysis
由表1的數據質量分析結果可知:1)間斷數分鐘的時間間斷型錯誤是普遍存在的數據錯誤類型;2)記錄缺失型數據是數據錯誤的首要類型,使用GPRS會發生包丟失現象;3)不同在線監測設備所導致的數據錯誤程度也不同,但此類錯誤一般可以通過加強設備運行維護管理和網絡安全管理的方式優化。
L市由4個不同的水源地供水,按二次供水方式分為水箱水池聯合供水、水池加變頻泵供水、無負壓供水等方式。供水企業全面接管2000年以前建設并在近年完成改造的二次供水設施,同步建設了共36個二次供水水質在線監測系統。政府出于對二次供水監管的目的,自主安裝了若干水質在線監管點,并接入供水企業的在線監測點數據。本研究采用基于K-means聚類法和熵值法的二次供水水質在線監測數據評價方法,技術路線如圖2所示。

圖2 二次供水水質評價方法及相關分析技術路線圖Fig.2 Water quality assessment methods and related analysis technology roadmap of secondary water supply
大數據分析的理論核心是數據挖掘算法,包括聚類分析、回歸分析、因子分析等。聚類算法是常用的大數據分析方法,最大應用優勢在于能夠簡單快速地處理大數據,并可自主設定初始聚類中心K,通常選用常規的歐幾里得距離作為相似度指標[14],如式(1)所示。
(1)
式中:xi、yi分別為不同樣本x、y的N維數值;N為二次供水監測指標數,此處為2維。
現以L市二次供水在線監測結果為數據樣本(監測指標為余氯和濁度),對比設定聚類中心分別為2、3時的兩種聚類結果(k=2,k=3):
1)當設定k=2類時,余氯對水質分類的影響較大,分界線約為0.35 mg/L,工程經驗表明,針對小區內而言,余氯值為0.05~0.30 mg/L,較為理想。
2)當設定k=3類時,濁度與余氯共同作用水質分類,二次供水水質聚類分析結果如圖3所示。由圖3可知,目前存在的3類二次供水水質特點:Ⅰ類水的余氯值適中且濁度控制最好,Ⅰ類水樣本占比為79.1%;Ⅱ類水的余氯值相對較低(處于合適的范圍),同時濁度適中,Ⅱ類水樣本占比為14.5%;Ⅲ類水的余氯值相對較高(處于合適的范圍),同時濁度普遍較高,且水質季節性變化最明顯,Ⅲ類水樣本占比為6.5%。濁度和余氯會共同影響水質分類,Ⅰ類、Ⅱ類和Ⅱ類、Ⅲ類水濁度的界限分別為0.2 NTU左右、0.4 NTU左右,Ⅰ類、Ⅱ類和Ⅱ類、Ⅲ類水余氯的界限分別為0.3 mg/L和0.8 mg/L。

圖3 二次供水水質聚類分析結果(k=3)Fig.3 Cluster analysis results of water supply of secondary water supply (k=3)
根據上述的兩種聚類中心(k=2,3)的分析結果,并結合實際經驗,人為確定了水質評價的劃分標準,具體如表2所示。并依據水質評價的劃分標準和所有監測點的檢測平均值進行評分,初步得出計算結果。

表2 水質評價劃分標準Table 2 Criteria for water quality assessment
熵值法通過各項評價指標觀測值所提供信息量的大小來確定評價指標權重系數,也可用作指標離散程度的評判方式,離散值越大代表該指標對綜合評價的影響越大[15]。
通過熵值法細化上述劃分的4類水質可較好地對數量較多的監測點進行后續分析,規定熵值法得分(S波動)不超過1從而保證表2中劃分的水質區別,將表2計算所得的初步得分結合熵值法,可得出各點的水質波動得分S余氯和S濁度,代入式(2)和式(3)得出最終水質得分結果S得分。
S波動=S余氯+S濁度
(2)
S得分=S標準-S波動
(3)
分別采用單因素方差分析(one-way analysis of variance, ANOVA)和交叉列聯表法,利用LSD(least significant difference)、皮爾遜數等顯著性計算方法,對水源地、水處理工藝、供水方式和管網年限等4個因素與二次供水水質得分單獨和綜合的相關性分析,當p<0.05時,單因素與水質得分存在相關性,具體結果如表3所示。表4為主體間效應檢驗。

表3 單因素與水質得分的相關性分析

表4 主體間效應檢驗Table 4 Intersubjective effect test
由表3和表4可知:
1)供水方式將直接影響監測點的濁度和余氯指標(p<0.05),水源地也存在直接影響監測點二次供水水質的可能(p=0.07)。盡管水處理工藝和管網使用年限并未直接影響二次供水水質,但二次供水方式和管網使用年限與水質存在協同效應,共同影響二次供水水質。
2)結合4種因素的綜合影響上看,按照影響比重從大到小排序分別為供水方式、管網使用年限和水源地共同影響二次供水水質情況,水處理工藝并不能對二次供水的濁度和余氯造成直接或間接影響。
將2020年1月、2月二次供水水質得分協方差分析法與2019年1月、2月二次供水水質得分進行對比(即分析相隔一年的同月份二次供水水質得分,當p<0.05時,存在相關性)。分析結果表明4種因素導致水質在2年內水質變化的影響十分有限,因此,水質的長期監測顯得更有意義。
結合第2.4小節相關性分析和協方差的結果可知,2年內水質的變化與以上4類因素不具備相關性,其中管網使用年限的顯著性最小(p=0.19,但是遠大于0.05)。從協同影響角度上看,管網使用年限和水源地的共同作用最有可能對逐年二次供水水質產生影響(p=0.12,大于0.05),但并不能認為兩者間存在相關性;其次為供水方式和水源地的協同影響(p=0.17,大于0.05),因此,水源地對二次供水水質的間接影響也不可忽視。
箱形圖是一種顯示數據分散情況資料的統計圖,主要用于反映原始數據分布的特征,并進行多組數據分布特征的比較,其數據上邊緣和下邊緣分別代表上、下兩個四分位數,箱體中間為中位數。將余氯、濁度兩個指標以月份為組別進行對比,以觀察供水環節對水質分散度的影響。L市12個月份總體余氯水平如圖4所示,L市12個月份總體濁度水平如圖5所示。

圖5 L市12個月總體濁度水平Fig.5 Overall turbidity level of L city in 12 months
由圖4的余氯散度水平可知:L市12個月余氯波動為0.25~0.75 mg/L,異常值較少,總體余氯水平良好;其中6月、7月的余氯合格率最低,但也達到95%以上;普遍溫度高的月份余氯水平低于其他月份,但從散度分布上看差別不大,這表明二次供水環節中對余氯的管控較為到位,基本可以滿足余氯標準。
由圖5的濁度散度水平可知:L市12個月總體濁度水平良好,各月份濁度普遍低于0.2 NTU,合格率幾乎達到96%以上,各月濁度水平和濁度散度水平相差不大,但異常值較多,這表明部分點的供水設施需要管理,某些檢測點需要重點關注。
1)不同水質在線監測儀器對應的數據質量有所不同,本研究發現濁度儀的數據質量明顯高于余氯儀。以間斷數分鐘型為主的時間間斷型數據錯誤是普遍存在的(占比約1.5%),區別于余氯儀和濁度儀的主要數據錯誤類型為記錄缺失型。
2)供水方式和水源地改造工程應當作為二次供水水質提升工作的方向,其中供水方式的改造工程更為重要。目前并未發現城市采用的水處理工藝(主要為“常規處理+深度處理或深度處理)與二次供水水質存在明顯的直接或間接聯系,說明二次供水水質目前不受水處理工藝影響。
3)供水方式、水源地、水處理工藝和管網使用年限均單獨對逐年二次供水水質變化的影響有限,但水源地的影響不可忽略,因此未來可以從供水方式、水處理工藝和管網使用年限3個方面保證二次供水水質穩定性,其中管網運維管理是保障逐年水質穩定性的關鍵。從水質散度分析上看,目前供水企業對余氯指標的管控較為到位,而濁度指標應是未來重點優化的對象,尤其應關注少數濁度異常的檢測點。
此外,建議除了余氯和濁度,可適當增加高錳酸鹽指數(CODMn)、pH等少數檢測簡單、代表性強的水質指標作為二次供水在線監測對象。