田海洋(河南省許昌水文水資源勘測局 許昌 461000)
水質數據空間相關性用于數據校驗初探
田海洋
(河南省許昌水文水資源勘測局許昌461000)
以清潩河許昌段為例,研究了同一河道上不同水質監測斷面間水質數據的相關性,從而給出一個利用水質斷面間相關函數來進行數據輔助校驗的方法,可有效提高數據校驗的精確性,減少校核工作量。
水質數據線性回歸分析空間相關性數據校驗
水質數據的采集與管理過程中,有時由于突發未知污染、河道水文情勢發生較大改變,水樣采集失誤、實驗室誤操作、數據錄入失誤等均會導致數據異常。以往的水質監測部門是通過經驗判斷對數據逐個進行審核,這種數據審核方法要花費大量的時間且審核效果不好,對于數據間關系判斷缺少科學性和準確性。隨著技術的進步,人們也想出了很多辦法來減少判斷的工作量和失誤,如根據水質指標間理化關系、利用特征值分析、利用水質的季節變化、數據同比分析和環比分析等。而利用水質監測斷面的空間相關性,制定一些水質數據校驗規則,包括定量和定性的規則,再結合計算機技術進行輔助校驗,也成為水質數據校驗方法的重要發展方向,本文以清潩河許昌段為例,對水質數據的空間相關性進行一些有益的探討。
清潩河是潁河支流,發源于鄭州新鄭,是流經許昌市區的重要河流,清潩河許昌段共設置水質監測斷面4個,自上游到下游斷面分布見表1。在許昌半截河公路橋斷面與臨潁石窩公路橋斷面之間有清泥河匯入,在臨潁石窩公路橋斷面和鄢陵南張莊斷面之間有吳功渠匯入,只有許昌縣呼沱閘斷面和許昌半截河公路橋橋斷面之間沒有重要河流匯入;此外,各個河段還有一些小的溝渠和入河排污口匯入清潩河。因此,清潩河許昌段水系分布較為復雜。

表1 賈魯河鄭州段監測斷面表
本文選擇國家水功能區達標考核項目氨氮、COD、高錳酸鹽指數進行分析。三個指標的濃度時間曲線分別見圖1、圖2和圖3。

圖1 各段面氨氮濃度隨時間變化曲線圖

圖2 各段面COD濃度隨時間變化曲線圖

圖3 各段面高錳酸鹽指數濃度隨時間變化曲線圖
從圖1、圖2和圖3可以看到,由于許昌呼沱閘為引北汝河水入清潩河的上游地區,水環境保護力度大,上游的許昌呼沱閘斷面同其余3個斷面相比各個項目的濃度值都較低,在濃度絕對值較低的時候則較為接近。因此,如果監測數據出現許昌呼沱閘污染物濃度超過其余3個斷面較多,則可認為監測數據有問題,應設法查找原因。而許昌半截河斷面、臨潁石窩公路橋斷面和鄢陵南張莊斷面由于支流匯入和排污狀況復雜,相互之間的大小關系并不絕對,但是從數據來看3個斷面之間的正相關關系較為明顯。
對于單一河道水質沿程變化規律,可用單一河道的水質模型Ct=C0e-kt來檢驗。降解系數k可利用當地的經驗系數,也可通過實測數據做回歸分析得到。但是上述方法是建立在極端理想狀態下的,要求沿途沒有排污、沒有支流、水文特性穩定等。如果面對支流較多、排污狀況復雜的狀況,則需要非常繁瑣的計算,尤其在支流和排污水質水量缺乏數據的情況下,上述方法其實是無法得出結果的。
基于研究水質數據的空間關聯性只是用于對水質數據的合理性進行分析,而不需要準確定量,只需在一定范圍內合理即可,因此,利用已知數據進行回歸分析等灰色模型進行分析則更具有可行性。
使用SPSS軟件對上述斷面中相鄰的斷面對水質指標進行線性回歸分析,并求取相關系數和t檢驗結果。本文選取了各斷面2013年7月~2014年6月共12組數據進行分析,所得回歸方程中函數系數,可以認為是上游斷面對本斷面的水質影響,而常數項可以視為其他因素造成的影響,結果見表2。

表2 清潩河各相鄰斷面間水質指標線性回歸分析結果表
由表2可以看到,呼沱閘和下游的3個河道型斷面相關性較小,這與許昌呼沱閘斷面嚴格控制排污,而下游支流、排污口入河較多,上游河道污染物降解特性也與下游河道有較大差異有關;而臨潁石窩公路橋和鄢陵南張莊公路橋斷面由于距離較近,中間也沒有明顯的排污和支流匯入,相關性極佳。分指標來看,氨氮和高錳酸鹽指數斷面間相關性較好,COD則較差。
取95%的置信度,根據t檢驗結果,可以認為許昌半截河公路橋和臨潁石窩公路橋斷面間高錳酸鹽指數線性關系顯著;臨潁石窩公路橋和鄢陵南張莊公路橋斷面間氨氮、COD、高錳酸鹽指數線性關系均顯著,可以應用于數據校驗,而其余方程不能用于數據校驗。使用上述回歸方程對上述4個斷面2014年7~10月的4組數據分別進行模擬,然后與實測數據進行對比分析,分析結果表明,許昌半截河公路橋和臨潁石窩公路橋斷面之間高錳酸鹽指數模擬值與實測值相對偏差在11.5%~35.4%之間;臨潁石窩公路橋和鄢陵南張莊公路橋斷面之間氨氮模擬值與實測值相對偏差在3.7% ~31.7%之間,COD模擬值與實測值相對偏差在12.5%~22.5%之間,高錳酸鹽指數模擬值與實測值則在4.8%~27.6%之間,均能較好地滿足數據校驗要求。事實上,在實際應用中回歸分析并不僅限于線性關系,可以嘗試使用指數函數等,有時可以得到更為接近的模擬結果。比如臨潁石窩公路橋和鄢陵南張莊公路橋斷面之間的高錳酸鹽指數指數,如果采用指數函數擬合,得到的方程為y=2.349e0.115x,其相關系數R達到了0.900。
在實際數據校驗應用中,過于頻繁的報告錯誤也是不合理的。根據實際需要用模擬數據對檢測數據設定一個合理范圍,對于相關性較高的方程,一般將數據合理范圍設定為模擬值相對偏差的正負40%之間,例如鄢陵南張莊公路橋斷面的氨氮和高錳酸鹽指數;對于相關性不太高的方程,則適當放寬范圍,一般將數據合理范圍設定為模擬值相對偏差的正負60%。對于超出合理范圍的數據,則應提醒化驗員或者采樣人員查找原因,看是否實驗或者采樣失誤,或者河道水情發生了重大變化。需要指出的是,隨著人類活動對自然河道干擾活動的日益深入,尤其是城區內的河道,近年來由于水生態工程的不斷增加,尤其是截污工程、水系連通工程、調水工程等等,對河道走向和水質水量影響較大,使得依據數據建立的回歸方程時效性較短,應及時根據相關變化對校核函數進行修正或者重新建模。
監測斷面之間的水質數據相關性也從另一個側面反應了兩個斷面的相似性,這就提出了一個新的問題——斷面設置是否是冗余的。以本文為例,臨潁石窩公路橋和鄢陵南張莊公路橋斷面就極為相似。當初設置水質監測斷面是根據水功能區劃設置的,一般為水功能區的下斷面。近年來隨著許昌市東部的許昌新區城市化進程的加快,對于污水排放要求日益嚴格,又有大規模的引水工程實施,原來劃定的用于排污的河道目前已經沒有明顯的污染進入,兩個斷面距離又近,水體自凈作用不明顯,導致了兩個斷面高度相似,是否有必要通過科學的分析,比如聚類分析等手段對目前主要由于歷史原因形成的監測站網給予進一步優化,可以作為未來的一個研究方向■