符東,吳雪菲,易珍言,陳永燦,3*
(1.西南科技大學環境與資源學院,四川 綿陽 621010;2.四川文理學院化學化工學院,四川 達州 635000;3.清華大學水沙科學與水利水電工程國家重點實驗室,北京 100084)
沱江位于四川省中部,是長江上游的一條支流。沱江自北向南流經金堂縣趙鎮,穿過金堂峽進入簡陽市,經過資陽市、內江市、自貢市,最后在瀘州市匯入長江。作為四川盆地重要的自然資源,在過去幾十年,由于受到工農業活動的影響,沱江水質呈現出了不同程度的惡化[1]。雖然沱江的水資源對整個四川盆地的經濟社會發展起著重要作用,但是對整個沱江的水質評價、污染源解析及水質模擬的綜合研究卻較少。因此,對沱江水體進行水質綜合評價和預測顯得尤為重要。水質評價及預測可以為沱江水環境綜合治理提供科學合理的分析,有助于制定水環境綜合治理針對性方案,同時可以模擬水質的變化趨勢,為水環境規劃與管理提供科學支撐。
目前,水質評價方法主要有模糊綜合評價(Fuzzy comprehensive assessment,FCA)法[2]、人工神經網絡(Artificial neural network,ANN)評價法[3]、地理信息系統方法[4]以及多種方法的相互耦合[5]等。由于水環境的連續性及不確定性,國內外學者常選擇模糊綜合評價法應用于地下水和湖庫河流、海水等地表水環境的評價中[6-10]。例如,徐曉云等[11]利用模糊綜合評價法對京杭大運河揚州段的水質進行了評價,并分析了水質的主要污染來源。樊慶鋅等[12]利用灰色關聯度和主成分分析法優化評價指標,并結合模糊綜合評價對松花江哈爾濱段的水質進行了評價。向文英等[13]通過改進權重賦值方法,利用模糊綜合評價對某水庫水質進行了評價。在水質評價的基礎上進行污染源解析和水質預測,可以對主要污染因子的時空變化趨勢進行分析,掌握水體水質的變化狀況。人工神經網絡能夠精確地計算復雜的非線性輸入輸出關系,因此被廣泛用于水質的預測[14-16]。當前水質預測主要包括以當前數據預測未來水質變化趨勢[17-18]和以當前采樣點數據預測其他采樣點水質變化趨勢[19-20]兩個方面。雖然模糊綜合評價和人工神經網絡預測在水環境中應用廣泛,但大多數研究對模糊綜合評價中評價因子的篩選沒有詳細的描述和論證,同時對人工神經網絡輸入指標的選擇大多都基于主觀性,使得計算結果不能真實反映水體的狀況。鑒于沱江的重要性,本文在前人研究的基礎上,擬采用沱江流域31個監測斷面2018年1月—2019年10月的逐月水質數據,通過篩選評價因子對各斷面使用模糊綜合評價方法進行水質評價。在水質評價的基礎上,利用主成分分析(Principal component analysis,PCA)識別沱江的主要污染源和污染因子,然后構建BP(Back Propagation,BP)神經網絡,并利用內江二水廠斷面數據預測申家溝斷面主要污染因子濃度。以期為沱江的綜合管理提供一定的參考。

圖1 沱江及各監測斷面位置分布圖Figure 1 Tuo River and location distribution of the monitoring sections
本文選擇了沱江上游至下游的31個(SS1~SS31)監測斷面,沱江流域及各監測斷面分布如圖1所示。水質數據來源于中國環境監測總站在各監測斷面2018年1月—2019年10月的逐月監測濃度。水質指標包括化學需氧量(CODCr)、溶解氧(DO)、五日生化需氧量(BOD5)、高錳酸鹽指數(CODMn)、總氮(TN)、總磷(TP)、氨氮(NH3-N)、硝酸鹽(NO-3)、硫酸鹽(SO24-)、氟化物(F-)、氯化物(Cl-)、pH、氰化物(CN-)、硫化物(S)、陰離子表面活性劑(LAS)、石油類(Oils)、揮發酚(V-phen)、電導率(EC)、糞大腸菌群(E.coli)、汞(Hg)、鉛(Pb)、銅(Cu)、鋅(Zn)、鐵(Fe)、錳(Mn)、六價鉻(Cr6+)、鎘(Cd)和溫度(T)等。為保證所選指標能真實反映水體狀況,需對模糊綜合評價的評價因子集進行篩選和優化。GB 3838—2002《地表水環境質量標準》中[21]未對pH、T、、、Cl-、Fe、Mn和EC的濃度做出等級劃分和明確要求,故將這些指標排除。CN-、S、LAS、Oils、V-phen、Hg、Pb、Cu、Zn、Fe、Mn、Cd、Cr6+濃度均符合Ⅰ類水質標準且濃度長期穩定無變化,因此將這些指標排除。E.coli由于監測次數較少,數據不連續,所以排除該指標。經過篩選后的評價因子集包含 CODCr、DO、BOD5、CODMn、TN、NH3-N、TP和F-,各指標的統計分析如表1所示。在模糊綜合評價和主成分分析的基礎上,選取主要污染物,利用BP神經網絡對其進行預測。構建BP網絡前,利用各指標的相關性,確定BP網絡的輸入變量。
2.1.1 評價因子集與評價標準
沱江流域工業集中、農業發達、食品業和養殖業密集。針對各行業廢水特點以及檢測數據,兼顧相關標準的水質要求,經過對28個物理化學水質參數篩選,最后使用選定的8個指標構建因子集,因子集可以表示為CTP}。評價標準依據《地表水環境質量標準》,具體如表1所示。
2.1.2 評價因子權重
模糊綜合評價過程中,需要對每一個評價因子賦予相應的權重。本文選擇污染因子貢獻率法計算各評價因子的權重:

式中:xi為污染物i的實測濃度;Si為各評價因子的第Ⅲ類水質標準;wi為歸一化后的i因子權重。評價因子的權重向量可表示為 W={w1,w2,...,wn},n為評價因子個數。由于DO屬于數值越大,水質越好,所以對于 DO,ai=Si∕xi。
2.1.3 隸屬函數與模糊矩陣
建立各評價因子的隸屬函數,得到其對每一類水質的隸屬度,進而得到模糊關系矩陣R。目前,隸屬度一般采用“降半梯形分布法”計算[22]。對于數值越大污染越重的因子,可根據公式(2)~公式(4)計算其對應評價標準各等級的隸屬度。
Ⅰ類水的隸屬函數,即j=1時:

Ⅱ~Ⅳ類水的隸屬函數,即j=2~4時:

Ⅴ類水的隸屬函數,即j=5時:

式中:xi為評價因子i的實際監測濃度(i=1,2,…,8);Sij為第i個因子的第j類水質標準(j=1,2,…,5)。由于DO屬于數值越小,污染越嚴重,其隸屬函數如公式(5)~公式(7)所示。

表1 評價因子統計分析及水質標準(mg·L-1)Table 1 Statistical analysis of evaluation factors and water quality standards(mg·L-1)
Ⅰ類水的隸屬函數,j=1時:

Ⅱ~Ⅳ類水的隸屬函數,即j=2~4時:

Ⅴ類水的隸屬函數,即j=5時:

將各監測斷面的評價因子濃度帶入相應的隸屬函數中,計算得到不同評價標準的隸屬度。然后建立每個斷面的單因素評價矩陣R:

式中:rij為第i個評價因子對第j類水的隸屬度。
2.1.4 模糊綜合評價
根據上述求得的權重向量和單因素評價矩陣,選取相乘相加算子[23]計算評價結果:B=W·R={b1,b2,b3,b4,b5},選取bmax對應的水質類別作為評價結果。
2.1.5 主成分分析
主成分分析是一種數學方法,它可以減少水質數據集的維數,同時使數據集中有用信息的損失程度較小,進而使數據集更容易理解。本文對31個監測斷面在2018—2019年監測的12種變量(增加Cl-、和EC 4個指標)進行了主成分分析,以確定沱江的潛在污染源。
2.2.1 網絡參數選擇
在構建BP神經網絡時,需對選用的輸入輸出數據進行訓練,以沱江內江二水廠斷面(斷面編號SS23)的水質數據對沱江申家溝斷面(斷面編號SS24)主要污染指標進行預測。BP網絡相關的參數選擇如下:輸入層與隱含層之間的傳遞函數為tansig函數,隱含層與輸出層之間的傳遞函數為purelin函數,數據歸一化函數為mapminmax,訓練函數為trainlm,最大學習次數1 000,目標誤差為0.000 5,學習速率為0.01,其余參數為默認值。
2.2.2 網絡拓撲結構
本研究輸入層神經元個數的確定方法為,根據模糊綜合評價結果確定沱江的主要污染因子,然后利用各水質參數與主要污染的相關性分析確定輸入層神經元個數。輸出層的神經元為沱江流域下游某斷面的主要污染物濃度,所以輸出層神經元個數為1。輸入層和輸出層數均為1。對于含有1個隱含層的BP神經網絡,其可以逼近任意一個非線性函數,所以本研究采用1個隱含層。隱含層神經元個數的確定目前沒有明確的方法,因此本文采取試錯法確定隱含層神經元的個數[24]。
本文經過指標篩選并構建評價因子,利用公式(1)計算各監測斷面評價因子的歸一化權重。通過復合運算B=W·R,以最大隸屬度原則可得出當前斷面的水質類別。以斷面SS2為例,單因素評價矩陣為:

斷面SS2的權重向量為W={0.057,0.076,0.075,0.130,0.060,0.075,0.356,0.171},則斷面SS2的評價結果為 B={0.365,0.125,0.154,0,0.356},根據最大隸屬度原則,評價結果為Ⅰ類。沱江各斷面的評價結果如表2所示。
從表2可以看出,沱江31個監測斷面中有9個斷面評價為Ⅰ類水,占比29.03%,其余22個斷面均為Ⅴ類水,占比70.97%。按照現有沱江水質功能區劃分,普遍水質標準為Ⅲ類水[25],因此目前沱江已被嚴重污染。從各監測斷面評價結果可知,斷面SS2、SS3、SS18~SS22、SS30和SS31為Ⅰ類水。綜合圖1可以發現,這部分斷面均位于遠離城郊的農村地區,森林覆蓋率較高,同時周圍沒有工業和服務業,受人為活動的影響較小。其余22個斷面為Ⅴ類水,上游、中游和下游均有分布。此部分斷面具有靠近市區和城鎮、人口密度大、種植業發達等特點,因此受人為活動的影響較大。從權重賦值可以得出,在挑選的8個水質評價因子中,TN的濃度很高,幾乎所有斷面的TN濃度都超過了Ⅴ類水的水質標準,所以導致沱江屬于Ⅴ類水的監測斷面比例較高。但是在沱江9個Ⅰ類水斷面中,有2個斷面(SS2、SS3)的TN濃度超過Ⅴ類水水質標準,有4個斷面(SS19、SS20,SS30、SS31)的TN濃度超過了Ⅳ類水水質標準。因此,即使該監測斷面評價結果為Ⅰ類水,也需對其中的TN濃度加以控制。從各斷面監測數據可以看出,除了TN以外,其他水質指標均能滿足Ⅲ類水水質標準。

表2 沱江水質模糊綜合評價結果Table 2 Results of fuzzy comprehensive assessment of water quality in Tuo River
利用沱江12個水質參數的主成分分析法對不同污染物的來源進行識別。Bartlett球形檢驗的值為785,KMO值為0.709(P<0.01),說明數據集適合主成分分析。以特征值大于1為基礎,從沱江水質數據集中提取4個主成分[26],如表3所示。
第一個主成分(F1)對NO-3、SO2-4、EC和TN具有較強的正載荷,對TP具有中等的正載荷,對NH3-N具有較弱的正載荷,F1占總方差的28.263%。根據模糊綜合評價結果可知,整個沱江的TN濃度很高。同時,沱江流域農業相對發達,氮和磷可以通過氮肥和磷肥的徑流進入河流[27-30]??赡軄碜缘V物巖石[31],但是在所有斷面的濃度低且較為穩定,因此綜合氮和磷的來源分析,F1可以看作是農業面源污染。第二個主成分(F2)對CODMn有強的正載荷,對Cl-和TP有中等的正載荷,對DO有中等的負載荷,F2解釋了總方差的19.644%。根據CODMn和DO的載荷,F2可能是一種耗氧污染源[32]。同時,沱江流域的化工廠和制造業較多,Cl-可能來自工業廢水。因此F2可能代表工業廢水污染[29]。第三個主成分(F3)占總變異量的16.987%,對CODCr和BOD5的正載荷較大,對NH3-N的負載荷較小。F3包括營養物質和有機污染物,可歸因于生活污水和工業廢水[33]。由于大多數采樣點的大腸桿菌濃度很高,基本超過地表水Ⅴ類標準(由于數據的不連續性,未對大腸桿菌濃度做其他分析),因此F3更有可能是生活污水污染源。第四個主成分(F4)對F-有較強的正載荷,對CODMn有較弱的負載荷,解釋了總方差的9.195%。F-通常來自氟化工廠、水泥廠和冶煉廠,但沱江各采樣點F-的平均濃度均未超過地表水Ⅰ類水質標準值,污染程度幾乎為零或極低,因此沱江中的F-可能是當地土壤隨徑流進入的結果[34]。所以F4可以看作是土壤風化。綜合以上分析,可以確認農業面源和工業廢水是沱江的主要污染源[35]。

表3 12種指標的旋轉因子載荷矩陣Table 3 Loadings of 12 measured variables on VARIMAX rotated factors
根據模糊綜合評價和主成分分析結果,選取TN為預測指標,即輸出層為1個神經元。將上述用于主成分分析的12個指標作為BP神經網絡的輸入備選集。數據統計技術可以幫助確定BP神經網絡的輸入參數[36-37]。本文通過相關性分析,選取與TN濃度顯著相關且相關系數大于0.3的指標作為最終的BP輸入參數,具體如表4所示。最終選擇CODCr、NH3-N、NO-3、SO2-4、EC和TN為輸入變量,即利用內江二水廠斷面的CODCr、NH3-N、NO-3、SO2-4、EC和TN濃度預測申家溝斷面的TN濃度。通過試錯法確定了隱含層的神經元個數為4,所以BP網絡的拓撲結構為6-4-1。根據相關系數r、決定系數R2和相對誤差評價模型預測精度[38-40],模型預測結果及相對誤差如圖2和圖3所示。

表4 各指標的相關性Table 4 The correlation of each index

圖2 BP神經網絡預測值與實際值的散點圖Figure 2 The scatter plot of predicted value and measured value of BP neural network

圖3 TN線性回歸方程Figure 3 Linear regression equation of TN
BP神經網絡達到收斂時的MSE為0.000 49。另外從圖2和圖3可以看出,本文構建的BP神經網絡在預測TN濃度時的決定系數R2為0.999,模型在訓練、測試和驗證階段的相對誤差均小于1.5%。雖然在預測階段的相對誤差有明顯增大,但均小于3%,這有可能與用于BP神經網絡訓練的水質樣本數量較少有關。同時利用SPSS計算實測值與預測值的Pearson相關系數,其結果表明TN的實測值與預測值極顯著相關(r=0.99,P<0.01)。以上評價參數都表明構建的BP神經網絡符合水質預測要求,在樣本較少的情況下能夠對沱江水質進行有效預測。
(1)沱江31個評價斷面中有9個斷面水質符合Ⅰ類水,占29.03%,其余22個斷面均為Ⅴ類水,占比70.97%。Ⅴ類水水質斷面在沱江上游、中游和下游均有分布,表明沱江整體污染較為嚴重。
(2)沱江各監測斷面TN濃度均超過Ⅳ類水質標準,其中27個監測斷面超過Ⅴ類水質標準,說明沱江的主要污染物為TN。通過主成分分析,確定沱江TN的主要來源為農業面源和工業廢水。
(3)通過對輸入數據篩選,構建的BP神經網絡性能較好,預測精度高。在對沱江申家溝斷面TN濃度的預測時,平均相對誤差為2.041%。基于本文的內容,可構建沱江其他斷面的BP神經網絡模型,并用于以沱江上游水質數據預測下游水質斷面的TN濃度。