胡 漾, 唐金平,陳友良 ,張 強
(1. 成都理工大學 地球科學學院,成都 610059;2. 成都理工大學 地質災害防治與地質環境保護國家重點實驗室,成都 610059)
地下水環境質量評價涉及因子眾多[1],通常在實際評價工作中,人為的選取因子進行綜合評價可能導致對部分關鍵污染因子的忽略。同時各個因子所包含的信息往往存在一定的重疊,人為選取評價指標,將不可避免的產生一些不必要的計算和評價工作。在不同的地下水系統中水質因子對地下水環境的貢獻率也不同[2]。如何準確的篩選出對水質造成影響的主要指標并給予其合理的權重,是地下水質量評價工作中關鍵的一步。評價結果對于評價方法的科學性也有很強的依賴性,不同的評價方法所獲得的結果往往也存在著差異。因此,科學合理的評價體系顯得尤為重要。
主成分分析法(PCA)[3,4]在保證原始信息損失最小的前提下,經過線性變換和舍棄部分信息,以少數的綜合變量取代原有的多維變量,使數據結構大為簡化,避免了主觀隨意性,因而在尋找綜合因子、樣本排序、事物分類等方面獲得了廣泛的應用。運用主成分分析法進行因子選取能夠很好的彌補人為選取評價因子的缺陷。但大量的數據分析表明,由于其本身的性質,單獨使用主成分分析法進行綜合評價,其最終結果并不一定符合實際情況,有時甚至完全失效,存在著一系列問題[5]。熵權法[6,7]是目前應用范圍極廣的一種客觀賦權方法。熵值的確定立足于各評價因子所包含的信息,由于因子間存在信息重疊的特性,在傳統方法中直接運用信息熵對各項評價因子賦權,必然出現重復性賦權的問題,從而造成賦權結果存在偏差。貝葉斯[8,9]是一種基于概率統計但又不同于傳統統計學方法。其將所有的參數看作是一組隨機的變量,從已有資料中獲取先驗概率,在新增信息的條件下再將先驗概率轉化為后驗概率結果。避免了因資料不全或受主觀因素過重等帶來的影響,使其評價結果更加合理、可靠,且計算過程較為簡便。但貝葉斯方法雖能對水質指標進行有效等級劃分,但在選擇目標水質指標時具有一定的盲目性,不能突出主要污染因子影響,增加了水質等級判斷的困難性。
本文綜合上述三種方法的特點,相互彌補其各自的缺陷。利用主成分分析方法選取關鍵的綜合評價因子,簡化評價工作又彌補貝葉斯評價因子選取盲目與熵權法賦權信息重疊的缺陷。熵權法賦予各評價因子相應的權重值,避免貝葉斯方法對各水質因子貢獻率的忽視。貝葉斯評價方法進一步簡化評價且能夠很好的避免主成分分析評價法的適用性窄、易失效的問題。最終以新疆準東煤田二號礦區及周邊區域地下水為研究對象,進行地下水水質評價,進而驗證該方法的可行性與評價結果的可信性。
主成分分析法通過降維的方式,從眾多評價因子中選取獨立的綜合因子并確保其原始數據信息能夠最大化的保留。其基本原理與計算過程可參考文獻[10,11]。本文利用統計軟件Statistical Program for Social Sciences 21(SPSS21)對初始數據進行主成分分析處理。根據處理后獲得的主成分荷載值來選取主成分主要控制因子,并將其作為貝葉斯綜合評價因子。
熵源于熱力學領域,表征系統的無序程度[12]。在信息論中,因子攜帶信息量的多少可以由熵值反映,熵值越小表征因子攜帶的信息越多,在綜合評價中該因子起到的作用也就越大,賦予的權重也越大。在水質綜合評價過程中熵權法計算樣本各因子權重的關鍵步驟:
(1)設定m個樣本與n個評價因子,構建m×n原始矩陣。
(1)
(2)數據標準化處理獲得歸一矩陣。
(2)
當評價因子檢測值與表征屬性正相關時:
(3)
當評價因子檢測值與表征屬性負相關時:
(4)
(3)計算因子的信息熵。
(5)
(6)
注:若Tij=0,則定義limTijTijlnTij=0。
(4)計算權重。
(7)
顯然,Wj∈[0,1]且∑Wj=1。
貝葉斯評價方法[13]是一種基于數理統計的方法,但其又不同于傳統統計學方法。貝葉斯將所有參數看作是一組隨機變量,從已有資料中獲取先驗概率,在新增信息的條件下再將先驗概率轉化為后驗概率結果。
貝葉斯水質評價模型及計算步驟[14]:
(8)
式中:xi為水質檢測因子,i=1,2,…,n;yij為檢測因子i的評價類型,j=1,2,…,5)。
在進行水質評價時,通常缺少評價對象的水質先驗信息,故可視先驗概率P(yij)為相等,P(yi1)=P(yi2)=…=P(yi5)=1/5。
似然概率P(xi|yij)常用正態分布法或幾何距離值法進行計算。本次選用后者,利用評價因子實際檢測值與標準值差的絕對值的倒數進行計算。
(9)
Lij=|xi-yij|(j=1,2,3,4,5)即第i個評價因子檢測值與水質類型j的標準值之間的距離值。
綜合水質評價即利用上述步驟獲得的各評價因子屬于各水質等級的后驗概率P(yij|xi)乘以熵權法賦予的對應權重wi。即:
(10)
最終水質等級的確定目前常用的是最大似然概率原則,僅需依據所獲得Pj并選取最大似然概率即可確定等級[15]。本次引入模糊綜合評價方法中加權平均原則來進行水質等級的最終確定。將水質等級定量處理,每個等級賦予相應的秩(即Ⅰ~Ⅴ類水對應賦予1~5的數值)。將Pj的分量分別與對應等級的秩加權求和,將獲得的最終數值四舍五入后即為水質等級[16]。
(11)
式中:k為待定系數,通常取2。
研究區位于準噶爾盆地東部北緣,整體地勢北高南低。區域內地下水類型主要為基巖裂隙水、碎屑巖類層間裂隙孔隙水和第四系松散巖類孔隙水。地下水主要來源于上游北部卡拉麥里山區的大氣降水或冰雪融水,經地下長途運移后形成。本次以2016年7-8月水質監測資料為原始數據,篩除部分未檢測指標,初步選取氨氮、氯化物、硫酸鹽、硝酸鹽、亞硝酸鹽、氟化物、鋅、鎳、總硬度、TDS等10項指標作為評價因子。使用前述方法對新疆準東煤田二號礦區地下水水質進行綜合評價,并對評價結果進行對比分析。地下水水質監測原始數據見表1。

表1 準東煤田二號礦井地下水水質原始監測數據Tab.1 Raw monitoring data of groundwater quality in No. 2 mine of Zhundong Coalfield
本次評價依據《地下水質量標準(GB/T 14848-2017)》。由于標準中缺少Ⅴ類標準上限,以標準中Ⅰ類水上限值作為Ⅰ類上限值,以第Ⅰ類和第Ⅱ類水上限值的平均值作為Ⅱ類上限值,依次類推[17]。
利用SPSS軟件對數據進行KMO與Bartlett檢驗(表2)。可知KMO檢驗值較小,但顯著性(Sig.)遠小于0.05,即表明各因子間相關性較強,可進行主成分分析[18]。

表2 KMO與Bartlett檢驗結果Tab.2 KMO and Bartlett test results
利用SPSS軟件對原始數據進行主成分分析,選取初始特征值大于1的前3個主成分即可[19]。3個主成分累計方差貢獻率為89.763% > 85%,滿足后續的分析需求(表3)。對選取的成分進行主成分荷載計算,獲得主成分荷載矩陣(表4)。
可知第一主成分的主要控制因子為氯化物、硫酸鹽與TDS,該主成分表征主要污染來源與原生地層和地下水的運移途徑有關;第二主成分的主要控制因子為氨氮、硝酸鹽與亞硝酸鹽,該主成分表征地下水污染次要原因與地下厭氧微生物有關;第三主成分的主要控制因子為鋅、鎳等重金屬,該成分表征地下水污染可能與當地工業活動關系密切。因此最終選取氯化物、硫酸鹽、TDS、氨氮、硝酸鹽、亞硝酸鹽、鋅、鎳等8項指標作為評價因子。

表3 特征值及方差貢獻率Tab.3 Eigenvalue and variance contribution rate

表4 主成分荷載矩陣Tab.4 principal component load matrix
目前對各項權重的賦權方法有很多,不同的賦權方法往往僅能反映水體某一方面的屬性。研究數據表明,當水體存在多個污染物時,熵權法賦值評價結果更為科學合理[20]。因此本次使用熵權法對各評價因子權重賦值。利用matlab軟件實現熵權的計算,計算結果見表5。

表5 熵 權Tab.5 Entropy rights
根據貝葉斯評價原理及步驟,使用excel對主成分分析法處理前后的數據進行計算。同時為便于驗證熵權法賦予權重值的可靠性,與超標法賦權結果做對比分析,評價結果見表6。

表6 貝葉斯評價結果Tab.6 Bayesian evaluation results
將賦權方法作為單一變量進行對比分析:基于超標法的評價結果總體較為悲觀(圖1),其根本原因是超標倍數法賦權,僅考慮了單個因子與標準值之間的關系,而忽略了多個樣本之間相互的聯系,因此評價結果往往與實際情況存在一定偏差。且該方法在評價多個樣本時,需要對每個樣本的每個指標的權重重新進行計算,工作量較大。基于熵權法的評價結果,考慮了多個樣本之間的關系,降低了異常值的影響,評價結果也更加的合理、準確。

圖1 不同賦權法的貝葉斯水質評價結果對比Fig.1 Comparison of Bayesian water quality evaluation results by different weighting methods
以是否通過主成分分析處理為單一變量進行比較分析:基于超標法的貝葉斯評價結果前后一致率為69.23%[圖2(a)],這是由少數樣本中某些超標因子被主成分分析法篩除(如X7樣本的氟化物)以及超標法賦權僅考慮檢測值與標準值之間的關系所導致的。而基于熵權法的貝葉斯評價結果前后一致率為92.31%[圖2(b)],這是因為熵權法是基于評價因子本身所攜帶的信息多少而給出的權重值,主成分分析僅篩除了評價因子但對樣本包含的信息進行了最大化的保留,如圖2。因此,將主成分分析法和熵權法兩種手段與貝葉斯水質評價耦合是切實可行的。

圖2 主成分分析處理前后貝葉斯水質評價對比Fig.2 Comparison of Bayesian water quality evaluation before and after principal component analysis
(1)基于熵權的貝葉斯評價結果顯示新疆準東二號礦區地下水水質總體較好、多為Ⅱ、Ⅲ類水,而基于超標法的貝葉斯評價結果顯示該區域地下水水質情況總體較差,多為Ⅳ、Ⅴ類水。說明不同的賦權方法,往往造成評價結果的差異性。總體而言,熵權法賦權結果更為可信。
(2)研究區內的污染因素主要包括原生地層與地下水遷移途徑、地下厭氧微生物和工業活動等。因此,該區域內地下水的污染防治可從以上三方面考慮。
(3)利用主成分分析法選取評價指標,在簡化評價數據的同時又確保原始信息能夠最大化保留,使評價計算工作變得更加簡單。
(4)基于主成分分析和熵權的貝葉斯水質評價模型,在處理水質樣本數據較多時,可從指標選取、權重計算和綜合評價等多個環節降低計算的工作量,具有很強的適用性和實用性。
(5)本文僅討論了熵權法與超標法賦權之間的差異,不同權重對基于主成分法的貝葉斯水質評價方法的影響在未來仍有待進一步的研究。