李百慧,李般若,季書一,邢凌凱,鄭力高,黃品天
(河海大學 a.農業與工程學院; b.土木與交通學院; c.計算機與信息學院; d.水利水電學院,南京 210000)
優良的水質是實現居民安全飲水、農業高效用水的前提。山東省土地資源豐富,水系錯綜復雜,灌溉水源不單一。由于受到降雨、居民活動等影響,該地區水肥流失嚴重,水體污染加劇,農業生產質量受到一定的影響。因此,建立一種可靠的水質評價模型,對山東地區水質等級準確評估以及緩解水體污染有著重要的指導意義。
傳統的水質評價方法有很多,NONG等[1]從多數水質指標中選擇水溫、溶解氧、汞、總磷和糞大腸桿菌建立了中國南水北調工程的WQImin模型,該模型可以通過數量更少的水質指標,達到與傳統WQI相近似的結果,為水質指標的監測提供了便利,但該研究采取的評價指標不典型,因此適用范圍受到限制。向夢玲等[2]利用改進TOPSIS法基于溶解氧、高錳酸鹽指數、生化需氧量等水質指標進行沱江流域水質評價,但該方法主觀性較強,并不能客觀真實地反映水質真實情況。因此,建立一套基于組合賦權的TOPSIS模型,從權重角度完善TOPSIS法在水質評價中的適用性,對水質等級評價及緩解水體污染有著深遠的影響。
本文針對中國東部沿海山東地區開展水質等級評價工作,建立一套基于組合賦權法的TOPSIS水質評價模型。該方法在傳統TOPSIS法的基礎上,通過對水質指標進行主客觀組合權重計算,克服了客觀賦權法易受數據波動影響、主觀賦權法不能呈現客觀事實的缺點。
本文的研究目的為:①建立基于組合賦權的TOPSIS水質等級評價模型,對中國東部山東地區水體污染進行精準評估,為緩解水體污染、正確評估水質等級提供科學依據;②采用SVM模型對評估得到的水質等級進行機器學習,從而進一步評估基于組合賦權的TOPSIS法在山東地區的適用性。
山東省位于中國東部沿海N34°22.9′-N38°24.01′,E114°47.5′-E122°42.3′之間,自北而南與河北、河南、安徽、江蘇4省接壤。山東省中部山地突起,其余地段低洼平坦,地形以山地丘陵為主,屬暖溫帶季風氣候。山東省水系錯綜復雜,地跨淮河、海河、小清河、膠東與黃河五大水系。山東省作物熟制一般為兩年三熟或者一年兩熟,其中夏季主種小麥,秋季主種玉米、大豆、水稻等作物。
本研究選取山東省部分地區2020年6-9月的農業灌溉水源進行監測,涉及黃河、海河等所屬的灌溉渠系,以及影響各農業生產區域的河流、湖泊等水源。本研究共測量7個不同的水質指標:溶解氧(DO)、生化需氧量(BOD)、酸堿度(pH)、氨氮(NH3-N)、糞大腸桿菌(FCB)、水溫(WT)及總氮(TN)。
本文采用層次分析法對各水質指標進行主觀權重計算,其計算步驟如下:
1) 根據水質實際情況構建層次結構模型,將河流水質作為目標層,將水質各評價因子作為準則層。
2) 構建判斷矩陣,采用兩兩比較法,對各水質指標重要性進行判斷。
3) 計算一致性指標CI:
(1)
4) 根據表1查找對應的平均隨機一致性指標RI。

表1 一致性檢驗表
5) 計算一致性比例CR:
(2)
式中:λmax為最大特征值;n為矩陣階數;CI為一致性檢驗標準;RI為一致性指標;CR為一致性比率。
若CR<0.1,則可認為判斷矩陣的一致性可以接受;否則,需要對判斷矩陣進行修改。
6) 計算指標權重,本文采用算術平均法作為主觀權重,其計算公式為:
(3)
7) 總體一致性檢驗。
2.3 客觀賦權法——熵權法[3]
本文采用熵權法對各水質指標進行客觀權重計算。熵權法確定客觀權重的步驟為:
1) 建立m×n的評價樣本的原始矩陣。
X=(xij)m×n
式中:xij為第i個評價樣本j個評價指標。
2) 將矩陣進行標準化。

3) 計算信息熵。

4) 計算評價指標j的熵權值。

2.4 組合賦權法——差異系數法[3]
根據熵權法求得的客觀權重與層次分析法求得的主觀權重進行組合賦權,使用的方法是差異系數法,計算公式如下:
ωz=(1-α)ωj1+αωj2
(4)
式中:ωj1為層次分析法得到的指標權重;ωj2為熵權法法得到的指標權重;ωz為綜合權重;α為熵權法確定的權重在組合賦權中所占的比例,為了減少主觀因素的影響,其值采用差異系數法進行賦權,計算公式如下:
(5)
式中:n為層次分析法的評價指標數;ω1,ω2,…,ωn為層次分析法確定的評價指標的權重依次遞增重新排列。
TOPSIS 法(逼近理想排序法)是系統工程中一種多目標決策方法,找出有限方案中的最優與最劣方案,當某個可行解方案最靠近最優方案同時又遠離最劣方案,這個方案解的向量集就是最優影響評價指標。
TOPSIS 法作為一種綜合指標評價方法,區別于如模糊綜合評判法、層次分析法,它的主觀性比較強,不需要目標函數,也不需要通過相應的檢驗,即限制要求大大降低,使得適用范圍較為廣泛。
TOPSIS影響力度算法步驟為:
Step1:建立評價指標體系,建立歸一化矩陣,將數據進行標準化,即:
其中:i為水質指標個數;j為所構建指標體系個數;Xij為第i個指標第j個評價體系的得分情況。


2.6 機器學習方法——支持向量機
支持向量機(Support Vector Machines, SVM)是基于統計學習理論的一種機器學習方法,通過尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統計樣本量較少的情況下,亦能獲得良好統計規律的目的。給定訓練樣本D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1},分類學習的基本思想就是基于訓練集D在樣本空間找到一個劃分超平面,將不同類別的樣本分開。
由圖1所示,距離超平面最近的幾個訓練樣本點滿足上式,被稱為“持向量”。訓練完成后,大部分訓練樣本都不需保留,最終模型只與支持向量有關,說明支持向量的選取對SVM的學習訓練具有不容忽視的作用。

圖1 支持向量機原理圖
為了獲取最大間隔的劃分超平面,可設計如下模型:
(6)
s.tyi(wTxi+b)≥1-ξi,i=1,2,…,m
ξi≥0,i=1,2,…,m
在目標函數中引入懲罰系數C,其作用是調節學習算法在特征空間中的置信范圍與經驗風險的比例,從而優化學習算法的泛化能力。引入拉格朗日乘子αi≥0將上式轉化為求其對偶問題,并利用“核函數”技巧,則有:
(7)
本文采用SPSS 24對所測數據進行熵權法,并計算其客觀權重;利用Excel 2011進行數據預處理;利用MATLAB 2019b對數據進行主觀權重計算和機器學習(支持向量機模型)。
通過熵權法計算得到的各水質評價指標客觀權重結果見表2。

表2 熵權法計算客觀權重結果
通過層次分析法計算得到的各水質評價指標主觀權重結果見表3。

表3 層次分析法計算主觀權重結果
根據式(5),計算得到差異系數約為α=0.28;根據式(4),得到各評價因子的組合權重見表4。

表4 組合權重表
利用TOPSIS方法對910組數據組進行等級評估,具體評估結果見表5。

表5 水質等級劃分結果
使用Quadratic SVM模型對910個樣本進行交叉驗證,將溶解氧、生化需氧量、酸堿度、氨氮、糞大腸桿菌、水溫、總氮作為分類的依據,水質等級作為分類的結果進行驗證,驗證準確率達94.6%,效果較為客觀,說明該方法具有較高精度與適用性,可為河流水質等級客觀、真實評價提供新的思路與方法。水質等級交叉驗證可視化見圖2。

圖2 支持向量機交叉驗證結果
為了進一步評判基于組合賦權的TOPSIS模型的適用性,繪制ROC曲線以進一步探索水質等級評估結果精度。從圖3不難發現,ROC 曲線下的面積接近為1,說明Quadratic SVM算法在所選數據集上的表現效果非常優秀(通常認為ROC曲線下的面積高于0.8時,模型效果滿意)。

圖3 ROC曲線圖
1) 通過主客觀組合賦權,權重大小為氨氮>總氮>水溫>溶解氧>生化需氧量>酸堿度>糞大腸桿菌。
2) 通過基于組合賦權的TOPSIS法評估得到的水質等級結果為:Ⅰ類水5個,Ⅱ類水46個,Ⅲ類水264個,Ⅳ類水399個,Ⅴ類水196個,總體分布較為均勻,符合正常情況。
3) 通過SVM模型交叉驗證,水質等級驗證準確率達94.6%,且ROC曲線下的面積接近1,進一步闡明該方法具有較高的適用性。