李志新,賴志琴,龍云墨,徐桂弘
(貴州理工學院土木工程學院,貴陽 550003)
水資源合理配置是為了保障經濟社會可持續發展以及水資源可持續利用,在一定范圍內,根據有效、公平和可持續的原則,按照市場經濟規律進行資源配置,通過科學合理的調節需求與供給關系、維護和改善生態環境等途徑,在區域或用水部門間對水源進行的調配活動,在提高經濟社會效益方面具有重要意義。
在水資源配置中,影響因素眾多,且其互相影響、制約機制非常復雜,表現形式多樣,水資源配置模型很難充分反映這些不確定因素的影響以及決策者的偏好,因此,為提高優化配置成果的實用性,探索水資源配置評價的模型與方法具有重要的意義。
水資源配置評價需要對水資源優化配置后的各項效應進行衡量,由于各項效應都對應多項指標,每個指標可劃分為多個等級,故其評價屬于多指標評價問題,其方法應采用綜合評價的方法[1,2]。在評價實踐中,常用的綜合評價法有聚類分析、判別分析、主成分分析、灰色關聯評價、層次分析、模糊綜合評價等等方法,通過以上方法相關研究取得了一定的成果,但這些方法也存在一些缺陷:模糊綜合評價法極值作用過大,按隸屬度最大進行級別確定,由此得到的評價結果可信度較低,結果易失真,而且在隸屬函數確定時,其主觀任意性較大,從而使得評價結果排序趨同,評價結果無法充分反映客觀實際情況;在采用灰色關聯評價、聚類分析方法時,構建的白化函數模式通用性較差,如按最大隸屬度評價時,由于評價對象類別不同,從而使評價結果有多解;在確定評價指標權重方面,常用層次分析法或者德爾斐法,該類方法確定權重主觀性較大,不能充分利用指標的已知信息,使評價結果可信度降低[3,4]。
神經網絡模式識別是神經網絡在模式識別領域的具體應用,通過建立神經網絡對已有分類標簽的目標輸出數據進行訓練,然后對完成訓練的網絡輸入預測數據,進行該數據的分類,該方法具有較強的非線性映射、自適應、自學習能力、且魯棒性和容錯性也較好,是處理如水資源配置評價這類多指標復雜系統綜合評價問題最為有效的途徑之一。當前國內外許多領域利用神經網絡模式識別對數據進行分類預測,取得了有價值的成果。Kartzas等[5]用神經網絡識別研究了臭氧空氣污染以及大氣參數之間的互相關系;R.Xing等[6]基于LM算法的神經網絡模式識別構建了空氣質量預報模型,其對城市空氣質量預報得到了高精度的預測結果;蔣志方等采用神經網絡模式識別方法對空氣質量變化規律進行了分析和預測;蓋美等基于模糊模式識別方法對海域水質環境進行了分析研究;陳守煜等構建了模糊模式識別模型對空氣潔凈度進行評價。上述研究結果有一定的參考性,但各個模型及相應數據信息具體特點各異,因而在預測應用上存在一定的局限性。因此,本文基于模式識別神經網絡,提出了水資源配置評價指標及分級標準,構建了水資源配置綜合評價模型,并結合實例應用,利用神經網絡模式識別的方法對全國各省級行政區水資源配置情況進行了綜合評價與分析。
本文模式是描述客觀世界事物的一種數學模型,通過模式識別可對外界信息進行綜合思維、判斷,從而做出決策。模式識別對事物對象的特征屬性進行,根據算法判定對象類別,并使識別結果盡量與實際相符,模式識別包含通過特征和屬性(系統的輸入輸出數據對)來描述的事物對象的數學模型,由兩個過程組成:設計過程和實現過程。在設計過程中,利用相當數量的訓練集樣本來對分類器進行設計;然后再利用完成訓練的分類器對測試集樣本進行分類,即實現過程[7,8]。
本模型構建時模式識別神經網絡為兩層前饋網絡,其結構如圖1所示,即一個含激活函數sigmod的隱含層,以及帶有多分類函數softmax的輸出層,如隱含層神經元數量滿足條件,通過該多分類函數可以對任意給定的向量進行分類。

圖1 模式識別神經網絡拓撲結構圖Fig.1 pattern recognition neural network topology diagram
常見的邏輯回歸、SVM等常用于解決二分類問題,對于多分類問題,理論上也可以用邏輯回歸或SVM,如將多個二分類來組成多分類,但本研究中水資源配置綜合評價屬于多分類場景問題,且其分類類別為互斥性質,不宜采用上述分類器,因此本文提出另外一種方式即softmax分類器來處理多分類。softmax的函數如下:
(1)

一般代價函數常使用方差代價函數即均方誤差MSE。在通過梯度下降,更新權值和偏置值時,因為sigmoid激活函數的飽和性質,導致該代價函數的導數在輸入值較大時變得極小,則其權值及偏置值更新非常緩慢,幾近中止[9,10]。
因此,本文為避免此問題,代價函數改用交叉熵函數,即:
(1-y(i))log[1-hθ(x(i))]
(2)
計算J(θ)對第j個參數分量θj的偏導得:
(3)
式中:m為樣本組數(x(i),y(i))為第i組數據及其對應的類別標記,x(i)為包括偏置項在內的一個多維向量,y(i)則為表示類別的一個數。此即代價函數對參數權重的梯度,然后進行優化。
由于水資源配置的實質在于尋求抑制需求和增加供給之間的平衡,因此其評價應基于水資源的現狀配置,按照公平、合理及高效的原則,從社會、經濟、效率、生態以及水資源的開發利用等幾個方面,對水資源在生產、生活及生態用水方面的滿足度和配置合理性進行分析,同時對現狀及規劃配置對應的效益分別進行綜合評價,從而判斷現狀配置及規劃配置條件下的合理性。而在綜合評價過程中,必須先構建一個科學合理的評價指標體系,在此基礎上才能進行配置合理性的判斷以及比較擇優??紤]到水資源配置須充分反映社會、經濟、效率、生態及水資源的開發利用等多方面的影響,本文在參考相關文獻的基礎上[10,11],選取了13個評價指標,作為構建本模型所需的水資源配置評價指標及分級標準體系,見表1。每個指標都量化地劃分為11個等級,按照優劣順序排序,從1級依次到11級。

表1 水資源配置評價指標及分級標準Tab.1 water resource allocation evaluation index and grading standard
2.2.1 訓練、驗證、測試集設計
本文在整個指標體系的每個級別對應的分級標準閾值區間,通過隨機內插方法共組合生成300組樣本,因此共組合生成涵蓋11個等級3300組總樣本數量;然后同樣也采取隨機分配的方式,按照各占總樣本數量70%、15%、15%的比例又將其劃分為訓練集、驗證集及測試集三類樣本,其中訓練集樣本在訓練過程中輸入到網絡中,神經網絡在完成初始化之后,根據輸出值與標注值之間的誤差不斷進行權值和偏置值的調整;驗證集樣本不直接參與到上述的訓練調整,主要用于測度在訓練過程中網絡泛化能力的表現,在泛化能力停止改進時就停止訓練,從而防止神經網絡訓練中發生過擬合現象,導致泛化能力的下降;測試集樣本對訓練過程不施加影響,而是在訓練期間及訓練后,作為獨立于訓練的樣本數據,對神經網絡的性能進行測試、分析及評價。
2.2.2 評價模型設計
本文基于模式識別神經網絡構建水資源配置評價模型,網絡模型拓撲結構如上圖1所示。該模型以上表2中的各評價指標值為輸入向量,因此輸入層向量維數相應地確定為13;隱含層神經元數目則根據Kolmogorv定理結合試錯方法,對比分析確定為16;以各個等級對應的期望輸出作為輸入向量,共11個評價等級,因此輸出層神經元數目相應確定為11,輸出值為一向量,其維數也相應為11,而每個標注樣本的期望輸出同樣為維數11的向量,但由于神經網絡最后一層為softmax分類層,故要求每個期望輸出向量的各元素均為0,除了其標注等級對應位置的元素值為1外。如標注等級為1,期望輸出向量則為[1 0 0 0 0 0 0 0 0 0 0]’,注等級為11,則為[0 0 0 0 0 0 0 0 0 0 1]’,其余依次類推。神經網絡主要訓練參數設置:最大的訓練輪回為1 000次,設置最小目標為1.0×10-6,同時將網絡泛化能力開始下降設置為訓練結束條件之一,當驗證樣本產生的誤差開始出現增加即停止。
2.2.3 模型性能評價指標
對網絡模型性能評價選用誤判百分率PE和交叉熵CE兩個評價指標。誤判百分率衡量網絡模型對樣本的誤判率,其最小值為0表示沒有錯誤分類,最大值為100%表示全部錯判;交叉熵值較小表示更好的分類性能,如為零則意味著沒有誤差。誤判百分率PE及交叉熵CE表達式如下:
(4)
式中:n為錯誤分類判別錯誤樣本數;N為進行分類判別樣本總數。
(1-yi) log(1-y_predictedi)]
(5)
式中:yi為第i個樣本期望值;y_predictedi為第i個樣本預測值。
2.2.4 模型訓練及測試實驗結果分析
本文通過隨機內插方法共組合生成3 300組樣本數量,并采取隨機分配的方式,按照各占總樣本數量70%、15%、15%的比例又將其劃分為訓練集、驗證集及測試集三類樣本,即分別為2310、495、495組,訓練集用以調整網絡權值偏置值、驗證集在訓練中起到防止過擬合作用,可適時終止訓練、測試集則獨立測試網絡模型的性能。主要通過誤判百分率和交叉熵值等兩個指標并以混淆矩陣圖和交叉熵誤差動態變化圖等形式對模型訓練及測試實驗結果進行分析。混淆矩陣圖和交叉熵誤差動態變化圖分別如圖3所示。

圖3 訓練及測試實驗結果混淆矩陣圖Fig.3 obfuscation matrix diagram for training and testing experimental results
圖3包含了訓練集、驗證集、測試集和全體樣本等實驗混淆矩陣,混淆矩陣橫坐標為實際標定類別共11類,縱坐標為模型輸出判定類別共11類,從圖3中可以看出,訓練集、驗證集、測試集和全體樣本實驗中,模型輸出判定類別與實際標定類別全部符合,誤判百分率PE=0,沒有發生分類誤判現象;圖4交叉熵誤差動態變化圖則顯示,隨著訓練過程的進行,交叉熵誤差不斷趨于減小,直到達到規定最小目標誤差,并沒有發生嚴重震蕩;訓練集和驗證集誤差動態變化基本吻合一致,交叉熵誤差最后分別為2.81×10-7、3.07×10-7,測試集交叉熵誤差動態變化趨勢也與之基本一致,其值最后為1.31×10-6,表明訓練過程中沒有發生過擬合現象。由此可見,本文基于模式識別神經網絡而構建的評價模型模擬精度較高,且泛化能力較好,可用以水資源配置綜合評價,故本文在此基礎上,進一步將本模型實際應用于對全國各省級行政區水資源配置綜合評價的實例分析。

圖4 交叉熵誤差動態變化圖Fig.4 dynamic change diagram of cross entropy error
全國各省級行政區水資源配置實例分析,采用的評價數據來源參考相關文獻[10,11],見表2所示。
采用本文構建的模型對上述省級行政區水資源配置進行評價,根據上述評價指標相應的數據,輸入到模型進行模擬計算,利用softmax多分類器直接實現各行政區水資源配置等級的劃分,然后對評價等級進行定性的描述分析,評價結果見表3。
通過對表3中結果的分析有如下結論:
(1)模式識別神經網絡模型對全國各省級行政區的水資源配置的評價總體情況是:其評價等級基本都在3~9級之間,依次對應為“合理”、“較合理”及“不合理”等定性評價,基于同等的標準,對各地的水資源配置情況有一個較客觀而合理的反映,對于水資源管理實踐具有一定的指導參考價值。以上對各地水資源配置情況定性和定量的評價分析表明,基于模式識別神經網絡構建的水資源配置模型,性能精度較高,方法合理可行。

表2 各省行政區評價指標值Tab.2 evaluation index value of provincial administrative region
(2)本文以定量評價等級1~2級對應“最合理”定性評價描述、3~5級對應“合理”、6~7級對應“較合理”、8~9級對應“不合理”。綜合評價結果顯示:江蘇、江西、廣西、遼寧、上海、湖南、廣東、海南、貴州、陜西、青海、寧夏及新疆等地配置情況合理;北京、天津、山西、吉林、浙江、安徽、福建、湖北、四川、云南及甘肅等地配置較合理;河北、內蒙古、黑龍江、山東、河南、重慶及西藏等地配置不合理。上述各地水資源配置情況評價出現差距究其原因,與水資源相對的豐裕程度及經濟發展情況都有一定關聯,突出表現在缺水率(%)、水功能達標率(%)、用水GDP、開發利用率(%)等評價指標達標情況較差,從而嚴重制約了相應地區水資源配置整體合理性,通過大力解決其配置中公平性欠缺、經濟高效合理性不夠、與生態協調較差等薄弱環節問題,其水資源配置合理性可得到進一步提高。

表3 全國各省級行政區水資源配置綜合評價Tab.3 comprehensive evaluation of water resources allocation in various provincial administrative regions of China
本文在分析了當前水資源配置評價的各種方法及其存在的問題,基于神經網絡模式識別的特點和原理,構建了模式識別神經網絡水資源配置評價模型,網絡拓撲結構采用了適于水資源配置評價分級要求的多分類函數softmax為輸出層,代價函數以交叉熵函數代替均方差MSE,解決了模型訓練可能出現緩慢甚至中止的問題;在綜合相關研究成果的基礎上,提出了水資源配置13個評價指標、11個分級及相應分級標準,為水資源配置合理性判斷及比較擇優,構建了一個科學合理的評價指標體系基礎;水資源配置評價模型采用的訓練集、驗證集及測試集等數據源于在分級標準臨界值之間隨機內插而得到,并以誤判百分率及交叉熵等作為模型性能評價指標。訓練及測試實驗情況表明,訓練集、驗證集及測試集交叉熵誤差分別為2.81×10-7、3.07×10-7、1.31×10-6,且無過擬合現象,模式識別神經網絡水資源配置評價模型精度性能較高、分類能力優良;在此基礎上,將該模型應用于實例分析,對各省級行政區水資源配置情況進行評價分級,總體情況其評價等級基本都在3~9級之間,依次對應為“合理”、“較合理”及“不合理”等定性評價,評價結果信息較為客觀合理反映了各地水資源配置總體情況;通過差距原因分析,提出了制約地區水資源配置合理性的突出因素:缺水率、水功能達標率、用水GDP及開發利用率等,并提出了進一步改進配置合理性的建議措施;評價結果進一步表明模型應用于水資源配置評價實踐中的合理可行性。
□