楊誠
摘要:針對水質(zhì)評價問題,通過在各類水質(zhì)污染指標(biāo)濃度區(qū)間內(nèi)生成隨機分布樣本的方法,并組成足夠多的訓(xùn)練、檢驗和測試用的樣本,提出一類新的結(jié)構(gòu)優(yōu)化算法CG-OBS,CG-OBS過程將最優(yōu)腦外科(OBS)的結(jié)構(gòu)評價作為目標(biāo)函數(shù)的懲罰項,采用權(quán)值衰減的手段實現(xiàn)結(jié)構(gòu)調(diào)整,建立了遼河水質(zhì)綜合評價的網(wǎng)絡(luò)模型;給出了區(qū)分不同類別水質(zhì)的模型分界值樣本和模型輸出分界值。
關(guān)鍵詞:共軛梯度算法;水質(zhì);綜合評價;樣本
1.引言
有效利用江河湖泊水體,是實現(xiàn)可持續(xù)發(fā)展的重要內(nèi)容之一。為更有效地利用和保護(hù)自然水體,首先必須對水體水質(zhì)進(jìn)行合理的綜合評價與預(yù)測。針對遼河水體水質(zhì)評價與預(yù)測的主要任務(wù)是,根據(jù)水體中反映污染程度的主要物質(zhì)(據(jù)調(diào)研主要有溶解氧、BOD5、揮發(fā)酚、氨氮、亞硝酸鹽氮、硝酸鹽氮和高錳酸等)和石油類等物質(zhì)的濃度和國家水質(zhì)評價標(biāo)準(zhǔn),分析、評價和預(yù)測水質(zhì)的類別及其發(fā)展趨勢,為水體管理提供科學(xué)的依據(jù)。目前水質(zhì)評價方法主要是多因素的綜合評價法,如灰色關(guān)聯(lián)分析、模糊聚類分析法、物元模型法、灰色局勢決策法和綜合指數(shù)評價法等。由于影響水質(zhì)的因素很多,并且因素與水質(zhì)類別之間通常存在復(fù)雜的非線性關(guān)系。神經(jīng)網(wǎng)絡(luò)具有很強的自學(xué)習(xí)性、自適應(yīng)性和容錯性,是處理非線性問題的較好選擇。
神經(jīng)網(wǎng)絡(luò)預(yù)測模型的優(yōu)劣,最重要的指標(biāo)是網(wǎng)絡(luò)的學(xué)習(xí)精度和泛化能力。前者保證模型的準(zhǔn)確性;后者保證模型的推廣性,是預(yù)測模型得以真正實用的關(guān)鍵因素。網(wǎng)絡(luò)泛化能力與初始狀態(tài)、網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)算法等因素均有密切關(guān)系,文獻(xiàn)指出,神經(jīng)網(wǎng)絡(luò)若需達(dá)到給定的泛化能力,必須使結(jié)構(gòu)與樣本相匹配,或者增加訓(xùn)練樣本,或者減少網(wǎng)絡(luò)規(guī)模。當(dāng)訓(xùn)練樣本一定時,較小結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)具有更好的泛化能力。目前,表現(xiàn)較好的結(jié)構(gòu)優(yōu)化算法之一為最優(yōu)腦外科(OBS)過程,利用誤差函數(shù)的二次導(dǎo)數(shù)信息,解析預(yù)測權(quán)值擾動對函數(shù)的影響程度,以自頂向下的方式削弱或消除某些連接權(quán),實現(xiàn)結(jié)構(gòu)優(yōu)化。事實上,OBS算法優(yōu)良的權(quán)值衰減率以其計算復(fù)雜度為代價,高達(dá)O(nP)(n為網(wǎng)絡(luò)權(quán)值數(shù)目,p為訓(xùn)練樣本數(shù)目)網(wǎng)絡(luò)修剪過程耗時長,并存在二次訓(xùn)練等系列問題,因而損害了算法的實用性。
本文繼承了OBS的良好結(jié)構(gòu)調(diào)整性,將OBS結(jié)構(gòu)評價作為目標(biāo)函數(shù)的懲罰項,采用約束形式的權(quán)值衰減策略,實現(xiàn)權(quán)值與結(jié)構(gòu)的同時學(xué)習(xí)。為避免OBS評價所需二次導(dǎo)數(shù)的復(fù)雜計算,利用共軛梯度(Conjugate Gradient;CG)法間接得到Hessian逆信息,推導(dǎo)出一類新的結(jié)構(gòu)優(yōu)化算法CG-OBS。該算法有效克服了OBS的計算復(fù)雜性,又可保持高效的結(jié)構(gòu)優(yōu)化性能。
2.最優(yōu)腦外科(OBS)過程
OBS過程要求在網(wǎng)絡(luò)學(xué)習(xí)結(jié)束后方可進(jìn)行,因此目標(biāo)函數(shù)ζ(W)在W附近的Taylor展開可近似為:
4.1.3足夠多樣本的生成
由于5個水質(zhì)評價標(biāo)準(zhǔn)(由各污染指標(biāo)濃度上或下限組成)是區(qū)分各類水質(zhì)的分界樣本,輸入變量(評價指標(biāo))又有6個,因此不可能用水質(zhì)標(biāo)準(zhǔn)作為訓(xùn)練樣本。為了正確和可靠地應(yīng)用BP網(wǎng)絡(luò)評價水質(zhì),生成足夠多符合水質(zhì)評價標(biāo)準(zhǔn)的訓(xùn)練樣本和檢驗樣本是關(guān)鍵。
由水質(zhì)分類原理知,各類水質(zhì)由各污染指標(biāo)濃度的上(下)限決定。因此,各項污染指標(biāo)值都在Ⅲ類水質(zhì)規(guī)定的污染指標(biāo)濃度區(qū)間內(nèi)時,即前述各項污染指標(biāo)值為≥5-6mg/L、≤4-3mg/L、≤0. 05-0. 01mg/L、≤0. 005-0. 002mg/L、≤0. 5-0 .1mg/L和≤8-4mg/L時,該水體水質(zhì)肯定屬于Ⅲ類。這樣,在上述污染指標(biāo)區(qū)間內(nèi)進(jìn)行隨機(或均勻)取值,就能生成足夠多屬于Ⅲ類水質(zhì)的樣本。同理可生成其他各類水質(zhì)的樣本。本文共生成1200個樣本,各隨機抽取100個樣本(約10%)為檢驗樣本和測試樣本。利用上述算法對水質(zhì)水體進(jìn)行BP網(wǎng)絡(luò)的預(yù)測。
4.1.4網(wǎng)絡(luò)模型的訓(xùn)練
本研究采用Statsoft公司出品的Statistical Neural Networks軟件。將CG-OBS應(yīng)用于上述的BP網(wǎng)絡(luò)預(yù)測模型,取學(xué)習(xí)參數(shù)為:學(xué)習(xí)率α=0. 1,沖量η=0. 5(系統(tǒng)缺省值);結(jié)束學(xué)習(xí)的條件是訓(xùn)練樣本的均方根誤差(RMSE)小于0.1或趨于穩(wěn)定或訓(xùn)練次數(shù)達(dá)到2000次。隱層和輸出層均采用Sigmoid轉(zhuǎn)換函數(shù)。根據(jù)前述建立BP網(wǎng)絡(luò)模型的,隱層節(jié)點數(shù)為2和1時的網(wǎng)絡(luò)訓(xùn)練誤差(檢驗誤差和測試誤差相似)分別為0.1320和0.2187,隱層節(jié)點數(shù)為3-15時,誤差都在0.13左右。因此,綜合考慮網(wǎng)絡(luò)誤差大小與結(jié)構(gòu)復(fù)雜程度,合理網(wǎng)絡(luò)結(jié)構(gòu)的隱層節(jié)點數(shù)為2,經(jīng)過2000次學(xué)習(xí),訓(xùn)練樣本、檢驗樣本和測試樣本的均方根誤差(RMSE)分別為0.1320、0.1365和0.1325,平均絕對誤差(AAE)分別為0.09948、0.10200和0.09647,相關(guān)系數(shù)分別為0.9972、0.9967、0.9972。這些指標(biāo)表明,經(jīng)訓(xùn)練得到的網(wǎng)絡(luò)模型對訓(xùn)練樣本與對檢驗樣本和測試樣本具有相同的擬合(或表征)能力,即該網(wǎng)絡(luò)模型的泛化能力很強,能較好地用于評價未知樣本。
4.1.5分界樣本的模型輸出值
將分界值樣本的各項污染指標(biāo)值輸入訓(xùn)練好的網(wǎng)絡(luò)模型,對應(yīng)的網(wǎng)絡(luò)模型輸出值分別為:1. 51、2. 48、3. 49、4. 47和5. 51。這樣對應(yīng)于Ⅰ—Ⅴ類和超Ⅴ類水質(zhì),其網(wǎng)絡(luò)模型輸出值的范圍分別為:(0,1. 51)、(1. 51,2. 48)、(2 .48,3. 49)、(3. 49,4. 47)、(4. 47,5. 51)和>5 .51。
4.1.6遼河新民段水體水質(zhì)類別的判定
將遼河新民段水體1994—1999年水體各污染指標(biāo)的監(jiān)測數(shù)據(jù)(表1所示)輸入到訓(xùn)練好的網(wǎng)絡(luò)模型,模型輸出值分別為:3.65、3. 84、3. 62、3. 74、3 .72和3. 99,對照Ⅰ-Ⅴ類和超Ⅴ類水質(zhì)模型輸出值的范圍,上述水體的水質(zhì)均為Ⅳ類偏好,而且1994和1996年水質(zhì)較好,1999年水質(zhì)最差。
5分析與討論
(1)本文提出的在各類水質(zhì)污染指標(biāo)濃度上下限范圍內(nèi)生成足夠多隨機分布的訓(xùn)練樣本、檢驗樣本和測試樣本的方法,解決了建立水質(zhì)評價BP網(wǎng)絡(luò)模型時訓(xùn)練樣本太少和沒有檢驗樣本的難題。通過采用分界樣本的辦法給出了區(qū)分各類水質(zhì)的網(wǎng)絡(luò)模型輸出值,使得實際樣本的水質(zhì)類別的判定變得非常方便。另外,網(wǎng)絡(luò)輸出的結(jié)果用連續(xù)函數(shù)表示,不僅便于分析水質(zhì)的不同類別,還可以分析同一類水質(zhì)水體的污染程度,為分析和預(yù)測水質(zhì)的變化趨勢、開展環(huán)境規(guī)劃及管理提供科學(xué)的依據(jù)。(2)BP網(wǎng)絡(luò)是一種高度非線性關(guān)系的映射,具有很強的輸入/輸出映射能力。在沒有任何已知的數(shù)學(xué)知識描述輸入/輸出關(guān)系的情況下,網(wǎng)絡(luò)可以通過對大量訓(xùn)練樣本的自學(xué)習(xí)、自適應(yīng)建立這種映射關(guān)系,能較好地反映系統(tǒng)內(nèi)部的本質(zhì)特征,揭示系統(tǒng)的內(nèi)部機理,對未知樣本做出的評價更具有客觀性。
參考文獻(xiàn)
[1]國家環(huán)境保護(hù)總局監(jiān)督管理司.中國環(huán)境影響評價.北京:化學(xué)工業(yè)出版社,2000.217—243
[2]吳文業(yè),戈建民,黃奕龍.應(yīng)用灰色關(guān)聯(lián)分析進(jìn)行城市地表水環(huán)境質(zhì)量評價[J].世界地質(zhì),2000,19(1):53—56,65
[3]朱繼業(yè),竇貽儉,方紅松.動態(tài)系統(tǒng)物元模型在綜合水質(zhì)預(yù)報中的研究和應(yīng)用[J].城市環(huán)境與城市生態(tài),1999,12(1):51—53
[4]Koiran P.,Sontag? E.D. Neural networks with quadratic VC-dimension[J],Advances in Neural Info.Processing Systems&,Cambridge,MA:MIT Press,1996.197-203
[5]Hassibi B.,Stork D.G.,Wolff G.J.Optimal brain surgeon and general network pruning[J].IEEE
International Conf.on Neural Networks,1992,(1):293-299
[6]Stahlberger A.,Riedmiller M. Fast Network Pruning and Feature Extraction by Removing Complate Units[J]. Advances in Neural Information Processing Systems 9,Cambridge,MAMIT Press,1997
[7]閻平凡,張長水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計算[M].北京:清華大學(xué)出版社,2000
[8]Harkin S.著,葉世偉,史忠植譯.神經(jīng)網(wǎng)絡(luò)原理[M].北京:機械工業(yè)出版社,2004.154-159
[9]戴虹,袁亞湘.非線性共軛梯度法[M].上海:上海科學(xué)技術(shù)出版社,2000
[10]楊鳳江,徐文豐.遼河新民段水質(zhì)污染狀況調(diào)查與分析[J].環(huán)境保護(hù)科學(xué),2000,26(6):30—32
[11]趙林明,胡浩之,魏德華,等.多層前向人工神經(jīng)網(wǎng)絡(luò)[M].鄭州:黃河水利出版社,1999
[12]董聰.多層前向網(wǎng)絡(luò)的逼近與泛化機制.控制與決策[J],1998,13(增刊):413—417