999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在松花江水質預測中的應用

2011-06-06 03:03:32崔福義
哈爾濱工業大學學報 2011年10期
關鍵詞:水質模型

趙 英,崔福義,郭 亮

(哈爾濱工業大學城市水資源與水環境國家重點實驗室,150090 哈爾濱,zhaoying@hit.edu.cn)

數據挖掘技術在松花江水質預測中的應用

趙 英,崔福義,郭 亮

(哈爾濱工業大學城市水資源與水環境國家重點實驗室,150090 哈爾濱,zhaoying@hit.edu.cn)

為更好地實現松花江水質預測,對水質的科學管理起到指導作用,應用人工神經網絡技術(ANN,Artifical Neural Networts),利用松花江四方臺監測站某連續3年水質數據,建立水質預測模型,實現對松花江主要污染指標CODMn的預測.為保證預測模型具有較高的預測精度,將數據按月分期,應用聚類分析法對數據進行處理,剔除異常數據,使有效數據能夠均勻分布.并通過測試研究驗證聚類分析法處理數據后對預測精度的影響效果.結果表明,將聚類分析法應用到水質預測中后,可較大地改善模型預測效果,成績顯著.

水質預測;預測模型;聚類分析法;人工神經網絡

近年來,隨著我國工業化以及城鎮化進程加快,全國各地流域環境遭受不同程度污染,對人體健、生態安全以及生產和生活構成重要影響.松花江流域干流為沿江城市的主要飲用水源,監測數據表明,目前水質污染狀況非常嚴重,已對吉林省、黑龍江省生態環境和人民生產生活造成了重大影響.面對新的形勢和要求,目前我國流域環境監測、水質預測等技術方法與環境污染的客觀要求已明顯滯后.因此,研發應對水環境監測、預測新方法,提高科學的環境管理和綜合決策能力,在今后很長一段時期是十分緊迫和必要的.

2002~2006年松花江水域水質狀況見表1.可以看出,2002~2006年劣Ⅴ類水質所占的百分數總體呈上升趨勢,由此可知松花江水域水質污染狀況有加重的趨勢,可見建立松花江水域的預測模型,探討未來水質的變化情況具有一定意義,對于松花江水域的管理、防治水污染、確保飲用水安全起到積極的作用.從主要污染指標一欄中可以看出,2002~2006年5年中主要污染指標包含CODMn、石油類、氨氮、生化需氧量、揮發酚,其中CODMn連續5年出現,可見CODMn的超標是造成松花江水域污染的最主要因素,因此,確定以 CODMn為預測對象.

表1 2002-2006年松花江水域水質類別分析和主要污染指標對比

在綜合分析松花江主要污染指標、水廠日常檢測的原水水質參數種類、課題實際需要以及對CODMn值產生影響等因素后,確定水溫、濁度、色度、pH值、氨氮、亞硝酸鹽、電導率、堿度、水流量9種水質參數為CODMn的影響因子.除此之外任何水質參數的變化都是連續的,因此,也將當日的CODMn作為影響因子,以10種影響因子預測次日的CODMn.

1 實驗方法

1.1 數據處理方法的選擇

數據挖掘技術有很多種,但其在水質預測領域中的應用并不多.分析本文水質數據的特點,就單個水質參數而言,這些數據變化幅度不大,且都是正實數,不包含向量等復雜數據,并且數據為日監測數值,頻度不大.聚類分析法是數據挖掘技術中較常用的一種方法,處理過程簡單易懂,實用性較強.因此,綜合本文數據特點選擇聚類分析法即可以方便地解決數據處理的問題,達到預期效果[1-4].

聚類分析是依據樣本間關聯的度量標準將其自動分成幾個類,且使同一類中的樣本相似,而屬于不同類的樣本相異的一組方法.一個聚類分析系統的輸入是一組樣本和一個度量兩個樣本間相似度(或相異度)的標準,聚類分析的輸出是數據集的幾個類(簇),這些類構成一個分區或分區結構.聚類分析的一個附加結果是對每個類的綜合描述,這種結果對于進一步深入分析數據集的特征尤為重要.這樣應用聚類分析法可以將水質數據中的離群數據即異常數據剔除掉,提高預測模型精度[5-9].

1.2 聚類分析法應用分析

聚類分析可以根據聚類中心點來進行數據篩選,一方面可以剔除孤立點,另一方面還可以剔除一些距離中心點過遠的異常數據,不僅可以剔除異常數據,還可以使過濾后的數據具有良好的規范性[10-13].

在選擇研究數據時,剔除的是預測模型中對預測對象有影響的水質參數的異常值.根據上節確定的影響因子,水溫、濁度、色度、pH值、氨氮、亞硝酸鹽、電導率、堿度、水流量9種水質參數均為聚類分析對象,此外訓練時預測對象的數據也可能存在異常,因此,將次日的CODMn值也作為聚類分析對象,即本研究共計10組研究數據.

本文現有包含以上10組水質參數的松花江四方臺監測站某連續3年日檢測數據1 028組,因為每個月份的數據均具有不同的水質特點,按照月份分期,首先選取K-平均算法進行聚類分析,剔除樣本數目過少的類,因為將每個月的數據分成3組(按3年的劃分),在計算中,如果每組的數據樣本數少于該月樣本總數的10%,剔除該類,并重新進行劃分計算.接著對樣本與中心之間的距離進行分析,剔除距離較遠的樣本,采用歐式距離進行計算,剔除所有距離大于500的異常樣本點,從而使所獲得的數據具有較好的規范性.

1.3 處理過程及結果分析

應用聚類分析法時采用SPSS(Statistical Package for the Social Science)軟件,其是目前世界上最著名的數據分析軟件.SPSS最突出的特點是操作界面極為友好,使用Windows的窗口方式即可展示各種管理和分析數據方法的功能,使用對話框就可展示出各種功能選擇項,無需編程,只根據需要進行圖形用戶界面操作就可以實現數據的分析和處理.

在本文聚類分析研究中采用K-平均算法,其具體流程如下:

1)任意選擇3個樣本作為初始類的中心;2)根據類中對象的平均值,將每個樣本重新聚合到最類似的類;3)更新類的平均值,即計算每個類中樣本的平均值,將其作為中心點;4)重復2)、3)直到不再發生變化.

使用K-平均算法進行聚類,根據各個類的樣本數目來剔除孤立點.第一次聚類結果見表2.

表2 K-平均算法聚類結果(1)

從表2中選取類樣本數少于該月總樣本數10%的類,進行剔除,選取的類分別是4月類1、10月類1、11月類1、12月類3.剔除這些類,并對4月、10月、11月、12月重新進行聚類.得到的結果如表3所示.

躺著想了許久才發現面膜還沒洗,該死,又過時間了,臉上的水分都被吸走了。就像他死后,我的感情也被有他在的那段時間吸走了。

分析表3注意到4月類2樣本數目仍然少于該月樣本總數10%的類,剔除該類,重新對4月數據進行聚類計算,結果如表4所示.

表3 K-平均算法聚類結果(2)

表4 K-平均算法聚類結果(3)

至此,獲得了36個可以表征各個月特征的聚類中心點.以這些中心點為中心,計算所屬類內各樣本Xi與中心點X0的距離,采用歐式距離進行計算,剔除所有di≥500的異常樣本點.

在剔除數據的同時考察剩余樣本的個數.其中m為剔除后該月剩余樣本數目.剔除情況如表5所示.

表5 K-平均算法聚類后樣本分布情況(1) 個

從表5可以看出,8月份與9月份樣本被剔除的最多,8月份剔除樣本數達本月監測個數的46%,9月份為17%.由于水質的變化相當復雜,受很多因素影響,本文在剔除異常數據時是以水域某一時段(某月)內的通常狀況為標準,對于非正常狀態下對水域的影響因素考慮較少,為避免過多地刪除數據,規定在某一時段內(某月)因機械或人為等因素產生一些異常數據不應該大于本時段內所監測數據個數的10%,若大于這個值,說明該月可能存在一些水質異常變化,這些值雖然偏離常規狀態下的監測值,但也是水質真實狀況的反應,不應該予以剔除.在8、9月份初步得到的異常值都大于10%,再次對這兩個月的數據進行處理,將剔除所有di≥800的異常樣本點,減少剔除異常數據數目,避免刪除反映水質真實狀況的數據.剔除情況如表6所示.

表6 K-平均算法聚類后樣本分布情況(2) 個

表6中8、9月份的剔除樣本數均小于該月監測個數的10%.剩余樣本總數為984.

2 水質預測模型的建立

2.1 預測方法的選擇及可行性分析

經過綜合分析認為:人工神經網絡模型屬于一種黑箱模型,其在沒有明確提供給過程內部的物理演化過程知識的情況下,也可以在一個過程的輸入與輸出之間直接建立關系,即使這些數據中含有噪聲或錯誤[14-15].這些特性說明ANN網絡非常適合復雜的松花江水質預測模型的建立,可以幫助進一步捕捉、探索其水質演變過程中的規律.并且神經網絡的建模過程非常靈活,可以采用不同的非線性函數來模擬其過程的非線性特征.因此,確定選擇人工神經網絡技術作為本文的建模方法.

2.2 應用MATLAB建立網絡模型

MATLAB是美國Mathworks公司1982年推出的數學軟件,它具有強大的數值計算能力和優秀的數據可視化能力[16].其提供的神經網絡設計與仿真GUI,是進行神經網絡系統分析與設計的絕佳工具,使用戶能夠方便地通過圖形用戶界面進行神經網絡的建模與仿真,無需編程.本文應用MATLAB的GUI功能實現建模與仿真.

模型規模較大,不便于訓練,也會降低網絡的性能.理論已經證明,具有單隱層的BP神經網絡模型,當隱層神經元數目足夠多時,可以以任意精度逼近任何一個具有有限間斷點的非線性函數[17],因此,本文建立的是單隱層BP神經網絡.

由于影響因子共有10項,模型輸入有10個變量,預測對象是次日的CODMn,即輸出為1個變量.對于隱含層神經元個數的確定,有很多文獻介紹了一些方法,但只是一些經驗方法,并不具有權威性,并且針對不同水域、不同情況的預測模型,即使輸入、輸出變量相同,當達到最佳預測效果時,其隱含層神經元個數都不一定是相同的.因此,根據經驗,隱含層分別從10~20選值,同時在選擇隱含層神經元傳遞函數時,分別選用LOGSIG和TANSIG函數.BP網絡最后一層神經元的特性決定了整個神經網絡的輸出特性.當最后一層神經元采用Sigmoid型函數,整個網絡的輸出就被限制在一個較小的范圍內;如果最后一層神經元采用PURELIN型函數,則整個網絡輸出可以取任意值,因此,選擇輸出層的神經元傳遞函數為PURELIN.

在確定好上述參數和函數后,應用MATLAB的GUI工具建立網絡模型.圖1是建立的網絡模型之一.

因為隱含層神經元個數分別選擇從11~20,神經元傳遞函數分別選擇LOGSIG和TANSIG函數,這樣就根據隱含層神經元個數和傳遞函數的不同建立20種模型,分別應用不同的訓練集數據進行訓練,選擇最優模型作為預測模型.

3 聚類分析法應用效果分析

為考察聚類分析法對數據處理的效果,對其處理后得到的結果應用到水質預測模型中,并與未經過處理的數據進行對比,考察其應用效果.

3.1 傳統方法預測精度

由于未應用聚類分析法處理數據,有效數據共有1 028組,經劃分得到訓練集數據992組,測試集數據36組.

利用上述訓練集數據,應用MATLAB軟件建模,經過對比分析,得到最優模型結構為隱含層神經元個數為16,傳遞函數是TANSIG,將其作為預測模型.

為了使模型測試結果具有一致性和普遍性,測試集選用前文某連續3年中其中1年每月1、2、3日的監測值,若某一日的值不存在,則選用順延日期的監測值,這樣每月3組數值,共形成36組測試集.應用預測模型對測試集數據進行預測研究,得到的預測值與實測值結果如表7所示.

CODMn預測值與實測值對比曲線和誤差曲線如圖2,3,圖中的預測時間從1月開始至12月止,時間順序與表7中的時間順序相同.

在對比曲線中,對預測值與實測值二組數據進行相關性分析,可知相關系數為0.886.通過對預測誤差曲線中的數據進行分析可以得出:最大預測誤差為11.61%,最小預測誤差為1.18%,平均預測誤差為4.76%.

表7 傳統方法CODMn預測值與實測值 mg·L-1

圖2 CODMn預測值與實測值對比曲線

3.2 聚類分析法預測精度

應用聚類分析法處理數據后得到有效數據984組,劃分成訓練集數據948組,測試集數據36組,為了使對比具有同等性,測試集數據與前文相同.

應用MATLAB軟件建模,經過對比分析得到最優預測模型結構為隱含層神經元個數19,傳遞函數是LOGSIG,將其作為預測模型.

應用預測模型對測試集數據進行預測,得到的預測值與實測值結果如表8所示.

圖3 CODMn預測誤差

表8 聚類分析法應用后CODMn預測值與實測值 mg·L-1

CODMn預測值與實測值對比曲線和誤差曲線如圖4,5,圖中的預測時間從1月開始至12月止,時間順序與表8中的時間順序相同.在對比曲線中,對預測值與實測值二組數據進行相關性分析,可知相關系數為0.925.通過對預測誤差曲線中的數據進行分析,可以得出:最大預測誤差為9.52%,最小預測誤差為1.15%,平均預測誤差為3.91%.

3.3 實驗結果分析

從以上的對比研究可以看出,應用聚類分析方法對訓練數據進行處理后,預測模型的預測效果得到較大提高.比較兩者預測值與實測值的相關系數,可知應用該方法后的相關性要明顯好于應用前;后者比前者最大預測誤差降低了2.09個百分點,可見數據經過處理后,偏離聚類中心的異常點被刪除掉,因此,最大誤差降低很多;兩者的最小預測誤差幾乎接近,是因為聚類過程中保留了離中心點位置較近的所有數據,并不影響預測的最小誤差;從整體效果上看,數據經過聚類處理后離聚類中心點的平均值要小,因此,后者的平均誤差比前者小,從數據上看降低了0.85個百分點,可見將聚類分析法應用到水質預測中可較大地改善模型預測效果,成績顯著.

圖4 CODMn預測值與實測值對比曲線

圖5 CODMn預測誤差

4 結語

本研究將數據挖掘技術、人工神經網絡技術引入到水質預測模型研究中,可實現對地表水體的水質預測.本研究成果不僅可應用到松花江四方臺監測站,也可以推廣到其他地表水體的任何水質參數的水質預測中,為地表水體水質預測提供有效的方法,從而為水廠的安全、正常生產提供借鑒和指導.

[1]MASTROGIANNIS N,BOUTSINAS B,GIANNIKOS I.A method for improving the accuracy of data mining classification algorithms[J].Computers & Operations Research,2009,36(10):2829 -2839.

[2]YIN Yunfei.A proximate dynamics model for data mining[J].Expert Systems with Applications,2009,36(6):9819-9833.

[3]CHU B,TSAI M,HO C.Toward a hybrid data mining model for customer retention[J].Knowledge- Based Systems,2007,20(8):703 -718.

[4]廖曉玉.空間數據挖掘在地表水水質評價與預測中的應用研究[D].長春:東北師范大學,2006.

[5]DIXON M,GALLOP J R,LAMBERT S C,et al.Data mining to support anaerobic WWTP monitoring[J].Control Engineering Practice,2007,15:987 -999.

[6]EL-SEBAKHY E A.Data mining in forecasting PVT correlations of crude oil systems based on type-1 fuzzy logic inference systems[J].Computers & Geosciences (2008), doi:10.1016/j. cageo.2007.10.016.

[7]YANG Yubin,LIN Hui,GUO Zhongyang,et al.A data mining approach for heavy rainfall forecasting based on satellite image sequence analysis[J].Computers& Geosciences,2007,33:20-30.

[8]SENCAN A.Modeling of thermodynamic properties of refrigerant/absorbent couples using data mining process[J].Energy Conversion and Management,2007,48:470-480.

[9]CHEN Qiuwen,MYNETT A E.Integration of data mining techniques and heuristic knowledge in fuzzy logic modelling of eutrophication in Taihu Lake[J].Ecological Modelling,2003,162:55 -67.

[10]SHAW M J,SUBRAMANIAM C,TAN G W,et al.Knowledge management and data mining for marketing[J].Decision Support Systems,2001,31:127 -137.

[11]GIBERTA K,SPATE J,SANCHEZ-MARRE M,et al.Chapter twelve data mining for environmental systems[J].Developments in Integrated Environmental Assessment,2008,3:205 -228.

[12]周東華.數據挖掘中聚類分析的研究與應用[D].天津:天津大學,2006.

[13]GELBARD R,CARMELI A,BITTMANN R M,et al.Cluster analysis using multi- algorithm voting in cross- cultural studies[J].Expert Systems with Applications,2009,36(7):10438 -10446.

[14]MAIER H R,MORGAN N,CHOW C W K.Use of artificial neural networks for predicting optimal alum doses and treated water quality parameters[J].Environmental Modelling & Software,2004,19(5):485 -494.

[15]SHETTY G R,MALKI H,CHELLAM S.Predicting contaminant removal during municipal drinking water nanofiltration using artificial neural networks[J].Journal of Membrane Science,2003,212(1/2):99 -112.

[16]張宜華.精通MATLAB5[M].北京:清華大學出版社,1999.

[17]莊鎮泉,王熙法.神經網絡與神經計算機[M].北京:科學出版社,1994:100 -112.

Application of data mining technology in water quality forecast of Songhua River

ZHAO Ying,CUI Fu-yi,GUO Liang

(State Key Laboratory of Urban Water Resource and Environment,Harbin Institute of Technology,150090 Harbin,China,zhaoying@hit.edu.cn)

To better achieve water quality forecast of Songhua River and instruct scientific management of water quality,a water quality forecasting model is set up by ANN technology and is trained by water-quality data from Sifangtai Monitoring Station of the Songhua River.The model could be applied to forecast CODMnthat is one of the main pollution indicators in Songhua River.To improve forecasting accuracy,the data is divided into 12 groups and handled by excluding abnormal data based on clustering analysis.At last a test is carried out to verify the effect of clustering analysis,and the results indicate that the clustering analysis in waterquality forecasting model can improve the forecasting effect significantly.

water quality forecast;forecasting model;clustering analysis;artificial neural networks

X321

A

0367-6234(2011)10-0033-07

2010-05-21.

中國博士后基金資助項目(20110491056);黑龍江省博士后基金資助項目(LBH-Z10172);2011年哈爾濱工業大學科研創新基金資助項目.

趙 英(1978—),女,博士,講師;

崔福義(1958—),男,教授,博士生導師.

(編輯 劉 彤)

猜你喜歡
水質模型
一半模型
水質抽檢豈容造假
環境(2023年5期)2023-06-30 01:20:01
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
一月冬棚養蝦常見水質渾濁,要如何解決?這9大原因及處理方法你要知曉
當代水產(2019年1期)2019-05-16 02:42:04
這條魚供不應求!蝦蟹養殖戶、垂釣者的最愛,不用投喂,還能凈化水質
當代水產(2019年3期)2019-05-14 05:42:48
圖像識別在水質檢測中的應用
電子制作(2018年14期)2018-08-21 01:38:16
3D打印中的模型分割與打包
濟下水庫徑流水質和垂向水質分析及評價
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 99久久免费精品特色大片| 欧美三级日韩三级| 亚洲成人在线免费| 欧美精品高清| 亚洲大学生视频在线播放| 国产女人18水真多毛片18精品| 中文字幕在线一区二区在线| 99国产在线视频| 亚洲午夜片| 国产高清又黄又嫩的免费视频网站| 成人精品午夜福利在线播放| 少妇精品网站| 日韩人妻精品一区| 欧美成人精品一区二区| 国产人免费人成免费视频| 99性视频| 国内精品伊人久久久久7777人| 狠狠五月天中文字幕| 91香蕉视频下载网站| 婷婷99视频精品全部在线观看| 第一区免费在线观看| 亚洲第一黄片大全| 日本午夜影院| 美女免费黄网站| 国产精品视频公开费视频| 亚洲天堂伊人| 亚洲高清无码精品| 露脸真实国语乱在线观看| 国产第一页免费浮力影院| 亚洲,国产,日韩,综合一区| 1024你懂的国产精品| 国产成人精品男人的天堂下载| 中文字幕永久在线看| 自拍欧美亚洲| 2020亚洲精品无码| 三级视频中文字幕| 国产超碰一区二区三区| 国产人妖视频一区在线观看| 亚洲高清在线天堂精品| 全午夜免费一级毛片| 九九精品在线观看| 欧美日韩高清在线| 伊人久久久大香线蕉综合直播| 在线看国产精品| 中日韩一区二区三区中文免费视频 | 久久香蕉国产线| 精品国产成人国产在线| 久久精品人人做人人爽97| 国产99视频免费精品是看6| 国产在线欧美| 色综合婷婷| 国产本道久久一区二区三区| 色综合婷婷| 国产成人麻豆精品| 天天摸夜夜操| 性69交片免费看| 美女内射视频WWW网站午夜| 无码精品福利一区二区三区| 九九热视频精品在线| 国产va视频| 亚洲天堂视频在线免费观看| 免费毛片网站在线观看| 美女扒开下面流白浆在线试听 | 国产精品成人第一区| 亚洲人成在线精品| 国产精品第三页在线看| 欧美中出一区二区| 超碰精品无码一区二区| 无码专区在线观看| 最近最新中文字幕免费的一页| 国产97视频在线观看| 极品国产一区二区三区| 亚洲精品国产精品乱码不卞| 婷婷综合在线观看丁香| 免费国产一级 片内射老| 九色最新网址| 国产精品一区二区无码免费看片| 欧美在线综合视频| 粗大猛烈进出高潮视频无码| 国产欧美日韩资源在线观看| 凹凸国产分类在线观看| 欧美在线中文字幕|