周勇 李龍 唐四薪
摘 要:對城市區域水體數據采用改進BIRCH聚類方法進行異常點篩查,運用神經網絡技術對水質數據進行預測,然后采用基于熵的正交投影方法對水質進行評價,從而得出水質的變化趨勢。
關鍵詞:BIRCH聚類;TOPSIS法;正交投影法
基金項目:湖南省教育廳高校科研計劃一般項目(項目編號:15C0202)。
1 引言
隨著現代社會的發展,人類工業生產范圍不斷擴大,城市不斷擴張,整個社會的用水量急劇增加,相應地排放的污水量也大量增加。目前許多城市區域的水體都遭受了工業及生活污水的污染,水污染防治已經成了全球性的難題,這種情況在發展中國家尤甚。在水污染的防治中,水質的評價和預測非常重要,它可以為防治工作提供很好的決策支持。目前科學工作者分別對水質的評價和預測提出了不少方法,評價方法主要有:模糊數學法、灰色聚類法、綜合指數法等,預測方法主要有:灰色系統理論預測法、數理統計預測法、神經網絡模型預測法等[1]。
在防治工作決策中,水質的預測和評價是緊密相關的兩個環節。預測水質數據的變化、評價水質的等級以此來得出水體質量的變化趨勢,對水體污染防治工作非常重要。本文將采用數據挖掘的相關技術對影響水質的數據變化進行預測,并根據預測數據對未來水質進行評價,以此為防治工作提供決策支持。
2 水質數據預測
1)數據預處理。由于水質數據維度不高,且同一參數的數據類型一致,結構簡單,都是數值型,因此采用改進的BIRCH聚類分析可以快速地篩除異常點,排除意外干擾。BIRCH聚類算法只需掃描一次數據庫,聚類特征是一個包含簇的三元組CF=(N,LS,SS)。找異常點時可采用多棵CF樹,每棵CF樹代表一個簇,并結合DBSCAN算法的點密度的思想,每棵樹的葉子結點都是由相鄰的核心點構成,聚類結束后不屬于某棵樹的對象就是噪聲點[2],作為異常點刪除。
2)數據預測。將去除異常點的水質數據,分為訓練集和測試集(通常測試集規模小于訓練集規模),現采用BP神經網絡進行數據預測,其中訓練集用來訓練BP神經網絡,測試集用來測試訓練后得到的BP神經網絡是否合理。表1是湘江流域某監測點經過處理后的2015年二季度的一組水質相關數據(單位:mg/L,除PH無量綱外)。
任選15組數據作為訓練輸入,剩下1組數據作為訓練輸出來訓練BP神經網絡。訓練結束后,另選15組(組號與訓練集不同)數據作為測試輸入,剩下1組數據作為測試輸出。在MATLAB中選用tansig和purelin作為激活函數。
訓練過程如圖1:
結果表明訓練得到的網絡精度符合要求。預測結果與實際數據對比如表2:
均方誤差MSE的值為0.0051,符合要求。說明得到的BP神經網絡的預測效果達到預期目標,可以用于下一時段該區域的水質指標的預測。
3 水質的評價
運用上述方法得到流域內幾個不同監測點的預測數據后,參考中華人民共和國《地表水環境質量標準》,采用基于熵權的正交投影TOPSIS方法進行水質評價[3],可以高效地得到各監測點的水質預測等級。
評價結果與實際檢測等級對比如表3:
由此可知,該預測結果與實測結果吻合度高,方法可行。
4 結語
在保障用水安全上,水質的預測和評價是緊密相關的兩個環節,實驗證明運用數據挖掘的相關技術對水質數據進行預處理,然后再進行預測分析以及最后對預測水質數據進行評價,結果可信,可以為保障用水安全提供有力的預警支持。
參考文獻
[1]鄭一華.基于支持向量機的水質評價和預測研究[D].河海大學,碩士學位論文,2006.
[2]韋相.基于密度的改進BIRCH聚類算法[J].計算機工程與應用,2013,49(10):201-205.
[3]張先起,梁川,劉慧卿.基于熵權的改進TOPSIS方法在水質評價中的應用[J].哈爾濱工業大學學報,2007,39(10):1670-1672.
作者簡介
周勇(1972-),男,湖南衡陽,衡陽師范學院講師,碩士,研究方向:智能計算。