999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的溫瑞塘河總氮模擬與預測

2017-08-16 05:18:22王學東王振峰
浙江農業科學 2017年7期
關鍵詞:重要性模型

王學東,黃 宏,梅 琨,商 栩,夏 芳,王振峰*

(1.溫州醫科大學 浙南水科學研究院,浙江 溫州 325035; 2.浙江省流域水環境與健康風險研究重點實驗室,浙江 溫州 325035)

?

基于隨機森林的溫瑞塘河總氮模擬與預測

王學東1,2,黃 宏1,2,梅 琨1,2,商 栩1,2,夏 芳1,2,王振峰1,2*

(1.溫州醫科大學 浙南水科學研究院,浙江 溫州 325035; 2.浙江省流域水環境與健康風險研究重點實驗室,浙江 溫州 325035)

為快速獲得水體中總氮含量,采用隨機森林方法建立總氮預測回歸模型。結果顯示,較少的數據異常值仍會造成隨機森林模型較大的誤差,去除4.6%的異常值后,模型均方根誤差(MSE)降低了42.4%。隨機森林模型可對自變量的相對重要性做出評估,對總氮而言,最重要的變量是氨氮,模型2個主要參數隨機樹數量(ntree)和隨機分割變量數(mtry)的值分別為400和2。在選擇合適的參數值時,隨機森林模型不易出現過擬合顯示,建立的隨機森林模型可以快速預測水體中總氮的含量。

隨機森林; 回歸模型; 溫瑞塘河; 總氮

溫瑞塘河是溫州重要的河網水系,位于甌江以南、飛云江以北的溫瑞平原,屬于典型的城市平原河網。其水源主要來自瞿溪、雄溪、郭溪(通稱三溪)以及大羅山和集云山的山澗溪流,流域面積740 km2,水域面積22 km2,主河道33.85 km,大小河流共1 178 km,正常蓄水量6 500萬m3。從20世紀80年代起,由于經濟過度發展、人口急劇增加和環境基礎設施不完善,溫瑞塘河水環境逐漸惡化,水體污染,河床淤積,多數河段水質長期處于劣V類。目前,溫瑞塘河主要污染源為城市生活污水,主要超標指標為氨氮和總磷。自2013年以來,溫州市全面實施“五水共治”,建設浙南美麗水鄉專項整治行動,水環境明顯改善。但是,由于地表水環境標準中未對河流總氮規定限值,一般地,總氮并未被納入城市河流治理過程中。根據溫州市2017年最新行動計劃,在2017年底前將全面消除市控以上斷面的劣V類水。2016年最新監測數據顯示,即使在氨氮指標優于V類水的站位,其水體總氮含量仍在2.15~8.83 mg·L-1,富營養化程度仍然很高。因此,在城市河道治理中,對總氮指標也應給予足夠的重視。

在以生活污水為主要污染源的城市河流中,氨氮是主要污染指標之一,且總氮往往與氨氮有較強的相關性[1-2]。隨著傳感器技術的發展,部分水質指標已可通過YSI等便攜式儀器現場獲得,如溶解氧、氨氮、溫度等,但仍有許多指標需要在實驗室檢測獲得,如硝氮、總氮、總磷等。在總氮檢測過程中,由于水樣處理及硝化等多個環節可能存在問題,導致經常出現總氮檢測值小于無機氮之和的現象[3-4]。部分研究利用水質模型和統計方法建立起總氮預測模型,取得了較好的結果,如模糊線性回歸模型[5]、馬爾可夫鏈[6]、神經網絡[7]、多元回歸模型[8]等。本研究通過對溫瑞塘河現場監測獲得的各項水質指標數據,建立總氮預測模型,旨在為現場快速計算總氮濃度提供方法參考。

1 材料與方法

1.1 數據獲取

從2008年開始,在溫瑞塘河溫州市區段布設40個監測點,每月監測1次。監測站點如圖1所示。本研究所用的數據是2008年6月至2010年12月以及2015年12月至2016年12月的監測數據。監測范圍僅限于溫瑞塘河溫州市區范圍。在2008—2010年,共設置監測點40個;2015—2016年,在上述40個點中僅選取布設了17個監測點。除水體總氮和濁度指標在實驗室檢測獲得外,其他指標均由YSI現場測得。

其中,總氮采用堿性過硫酸鉀消解—紫外分光光度法分析,濁度采用分光光度法分析。

圖1 水質監測點的分布

1.2 模型建立

隨機森林是較常用的一種機器學習方法,由Breiman于2001年正式提出[9],并給出了完整原理和證明。其本質是由多棵分類與回歸樹(classification and regression tree,CART)構成的一種集成算法,能夠同時處理分類和回歸問題。隨機森林無須考慮變量假設條件,可同時接受分類變量和數值變量,可評估變量重要性,對變量的統計分布也不敏感,不會過擬合,不需交叉驗證,模型參數少。這使其成為較受歡迎的分類模型之一。隨機森林算法已在許多常用統計軟件或數據挖掘軟件中實現,如R、Matlab、Weka等。本研究選擇R軟件中常用的randomForest包作為平臺。

建立隨機森林回歸模型時,模型默認評價變量為均方根誤差(mean of squared residuals,MSE)和R2,其計算公式分別為:

建立隨機森林模型的過程為:1)確定自變量和因變量;2)建立初始模型;3)分析并處理異常值;4)重建模型;5)優化模型變量和參數;6)模型誤差分析與評價。

因隨機森林模型結果具有不確定性,為獲取確定結果,所有模型運行100次,分別取MSE和R2的平均值為模型最終結果。

2 結果與分析

2.1 水質指標數據概況

經過處理,去除無效數據及空值數據后,剩余有效記錄1 178條。數據共包含7個水質指標,各指標信息概況如表1所示。

1.平時加強公豬心肌能力和后肢能力的鍛煉及相關營養元素(尤其是維生素A、D、E的補充,建議用“高燒多維微(威能全營養素復合維生素粉)”拌料。

2.2 初始模型構建

RandomForest包提供的隨機森林模型主要包含2個參數,隨機樹的數量ntree和隨機樹分割變量數mtry,在本研究中其默認值分別為500和2。由此,利用所有數據以及所有變量建立總氮的基本隨機森林模型,模型參數及結果如表2所示。

2.3 異常值

如圖2所示,總氮中包含許多異常值,且主要位于高值一側。使用R軟件的boxplot.stats方法統計總氮,獲得異常值54個,約占總記錄的4.6%。在模型參數不變時,去除這些異常值記錄后,模型M1性能有較大改善,MSE值由3.21降至1.85,下降了約42.4%,R2由91.2%微降至87.0%。

表1 水質指標的信息

表2 總氮基本隨機森林模型

圖2 總氮含量分布

Breiman[9]認為,當數據樣本中異常值少于5%時,對隨機森林性能影響不大;但本研究結果顯示,即使不多于5%的異常值,對隨機森林模型的性能仍有較大影響,特別是對誤差值的影響較大。這可能是因為前項結論針對的是分類問題,而非回歸模型。為獲得合理的模型精度,本研究后續模型使用的數據均排除異常值。

2.4 變量重要性

隨機森林可以評估各個變量對模型的相對重要性。圖3為模型M1顯示的變量重要性。在隨機森林模型中,去除任何一個自變量,模型整體誤差MSE的值增加百分比(%IncMSE)越大,即模型精度下降越快,說明該變量越重要。可以看出,模型M1中自變量的重要性從高到低依次為nh4>ec>temp>ph>do>turb。氨氮重要性最高,即模型中自變量氨氮對因變量總氮的預測最重要,主要原因是溫瑞塘河中總氮的主要組成部分是氨氮,且樣本中二者相關性最高,約為0.92。

圖3 變量的重要性

隨機森林評估的變量重要性結果只代表相對重要性。若要為模型選擇合適的自變量,仍需要按照變量重要性依次建立模型,并對各個模型性能進行評估。為便于選擇不同自變量時比較模型的性能,將所有模型參數設定為ntree=500,mtry=1,表3為按變量重要性依次選擇不同自變量組合的隨機模型模擬結果,最佳組合為nh4+ec+temp+ph,即模型M24。

2.5 模型參數設定

隨機森林中主要的控制參數為ntree和mtry,分別表示隨機森林中樹的數量和變量分割數。ntree的目的主要是讓森林中的樹足夠多,以便模型能夠穩定或收斂,mtry是分割時隨機選擇變量的個數,主要影響模型的性能;因此,可以先選擇一個足夠大的ntree使模型穩定,將mtry參數調整好后,再調整ntree。在randomForest中,ntree默認值為500,在本研究中,該默認值足以使模型快速收斂(圖4),mtry在回歸模型中的默認值計算方法為n/3,其中,n為自變量總數。

表3 變量選擇及模型性能

圖4 模型M24隨機樹總數對模型誤差的影響

對mtry取值1、2、3、4分別建模,模型運行結果如表4所示。當mtry=2,其他參數不變時,模型性能最好。根據randomForest提供的計算規則,當變量個數為4時,mtry默認值為1,但模型運行結果顯示,默認值并非最優選擇。

表4 mtry取值對模型的影響

過大的ntree在模型穩定后雖然不影響模型性能,但會影響模型運行時間。本研究使用的樣本數和變量數均較小,模型運行時間影響不大。表5顯示了ntree參數對模型的影響,隨著隨機ntree值的增大,模型運行時間有較大的增加。當ntree=400時,模型性能不再提升。至此,在樣本數為1 124時,最優隨機森林模型為M37=randomForest(tn~nh4+ec+temp+ph, ntree=400, mtry=2),此時模型誤差MSE=1.79,R2=87.3%。

表5 ntree取值對模型的影響

2.6 模型預測

按照上述建模過程,將去除異常值后的樣本數據隨機抽取70%用于建模,30%用于預測。建立的最優模型M41及預測結果如表6和圖5所示。預測精度與模擬精度相當,說明該模型未出現明顯過擬合現象。且模型模擬和預測的平均相對誤差分別為14.8%和18.4%,均在可接受范圍內。

表6 隨機森林模型模擬與預測

線條函數為y=x圖5 模型M41的預測結果

Breiman[9]曾證明,當隨機森林產生的樹無窮多時,根據大數定律,隨機森林模型訓練誤差與測試誤差趨于相同。由此可知,在選擇合適的ntree值時,隨機森林模型不易過擬合。

3 小結

本研究顯示,隨機森林回歸模型可用于水質數據模擬與預測,且誤差在可接受范圍內。數據異常值對隨機森林模型影響較大,本研究中去除不超過5%的異常值后,模型均方根誤差(MSE)下降40%以上。隨機森林模型可用于變量選擇,其評估結果給出了變量的相對重要性:氨氮濃度>電導率>溫度>酸堿度>溶解氧濃度>濁度。隨機森林模型默認參數值并非模型最優參數,需要對不同的參數值進行測試分析,才能獲得模型的最優參數值。隨機森林模型有較好的穩定性,不易出現過擬合現象。利用隨機森林模型,通過實時監測的方式快速預測總氮濃度值是可行的。

[1] 李文杰, 王冰. 地表水中氨氮和總氮的相關性分析[J]. 環境保護科學, 2012, 38(3):79-81.

[2] 張濤, 胡冠九, 范清華, 等. 太湖入湖河流總氮與氨氮相關性特征分析研究[J]. 環境科學與管理, 2015, 40(2):21-23.

[3] 黃慧坤. 環境樣品監測中總氮低于氨氮的原因[J]. 環境科學導刊, 2004, 23(增刊):219-220.

[4] 趙楠, 李建坡, 丁致英, 等. 地表水檢測中氨氮高于總氮的原因探討[J]. 中國給水排水, 2006, 22(22):89-91.

[5] 周九州, 劉強, 榮湘民, 等. 模糊線性回歸模型在河流水體總氮濃度預測中的應用[J]. 生態學雜志, 2009, 28(12):2628-2632.

[6] 趙繼東, 胡婷, 杜慶治. 馬爾科夫鏈在彌苴河總氮量預測中的應用[J]. 環境科學導刊, 2015, 34(4):18-20.

[7] RAJAEE T, SHAHABI A. Evaluation of wavelet-GEP and wavelet-ANN hybrid models for prediction of total nitrogen concentration in coastal marine waters[J]. Arabian Journal of Geosciences, 2016, 9(3):176.

[8] DIMBERG P H, BRYHN A C. Predicting total nitrogen, total phosphorus, total organic carbon, dissolved oxygen and iron in deep waters of Swedish lakes[J]. Environmental Modeling & Assessment, 2015, 20(5):411-423.

[9] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1):5-32.

(責任編輯:高 峻)

2017-03-01

溫州市水體污染控制與治理科技創新項目(S20140041,S20140040,S20140039,S20140038,S20140037)

王學東(1967—),男,河南淮陽人,研究員,博士,研究方向為環境化學,E-mail:zjuwxd@163.com。

王振峰(1983—),男,湖北荊州人,助理研究員,博士,研究方向為水環境保護,E-mail: wangzf@iwaterlab.com。

10.16178/j.issn.0528-9017.20170756

X832

A

0528-9017(2017)07-1269-04

文獻著錄格式:王學東,黃宏,梅琨,等. 基于隨機森林的溫瑞塘河總氮模擬與預測[J].浙江農業科學,2017,58(7):1269-1272,1276.

猜你喜歡
重要性模型
一半模型
土木工程中建筑節能的重要性簡述
“0”的重要性
論七分飽之重要性
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
論七分飽之重要性
3D打印中的模型分割與打包
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
主站蜘蛛池模板: 亚洲中文字幕国产av| 丁香六月激情综合| 国产成人精品在线| 国产第四页| 亚洲日本中文字幕乱码中文| 亚洲制服丝袜第一页| 免费看美女自慰的网站| 动漫精品啪啪一区二区三区| 2022精品国偷自产免费观看| 日韩a在线观看免费观看| 亚洲视频免费播放| 999国内精品久久免费视频| 性视频久久| 一级毛片高清| 中日韩一区二区三区中文免费视频| 一级爆乳无码av| 国产一线在线| 亚洲色欲色欲www在线观看| 精品免费在线视频| 99国产精品国产高清一区二区| 亚洲综合专区| 国产一级做美女做受视频| 正在播放久久| 伊人激情综合网| 中国精品自拍| 久久这里只精品热免费99| 91精品国产91久无码网站| 亚洲成人手机在线| 一级毛片免费播放视频| 玖玖精品在线| 亚洲欧洲日韩综合色天使| 欧美福利在线| 91在线无码精品秘九色APP| 国产精品99在线观看| 国产精品吹潮在线观看中文| 国产精品成人第一区| 有专无码视频| 国产国拍精品视频免费看| 精品夜恋影院亚洲欧洲| 国产成人精品高清不卡在线| 国产偷倩视频| 青青青国产视频| 五月天丁香婷婷综合久久| 欧美无专区| 亚洲另类色| 熟女成人国产精品视频| 一本大道无码日韩精品影视| 91久久国产综合精品| 青青草国产精品久久久久| 亚洲高清中文字幕在线看不卡| 欧洲精品视频在线观看| 欧美综合中文字幕久久| 91精品日韩人妻无码久久| 国产成人综合久久精品尤物| 女人一级毛片| 日本在线亚洲| 亚洲日韩精品综合在线一区二区| 日本人又色又爽的视频| 欧美午夜理伦三级在线观看| 欧美激情第一欧美在线| 波多野吉衣一区二区三区av| 成人精品在线观看| 亚洲日本精品一区二区| 九色视频在线免费观看| 精品一区二区三区中文字幕| 国产精品无码制服丝袜| 91原创视频在线| 亚洲色图另类| 午夜色综合| 国产在线观看人成激情视频| 成人久久精品一区二区三区| 秋霞一区二区三区| 免费国产小视频在线观看| 欧美yw精品日本国产精品| 永久免费av网站可以直接看的| 三级欧美在线| 伊人久久大香线蕉影院| 婷婷色一区二区三区| 欧美亚洲国产精品第一页| 午夜精品区| 2021精品国产自在现线看| 特级毛片8级毛片免费观看|