999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘回歸樹算法預測河流海藻富氧化的分析與比較

2015-06-27 01:23:10段俊陽佘春華
城市地理 2015年12期
關鍵詞:數據挖掘模型

段俊陽 佘春華

(銅仁學院,貴州 銅仁 554300)

一、引言

某些高濃度的有害藻類嚴重破壞著河流的生態環境,因此,能夠監測并及早對海藻的繁殖進行預測對提高河流的質量是很有必要的。在約一年時間內,在不同的時間收集了多條不同河流的水樣。每個水樣測定了它們不同的化學性質和7種有害藻類的存在頻率。還記錄了如收集的季節、河流大小和水流速度。

案例研究動機:化學監測相對人工檢測價格便宜,且易于自動化更好地了解藻類的頻率和水樣的某些化學性質以及其他特性 (如季節、河流類型等)是如何相關的。

二、R軟件

R是一套完整的數據處理、計算和制圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具 (其向量、矩陣運算方面功能尤其強大)[2];完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸出,可實現分支、循環,用戶可自定義功能。R在語義上是函數設計語言。它允許在“語言上計算”。這使得它可以把表達式作為函數的輸入參數,而這種做法對統計模擬和繪圖非常有用。R是一個免費的自由軟件。本案例使用的是R的3.0版。

三、回歸樹模型

我們考慮使用回歸樹預測。建立回歸樹:

library(rpart)

data(algae)

algae< -algae[-manyNAs(algae),]

rt.a1< -rpart(a1~.,data=algae [,1:12])

我們第一步讀入數據:說明我們的數據集中首行并不是變量的名稱,col.names是給這些變量一個名稱,na.strings=c("XXXXXXX")是說數據中缺失的變量是用XXXXXXX表示的。

數據集中的season表示采集樣本所在的季節,size表示河流的規模,speed是流速,mxPH之類的是河流的一些化學屬性,后面的a1,a2,……,a7是我們需要預測的一些變量。是對于水藻生長集中程度的一種度量。algae[1:5,]##這個表示顯示數據集的前五行,結果如下圖1:

函數的形式是用數據中其他所有變量來預測a1,data是用來設定建模所用的數據集。

回歸樹 rt.a1 的圖形表示的兩種方法:[1]plot(rt.a1),text(rt.a1)或 prettyTree(rt.a1)

建立回歸樹通常分兩步。最初,生成一棵較大的樹,然后通過統計估計刪除底部的一些結點來對樹進行修剪。這樣是為了防止過度擬合。[4]用已有的訓練數據獲得模型的性能指標是不可靠的,因為這些計算是有偏的。實際上,有的模型可以很容易獲得訓練數據的零誤差預測。然而,這一優秀性能很難推廣到目標變量值未知的新樣本上。這種現象我們通常稱為過度擬合訓練數據。我們需要一個模型,使它在未知數據上有可靠的預測性能。

1、查看比較結果的摘要:summary(res),首先我們得到這個數據集的一個描述性統計:我們用的函數是summary截圖是從R的工作臺中直接復制過來的,給出了所有變量的基本的描述統計量,對于控制變量 (季節之類的),給出的是頻數統計,對于數值變量,給出的是最小值,均值,中位數,最大值,25%分位數,75%分位數這些最常用的統計量。

2、可通過以下代碼查看模型所對應的參數:得到一棵完整的回歸樹如下圖生成回歸樹:

四、模型的應用過程分析

1、函數來證實組合方法的優勢

bestScores(res.all)

對于某些問題,隨機森林給出很好的結果。但像海藻7,結果還不能令人滿意。

2、為每種藻類選擇最優的預測模型。funcs保存最優模型的函數名;函數strsplit()提取模型名稱;parSetts接受每個最優模型的參數;getVariant()返回模型類對象;"@"操作符用來訪問對象的屬性;最后,調用do.call()得到相應的7個最優模型,并賦給bestModels。

3、填補測試集中的缺失值。遵守預測模型的黃金法則“不要應用測試集中的任何信息來建立預測模型”,[4]應該使用訓練集數據的關系來填補測試集中的缺失值。

4、獲取預測值矩陣

5、預測值與真實值的比

五、總結

這里以目標變量的均值作為基準模型的預測值,然后通過計算NMSE值評估預測結果的質量。最終得到的結果與前面交叉驗證的估計結果相一致。它再次確認很難得到海藻7的較好的預測,而其他海藻的估計結果相對較好,海藻1的估計結果為最佳。

[1]朱迪茨.實用教據挖掘 [M].北京:電子工業出版社,2004.

[2]魏萍萍,王翠茹,王保義,張振興.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程,2003(7).

[3](英)漢德 (Hand,D.)著.數據挖掘原理 [M].張銀奎,等譯.北京:機械工業出版社,2003.

[4]于承敏.數據挖掘技術運用ff-4t育領域之探討[J].聊城大學學報,2005(6).

猜你喜歡
數據挖掘模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 亚洲成aⅴ人在线观看| 亚洲另类色| 中文国产成人久久精品小说| 亚洲制服中文字幕一区二区 | 国产手机在线小视频免费观看| 亚洲日韩精品无码专区97| 丁香婷婷激情综合激情| 午夜不卡视频| 国产亚洲欧美日韩在线一区| 亚洲第一页在线观看| 欧美在线网| 国产91视频免费| 最新无码专区超级碰碰碰| 久久久久久高潮白浆| 久久精品嫩草研究院| jijzzizz老师出水喷水喷出| 亚洲一区黄色| 91欧洲国产日韩在线人成| 国产国产人成免费视频77777| 欧美成人精品欧美一级乱黄| 中文字幕一区二区视频| 欧美va亚洲va香蕉在线| 色综合久久综合网| 亚洲欧美色中文字幕| 国产精品成人AⅤ在线一二三四| 亚洲午夜综合网| 美美女高清毛片视频免费观看| a级毛片免费看| 国产精品深爱在线| 不卡午夜视频| 亚洲欧美成人在线视频| 国产精品网拍在线| 新SSS无码手机在线观看| 久久国产免费观看| 欧洲成人免费视频| 18禁高潮出水呻吟娇喘蜜芽| 亚洲啪啪网| 91久久精品国产| 日韩久草视频| 国产美女免费| 成人国产精品网站在线看| 成人毛片免费观看| 东京热一区二区三区无码视频| 青青操视频在线| 国产精品毛片一区| 国产欧美日本在线观看| 欧美精品v欧洲精品| 色婷婷综合激情视频免费看| 日韩精品一区二区深田咏美| 免费一级全黄少妇性色生活片| 国产精品久久久久鬼色| 久久久久青草线综合超碰| 国产精品lululu在线观看| 精品福利视频导航| AV片亚洲国产男人的天堂| 亚洲乱强伦| 国产在线专区| 国产精品久久久精品三级| 国产第三区| 午夜三级在线| 久久99国产精品成人欧美| 一本一道波多野结衣一区二区| 亚洲精品中文字幕午夜| 福利片91| 国产综合色在线视频播放线视| 国产精品久久久久久影院| 久久99国产乱子伦精品免| 丁香五月激情图片| 亚洲日韩高清在线亚洲专区| 亚瑟天堂久久一区二区影院| 亚洲精品亚洲人成在线| 最新国产高清在线| 毛片在线看网站| 国产综合欧美| 在线不卡免费视频| 五月天福利视频| 免费午夜无码18禁无码影院| 99ri精品视频在线观看播放| 久久久精品国产SM调教网站| 日本午夜网站| 欧美一区二区福利视频| yy6080理论大片一级久久|