


摘 要:隨機森林算法(RF)是一種將決策分類樹綜合起來的預測及分類的算法,RF首先將眾多分類樹匯總起來,進而提高模型精度,由于隨機森林利用的是Bootstrap方法進行抽樣,進而產生許多個Bootstrap樣本,建立新的分類模型,但是Bootstrap抽樣方法也有它自身的缺點,降低了隨機森林模型的效率和精確度。文章提出將改進的Bootstrap方法(BLB)運用到隨機森林模型中,減少評估估計質量的計算成本,提高其分類預測的效率。
關鍵詞:隨機森林;機器學習;BLB重抽樣;數據挖掘
引言
在數據和信息急劇膨脹的今天,人們可以很容易的獲取數據和信息,如何對這些數據做有效處理,從中挖掘出有價值的信息,在原有統計分析和數據挖掘工具的基礎上,進行進一步優化研究是大數據處理領域的熱點問題之一。分類分析一直是數據挖掘中的熱點問題之一,但是由于單分類器自身的限制,有學者開始提出將眾多分類器的分類結果通過某種方式整合在一起, 產生隨機森林算法。 在大數據的背景之下,Ishwaran等人[1]之前驗證過隨機森林的一致性及收斂性,并認為隨機森林在高維數據等方面[2]明顯優于其余分類方法。Breiman將Bagging集成學習理論[3]和Kam的隨機子空間方法[4]結合起來,并且對隨機森林方法從原理及應用等方面進行了詳細的論述。
1 改進的隨機森林分類方法
1.1 BLB算法
BLB抽樣方法[5]是在Bootstrap的基礎上進行改進的重抽樣方
1.2 改進的隨機森林的算法步驟
(1)采用BLB重抽樣方法重復抽取n個樣本,將其作為一個訓練集;(2)建立決n棵決策樹,使用基尼指數作為進行評估,形成不需要剪枝的完整樹;(3)將測試集的測試結果采用多數投票法(Majo
rity Voting),得票最多的類別就是分類結果。
2 改進的隨機森林算法的應用
自然界中,探險者發現了三種肉眼分不太清的形態相似的植物,首先我們找到四個量度指標(W1,W2,W3,W4),然后通過運行改進的隨機森林算法的程序進行種類識別。表1給出了具體數據。
具體代碼運行過程如下,得到改進的隨機森林的結果。
In stall. packages(\"Im-random Forest\") #安裝改進的隨機森林程序包
Library(Im-random Forest)#調用改進的隨機森林程序包
Plant<- read.txt(\"c:/data/plant.txt\")#往Plant中輸入數據
IRF1 Plant[‘kinds’],Importance=RIGHT, ntree=20000)#運行改進的隨機森林模型 IRF1#顯示出模型運算結果 最后輸出由該量度判斷出的植物類別。 表2中顯示模型對A的判別失誤率為20%,對B、C的錯誤判斷率均為0,比經典的隨機森林模型高出8%。 運行改進的隨機森林算法的程序產生的結果內部會含有一組判別函數,通過運行下列代碼判定植物的種類。 New. data<-data. frame(W1=10,W2=40,W3=20,W4=10)#一個新植物的量度 Predict(IRF,new.data,Type=\"prob\")#判別此量度的植物歸類為三種植物的概率 Predict(IRF,new.data,Type=\"Frequency Response\")#判別此量度的植物的類別。 判別的結果為A,B,C的概率分別為90.3%,9.3%,6.4%。因此將其判別為A種植物。 3 結束語 近年來,隨機森林在理論及方法上有了很大提升,眾多學者也對其進行各種改進。文章中所提出的改進的隨機森林算法雖然能在處理很大數據時,提高運算速度,但是改進的隨機森林在預測分類等方面仍然有一些不足之處。大數據已經滲透到我們的生活中,隨機森林算法也應該與時俱進,對其進行改進已成為眾學者不可推卸的任務。 參考文獻 [1]Ishwaran H, Kogalur U B, Blackstone E H, Lauer M S. Random Survival Forests [J]. The Annals of Applied Statistics,2008,2(3):18-28. [2]Ishwaran H, Udaya B, Kogalur. Consistency of Random Survival Forests[J]. Statistics and Probability Letters, 2010,80(9):13 -14. [3]L.Breiman. Bagging Predicators[J].Machine Learning,1996,24(2):123-140. [4]T. K. Ho,he Random Subspace Method for Constructing Decision Forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844. [5]L. Breiman,Random Forests [J].Machine Learning,2001,45(1):5-32.