(一)Bootstrap。Bootstrap(自助法)指在訓(xùn)練集里有放回的重采樣等長(zhǎng)的數(shù)據(jù)形成新的數(shù)據(jù)集并計(jì)算相關(guān)參數(shù),重復(fù)n次得到對(duì)參數(shù)的估計(jì),計(jì)算標(biāo)準(zhǔn)誤。Bootstrap不僅可以用于均值估計(jì),也可以對(duì)任意統(tǒng)計(jì)量,如偏差、方差等。
(二)Random Forest。隨機(jī)森林是一種統(tǒng)計(jì)學(xué)習(xí)理論,它利用bootstrap重采樣方法從原始樣本中提取多個(gè)樣本,對(duì)每個(gè)bootstrap樣本采用決策樹(shù)進(jìn)行建模,然后結(jié)合多個(gè)決策樹(shù)的預(yù)測(cè),通過(guò)投票得到最終的預(yù)測(cè)結(jié)果。實(shí)踐證明,隨機(jī)森林具有較高的預(yù)測(cè)精度,對(duì)異常值和噪聲有較好的容忍度,不易出現(xiàn)過(guò)擬合。換而言之,隨機(jī)森林是天然的、非線性建模工具,持續(xù)地訓(xùn)練樣本信息,具有良好的自適應(yīng)功能,非常適合解決先驗(yàn)知識(shí)不清楚、沒(méi)有規(guī)則且約束條件多和不完整數(shù)據(jù)的應(yīng)用程序,方便快速,克服了傳統(tǒng)預(yù)測(cè)方法導(dǎo)致間接獲取信息和知識(shí)不僅費(fèi)時(shí)而且效率不高的缺點(diǎn),這為預(yù)測(cè)實(shí)踐奠定了基礎(chǔ)。
實(shí)際上,隨機(jī)森林一般可以理解為由許多決策樹(shù)組成的森林,每個(gè)樣本必須由每棵樹(shù)進(jìn)行預(yù)測(cè),并根據(jù)所有決策樹(shù)的預(yù)測(cè)結(jié)果確定整個(gè)隨機(jī)森林的預(yù)測(cè)結(jié)果。隨機(jī)森林中的每棵決策樹(shù)是二叉樹(shù),其生成遵循從上到下的遞歸劃分的原則,即訓(xùn)練集從根節(jié)點(diǎn)開(kāi)始依次劃分訓(xùn)練集。在二叉樹(shù)中,根節(jié)點(diǎn)包含所有訓(xùn)練數(shù)據(jù),按照節(jié)點(diǎn)不純度最小原則,它分為左節(jié)點(diǎn)和右節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包含訓(xùn)練數(shù)據(jù)的子集,遵循相同的規(guī)則,節(jié)點(diǎn)將繼續(xù)分裂,直到滿足分支停止規(guī)則并且停止增長(zhǎng)。
采用Bootstrap方法進(jìn)行自助抽樣時(shí),原始訓(xùn)練集中有N個(gè)樣本,那么每個(gè)樣本未被抽取的概率為,當(dāng)原始訓(xùn)練集中樣本特別多時(shí),將趨向于0.368,這就告訴大家原始樣本集中有差不多37%的樣本不會(huì)出現(xiàn)在Bootstrap樣本中。所以,要更好地應(yīng)用隨機(jī)森林模型,還需構(gòu)造多個(gè)不同的訓(xùn)練集,以此來(lái)增加分類模型間的差異,這樣可以提高組合分類模型的外推預(yù)測(cè)能力。這樣的訓(xùn)練經(jīng)過(guò)k輪,得到一個(gè)分類模型序列{h1(x),h2(x),…,hk(x)},把這些序列利用起來(lái)構(gòu)成一個(gè)多分類模型系統(tǒng),則可以得到其余量函數(shù)(margin function):

這個(gè)函數(shù)主要用來(lái)測(cè)度平均正確分類樹(shù)超過(guò)平均錯(cuò)誤分類樹(shù)的程度,函數(shù)值越大,說(shuō)明分類預(yù)測(cè)就越可靠。因此,外推誤差則為:

隨著決策樹(shù)分類模型的增加,所有序列PE*幾乎處處收斂于:

公式里面,θ指的是選用所有變量所建立的分類模型。
公式2.2和 2.3 表明隨機(jī)森林模型不會(huì)隨著決策樹(shù)的增加而產(chǎn)生過(guò)度擬合的問(wèn)題,但可能會(huì)產(chǎn)生一定限度內(nèi)的外推誤差。
于是余量函數(shù)mr(X,Y)定義為:

則分類模型集合的強(qiáng)度s是:

假設(shè)s≥0,則根據(jù)切比雪夫不等式有:


由此公式可以看出,如果增加樹(shù)的相關(guān)性或者降低組合分類模型的強(qiáng)度,外推誤差的上界就會(huì)趨向于增加,隨機(jī)化也會(huì)減少?zèng)Q策樹(shù)間的相關(guān)性,以此達(dá)到改善組合分類模型外推誤差大小的目的。
(一)選取貧困戶的樣本。為了使得論文的數(shù)據(jù)更具有代表性,本人共統(tǒng)計(jì)了450戶的家庭情況。在這450戶當(dāng)中,有245戶是貧困家庭,205戶非貧困家庭。在統(tǒng)計(jì)過(guò)程中,主要采取了問(wèn)卷調(diào)查的方式對(duì)貧困家庭的個(gè)人基本情況、家庭總體情況、家庭收入來(lái)源情況、家庭可支配收入等方面進(jìn)行了調(diào)查統(tǒng)計(jì)。根據(jù)理論,將這數(shù)據(jù)量里面的2/3作為訓(xùn)練集,也就是訓(xùn)練集里面是300個(gè)樣本,其中貧困家庭樣本為163個(gè),非貧困家庭樣本為137個(gè);剩下的150個(gè)數(shù)據(jù)為貧困戶測(cè)試集數(shù)據(jù),其中貧困家庭樣本有82個(gè),非貧困家庭樣本有68個(gè)。為了更好地運(yùn)用隨機(jī)森林模型,本文針對(duì)家庭可支配收入以5000的貧困標(biāo)準(zhǔn)對(duì)所統(tǒng)計(jì)數(shù)據(jù)進(jìn)行了分組處理,將家庭可支配收入小于5000的分為1組,家庭可支配收入介于[5000,10000)這一區(qū)間的分為2組,家庭可支配收入介于[10000,15000)這一區(qū)間的分為3組,家庭可支配收入介于[15000,20000) 這一區(qū)間的分為4組,家庭可支配收入在20000以上的標(biāo)記為5組。
(二)Random Forest模型建立。基于裝袋法對(duì)隨機(jī)森林進(jìn)行了修改,這基本上是對(duì)決策樹(shù)算法的一種改進(jìn)而對(duì)多個(gè)決策樹(shù)進(jìn)行的組合。每棵樹(shù)的建立取決于獨(dú)立的采集樣本,而且每棵樹(shù)具有相同的分布,分類誤差取決于每個(gè)決策樹(shù)的分類能力及其相關(guān)性。具體步驟如下:1.設(shè)N為原始訓(xùn)練集樣本的數(shù)量,M為變量的數(shù)量。2.需要找到固定值m,此值用于確定在制定節(jié)點(diǎn)決策時(shí)要使用多少個(gè)變量。應(yīng)該注意的是,決策時(shí)m小于M;3.使用自助服務(wù)方法,我們隨機(jī)抽取了k個(gè)新的自助服務(wù)樣本集,并構(gòu)建了k棵決策樹(shù),每次沒(méi)被抽到的樣本組成了袋外數(shù)據(jù);4.每個(gè)自助服務(wù)樣本集都成長(zhǎng)為單棵決策樹(shù),在樹(shù)的每個(gè)節(jié)點(diǎn)上,從M個(gè)功能中隨機(jī)選擇m個(gè)功能(m小于M)。根據(jù)節(jié)點(diǎn)不純度最小的原則選擇M函數(shù),然后選擇功能進(jìn)行分支增長(zhǎng)。然后完全生長(zhǎng)決策樹(shù),以最大程度地減少每個(gè)節(jié)點(diǎn)上的雜質(zhì),并且不執(zhí)行正常的修剪操作。5.根據(jù)生成的多決策樹(shù)分類器對(duì)需要預(yù)測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè),并根據(jù)各決策樹(shù)的投票結(jié)果選擇投票數(shù)最高的類別。
在構(gòu)建隨機(jī)森林時(shí),使用自助樣本集來(lái)形成每個(gè)樹(shù)分類器。通過(guò)每次采樣生成的袋外數(shù)據(jù)用于預(yù)測(cè)分類精度,并且通過(guò)收集每個(gè)預(yù)測(cè)結(jié)果來(lái)獲得錯(cuò)誤率,接著評(píng)估外部數(shù)據(jù)和估計(jì)組合分類的正確率。此外,在隨機(jī)森林中,當(dāng)生成每棵決策樹(shù)時(shí),從原始訓(xùn)練樣本集中隨機(jī)選擇使用的自助樣本集,在每個(gè)節(jié)點(diǎn)上隨機(jī)選擇每個(gè)決策樹(shù)使用的變量,并從所有變量M中隨機(jī)選擇,從而最小化了各棵決策樹(shù)之間的相關(guān)性,提高了分類精確度。
(三)Random Forest模型中貧困戶的精準(zhǔn)識(shí)別
首先,在已經(jīng)創(chuàng)建好的模型中放入我們訓(xùn)練集中的變量,這樣就得到分類結(jié)果。接著,需要把實(shí)際情況跟前面得到的分類結(jié)果進(jìn)行對(duì)比,很容易發(fā)現(xiàn)此隨機(jī)森林模型存在過(guò)度擬合的問(wèn)題,所以需要進(jìn)行調(diào)參。比如說(shuō)通過(guò)減少樹(shù)的深度、增大分裂節(jié)點(diǎn)樣本數(shù)、減少特征數(shù)等來(lái)降低模型的復(fù)雜度,從而實(shí)現(xiàn)調(diào)參的目的。最后,借用醫(yī)學(xué)上的“金標(biāo)準(zhǔn)”來(lái)進(jìn)行初步檢測(cè),因此得出了隨機(jī)森林算法對(duì)訓(xùn)練集數(shù)據(jù)的混淆矩陣,從這個(gè)混淆矩陣中可以得到貧困識(shí)別中的陽(yáng)性預(yù)測(cè)值為0.944、陰性預(yù)測(cè)值為0.976,表明在預(yù)測(cè)的貧困戶中貧困戶所占的比率近似是94.4%,非貧困戶所占的比率近似為97.6%,具體見(jiàn)表2和3-2。

表2 Random Forest算法對(duì)訓(xùn)練集數(shù)據(jù)的混淆矩陣

表3-2 Random Forest分類檢驗(yàn)指標(biāo)(1)
為了得到隨機(jī)森林模型其他方面的特性,我們?nèi)孕柽M(jìn)一步的進(jìn)行檢驗(yàn),主要的檢驗(yàn)指標(biāo)見(jiàn)下表3-3。

表3-3 Random Forest分類檢驗(yàn)指標(biāo)(2)
由表3-3可知,Random Forest分類模型中的0.958表明在該模型中被正確分類的貧困戶和非貧困戶占所有戶數(shù)的比值,0.042可以說(shuō)明模型分類的誤差比較小,0.981表明模型能正確識(shí)別的貧困戶,0.931表明模型能正確識(shí)別93.1%的非貧困戶,0.944表明模型分類的精確性比較高,0.962 說(shuō)明Random Forest分類器對(duì)于貧困識(shí)別的分類效果越好,0.956表明Random Forest模型的性能很好,0.452表明了Random Forest分類模型的預(yù)測(cè)性能還有待提高。
脫貧攻堅(jiān)是全面建成小康社會(huì)的底線任務(wù)和標(biāo)志性指標(biāo),全面建成小康社會(huì),困擾了中華民族幾千年的絕對(duì)貧困問(wèn)題,將歷史性地得到解決,中國(guó)人民將書(shū)寫(xiě)人類發(fā)展史上的偉大傳奇。唯其如此,我們更加深刻地體味到“決戰(zhàn)決勝脫貧攻堅(jiān)”的歷史意義和分量。在調(diào)研過(guò)程中發(fā)現(xiàn),貧困家庭的貧困原因各有各的不同,有些家庭貧困是因?yàn)榧膊 ⒁驗(yàn)闅埣玻行┘彝ヘ毨且驗(yàn)榻逃行┘彝ケ緛?lái)已經(jīng)脫貧了但卻因病返貧,也有一些家庭貧困是因?yàn)槿狈趧?dòng)力。雖然目前在我國(guó)采用的扶貧方式不少,比如說(shuō)資金幫扶、產(chǎn)業(yè)幫扶、補(bǔ)貼幫扶等等措施,但是在實(shí)際中仍會(huì)發(fā)現(xiàn)并沒(méi)有完全做到因貧施策。所以最好的做法是能在了解貧困家庭現(xiàn)狀以及貧困原因之后,制定有針對(duì)性的解決方案,從而高效實(shí)施扶貧措施,精準(zhǔn)幫扶貧困群體。