999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于隨機森林的扶貧識別辦法

2021-09-14 14:25:50陸澤凱王雅瑜謝穎
中國市場 2021年25期
關鍵詞:機器學習評價指標精準扶貧

陸澤凱 王雅瑜 謝穎

[摘 要]2020 年是我國全面建成小康社會的決勝年,我國也進入了決戰決勝脫貧攻堅的最后階段。唯有精確的識別貧困人口,才能推進精準扶貧工作更好地開展。文章以西部內陸省份 G 省 A 市農村地區的調研數據為基礎,選取了多個指標,通過隨機森林算法來精確識別貧困人口。通過研究發現,隨機森林算法在甄別貧困人口中效果好,同時擁有較大的靈活性,能較好適應精準扶貧識別工作。

[關鍵詞]精準扶貧;機器學習;隨機森林;評價指標

[DOI]10.13939/j.cnki.zgsc.2021.25.022

1 引言

2018年2月12日,習近平總書記在打好精準脫貧攻堅戰座談會上強調,脫貧攻堅,精準是要義。必須堅持“六個精準”,扶貧扶到點上扶到根上。但是,隨著扶貧工作難度的提高,一些缺陷日益突出。一些冒領扶貧款,扶貧名額變成干部“獲取民心”的工具、扶貧名額分配不均的情況時有發生。以四川省×縣為例,每個村只有十幾個指標申請貧困戶,卻經常達到幾百號人甚至幾乎全村的人都去申請,這種情況下扶貧名額的分配往往由干部的主觀意愿決定。這種情況也不僅僅發生在西部地區,在沿海發達省份廣東省 S 市也出現了扶貧不精確、不高效的問題。這些問題與扶貧對象的識別不夠精確有緊密關系。而文章以我國扶貧的重要攻堅點西部 G 省 A 市某一農村為研究樣本,注重研究一種基于隨機森林模型的貧困戶精準識別評價體系。

2 隨機森林模型

隨機森林(Random Forest)是一種集成學習方法,常用于分類、回歸和其他機器學習任務[1]。它的原理是在訓練時構建大量決策樹(Decision Tree),隨機森林的每一棵決策樹之間是沒有關聯的,當有一個新的樣本進入算法的時候,每一棵決策樹都會分別進行一下判斷,并各自識別這個樣本應該屬于哪一類別,然后根據某一類別被選擇最多,就預測這個樣本為哪一類別,隨機森林有效地糾正了決策樹擬合的問題。[2]

在統計學中,邏輯回歸(Logistic Regression)是最常用的分類算法,因為其易解釋性,常常是傳統社科文章定量分類的工具[3],然而由于一般的邏輯回歸有一定的局限性,通常需要通過增加組合項或高斯項來提高其分類性能,然而添加了各類項式后模型的解釋力度卻也下降了。同時有研究指出,在較小數據中隨機森林分類的效果優于邏輯回歸模型,研究中重點是放在模型的精確度上而不是其解釋性上,因此文章采用了隨機森林的算法,以提高模型的分類性能。

3 問卷清洗

本次調研通過研究人員與 G 省 A 市某農村村委會的溝通,通過該村支部的工作人員分發紙質問卷為主要調查手段,分發了600張問卷,在該村委會的大力支持下共回收問卷 329 份,回收率達到了54%,問卷涵蓋了個人情況、家庭情況以及各種社會保險情況共三個方面。

本次問卷調研中是貧困戶的對象為 78 人,非貧困戶的對象為 251 人,調研中對象的貧困發生率約為 23.7%。由于被調查者問卷填寫不規范、對自身信息不確定、不愿公開個人信息等原因,導致問卷中存在一定數量的缺失值,為提高數據的可用性,方便進一步分析問卷數據,本節對問卷問題進行描述并對問卷中的缺失值進行進一步的填補。

由于預測的目標變量——是否為貧困戶是村委會提供相應的扶貧數據并沒有出現缺失,研究中用的是填補后的家庭成員數量以及勞動成員數量,也不存在缺失值。

研究中對于數值型變量采用了中位數填補法,這是由于扶貧數據的特殊性所致的。扶貧對象和普通人之間往往存在收入、支出等各方面差異懸殊的情況。如果使用平均數填補法容易出現扶貧對象被平均的情況,導致數據失真。而在因子型變量中采用給缺失值貼新標簽的方法,則利用了機器學習分類預測的優勢,由于目標變量始終是確定的,因此新的標簽也可以作為被機器學習使用的特征,比如說在低保戶申請上如果不選擇回答的人中的目標變量觀測值較多的是扶貧對象,他們可能出現難以啟齒的現象而選擇不回答。那么機器學習也會給這個缺失值標簽在扶貧對象的識別上更多的權重。在完成缺失值的填補后就可以利用機器學習算法進行預測了。

4 模型預測效果

將被調研的人分為兩類:第一類是獲得精準扶貧補助的貧困戶;第二類是未獲得精準扶貧補助的非貧困戶,通過隨機森林算法進行二分類預測。以前面收集到的 G 省 A市所得數據并清理好的數據進行訓練,通過隨機森林模型預測被調研者是否貧困。數據的自變量是被調研者關于 16 項問卷問題的回答,因變量則為一個是否貧困的標簽。算法中會自動將數值型數據進行標準化處理(Standardize),并將因子型變量轉換為機器識別的啞變量(Dummy Variable),隨機森林的參數如表2所示。

將數據集分為 10 折,其中 9 折作為訓練集以建立和優化模型,1 折作為驗證集以驗證模型在新數據上的表現,并采用自助法訓練以克服數據集較小的弱點。根據上面的參數設定隨機森林模型訓練后得到以下結果,如表3所示。

模型的準確性(Accuracy)達到了 80%,機器學習中最為關注的 ROC 曲線下方的面積大?。ˋUC)也達到了 86.59%,下圖為模型的 ROC 曲線圖。其他測量模型適應度的數值也相對比較高。模型的 Kappa值達到了 57.64%,表現出模型一致性較好,模型在各折數據上都表現出較強的魯棒性(Robust)。綜上所述,隨機森林模型訓練效果較好,能較好識別出貧困人口。之后根據模型給出的結果做出混淆矩陣(Confusion Matrix),如表4所示。可以發現模型在識別錯誤的兩種情況即假陽性和假陰性。假陽性為 52,在模型中表示為錯誤的將本來不是貧困戶的對象給識別為貧困戶。假陰性為 14,在模型中表現為將本來是貧困戶的識別為非貧困戶。現實中,希望的是寧可幫錯一個也不能少幫一個。模型還是較好的符合預期,模型后續還可以加入懲罰函數,對假陰性施加懲罰項,以減少識別錯誤的概率。

猜你喜歡
機器學習評價指標精準扶貧
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
第三方物流企業績效評價研究綜述
商(2016年33期)2016-11-24 23:50:25
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于UML的高校思想政治教育工作評價系統的分析與研究
公共文化服務體系評價指標的國際經驗與啟示
中國市場(2016年38期)2016-11-15 00:01:08
資源型企業財務競爭力評價研究
中國市場(2016年33期)2016-10-18 13:33:29
基于支持向量機的金融數據分析研究
“精準扶貧”視角下的高校資助育人工作
科技視界(2016年20期)2016-09-29 12:23:49
主站蜘蛛池模板: 美美女高清毛片视频免费观看| 久久99国产精品成人欧美| 98超碰在线观看| 亚洲成a人片在线观看88| 9丨情侣偷在线精品国产| 国国产a国产片免费麻豆| 欧美在线一二区| 波多野结衣AV无码久久一区| 大乳丰满人妻中文字幕日本| 久久这里只有精品23| 亚洲va在线∨a天堂va欧美va| 91精品情国产情侣高潮对白蜜| 国产成人h在线观看网站站| 狠狠躁天天躁夜夜躁婷婷| 午夜影院a级片| 国产成人无码久久久久毛片| 久久久久久久蜜桃| 日本精品一在线观看视频| 国产在线一区视频| 天天躁夜夜躁狠狠躁躁88| 久久五月天国产自| 欧美高清三区| 色综合久久无码网| 亚洲无码精品在线播放| 狠狠五月天中文字幕| 国产拍在线| 99精品热视频这里只有精品7| 无码日韩人妻精品久久蜜桃| 亚洲第一成人在线| 91免费观看视频| 欧美亚洲激情| 五月婷婷综合色| 人人91人人澡人人妻人人爽| 国产三级视频网站| 久久黄色影院| 亚洲视频欧美不卡| 精品午夜国产福利观看| 在线观看精品国产入口| 久久综合丝袜长腿丝袜| 国产区福利小视频在线观看尤物| 国产免费网址| 老司国产精品视频| 成年人国产视频| 久久精品aⅴ无码中文字幕 | 992Tv视频国产精品| 67194亚洲无码| 啊嗯不日本网站| 67194亚洲无码| 91成人精品视频| 秋霞一区二区三区| 欧美激情第一区| 男人天堂伊人网| 国产福利2021最新在线观看| 萌白酱国产一区二区| 国产精品成人免费视频99| 色综合五月婷婷| 黄色污网站在线观看| 国产精品伦视频观看免费| 日韩无码视频专区| 国产在线视频二区| 日韩无码精品人妻| 伊人中文网| 国产美女自慰在线观看| 国产精品永久久久久| 欧美啪啪精品| 国产精品亚洲一区二区在线观看| 91精品网站| 亚洲男人天堂网址| 亚洲精品大秀视频| 农村乱人伦一区二区| 精品国产Av电影无码久久久| 毛片久久久| 国产国语一级毛片在线视频| 国产男人的天堂| 国产高清在线观看91精品| 狠狠色噜噜狠狠狠狠色综合久| 国内精品伊人久久久久7777人| Aⅴ无码专区在线观看| 亚洲国产日韩欧美在线| 色综合狠狠操| 草逼视频国产| 亚洲最大情网站在线观看|