吳朝霞 常慶麗 王偉
摘 要 目前,部分企業(yè)與政府部門已經(jīng)針對扶貧工作開發(fā)了對應(yīng)的系統(tǒng),這些系統(tǒng)提供了對貧困用戶的精準識別、精確幫扶、精確管理以及數(shù)據(jù)分析決策功能。但是常用的精準扶貧很難進行量化評估,為了解決該問題,本文通過大量的數(shù)據(jù)樣本,結(jié)合數(shù)據(jù)本身的特點選擇了決策樹算法對扶貧數(shù)據(jù)進行研究。最后通過大量的樣本數(shù)據(jù)和ID3算法得出了基于高校學生的精準扶貧模型,可以很好的評價度量學生的資助政策。
關(guān)鍵詞 幫扶模型 決策樹 ID3
中圖分類號:O1 文獻標識碼:A 文章編號:1007-0745(2021)11-0056-03
在習近平總書記提出堅決打贏脫貧攻堅戰(zhàn)后,為響應(yīng)國家的號召,各個地區(qū)開始投入資源,推進扶貧工作的實行。而傳統(tǒng)的扶貧工作存在一些問題,如信息查詢不夠方便、人工采集容易出錯等。因此需要一款針對精準扶貧工作的系統(tǒng)來進行輔助,使扶貧信息管理更加細化,提升扶貧信息管理的效率,滿足扶貧機構(gòu)的相關(guān)工作需求。[1]
為了使系統(tǒng)能夠進行精準識別,可以在高校精準扶貧系統(tǒng)中添加決策樹算法,利用決策樹算法實現(xiàn)趨勢分析、提供輔助決策等功能,并建立相應(yīng)的信息化支撐體系。
1 決策樹算法
決策樹就是數(shù)據(jù)結(jié)構(gòu)中的樹,每一個葉子節(jié)點都是一種選擇的結(jié)果,而每個分叉路代表該特征的具體內(nèi)容。決策樹算法是根據(jù)離散函數(shù)值進行分析的方法,是一種分類算法。[2]對數(shù)據(jù)進行預(yù)處理,然后歸納總結(jié)出一個可讀的規(guī)則和決策樹,根據(jù)總結(jié)的決策樹對新的數(shù)據(jù)進行預(yù)測分析,推測新數(shù)據(jù)的決策結(jié)果。本質(zhì)上決策樹就是通過數(shù)據(jù)特征歸納出的規(guī)則對數(shù)據(jù)進行分類的過程。
預(yù)測模型分類結(jié)果是決策樹其中一個用途。決策樹中的每個非葉子節(jié)點都是根據(jù)不同的分類算法在所有的特征中相互比較得出的,從根節(jié)點到葉子節(jié)點,其中的每一條路徑都是一條分類規(guī)則,決策樹就是把這些規(guī)則都統(tǒng)計組合在一起,用來進行預(yù)測。[3]
2 決策精準扶貧模型
2.1 數(shù)據(jù)的預(yù)處理
本研究采用的是以某高校經(jīng)濟困難學生數(shù)據(jù)為模型構(gòu)建的數(shù)據(jù)訓練集。訓練集共包含計算機科學與技術(shù)400人,獲得補助的有50人,涉及的分類屬性分別是“是否建檔立卡”、“是否最低生活保障學生”、“是否特困救助學生”、“是否孤兒”、“是否事實撫養(yǎng)兒童”、“是否烈士子女”、“是否殘疾學生”、“是否殘疾人子女”(如表1家庭情況調(diào)查表所示)。
2.2 數(shù)據(jù)模型的構(gòu)建
常用的決策樹實現(xiàn)算法有下述三種。
2.2.1 ID3算法
2.2.2 C4.5算法
C4.5算法是對ID3算法進行了改進,如果X是一個連續(xù)型隨機變量,此時采用ID3算法就無法計算了,而C4.5算法把連續(xù)型隨機變量用區(qū)間表示,這樣就可以使用ID3算法的計算過程進行計算,并在此基礎(chǔ)上計算出信息增益比來進行比較,信息增益比的計算公式:
2.2.3 CART算法
CART算法是選出基尼指數(shù)選出最大的屬性作為最佳分裂屬性進行劃分,假設(shè)有K種分類,樣本點屬于第k類的概率為pk,基尼指數(shù)為Gini(p)=∑Kk=11-pk2,如果樣本集合D根據(jù)特征被劃分為D1和D2兩部分,此時集合D的基尼指數(shù)Gini(D,A)=Gini(D1)+Gini(D21)。[7]
由于本研究的數(shù)據(jù)不存在連續(xù)性,因此采用ID3算法進行模型的構(gòu)建。首先計算集合整體的熵-(log2+log2),[8]然后計算各個分類的條件熵和信息增益,計算結(jié)果如表2特征信息增益表所示。
然后選出信息增益最大的作為根節(jié)點,根據(jù)根節(jié)點的特征取值,繼續(xù)選出下一節(jié)點。[9]直到特征值取完為止,最后生成決策樹,結(jié)果如圖1所示。決策者可以利用圖1生成的決策信息對學生進行精準資助。
3 結(jié)論
本文通過對高校資助學生的基礎(chǔ)數(shù)據(jù)進行研究,結(jié)合機器學習的決策樹算法,經(jīng)過大量的樣本訓練,最后基于ID3的決策樹算法生成了基于高校精準扶貧的決策樹模型。[10]為高校的扶貧資助工作提供參考,為扶貧工作的量化估計提供了解決方案。
參考文獻:
[1] 劉鳴,許鐘元,齊云鶴.基于決策樹算法的高校學生精準資助策略[J].黑河學院學報,2019,10(10):118-120,140.
[2] 劉筱曼.基于決策樹算法的5M1E在GS公司外貿(mào)服裝產(chǎn)品質(zhì)量控制中的應(yīng)用[D].上海外國語大學,2021.
[3] 宋歌.基于模糊神經(jīng)網(wǎng)絡(luò)的勘探資源數(shù)據(jù)挖掘方法研究與實現(xiàn)[D].中國石油大學(北京) ,2018.
[4] 曹琦.基于數(shù)據(jù)挖掘的錄井剖面歸位解釋處理方法研究[D].東北石油大學,2019.
[5] 賴國鴻.面向數(shù)據(jù)挖掘的招生迎新信息系統(tǒng)的設(shè)計與實現(xiàn)[D].華南農(nóng)業(yè)大學,2018.
[6] 李云.大數(shù)據(jù)分析技術(shù)及其在貧困生幫扶工作中的應(yīng)用研究[D].貴州大學,2018.
[7] 田昆.基于Logistic回歸分析的返貧預(yù)測模型研究[D].西北師范大學,2018.
[8] 唐業(yè)喜. 基于AHP和CM模型的貧困生精準認定與實證分析[J].教育財會研究,2017(05):47-53.
[9] 唐雪.大數(shù)據(jù)時代高校精準資助體系構(gòu)建與發(fā)展策略[J].高等建筑教育,2017(04):132-135.
[10] 白華,徐英.扶貧攻堅視角下高校建檔立卡生精準資助探析[J].國家教育行政學院學報,2017(03):16-21.