褚蕾蕾 孟利霞 夏光峰 劉年生 陳巖


摘 要:近年來,高等學(xué)校的貧困生認(rèn)定工作已經(jīng)成為高校工作中的重要組成部分。如何確保貧困生認(rèn)定工作的準(zhǔn)確性,已經(jīng)成為促進(jìn)高等學(xué)校教育的公平公正性以及確保大學(xué)生身心健康發(fā)展的重要條件。本文研究了一種基于樸素貝葉斯算法的高等學(xué)校貧困生識(shí)別方法算法,通過家庭情況調(diào)查表搜集高校所有學(xué)生的家庭情況數(shù)據(jù),提取其中關(guān)鍵指標(biāo),再采用樸素貝葉斯算法進(jìn)行貧困生的認(rèn)定。采用實(shí)際算例進(jìn)行分析,其結(jié)果表明了本文提出方法的有效性。
關(guān)鍵詞:高等學(xué)校;貧困生;貧困認(rèn)定;樸素貝葉斯
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)08-0054-02
0 引言
近年來,在高等教育越來越普及的情況下,一種典型的大學(xué)生群體越來越受到國(guó)家和政府的關(guān)注,即高等學(xué)校中的貧困生群體。如何保證高等學(xué)校中貧困生認(rèn)定工作的準(zhǔn)確性,是關(guān)乎高等教育公平公正,貧困生能否順利的完成學(xué)業(yè)的關(guān)鍵問題。然而,現(xiàn)階段的貧困生認(rèn)定仍然存在以下問題。
1 現(xiàn)階段的貧困生認(rèn)定資助工作存在的問題
1.1 資助工作缺乏客觀認(rèn)定標(biāo)準(zhǔn)
目前的資助判定主要依靠紙質(zhì)材料證明以及通過主觀評(píng)價(jià)等方式來認(rèn)定貧困生,這種方法存在著標(biāo)準(zhǔn)模糊,材料容易作假等缺陷,極其容易發(fā)生資助不精確的現(xiàn)象,典型的表現(xiàn)在于:(1)自身是非貧困生的被判別為貧困生;(2)自身為貧困生的被判別為非貧困生;(3)有些貧困生因?yàn)樾愿瘛⒆宰鹦摹⒒蚴切畔⒉涣魍ǖ纫蛩兀瑳]有參加貧困生的申請(qǐng),導(dǎo)致了最應(yīng)該被資助的同學(xué)沒有被資助[1]。
1.2 資助工作缺乏后續(xù)跟蹤機(jī)制
學(xué)生資助終止于貸款的發(fā)放,這樣僅僅在貧困生的認(rèn)定方面進(jìn)行了工作,但是沒有對(duì)學(xué)生拿到資助貸款后的行為進(jìn)行采樣,沒有對(duì)資助金的使用和學(xué)生的具體表現(xiàn)進(jìn)行跟蹤分析,從而導(dǎo)致了資金的使用無法監(jiān)督,也無法確保資助金是否體現(xiàn)了它的價(jià)值。
1.3 資助工作缺乏校用評(píng)價(jià)體系
現(xiàn)階段偶有報(bào)道有學(xué)生拿到資助金后大肆揮霍的情況,相反,對(duì)于一些真正需要資助的貧困生卻由于各種問題不能獲得資助。如何來評(píng)定資助工作的好壞,保證資助工作向良性方面發(fā)展,也是當(dāng)前的資助方法需要解決的問題。
近年來,機(jī)器學(xué)習(xí)理論的發(fā)展為貧困生的認(rèn)定工作提供了一種基于事實(shí)數(shù)據(jù)的新思路。已成為新的研究熱點(diǎn)。本文采用機(jī)器學(xué)習(xí)中的樸素貝葉斯算法對(duì)高等學(xué)校的貧困生進(jìn)行認(rèn)定。首先通過問卷調(diào)查采集高校學(xué)生的家庭情況數(shù)據(jù),再抽取其中關(guān)鍵特征,以建檔立卡學(xué)生的數(shù)據(jù)作為標(biāo)簽,使用樸素貝葉斯算法進(jìn)行貧困生的預(yù)測(cè)。采用實(shí)際算例進(jìn)行算法論證,其結(jié)果表明了本文方法的有效性和實(shí)用性。
2 樸素貝葉斯算法
本文采用樸素貝葉斯算法對(duì)貧困生進(jìn)行認(rèn)定。樸素貝葉斯中的樸素一詞的來源就是假設(shè)各特征之間相互獨(dú)立。這一假設(shè)使得樸素貝葉斯算法變得簡(jiǎn)單,但有時(shí)會(huì)犧牲一定的分類準(zhǔn)確率。樸素表示特征條件獨(dú)立;貝葉斯表示該方法基于貝葉斯定理。和決策樹模型相比,樸素貝葉斯分類器發(fā)源于古典數(shù)學(xué)理論,模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,樸素貝葉斯分類器模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)闃闼刎惾~斯分類器模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給樸素貝葉斯分類器模型的正確分類帶來了一定影響。樸素貝葉斯屬于監(jiān)督學(xué)習(xí)的生成模型,實(shí)現(xiàn)簡(jiǎn)單,沒有迭代,并有堅(jiān)實(shí)的數(shù)學(xué)理論(即貝葉斯定理)作為支撐[2]。
整個(gè)樸素貝葉斯分類分為三個(gè)階段:(1)準(zhǔn)備工作階段,這個(gè)階段的任務(wù)是為樸素貝葉斯分類做必要的準(zhǔn)備,主要工作是根據(jù)具體情況確定特征屬性,并對(duì)每個(gè)特征屬性進(jìn)行適當(dāng)劃分,然后由人工對(duì)一部分待分類項(xiàng)進(jìn)行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個(gè)樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對(duì)整個(gè)過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。(2)分類器訓(xùn)練階段,這個(gè)階段的任務(wù)就是生成分類器,主要工作是計(jì)算每個(gè)類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個(gè)特征屬性劃分對(duì)每個(gè)類別的條件概率估計(jì),并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這一階段是機(jī)械性階段,根據(jù)前面討論的公式可以由程序自動(dòng)計(jì)算完成。(3)應(yīng)用階段。這個(gè)階段的任務(wù)是使用分類器對(duì)待分類項(xiàng)進(jìn)行分類,其輸入是分類器和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。
樸素貝葉斯算法如下所示,輸入為訓(xùn)練數(shù)據(jù)D={(x1,y1), (x2,y2), (xn; yn)}, xi=(x(1)i, x(2)i…x(n)i )T,x(j)i是第i個(gè)樣本的第j個(gè)特征,y為x對(duì)應(yīng)的分類標(biāo)簽,ck表示類別。輸出為新輸入x的分類。具體步驟為:
3 基于家庭經(jīng)濟(jì)調(diào)查的貧困生指標(biāo)發(fā)展現(xiàn)狀
一般采取基于家庭經(jīng)濟(jì)調(diào)查的貧困生指標(biāo)數(shù)據(jù)進(jìn)行樸素貝葉斯的學(xué)習(xí)。所謂家庭經(jīng)濟(jì)調(diào)查法是指各種不通指標(biāo)的調(diào)查方法來確認(rèn)家庭或個(gè)人是否有能力支付學(xué)生的教育費(fèi)用,以此確認(rèn)家庭或個(gè)人是否屬于貸款資助的目標(biāo)。國(guó)外家庭經(jīng)濟(jì)調(diào)查主要以收入和能力兩條途徑來考察其經(jīng)濟(jì)負(fù)擔(dān)能力。幾乎所有的收入狀況調(diào)查方案不僅以收入作為前提條件,還考慮了其它一些參考指標(biāo),如職業(yè)類型,住房類型及居住地域,家庭汽車,家庭規(guī)模,子女的年齡、性別、種族等。其中,美國(guó)是以家庭收入作為貧困生認(rèn)定的唯一標(biāo)準(zhǔn),原因在于其完善的收入查證和收入稅征收體系可以有效通報(bào)和監(jiān)督居民的非勞動(dòng)所得;德國(guó)采用“家庭經(jīng)濟(jì)調(diào)查”的基本依據(jù)是學(xué)生必須提供父母?jìng)€(gè)人所得稅的支付稅單;日本將居民收入、資產(chǎn)指標(biāo)與各種分類指標(biāo)相結(jié)合,用以確定學(xué)生的家庭經(jīng)濟(jì)狀況;菲律賓將收入和資產(chǎn)通報(bào)、一系列的分類指標(biāo)與嚴(yán)格的收入和資產(chǎn)查證相結(jié)合,在貧困生認(rèn)定上共同發(fā)揮作用。在發(fā)展中國(guó)家,非洲的烏干達(dá)主要依靠代理變量,如父親的職業(yè)層級(jí)和擁有的交通工具等來衡量其家庭收入;尼日利亞助學(xué)貸款委員會(huì)使用一種四要素財(cái)產(chǎn)檢測(cè)法,即通過父母職業(yè)、收入、家庭人口數(shù)和正在接受教育的子女?dāng)?shù)目來衡量家庭經(jīng)濟(jì)狀況。在一些拉丁美洲國(guó)家,“家庭經(jīng)濟(jì)調(diào)查”十分嚴(yán)格,內(nèi)容相當(dāng)詳細(xì)。在秘魯,申請(qǐng)貸學(xué)金的學(xué)生甚至要家長(zhǎng)接受面談,內(nèi)容涉及家庭財(cái)產(chǎn)及父母的收入能力,如房產(chǎn)、汽車和土地,父母的工作、雇主和工資收入[3]。
4 算例分析
以某學(xué)校為例,采集該校新進(jìn)校學(xué)生的家庭情況數(shù)據(jù)共一萬條。主要數(shù)據(jù)指標(biāo)為:(1)父母職業(yè);(2)家庭成員構(gòu)成;(3)家庭是否存在患有重大疾病的成員;(4)父母中任意一方是否為殘障人員;(5)是否為單親家庭;(6)家庭是否負(fù)債;(7)近兩年是否遭遇重大自然災(zāi)害等。
使用第2章所述的算法輸入數(shù)據(jù),并使用建檔立卡的學(xué)生數(shù)據(jù)和已知較富裕家庭的學(xué)生數(shù)據(jù)作為標(biāo)簽進(jìn)行訓(xùn)練。訓(xùn)練完成后,選取除建檔立卡以外的學(xué)生數(shù)據(jù)進(jìn)行預(yù)測(cè),分別預(yù)測(cè)其為貧困生的概率以及非貧困生的概率,選擇概率較高的類別作為最終預(yù)測(cè)。同時(shí),對(duì)這400名同學(xué)的家庭進(jìn)行摸查,以確認(rèn)真實(shí)情況。使用本文方法與隨機(jī)森林以及支持向量機(jī)進(jìn)行比較,檢測(cè)精度如表1所示。正確率為被檢測(cè)出的貧困生占實(shí)際貧困生的比例;誤測(cè)率為實(shí)際的貧困生被檢測(cè)為非貧困生的比例。可以看出,樸素貝葉斯算法較其他方法檢測(cè)準(zhǔn)確度更高[4]。
5 結(jié)語
本文研究了一種基于樸素貝葉斯算法的高等學(xué)校貧困生認(rèn)定算法,通過采集學(xué)生的家庭背景數(shù)據(jù),提取其中關(guān)鍵指標(biāo),再采用樸素貝葉斯算法對(duì)其中的貧困生進(jìn)行預(yù)測(cè),從而辨識(shí)出真正的貧困生。采用實(shí)際算例進(jìn)行分析,其結(jié)果表明了本文提出方法的有效性。
參考文獻(xiàn)
[1] 唐穎,李明江.數(shù)據(jù)挖掘在高校貧困生消費(fèi)信息管理中的應(yīng)用研究[J].湖南商學(xué)院學(xué)報(bào),2011,18(6):45-49.
[2] 李明君.基于數(shù)據(jù)挖掘的貧困助學(xué)金認(rèn)定方法研究[D].華中師范大學(xué),2017.
[3] 李珊娜.基于校園一卡通平臺(tái)的數(shù)據(jù)挖掘應(yīng)用研究[J].鐵路計(jì)算機(jī)應(yīng)用,2010,19(6):55-58.
[4] 費(fèi)小丹,董新科,張暉.基于校園一卡通消費(fèi)數(shù)據(jù)的高校貧困生分析[J].電腦知識(shí)與技術(shù),2014(20):4934-4936.