◆李步青
基于組合logistic回歸模型的高校貧困生認(rèn)定研究
◆李步青
(浙江農(nóng)林大學(xué)信息工程學(xué)院 浙江 311300)
當(dāng)前高校貧困生認(rèn)定工作基本上以人工為主要審核方式,存在著認(rèn)定不準(zhǔn)確、不公平等問(wèn)題,為此本文提出了一種利用因子分析降維的組合logistic回歸算法貧困生預(yù)測(cè)模型。首先,通過(guò)高校中心數(shù)據(jù)庫(kù)獲取學(xué)生在校消費(fèi)的數(shù)據(jù),通過(guò)數(shù)據(jù)預(yù)處理提取需要的特征數(shù)據(jù)。然后,對(duì)提取的特征數(shù)據(jù)采用主成分的因子分析實(shí)現(xiàn)數(shù)據(jù)降維,得到相互獨(dú)立的因子。最后,基于logistic回歸算法進(jìn)行判別與分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該算法模型具有一定的準(zhǔn)確性,相比較其他模型預(yù)測(cè)準(zhǔn)確率更高,為高校精準(zhǔn)扶貧工作提供了重要依據(jù),在一定程度上保證了扶貧工作的公平性。
高校貧困生;大數(shù)據(jù);精準(zhǔn)扶貧;因子分析;logistic回歸
近年來(lái),隨著高校逐年擴(kuò)招,貧困生人數(shù)也在不斷增長(zhǎng),貧困認(rèn)定工作也越來(lái)越重要?,F(xiàn)階段,高校扶貧存在于表面,深入實(shí)際不足,貧困認(rèn)定來(lái)自學(xué)生自主申請(qǐng)、班級(jí)評(píng)議、院系審核、公示、復(fù)核等環(huán)節(jié),認(rèn)定結(jié)果往往存在缺乏客觀性、困難等級(jí)劃分不細(xì)致等問(wèn)題。還有部分貧困生由于某些原因沒(méi)有提交補(bǔ)助申請(qǐng),整個(gè)過(guò)程存在著認(rèn)定不準(zhǔn)確、不公平等問(wèn)題,且無(wú)法很好掌握貧困生的變化,使得扶貧的效果不顯著,無(wú)法達(dá)到扶貧的目的。
目前高校已有研究人員采用學(xué)校學(xué)生消費(fèi)情況進(jìn)行貧困生認(rèn)定與分析。陳曉等[1]提出了一種基于加權(quán)約束的決策樹(shù)方法實(shí)現(xiàn)貧困生的認(rèn)定,基于加權(quán)約束的決策樹(shù)方法建立貧困生認(rèn)定決策樹(shù),從而提高了貧困生認(rèn)定效率。王文娟[2]通過(guò)對(duì)一卡通數(shù)據(jù)中心的后臺(tái)數(shù)據(jù)庫(kù)數(shù)據(jù)采用統(tǒng)計(jì)學(xué)中描述性統(tǒng)計(jì)和非參數(shù)檢驗(yàn)的方法,分析學(xué)生在校園內(nèi)經(jīng)濟(jì)行為的特點(diǎn)及不同自然特征學(xué)生的消費(fèi)差異性。劉亮等[3]利用K-Means聚類(lèi)算法構(gòu)建聚類(lèi)指標(biāo),從而確定高校困難學(xué)生貧困等級(jí),為高校貧困生認(rèn)定工作提供了研究指導(dǎo)。王澤原等[4]利用隨機(jī)森林和決策樹(shù)的算法進(jìn)行貧困生的判別,為貧困生的認(rèn)定提供了數(shù)據(jù)支撐。陸桂明等[5]通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)貧困生進(jìn)行預(yù)測(cè)研究,為貧困生的分類(lèi)提供了研究方法。這些算法都在一定程度上對(duì)貧困生的認(rèn)定工作起到了引導(dǎo)與促進(jìn)作用,但在分類(lèi)與準(zhǔn)確性上存在著不平衡的問(wèn)題。
本文針對(duì)高校貧困生認(rèn)定上存在的分類(lèi)與準(zhǔn)確性上存在不平衡問(wèn)題,提出了一種組合logistic回歸預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)高校貧困生的認(rèn)定與監(jiān)測(cè)。該預(yù)測(cè)模型利用高校大學(xué)生校園一卡通數(shù)據(jù),對(duì)提取的多維數(shù)據(jù)采用因子分析算法實(shí)現(xiàn)降維,最后通過(guò)logistic回歸算法對(duì)降維的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)高校貧困生的認(rèn)定工作。
本文所依據(jù)的數(shù)據(jù)是來(lái)自于某高校的一卡通數(shù)據(jù)。校園一卡通數(shù)據(jù)真實(shí)展現(xiàn)著學(xué)生在校消費(fèi)情況,數(shù)據(jù)包括學(xué)生消費(fèi)時(shí)間、消費(fèi)金額、消費(fèi)類(lèi)型、卡內(nèi)余額等數(shù)據(jù)。通過(guò)選取了2017級(jí)與2018級(jí)共6288名學(xué)生在2019年下半學(xué)期3月到7月的一卡通消費(fèi)數(shù)據(jù),共有2029499條數(shù)據(jù)。從學(xué)工部獲得2017級(jí)和2018級(jí)學(xué)生在2019年獲得的助學(xué)金數(shù)據(jù),共有1098名學(xué)生獲得資助。
學(xué)生校園消費(fèi)數(shù)據(jù)如表1所示。選取的數(shù)據(jù)包括學(xué)生的學(xué)號(hào)、交易時(shí)間、交易地點(diǎn)、交易類(lèi)型以及交易金額等,這些數(shù)據(jù)可以充分展示學(xué)生在校消費(fèi)情況,對(duì)這些數(shù)據(jù)進(jìn)行一定數(shù)據(jù)處理,得到實(shí)驗(yàn)所需要的信息。

表1 學(xué)生消費(fèi)數(shù)據(jù)
學(xué)生一卡通數(shù)據(jù)來(lái)源于不同的數(shù)據(jù)庫(kù),且數(shù)據(jù)庫(kù)信息量較大,并且存在多種數(shù)據(jù)類(lèi)型。這就導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)存在不完整、不一致以及數(shù)據(jù)異常等問(wèn)題,這些低質(zhì)量的數(shù)據(jù)將會(huì)導(dǎo)致低質(zhì)量的挖掘結(jié)果。為了解決存在低質(zhì)量數(shù)據(jù)的問(wèn)題,需要將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得到可以理解的數(shù)據(jù)格式或者符合實(shí)驗(yàn)挖掘的數(shù)據(jù)格式。
這就需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理[6],數(shù)據(jù)預(yù)處理的目的是為了提高數(shù)據(jù)的質(zhì)量,沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果,就不能更好地展示數(shù)據(jù)的價(jià)值。根據(jù)實(shí)際情況,對(duì)選取的高校學(xué)生一卡通消費(fèi)數(shù)據(jù)進(jìn)行以下三種方式處理。
(1)數(shù)據(jù)提取
首先是在數(shù)據(jù)里提取所需要用到的數(shù)據(jù)。
在數(shù)據(jù)庫(kù)里提取關(guān)于學(xué)生一卡通消費(fèi)的信息,按照選取學(xué)生的年級(jí)以及在校消費(fèi)的時(shí)間,提取學(xué)生學(xué)號(hào)、交易時(shí)間、交易類(lèi)型、交易地點(diǎn)、交易金額等數(shù)據(jù)。
(2)數(shù)據(jù)清洗
其次對(duì)已經(jīng)提取的數(shù)據(jù)進(jìn)行清洗。
第一步,先找到數(shù)據(jù)缺失的值,按照缺失比例和字段重要性,以及業(yè)務(wù)處理經(jīng)驗(yàn),通過(guò)不同的指標(biāo)推測(cè)或計(jì)算缺失值,并進(jìn)行填寫(xiě)補(bǔ)上;第二步,識(shí)別并檢測(cè)一些離群數(shù)據(jù)以及無(wú)效和重復(fù)數(shù)據(jù),進(jìn)行刪除處理;第三步,根據(jù)實(shí)際情況查找不合理以及相互矛盾的數(shù)據(jù),把這些數(shù)據(jù)進(jìn)行去除或者修正處理;第四步,對(duì)內(nèi)容與字段屬性不符,即不一致的數(shù)據(jù)進(jìn)行格式歸化。
對(duì)數(shù)據(jù)進(jìn)行清洗時(shí),要盡量保證數(shù)據(jù)信息損失的最小化,得到符合要求的高質(zhì)量數(shù)據(jù)。
(3)特征計(jì)算
最后對(duì)清洗的數(shù)據(jù)進(jìn)行整合計(jì)算,得到新的特征變量。
將清洗后的數(shù)據(jù)根據(jù)實(shí)際情況進(jìn)行計(jì)算處理,發(fā)現(xiàn)在校學(xué)生消費(fèi)類(lèi)型有36種,其中食堂消費(fèi)占比最大,其次是超市,這兩種消費(fèi)類(lèi)型消費(fèi)的金額占消費(fèi)總金額的90%以上,故把學(xué)生在校消費(fèi)進(jìn)行整合分類(lèi)為食堂消費(fèi)、超市消費(fèi)和其他消費(fèi)三種類(lèi)型,消費(fèi)金額分為學(xué)期總金額、月均消費(fèi)金額、次均消費(fèi)金額等。
高校貧困生認(rèn)定采用組合logistic回歸模型進(jìn)行預(yù)測(cè),該模型通過(guò)因子分析與logistic回歸算法相結(jié)合,利用學(xué)生消費(fèi)數(shù)據(jù)實(shí)現(xiàn)貧困生的認(rèn)定。
對(duì)統(tǒng)計(jì)的數(shù)據(jù)進(jìn)行比較發(fā)現(xiàn),數(shù)據(jù)維度較多,且部分維度之間存在一定的關(guān)系,在保證數(shù)據(jù)重要信息的前提下降低數(shù)據(jù)維度,采取主成分的因子分析算法[7]對(duì)相關(guān)性很強(qiáng)的數(shù)據(jù)維度進(jìn)行一定的線性組合,實(shí)現(xiàn)數(shù)據(jù)的降維,有利于簡(jiǎn)化和解釋問(wèn)題,抓住問(wèn)題的實(shí)質(zhì)。因子分析算法根據(jù)相關(guān)性大小把原始變量進(jìn)行分組,在信息損失很少的前提下使得同組內(nèi)的變量之間相關(guān)性較高,而不同組的變量間的相關(guān)性則較低,即將維的特征向量重建為維的特征向量(<)。

利用最大方差法對(duì)該方程的系數(shù)進(jìn)行估算,從而獲得每個(gè)個(gè)案的因子分。
計(jì)算出來(lái)各個(gè)成分的得分,即因子得分函數(shù)的系數(shù),根據(jù)方差貢獻(xiàn)率確定因子的個(gè)數(shù),然后構(gòu)建關(guān)于因子得分的回歸函數(shù),以此來(lái)確定新的變量。
本文使用的是logistic回歸算法[8]建立預(yù)測(cè)模型,對(duì)高校貧困生的分類(lèi)與預(yù)測(cè)提供了實(shí)際依據(jù)。logistic是一種廣義線性回歸算法,在數(shù)據(jù)的處理上類(lèi)似于多重線性回歸,與多重線性回歸不同的是,logistic的因變量可以是非連續(xù)的,即其因變量可以是二分類(lèi)的,也可以是多分類(lèi)的。
Logistic模型中,因變量與自變量的一種非線性關(guān)系可表達(dá)為:

在公式(2)中,當(dāng)為負(fù)無(wú)窮時(shí),為0;當(dāng)為正無(wú)窮時(shí),為1。
將用一個(gè)函數(shù)()代替,假設(shè)



對(duì)(4)式取對(duì)數(shù)得到(5)式logistic回歸線性方程

在logistic回歸模型中,我們需要的是事件發(fā)生與不發(fā)生的概率的比例,即odds,odds能更好衡量數(shù)據(jù)模型指標(biāo)的好壞。
得到事件發(fā)生與不發(fā)生的概率之比為


則

則似然函數(shù)為

兩邊取對(duì)數(shù)得


求得的回歸參數(shù)采用似然比方法進(jìn)行檢驗(yàn)估計(jì)參數(shù)的靈敏度,采用Hosmer-Lemeshow算法檢驗(yàn)?zāi)P偷臄M合優(yōu)度,置信區(qū)間默認(rèn)為95%,判斷顯著性,最終確定參數(shù)值。
最終選取6288名學(xué)生的在校消費(fèi)數(shù)據(jù),采用主成分的因子分析得到4個(gè)相互獨(dú)立的特征值,這4個(gè)相互獨(dú)立的特征值分別為食堂消費(fèi)總金額、超市消費(fèi)金額、恩格爾系數(shù),以及一個(gè)結(jié)果值,是否為貧困生。然后把這些特征數(shù)據(jù)進(jìn)行l(wèi)ogistic回歸訓(xùn)練,對(duì)輸出結(jié)果進(jìn)行判斷。整個(gè)計(jì)算流程如圖1所示。

圖1 組合logistic回歸模型流程
首先從數(shù)據(jù)庫(kù)里獲得原始數(shù)據(jù),然后選取本文需要的數(shù)據(jù)組,對(duì)選定的數(shù)據(jù)組進(jìn)行數(shù)據(jù)預(yù)處理,得到計(jì)算之后的特征值,最后把得到的數(shù)據(jù)變量使用組合logistic回歸算法進(jìn)行識(shí)別與預(yù)測(cè),最后通過(guò)對(duì)輸出進(jìn)行判斷,若輸出值>0.5時(shí),說(shuō)明根據(jù)該學(xué)生最近一段時(shí)間內(nèi)的表現(xiàn),被預(yù)測(cè)為貧困生;<=0.5時(shí),說(shuō)明該學(xué)生被預(yù)測(cè)為非貧困生,該算法模型可實(shí)現(xiàn)對(duì)高校貧困生的識(shí)別與預(yù)測(cè),并帶有監(jiān)測(cè)功能。
本文從貧困生查準(zhǔn)率,貧困生查全率以及和的增加調(diào)和平均數(shù)三個(gè)方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。

式(11)中,是指將貧困生判定為貧困生的學(xué)生數(shù)量,是指將非貧困生判定為貧困生的學(xué)生數(shù)量;

式(12)中,是指將非貧困生判定為非貧困生的學(xué)生數(shù)量;
和的調(diào)和平均數(shù)為

用查準(zhǔn)率來(lái)驗(yàn)證模型的負(fù)面準(zhǔn)確性,值越大,模型對(duì)貧困生的辨識(shí)能力就越準(zhǔn)確;用查全率來(lái)驗(yàn)證模型的正面準(zhǔn)確性,值越大,模型真正預(yù)測(cè)中貧困生占的比例就越高;用和的調(diào)和平均數(shù)來(lái)驗(yàn)證模型的穩(wěn)定性,值越大,說(shuō)明該模型越有效。
把處理的數(shù)據(jù)代入組合logistic回歸預(yù)測(cè)模型中,最終得到的結(jié)果預(yù)測(cè)如圖2所示。

圖2 組合logistic回歸模型結(jié)果
由下述表格可以看出,采用組合logistic回歸算法,預(yù)測(cè)某高校貧困生的準(zhǔn)確率達(dá)到89.1%,非貧困生的查準(zhǔn)率97.9%,總的準(zhǔn)確率達(dá)到96.3%。
采用值、值和值三個(gè)評(píng)估標(biāo)準(zhǔn)來(lái)綜合評(píng)價(jià)模型2組合logistic回歸模型評(píng)估方法和模型1 K-means聚類(lèi)評(píng)估算法。

表2 兩種模型對(duì)比結(jié)果
在表2中,可以看出,模型1中值、值以及F分別為70.1%、30.5%和42.5%,模型2中值、值以及值分別為89.1%、90%和89.5%。實(shí)驗(yàn)結(jié)果表明模型2對(duì)貧困生的辨識(shí)能力比模型1 更為準(zhǔn)確,真正預(yù)測(cè)的貧困生比例遠(yuǎn)遠(yuǎn)大于模型1,并且模型2的穩(wěn)定性更高。
綜合以上三個(gè)評(píng)價(jià)標(biāo)準(zhǔn),可以說(shuō)明模型2在貧困生的識(shí)別預(yù)測(cè)方面更為理想,能夠在很大程度上識(shí)別貧困生。
針對(duì)目前高校貧困生認(rèn)定過(guò)程中存在的問(wèn)題,采用組合logistic回歸算法進(jìn)行貧困生認(rèn)定,實(shí)現(xiàn)了高校貧困生預(yù)測(cè)。收集某高校關(guān)于學(xué)生某段時(shí)間內(nèi)的消費(fèi)數(shù)據(jù),在數(shù)據(jù)預(yù)處理的時(shí)候,首先進(jìn)行清洗、提取,然后采用因子分析對(duì)數(shù)據(jù)進(jìn)行降維處理,減少數(shù)據(jù)的特征,有效降低了數(shù)據(jù)噪音以及過(guò)擬合問(wèn)題。對(duì)降維后的特征值采用logistic回歸算法進(jìn)行訓(xùn)練,并且取得了更好的識(shí)別預(yù)測(cè)結(jié)果,在一定程度上為高校貧困生認(rèn)定提供了積極的意義。該模型利用學(xué)生消費(fèi)實(shí)現(xiàn)貧困生的預(yù)測(cè),識(shí)別分類(lèi)的準(zhǔn)確率很高,預(yù)測(cè)結(jié)果分為貧困生與非貧困生兩種,有待進(jìn)一步的優(yōu)化,對(duì)貧困生進(jìn)行多層分類(lèi),選擇更好的模型,研究預(yù)測(cè)的穩(wěn)定性。
[1]陳曉,王樹(shù)寶,李建晶,等.基于加權(quán)約束的決策樹(shù)方法在貧困生認(rèn)定中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014(12):142-145.
[2]王文娟.基于一卡通數(shù)據(jù)的大學(xué)生消費(fèi)分析的技術(shù)路線研究與實(shí)例分析[D].大連:大連醫(yī)科大學(xué),2013.
[3]劉亮,許靈,劉斯文.基于K-Means聚類(lèi)的高校困難學(xué)生貧困等級(jí)劃分研究——以蚌埠學(xué)院為例[J].白城師范學(xué)院學(xué)報(bào),2017(08):38-41+64.
[4]王澤原,趙麗,胡俊.大數(shù)據(jù)環(huán)境下利用隨機(jī)森林算法和決策樹(shù)的貧困生認(rèn)定方法[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào), 2018,040(006):115-120.
[5]陸桂明,張?jiān)?,周志?基于機(jī)器學(xué)習(xí)的貧困生分類(lèi)預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(01):322-325.
[6]丁小歐,王宏志,于晟健.工業(yè)時(shí)序大數(shù)據(jù)質(zhì)量管理[J].大數(shù)據(jù),2019,5(06):1-11.
[7]秦磊,郁靜,孫強(qiáng).混頻時(shí)間序列的潛在因子分析及其應(yīng)用[J].統(tǒng)計(jì)研究,2019,36(09):104-114.
[8]陳宮燕,普布桑姆,次仁旺姆,次仁,德慶央宗,李彥軍.基于Logistic回歸方法的林芝市山洪地質(zhì)災(zāi)害預(yù)警研究[J].中國(guó)農(nóng)學(xué)通報(bào),2019,35(23):124-130.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2021年1期