基于組合logistic回歸模型的高校貧困生認(rèn)定研究

2021-01-15 08:57:28李步青

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2021年1期

◆李步青

◆李步青

（浙江農(nóng)林大學(xué)信息工程學(xué)院浙江 311300）

當(dāng)前高校貧困生認(rèn)定工作基本上以人工為主要審核方式，存在著認(rèn)定不準(zhǔn)確、不公平等問(wèn)題，為此本文提出了一種利用因子分析降維的組合logistic回歸算法貧困生預(yù)測(cè)模型。首先，通過(guò)高校中心數(shù)據(jù)庫(kù)獲取學(xué)生在校消費(fèi)的數(shù)據(jù)，通過(guò)數(shù)據(jù)預(yù)處理提取需要的特征數(shù)據(jù)。然后，對(duì)提取的特征數(shù)據(jù)采用主成分的因子分析實(shí)現(xiàn)數(shù)據(jù)降維，得到相互獨(dú)立的因子。最后，基于logistic回歸算法進(jìn)行判別與分類(lèi)。實(shí)驗(yàn)結(jié)果表明，該算法模型具有一定的準(zhǔn)確性，相比較其他模型預(yù)測(cè)準(zhǔn)確率更高，為高校精準(zhǔn)扶貧工作提供了重要依據(jù)，在一定程度上保證了扶貧工作的公平性。

高校貧困生；大數(shù)據(jù)；精準(zhǔn)扶貧；因子分析；logistic回歸

近年來(lái)，隨著高校逐年擴(kuò)招，貧困生人數(shù)也在不斷增長(zhǎng)，貧困認(rèn)定工作也越來(lái)越重要?，F(xiàn)階段，高校扶貧存在于表面，深入實(shí)際不足，貧困認(rèn)定來(lái)自學(xué)生自主申請(qǐng)、班級(jí)評(píng)議、院系審核、公示、復(fù)核等環(huán)節(jié)，認(rèn)定結(jié)果往往存在缺乏客觀性、困難等級(jí)劃分不細(xì)致等問(wèn)題。還有部分貧困生由于某些原因沒(méi)有提交補(bǔ)助申請(qǐng)，整個(gè)過(guò)程存在著認(rèn)定不準(zhǔn)確、不公平等問(wèn)題，且無(wú)法很好掌握貧困生的變化，使得扶貧的效果不顯著，無(wú)法達(dá)到扶貧的目的。

目前高校已有研究人員采用學(xué)校學(xué)生消費(fèi)情況進(jìn)行貧困生認(rèn)定與分析。陳曉等[1]提出了一種基于加權(quán)約束的決策樹(shù)方法實(shí)現(xiàn)貧困生的認(rèn)定，基于加權(quán)約束的決策樹(shù)方法建立貧困生認(rèn)定決策樹(shù)，從而提高了貧困生認(rèn)定效率。王文娟[2]通過(guò)對(duì)一卡通數(shù)據(jù)中心的后臺(tái)數(shù)據(jù)庫(kù)數(shù)據(jù)采用統(tǒng)計(jì)學(xué)中描述性統(tǒng)計(jì)和非參數(shù)檢驗(yàn)的方法，分析學(xué)生在校園內(nèi)經(jīng)濟(jì)行為的特點(diǎn)及不同自然特征學(xué)生的消費(fèi)差異性。劉亮等[3]利用K-Means聚類(lèi)算法構(gòu)建聚類(lèi)指標(biāo)，從而確定高校困難學(xué)生貧困等級(jí)，為高校貧困生認(rèn)定工作提供了研究指導(dǎo)。王澤原等[4]利用隨機(jī)森林和決策樹(shù)的算法進(jìn)行貧困生的判別，為貧困生的認(rèn)定提供了數(shù)據(jù)支撐。陸桂明等[5]通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)貧困生進(jìn)行預(yù)測(cè)研究，為貧困生的分類(lèi)提供了研究方法。這些算法都在一定程度上對(duì)貧困生的認(rèn)定工作起到了引導(dǎo)與促進(jìn)作用，但在分類(lèi)與準(zhǔn)確性上存在著不平衡的問(wèn)題。

本文針對(duì)高校貧困生認(rèn)定上存在的分類(lèi)與準(zhǔn)確性上存在不平衡問(wèn)題，提出了一種組合logistic回歸預(yù)測(cè)模型，實(shí)現(xiàn)對(duì)高校貧困生的認(rèn)定與監(jiān)測(cè)。該預(yù)測(cè)模型利用高校大學(xué)生校園一卡通數(shù)據(jù)，對(duì)提取的多維數(shù)據(jù)采用因子分析算法實(shí)現(xiàn)降維，最后通過(guò)logistic回歸算法對(duì)降維的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，實(shí)現(xiàn)高校貧困生的認(rèn)定工作。

1 數(shù)據(jù)獲取與預(yù)處理

1.1 數(shù)據(jù)獲取

本文所依據(jù)的數(shù)據(jù)是來(lái)自于某高校的一卡通數(shù)據(jù)。校園一卡通數(shù)據(jù)真實(shí)展現(xiàn)著學(xué)生在校消費(fèi)情況，數(shù)據(jù)包括學(xué)生消費(fèi)時(shí)間、消費(fèi)金額、消費(fèi)類(lèi)型、卡內(nèi)余額等數(shù)據(jù)。通過(guò)選取了2017級(jí)與2018級(jí)共6288名學(xué)生在2019年下半學(xué)期3月到7月的一卡通消費(fèi)數(shù)據(jù)，共有2029499條數(shù)據(jù)。從學(xué)工部獲得2017級(jí)和2018級(jí)學(xué)生在2019年獲得的助學(xué)金數(shù)據(jù)，共有1098名學(xué)生獲得資助。

學(xué)生校園消費(fèi)數(shù)據(jù)如表1所示。選取的數(shù)據(jù)包括學(xué)生的學(xué)號(hào)、交易時(shí)間、交易地點(diǎn)、交易類(lèi)型以及交易金額等，這些數(shù)據(jù)可以充分展示學(xué)生在校消費(fèi)情況，對(duì)這些數(shù)據(jù)進(jìn)行一定數(shù)據(jù)處理，得到實(shí)驗(yàn)所需要的信息。

表1 學(xué)生消費(fèi)數(shù)據(jù)

1.2 數(shù)據(jù)預(yù)處理

學(xué)生一卡通數(shù)據(jù)來(lái)源于不同的數(shù)據(jù)庫(kù)，且數(shù)據(jù)庫(kù)信息量較大，并且存在多種數(shù)據(jù)類(lèi)型。這就導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)存在不完整、不一致以及數(shù)據(jù)異常等問(wèn)題，這些低質(zhì)量的數(shù)據(jù)將會(huì)導(dǎo)致低質(zhì)量的挖掘結(jié)果。為了解決存在低質(zhì)量數(shù)據(jù)的問(wèn)題，需要將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換，得到可以理解的數(shù)據(jù)格式或者符合實(shí)驗(yàn)挖掘的數(shù)據(jù)格式。

這就需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理[6]，數(shù)據(jù)預(yù)處理的目的是為了提高數(shù)據(jù)的質(zhì)量，沒(méi)有高質(zhì)量的數(shù)據(jù)，就沒(méi)有高質(zhì)量的挖掘結(jié)果，就不能更好地展示數(shù)據(jù)的價(jià)值。根據(jù)實(shí)際情況，對(duì)選取的高校學(xué)生一卡通消費(fèi)數(shù)據(jù)進(jìn)行以下三種方式處理。

（1）數(shù)據(jù)提取

首先是在數(shù)據(jù)里提取所需要用到的數(shù)據(jù)。

在數(shù)據(jù)庫(kù)里提取關(guān)于學(xué)生一卡通消費(fèi)的信息，按照選取學(xué)生的年級(jí)以及在校消費(fèi)的時(shí)間，提取學(xué)生學(xué)號(hào)、交易時(shí)間、交易類(lèi)型、交易地點(diǎn)、交易金額等數(shù)據(jù)。

（2）數(shù)據(jù)清洗

其次對(duì)已經(jīng)提取的數(shù)據(jù)進(jìn)行清洗。

第一步，先找到數(shù)據(jù)缺失的值，按照缺失比例和字段重要性，以及業(yè)務(wù)處理經(jīng)驗(yàn)，通過(guò)不同的指標(biāo)推測(cè)或計(jì)算缺失值，并進(jìn)行填寫(xiě)補(bǔ)上；第二步，識(shí)別并檢測(cè)一些離群數(shù)據(jù)以及無(wú)效和重復(fù)數(shù)據(jù)，進(jìn)行刪除處理；第三步，根據(jù)實(shí)際情況查找不合理以及相互矛盾的數(shù)據(jù)，把這些數(shù)據(jù)進(jìn)行去除或者修正處理；第四步，對(duì)內(nèi)容與字段屬性不符，即不一致的數(shù)據(jù)進(jìn)行格式歸化。

對(duì)數(shù)據(jù)進(jìn)行清洗時(shí)，要盡量保證數(shù)據(jù)信息損失的最小化，得到符合要求的高質(zhì)量數(shù)據(jù)。

（3）特征計(jì)算

最后對(duì)清洗的數(shù)據(jù)進(jìn)行整合計(jì)算，得到新的特征變量。

將清洗后的數(shù)據(jù)根據(jù)實(shí)際情況進(jìn)行計(jì)算處理，發(fā)現(xiàn)在校學(xué)生消費(fèi)類(lèi)型有36種，其中食堂消費(fèi)占比最大，其次是超市，這兩種消費(fèi)類(lèi)型消費(fèi)的金額占消費(fèi)總金額的90%以上，故把學(xué)生在校消費(fèi)進(jìn)行整合分類(lèi)為食堂消費(fèi)、超市消費(fèi)和其他消費(fèi)三種類(lèi)型，消費(fèi)金額分為學(xué)期總金額、月均消費(fèi)金額、次均消費(fèi)金額等。

2 預(yù)測(cè)模型

高校貧困生認(rèn)定采用組合logistic回歸模型進(jìn)行預(yù)測(cè)，該模型通過(guò)因子分析與logistic回歸算法相結(jié)合，利用學(xué)生消費(fèi)數(shù)據(jù)實(shí)現(xiàn)貧困生的認(rèn)定。

2.1 因子分析

對(duì)統(tǒng)計(jì)的數(shù)據(jù)進(jìn)行比較發(fā)現(xiàn)，數(shù)據(jù)維度較多，且部分維度之間存在一定的關(guān)系，在保證數(shù)據(jù)重要信息的前提下降低數(shù)據(jù)維度，采取主成分的因子分析算法[7]對(duì)相關(guān)性很強(qiáng)的數(shù)據(jù)維度進(jìn)行一定的線性組合，實(shí)現(xiàn)數(shù)據(jù)的降維，有利于簡(jiǎn)化和解釋問(wèn)題，抓住問(wèn)題的實(shí)質(zhì)。因子分析算法根據(jù)相關(guān)性大小把原始變量進(jìn)行分組，在信息損失很少的前提下使得同組內(nèi)的變量之間相關(guān)性較高，而不同組的變量間的相關(guān)性則較低，即將維的特征向量重建為維的特征向量（<）。

利用最大方差法對(duì)該方程的系數(shù)進(jìn)行估算，從而獲得每個(gè)個(gè)案的因子分。

計(jì)算出來(lái)各個(gè)成分的得分，即因子得分函數(shù)的系數(shù)，根據(jù)方差貢獻(xiàn)率確定因子的個(gè)數(shù)，然后構(gòu)建關(guān)于因子得分的回歸函數(shù)，以此來(lái)確定新的變量。

2.2 logistic回歸模型

本文使用的是logistic回歸算法[8]建立預(yù)測(cè)模型，對(duì)高校貧困生的分類(lèi)與預(yù)測(cè)提供了實(shí)際依據(jù)。logistic是一種廣義線性回歸算法，在數(shù)據(jù)的處理上類(lèi)似于多重線性回歸，與多重線性回歸不同的是，logistic的因變量可以是非連續(xù)的，即其因變量可以是二分類(lèi)的，也可以是多分類(lèi)的。

Logistic模型中，因變量與自變量的一種非線性關(guān)系可表達(dá)為：

在公式（2）中，當(dāng)為負(fù)無(wú)窮時(shí)，為0；當(dāng)為正無(wú)窮時(shí)，為1。

將用一個(gè)函數(shù)（）代替，假設(shè)

對(duì)（4）式取對(duì)數(shù)得到（5）式logistic回歸線性方程

在logistic回歸模型中，我們需要的是事件發(fā)生與不發(fā)生的概率的比例，即odds，odds能更好衡量數(shù)據(jù)模型指標(biāo)的好壞。

得到事件發(fā)生與不發(fā)生的概率之比為

則

則似然函數(shù)為

兩邊取對(duì)數(shù)得

求得的回歸參數(shù)采用似然比方法進(jìn)行檢驗(yàn)估計(jì)參數(shù)的靈敏度，采用Hosmer-Lemeshow算法檢驗(yàn)?zāi)Ｐ偷臄M合優(yōu)度，置信區(qū)間默認(rèn)為95%，判斷顯著性，最終確定參數(shù)值。

2.3 基于組合logistic回歸模型的貧困生認(rèn)定

最終選取6288名學(xué)生的在校消費(fèi)數(shù)據(jù)，采用主成分的因子分析得到4個(gè)相互獨(dú)立的特征值，這4個(gè)相互獨(dú)立的特征值分別為食堂消費(fèi)總金額、超市消費(fèi)金額、恩格爾系數(shù)，以及一個(gè)結(jié)果值，是否為貧困生。然后把這些特征數(shù)據(jù)進(jìn)行l(wèi)ogistic回歸訓(xùn)練，對(duì)輸出結(jié)果進(jìn)行判斷。整個(gè)計(jì)算流程如圖1所示。

圖1 組合logistic回歸模型流程

首先從數(shù)據(jù)庫(kù)里獲得原始數(shù)據(jù)，然后選取本文需要的數(shù)據(jù)組，對(duì)選定的數(shù)據(jù)組進(jìn)行數(shù)據(jù)預(yù)處理，得到計(jì)算之后的特征值，最后把得到的數(shù)據(jù)變量使用組合logistic回歸算法進(jìn)行識(shí)別與預(yù)測(cè)，最后通過(guò)對(duì)輸出進(jìn)行判斷，若輸出值>0.5時(shí)，說(shuō)明根據(jù)該學(xué)生最近一段時(shí)間內(nèi)的表現(xiàn)，被預(yù)測(cè)為貧困生；<=0.5時(shí)，說(shuō)明該學(xué)生被預(yù)測(cè)為非貧困生，該算法模型可實(shí)現(xiàn)對(duì)高校貧困生的識(shí)別與預(yù)測(cè)，并帶有監(jiān)測(cè)功能。

3 實(shí)驗(yàn)結(jié)果與分析

本文從貧困生查準(zhǔn)率，貧困生查全率以及和的增加調(diào)和平均數(shù)三個(gè)方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。

式（11）中，是指將貧困生判定為貧困生的學(xué)生數(shù)量，是指將非貧困生判定為貧困生的學(xué)生數(shù)量；

式（12）中，是指將非貧困生判定為非貧困生的學(xué)生數(shù)量；

和的調(diào)和平均數(shù)為

用查準(zhǔn)率來(lái)驗(yàn)證模型的負(fù)面準(zhǔn)確性，值越大，模型對(duì)貧困生的辨識(shí)能力就越準(zhǔn)確；用查全率來(lái)驗(yàn)證模型的正面準(zhǔn)確性，值越大，模型真正預(yù)測(cè)中貧困生占的比例就越高；用和的調(diào)和平均數(shù)來(lái)驗(yàn)證模型的穩(wěn)定性，值越大，說(shuō)明該模型越有效。

把處理的數(shù)據(jù)代入組合logistic回歸預(yù)測(cè)模型中，最終得到的結(jié)果預(yù)測(cè)如圖2所示。

圖2 組合logistic回歸模型結(jié)果

由下述表格可以看出，采用組合logistic回歸算法，預(yù)測(cè)某高校貧困生的準(zhǔn)確率達(dá)到89.1%，非貧困生的查準(zhǔn)率97.9%，總的準(zhǔn)確率達(dá)到96.3%。

采用值、值和值三個(gè)評(píng)估標(biāo)準(zhǔn)來(lái)綜合評(píng)價(jià)模型2組合logistic回歸模型評(píng)估方法和模型1 K-means聚類(lèi)評(píng)估算法。

表2 兩種模型對(duì)比結(jié)果

在表2中，可以看出，模型1中值、值以及F分別為70.1%、30.5%和42.5%，模型2中值、值以及值分別為89.1%、90%和89.5%。實(shí)驗(yàn)結(jié)果表明模型2對(duì)貧困生的辨識(shí)能力比模型1 更為準(zhǔn)確，真正預(yù)測(cè)的貧困生比例遠(yuǎn)遠(yuǎn)大于模型1，并且模型2的穩(wěn)定性更高。

綜合以上三個(gè)評(píng)價(jià)標(biāo)準(zhǔn)，可以說(shuō)明模型2在貧困生的識(shí)別預(yù)測(cè)方面更為理想，能夠在很大程度上識(shí)別貧困生。

4 結(jié)語(yǔ)

針對(duì)目前高校貧困生認(rèn)定過(guò)程中存在的問(wèn)題，采用組合logistic回歸算法進(jìn)行貧困生認(rèn)定，實(shí)現(xiàn)了高校貧困生預(yù)測(cè)。收集某高校關(guān)于學(xué)生某段時(shí)間內(nèi)的消費(fèi)數(shù)據(jù)，在數(shù)據(jù)預(yù)處理的時(shí)候，首先進(jìn)行清洗、提取，然后采用因子分析對(duì)數(shù)據(jù)進(jìn)行降維處理，減少數(shù)據(jù)的特征，有效降低了數(shù)據(jù)噪音以及過(guò)擬合問(wèn)題。對(duì)降維后的特征值采用logistic回歸算法進(jìn)行訓(xùn)練，并且取得了更好的識(shí)別預(yù)測(cè)結(jié)果，在一定程度上為高校貧困生認(rèn)定提供了積極的意義。該模型利用學(xué)生消費(fèi)實(shí)現(xiàn)貧困生的預(yù)測(cè)，識(shí)別分類(lèi)的準(zhǔn)確率很高，預(yù)測(cè)結(jié)果分為貧困生與非貧困生兩種，有待進(jìn)一步的優(yōu)化，對(duì)貧困生進(jìn)行多層分類(lèi)，選擇更好的模型，研究預(yù)測(cè)的穩(wěn)定性。

[1]陳曉，王樹(shù)寶，李建晶，等.基于加權(quán)約束的決策樹(shù)方法在貧困生認(rèn)定中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件，2014（12）：142-145.

[2]王文娟.基于一卡通數(shù)據(jù)的大學(xué)生消費(fèi)分析的技術(shù)路線研究與實(shí)例分析[D].大連：大連醫(yī)科大學(xué)，2013.

[3]劉亮，許靈，劉斯文.基于K-Means聚類(lèi)的高校困難學(xué)生貧困等級(jí)劃分研究——以蚌埠學(xué)院為例[J].白城師范學(xué)院學(xué)報(bào)，2017（08）：38-41+64.

[4]王澤原，趙麗，胡俊.大數(shù)據(jù)環(huán)境下利用隨機(jī)森林算法和決策樹(shù)的貧困生認(rèn)定方法[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào)， 2018，040（006）：115-120.

[5]陸桂明，張?jiān)?，周志?基于機(jī)器學(xué)習(xí)的貧困生分類(lèi)預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用與軟件，2019，36（01）：322-325.

[6]丁小歐，王宏志，于晟健.工業(yè)時(shí)序大數(shù)據(jù)質(zhì)量管理[J].大數(shù)據(jù)，2019，5（06）：1-11.

[7]秦磊，郁靜，孫強(qiáng).混頻時(shí)間序列的潛在因子分析及其應(yīng)用[J].統(tǒng)計(jì)研究，2019，36（09）：104-114.

[8]陳宮燕，普布桑姆，次仁旺姆，次仁，德慶央宗，李彥軍.基于Logistic回歸方法的林芝市山洪地質(zhì)災(zāi)害預(yù)警研究[J].中國(guó)農(nóng)學(xué)通報(bào)，2019，35（23）：124-130.