999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組合logistic回歸模型的高校貧困生認(rèn)定研究

2021-01-15 08:57:28李步青
關(guān)鍵詞:模型學(xué)生

◆李步青

基于組合logistic回歸模型的高校貧困生認(rèn)定研究

◆李步青

(浙江農(nóng)林大學(xué)信息工程學(xué)院 浙江 311300)

當(dāng)前高校貧困生認(rèn)定工作基本上以人工為主要審核方式,存在著認(rèn)定不準(zhǔn)確、不公平等問(wèn)題,為此本文提出了一種利用因子分析降維的組合logistic回歸算法貧困生預(yù)測(cè)模型。首先,通過(guò)高校中心數(shù)據(jù)庫(kù)獲取學(xué)生在校消費(fèi)的數(shù)據(jù),通過(guò)數(shù)據(jù)預(yù)處理提取需要的特征數(shù)據(jù)。然后,對(duì)提取的特征數(shù)據(jù)采用主成分的因子分析實(shí)現(xiàn)數(shù)據(jù)降維,得到相互獨(dú)立的因子。最后,基于logistic回歸算法進(jìn)行判別與分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該算法模型具有一定的準(zhǔn)確性,相比較其他模型預(yù)測(cè)準(zhǔn)確率更高,為高校精準(zhǔn)扶貧工作提供了重要依據(jù),在一定程度上保證了扶貧工作的公平性。

高校貧困生;大數(shù)據(jù);精準(zhǔn)扶貧;因子分析;logistic回歸

近年來(lái),隨著高校逐年擴(kuò)招,貧困生人數(shù)也在不斷增長(zhǎng),貧困認(rèn)定工作也越來(lái)越重要?,F(xiàn)階段,高校扶貧存在于表面,深入實(shí)際不足,貧困認(rèn)定來(lái)自學(xué)生自主申請(qǐng)、班級(jí)評(píng)議、院系審核、公示、復(fù)核等環(huán)節(jié),認(rèn)定結(jié)果往往存在缺乏客觀性、困難等級(jí)劃分不細(xì)致等問(wèn)題。還有部分貧困生由于某些原因沒(méi)有提交補(bǔ)助申請(qǐng),整個(gè)過(guò)程存在著認(rèn)定不準(zhǔn)確、不公平等問(wèn)題,且無(wú)法很好掌握貧困生的變化,使得扶貧的效果不顯著,無(wú)法達(dá)到扶貧的目的。

目前高校已有研究人員采用學(xué)校學(xué)生消費(fèi)情況進(jìn)行貧困生認(rèn)定與分析。陳曉等[1]提出了一種基于加權(quán)約束的決策樹(shù)方法實(shí)現(xiàn)貧困生的認(rèn)定,基于加權(quán)約束的決策樹(shù)方法建立貧困生認(rèn)定決策樹(shù),從而提高了貧困生認(rèn)定效率。王文娟[2]通過(guò)對(duì)一卡通數(shù)據(jù)中心的后臺(tái)數(shù)據(jù)庫(kù)數(shù)據(jù)采用統(tǒng)計(jì)學(xué)中描述性統(tǒng)計(jì)和非參數(shù)檢驗(yàn)的方法,分析學(xué)生在校園內(nèi)經(jīng)濟(jì)行為的特點(diǎn)及不同自然特征學(xué)生的消費(fèi)差異性。劉亮等[3]利用K-Means聚類(lèi)算法構(gòu)建聚類(lèi)指標(biāo),從而確定高校困難學(xué)生貧困等級(jí),為高校貧困生認(rèn)定工作提供了研究指導(dǎo)。王澤原等[4]利用隨機(jī)森林和決策樹(shù)的算法進(jìn)行貧困生的判別,為貧困生的認(rèn)定提供了數(shù)據(jù)支撐。陸桂明等[5]通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)貧困生進(jìn)行預(yù)測(cè)研究,為貧困生的分類(lèi)提供了研究方法。這些算法都在一定程度上對(duì)貧困生的認(rèn)定工作起到了引導(dǎo)與促進(jìn)作用,但在分類(lèi)與準(zhǔn)確性上存在著不平衡的問(wèn)題。

本文針對(duì)高校貧困生認(rèn)定上存在的分類(lèi)與準(zhǔn)確性上存在不平衡問(wèn)題,提出了一種組合logistic回歸預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)高校貧困生的認(rèn)定與監(jiān)測(cè)。該預(yù)測(cè)模型利用高校大學(xué)生校園一卡通數(shù)據(jù),對(duì)提取的多維數(shù)據(jù)采用因子分析算法實(shí)現(xiàn)降維,最后通過(guò)logistic回歸算法對(duì)降維的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)高校貧困生的認(rèn)定工作。

1 數(shù)據(jù)獲取與預(yù)處理

1.1 數(shù)據(jù)獲取

本文所依據(jù)的數(shù)據(jù)是來(lái)自于某高校的一卡通數(shù)據(jù)。校園一卡通數(shù)據(jù)真實(shí)展現(xiàn)著學(xué)生在校消費(fèi)情況,數(shù)據(jù)包括學(xué)生消費(fèi)時(shí)間、消費(fèi)金額、消費(fèi)類(lèi)型、卡內(nèi)余額等數(shù)據(jù)。通過(guò)選取了2017級(jí)與2018級(jí)共6288名學(xué)生在2019年下半學(xué)期3月到7月的一卡通消費(fèi)數(shù)據(jù),共有2029499條數(shù)據(jù)。從學(xué)工部獲得2017級(jí)和2018級(jí)學(xué)生在2019年獲得的助學(xué)金數(shù)據(jù),共有1098名學(xué)生獲得資助。

學(xué)生校園消費(fèi)數(shù)據(jù)如表1所示。選取的數(shù)據(jù)包括學(xué)生的學(xué)號(hào)、交易時(shí)間、交易地點(diǎn)、交易類(lèi)型以及交易金額等,這些數(shù)據(jù)可以充分展示學(xué)生在校消費(fèi)情況,對(duì)這些數(shù)據(jù)進(jìn)行一定數(shù)據(jù)處理,得到實(shí)驗(yàn)所需要的信息。

表1 學(xué)生消費(fèi)數(shù)據(jù)

1.2 數(shù)據(jù)預(yù)處理

學(xué)生一卡通數(shù)據(jù)來(lái)源于不同的數(shù)據(jù)庫(kù),且數(shù)據(jù)庫(kù)信息量較大,并且存在多種數(shù)據(jù)類(lèi)型。這就導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)存在不完整、不一致以及數(shù)據(jù)異常等問(wèn)題,這些低質(zhì)量的數(shù)據(jù)將會(huì)導(dǎo)致低質(zhì)量的挖掘結(jié)果。為了解決存在低質(zhì)量數(shù)據(jù)的問(wèn)題,需要將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得到可以理解的數(shù)據(jù)格式或者符合實(shí)驗(yàn)挖掘的數(shù)據(jù)格式。

這就需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理[6],數(shù)據(jù)預(yù)處理的目的是為了提高數(shù)據(jù)的質(zhì)量,沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果,就不能更好地展示數(shù)據(jù)的價(jià)值。根據(jù)實(shí)際情況,對(duì)選取的高校學(xué)生一卡通消費(fèi)數(shù)據(jù)進(jìn)行以下三種方式處理。

(1)數(shù)據(jù)提取

首先是在數(shù)據(jù)里提取所需要用到的數(shù)據(jù)。

在數(shù)據(jù)庫(kù)里提取關(guān)于學(xué)生一卡通消費(fèi)的信息,按照選取學(xué)生的年級(jí)以及在校消費(fèi)的時(shí)間,提取學(xué)生學(xué)號(hào)、交易時(shí)間、交易類(lèi)型、交易地點(diǎn)、交易金額等數(shù)據(jù)。

(2)數(shù)據(jù)清洗

其次對(duì)已經(jīng)提取的數(shù)據(jù)進(jìn)行清洗。

第一步,先找到數(shù)據(jù)缺失的值,按照缺失比例和字段重要性,以及業(yè)務(wù)處理經(jīng)驗(yàn),通過(guò)不同的指標(biāo)推測(cè)或計(jì)算缺失值,并進(jìn)行填寫(xiě)補(bǔ)上;第二步,識(shí)別并檢測(cè)一些離群數(shù)據(jù)以及無(wú)效和重復(fù)數(shù)據(jù),進(jìn)行刪除處理;第三步,根據(jù)實(shí)際情況查找不合理以及相互矛盾的數(shù)據(jù),把這些數(shù)據(jù)進(jìn)行去除或者修正處理;第四步,對(duì)內(nèi)容與字段屬性不符,即不一致的數(shù)據(jù)進(jìn)行格式歸化。

對(duì)數(shù)據(jù)進(jìn)行清洗時(shí),要盡量保證數(shù)據(jù)信息損失的最小化,得到符合要求的高質(zhì)量數(shù)據(jù)。

(3)特征計(jì)算

最后對(duì)清洗的數(shù)據(jù)進(jìn)行整合計(jì)算,得到新的特征變量。

將清洗后的數(shù)據(jù)根據(jù)實(shí)際情況進(jìn)行計(jì)算處理,發(fā)現(xiàn)在校學(xué)生消費(fèi)類(lèi)型有36種,其中食堂消費(fèi)占比最大,其次是超市,這兩種消費(fèi)類(lèi)型消費(fèi)的金額占消費(fèi)總金額的90%以上,故把學(xué)生在校消費(fèi)進(jìn)行整合分類(lèi)為食堂消費(fèi)、超市消費(fèi)和其他消費(fèi)三種類(lèi)型,消費(fèi)金額分為學(xué)期總金額、月均消費(fèi)金額、次均消費(fèi)金額等。

2 預(yù)測(cè)模型

高校貧困生認(rèn)定采用組合logistic回歸模型進(jìn)行預(yù)測(cè),該模型通過(guò)因子分析與logistic回歸算法相結(jié)合,利用學(xué)生消費(fèi)數(shù)據(jù)實(shí)現(xiàn)貧困生的認(rèn)定。

2.1 因子分析

對(duì)統(tǒng)計(jì)的數(shù)據(jù)進(jìn)行比較發(fā)現(xiàn),數(shù)據(jù)維度較多,且部分維度之間存在一定的關(guān)系,在保證數(shù)據(jù)重要信息的前提下降低數(shù)據(jù)維度,采取主成分的因子分析算法[7]對(duì)相關(guān)性很強(qiáng)的數(shù)據(jù)維度進(jìn)行一定的線性組合,實(shí)現(xiàn)數(shù)據(jù)的降維,有利于簡(jiǎn)化和解釋問(wèn)題,抓住問(wèn)題的實(shí)質(zhì)。因子分析算法根據(jù)相關(guān)性大小把原始變量進(jìn)行分組,在信息損失很少的前提下使得同組內(nèi)的變量之間相關(guān)性較高,而不同組的變量間的相關(guān)性則較低,即將維的特征向量重建為維的特征向量(<)。

利用最大方差法對(duì)該方程的系數(shù)進(jìn)行估算,從而獲得每個(gè)個(gè)案的因子分。

計(jì)算出來(lái)各個(gè)成分的得分,即因子得分函數(shù)的系數(shù),根據(jù)方差貢獻(xiàn)率確定因子的個(gè)數(shù),然后構(gòu)建關(guān)于因子得分的回歸函數(shù),以此來(lái)確定新的變量。

2.2 logistic回歸模型

本文使用的是logistic回歸算法[8]建立預(yù)測(cè)模型,對(duì)高校貧困生的分類(lèi)與預(yù)測(cè)提供了實(shí)際依據(jù)。logistic是一種廣義線性回歸算法,在數(shù)據(jù)的處理上類(lèi)似于多重線性回歸,與多重線性回歸不同的是,logistic的因變量可以是非連續(xù)的,即其因變量可以是二分類(lèi)的,也可以是多分類(lèi)的。

Logistic模型中,因變量與自變量的一種非線性關(guān)系可表達(dá)為:

在公式(2)中,當(dāng)為負(fù)無(wú)窮時(shí),為0;當(dāng)為正無(wú)窮時(shí),為1。

將用一個(gè)函數(shù)()代替,假設(shè)

對(duì)(4)式取對(duì)數(shù)得到(5)式logistic回歸線性方程

在logistic回歸模型中,我們需要的是事件發(fā)生與不發(fā)生的概率的比例,即odds,odds能更好衡量數(shù)據(jù)模型指標(biāo)的好壞。

得到事件發(fā)生與不發(fā)生的概率之比為

則似然函數(shù)為

兩邊取對(duì)數(shù)得

求得的回歸參數(shù)采用似然比方法進(jìn)行檢驗(yàn)估計(jì)參數(shù)的靈敏度,采用Hosmer-Lemeshow算法檢驗(yàn)?zāi)P偷臄M合優(yōu)度,置信區(qū)間默認(rèn)為95%,判斷顯著性,最終確定參數(shù)值。

2.3 基于組合logistic回歸模型的貧困生認(rèn)定

最終選取6288名學(xué)生的在校消費(fèi)數(shù)據(jù),采用主成分的因子分析得到4個(gè)相互獨(dú)立的特征值,這4個(gè)相互獨(dú)立的特征值分別為食堂消費(fèi)總金額、超市消費(fèi)金額、恩格爾系數(shù),以及一個(gè)結(jié)果值,是否為貧困生。然后把這些特征數(shù)據(jù)進(jìn)行l(wèi)ogistic回歸訓(xùn)練,對(duì)輸出結(jié)果進(jìn)行判斷。整個(gè)計(jì)算流程如圖1所示。

圖1 組合logistic回歸模型流程

首先從數(shù)據(jù)庫(kù)里獲得原始數(shù)據(jù),然后選取本文需要的數(shù)據(jù)組,對(duì)選定的數(shù)據(jù)組進(jìn)行數(shù)據(jù)預(yù)處理,得到計(jì)算之后的特征值,最后把得到的數(shù)據(jù)變量使用組合logistic回歸算法進(jìn)行識(shí)別與預(yù)測(cè),最后通過(guò)對(duì)輸出進(jìn)行判斷,若輸出值>0.5時(shí),說(shuō)明根據(jù)該學(xué)生最近一段時(shí)間內(nèi)的表現(xiàn),被預(yù)測(cè)為貧困生;<=0.5時(shí),說(shuō)明該學(xué)生被預(yù)測(cè)為非貧困生,該算法模型可實(shí)現(xiàn)對(duì)高校貧困生的識(shí)別與預(yù)測(cè),并帶有監(jiān)測(cè)功能。

3 實(shí)驗(yàn)結(jié)果與分析

本文從貧困生查準(zhǔn)率,貧困生查全率以及和的增加調(diào)和平均數(shù)三個(gè)方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。

式(11)中,是指將貧困生判定為貧困生的學(xué)生數(shù)量,是指將非貧困生判定為貧困生的學(xué)生數(shù)量;

式(12)中,是指將非貧困生判定為非貧困生的學(xué)生數(shù)量;

和的調(diào)和平均數(shù)為

用查準(zhǔn)率來(lái)驗(yàn)證模型的負(fù)面準(zhǔn)確性,值越大,模型對(duì)貧困生的辨識(shí)能力就越準(zhǔn)確;用查全率來(lái)驗(yàn)證模型的正面準(zhǔn)確性,值越大,模型真正預(yù)測(cè)中貧困生占的比例就越高;用和的調(diào)和平均數(shù)來(lái)驗(yàn)證模型的穩(wěn)定性,值越大,說(shuō)明該模型越有效。

把處理的數(shù)據(jù)代入組合logistic回歸預(yù)測(cè)模型中,最終得到的結(jié)果預(yù)測(cè)如圖2所示。

圖2 組合logistic回歸模型結(jié)果

由下述表格可以看出,采用組合logistic回歸算法,預(yù)測(cè)某高校貧困生的準(zhǔn)確率達(dá)到89.1%,非貧困生的查準(zhǔn)率97.9%,總的準(zhǔn)確率達(dá)到96.3%。

采用值、值和值三個(gè)評(píng)估標(biāo)準(zhǔn)來(lái)綜合評(píng)價(jià)模型2組合logistic回歸模型評(píng)估方法和模型1 K-means聚類(lèi)評(píng)估算法。

表2 兩種模型對(duì)比結(jié)果

在表2中,可以看出,模型1中值、值以及F分別為70.1%、30.5%和42.5%,模型2中值、值以及值分別為89.1%、90%和89.5%。實(shí)驗(yàn)結(jié)果表明模型2對(duì)貧困生的辨識(shí)能力比模型1 更為準(zhǔn)確,真正預(yù)測(cè)的貧困生比例遠(yuǎn)遠(yuǎn)大于模型1,并且模型2的穩(wěn)定性更高。

綜合以上三個(gè)評(píng)價(jià)標(biāo)準(zhǔn),可以說(shuō)明模型2在貧困生的識(shí)別預(yù)測(cè)方面更為理想,能夠在很大程度上識(shí)別貧困生。

4 結(jié)語(yǔ)

針對(duì)目前高校貧困生認(rèn)定過(guò)程中存在的問(wèn)題,采用組合logistic回歸算法進(jìn)行貧困生認(rèn)定,實(shí)現(xiàn)了高校貧困生預(yù)測(cè)。收集某高校關(guān)于學(xué)生某段時(shí)間內(nèi)的消費(fèi)數(shù)據(jù),在數(shù)據(jù)預(yù)處理的時(shí)候,首先進(jìn)行清洗、提取,然后采用因子分析對(duì)數(shù)據(jù)進(jìn)行降維處理,減少數(shù)據(jù)的特征,有效降低了數(shù)據(jù)噪音以及過(guò)擬合問(wèn)題。對(duì)降維后的特征值采用logistic回歸算法進(jìn)行訓(xùn)練,并且取得了更好的識(shí)別預(yù)測(cè)結(jié)果,在一定程度上為高校貧困生認(rèn)定提供了積極的意義。該模型利用學(xué)生消費(fèi)實(shí)現(xiàn)貧困生的預(yù)測(cè),識(shí)別分類(lèi)的準(zhǔn)確率很高,預(yù)測(cè)結(jié)果分為貧困生與非貧困生兩種,有待進(jìn)一步的優(yōu)化,對(duì)貧困生進(jìn)行多層分類(lèi),選擇更好的模型,研究預(yù)測(cè)的穩(wěn)定性。

[1]陳曉,王樹(shù)寶,李建晶,等.基于加權(quán)約束的決策樹(shù)方法在貧困生認(rèn)定中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014(12):142-145.

[2]王文娟.基于一卡通數(shù)據(jù)的大學(xué)生消費(fèi)分析的技術(shù)路線研究與實(shí)例分析[D].大連:大連醫(yī)科大學(xué),2013.

[3]劉亮,許靈,劉斯文.基于K-Means聚類(lèi)的高校困難學(xué)生貧困等級(jí)劃分研究——以蚌埠學(xué)院為例[J].白城師范學(xué)院學(xué)報(bào),2017(08):38-41+64.

[4]王澤原,趙麗,胡俊.大數(shù)據(jù)環(huán)境下利用隨機(jī)森林算法和決策樹(shù)的貧困生認(rèn)定方法[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào), 2018,040(006):115-120.

[5]陸桂明,張?jiān)?,周志?基于機(jī)器學(xué)習(xí)的貧困生分類(lèi)預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(01):322-325.

[6]丁小歐,王宏志,于晟健.工業(yè)時(shí)序大數(shù)據(jù)質(zhì)量管理[J].大數(shù)據(jù),2019,5(06):1-11.

[7]秦磊,郁靜,孫強(qiáng).混頻時(shí)間序列的潛在因子分析及其應(yīng)用[J].統(tǒng)計(jì)研究,2019,36(09):104-114.

[8]陳宮燕,普布桑姆,次仁旺姆,次仁,德慶央宗,李彥軍.基于Logistic回歸方法的林芝市山洪地質(zhì)災(zāi)害預(yù)警研究[J].中國(guó)農(nóng)學(xué)通報(bào),2019,35(23):124-130.

猜你喜歡
模型學(xué)生
一半模型
快把我哥帶走
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
《李學(xué)生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學(xué)生
學(xué)生寫(xiě)話
3D打印中的模型分割與打包
學(xué)生寫(xiě)的話
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产亚洲精久久久久久无码AV| 四虎在线高清无码| 人妻一本久道久久综合久久鬼色| 免费观看精品视频999| 亚洲精品综合一二三区在线| 蜜桃视频一区二区三区| 国产成人精品在线| 成人韩免费网站| 2019年国产精品自拍不卡| 亚洲国产欧洲精品路线久久| 白浆免费视频国产精品视频| 欧美成人aⅴ| 狠狠干综合| 精品久久久久无码| 国产主播一区二区三区| 日韩一级二级三级| 国产精品亚洲五月天高清| 香蕉eeww99国产精选播放| 5388国产亚洲欧美在线观看| 色综合久久综合网| 重口调教一区二区视频| 强奷白丝美女在线观看| 国产成人免费视频精品一区二区| 国产白浆在线观看| 欧美日韩在线亚洲国产人| 国产99在线| 国产精品熟女亚洲AV麻豆| 国产在线观看人成激情视频| 亚洲 日韩 激情 无码 中出| 国产精品不卡永久免费| 国产白浆一区二区三区视频在线| 孕妇高潮太爽了在线观看免费| 国产永久在线观看| 免费国产福利| 国产在线观看99| 午夜啪啪网| 啪啪永久免费av| 亚洲欧美综合在线观看| 色哟哟国产精品| 日韩免费毛片| 精品视频一区二区观看| 国产不卡国语在线| 国产精品久久久久久影院| 国产在线观看成人91| 婷婷综合缴情亚洲五月伊| 2020极品精品国产| 性色在线视频精品| 丁香六月激情综合| 国产又粗又猛又爽视频| 亚洲一区无码在线| 五月婷婷亚洲综合| 国产91丝袜在线播放动漫| 亚洲人成色77777在线观看| 亚洲无码精彩视频在线观看| 在线观看热码亚洲av每日更新| YW尤物AV无码国产在线观看| 91精品国产91欠久久久久| 欧美一区二区福利视频| 久久久精品国产SM调教网站| 国产91精品久久| 欧美国产日韩在线播放| 青青草国产一区二区三区| 在线精品欧美日韩| 国产精品网曝门免费视频| 日本手机在线视频| 日本在线视频免费| 欧美精品另类| 成人午夜网址| 91精品视频网站| 国产91高跟丝袜| 国产超薄肉色丝袜网站| 一区二区偷拍美女撒尿视频| 国产人人射| 亚洲人成影院午夜网站| 无码精油按摩潮喷在线播放| 成人a免费α片在线视频网站| 色综合久久久久8天国| 天堂在线www网亚洲| 国产一区二区影院| 亚洲中文字幕日产无码2021| 国产成人综合久久| 99热这里只有成人精品国产|