999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據分析的高校貧困生精準資助策略研究

2020-09-02 01:22:06歐陽鐵磊葉玲肖
計算機應用與軟件 2020年8期
關鍵詞:特征

歐陽鐵磊 葉玲肖

(浙江工商大學網絡信息中心 浙江 杭州 310018)

0 引 言

對高校來說,判定貧困生沒有統一的標準。現在一般采取自主申報的方式,有些同學由于自尊心等因素,即使經濟困難也不去申報。有些家庭即使不貧困,也能開出貧困證明。現行辦法存在一定弊端,主觀依據多,客觀依據少。

現在高校普遍采用的校園卡,又叫“一卡通”,記錄了學生生活學習的各方面情況,其中包括在食堂就餐消費的數據。判斷貧困生的關鍵是選取特征變量以及確定分組點。現有研究的觀點包括:通過已經認定的貧困生得到相應的貧困標準線,比較每名學生與貧困標準線的偏離程度[1];采用月消費金額,通過聚類算法分組[2];對常規變量作處理,用消費金額比上平均消費金額作為貧困指數[3]。但上述研究仍存在弊端:(1) 認定的貧困生名單中可能有誤差,存在少部分虛假貧困生,不能直接采用這份名單中統計分析出來的數值作定量分析,但是可以統計總體消費特征做定性分析;(2) 選取的判斷貧困生的變量,需要算法檢驗,找出最能區分貧困生的特征變量。

基于這些考量,本文判定貧困生的思路是:統計貧困生認定名單和非貧困生兩類學生的消費特征;根據消費特征,研究分析出消費特征變量之間的相關性和內藏的消費觀點。通過研究結果,嘗試導出更能區分貧困生的派生變量,與其他常規向量一起,通過CHAID算法,檢驗找到最佳分組變量和最佳分組點。

1 數據處理及特征分析

1.1 數據處理

采樣某高校在校學生的校園卡食堂消費原始數據,還有一份相關部門給定的貧困生名單,即通過自主申報方式評出的貧困生,以找出貧困生與非貧困生不同的消費行為特征以及內部隱藏的規律。

首先對數據進行獲取和預處理,從數據庫查詢計算每個學生在校期間的消費情況,諸如月消費總次數、三餐平均消費額等。按照相關部門給的名單,將學生分為貧困生和非貧困生,統計其消費特征。圖1和圖2分別列出了三餐平均消費金額和就餐次數兩個消費變量。

圖1 貧困生與非貧困生三餐平均消費金額對比

圖2 貧困生與非貧困生月就餐次數對比

可以看出,貧困生區別于非貧困生的兩個特點:一是在食堂的平均消費次數高于非貧困生,二是在食堂的平均每餐消費金額低于非貧困生。

1.2 特征分析

深入分析消費次數和消費金額之間的內在關系,發現派生變量x與y之間存在如下線性關系:

y≈3x

(1)

x=(m0-m1)/m1

(2)

y=(n1-n0)/n0

(3)

式中:x表示非貧困生平均消費金額超出貧困生的百分比;y表示貧困生月消費次數超出非貧困生的百分比;ni表示一個月中i類學生消費次數;mi表示i類學生的平均消費金額,i取0或1,0表示非貧困生,1表示貧困生。實驗結果如圖3所示。

圖3 x與y線性關系

式(1)表明非貧困的平均消費金額每超出貧困生1個百分點,貧困生就餐次數就會超出非貧困生3個百分點。早餐是三餐中次數相差最大的,中餐、晚餐次數相差不大。經過對食堂飯菜品種價格等進行調查,發現早餐品種豐盛、價格實惠,中餐和晚餐葷素價格相對比較固定,飲食需求基本為一葷一素。對比學校外同等程度的飯菜,食堂價格要低一些,所以貧困生更傾向在食堂吃飯,尤其是早飯。因此價格對貧困生來說成為決定是否在食堂吃的重要因素。貧困生偏向用更少的錢,滿足自己的基本飲食需求。

根據統計和分析結果,推測出貧困生特征的三種情況:

1) 兩種消費特征都滿足,就餐次數高,平均消費低;

2) 滿足其中一種消費特征,就餐次數高,但是飲食需求大,在食堂的平均消費可能會偏高;

3) 滿足其中一種消費特征,平均消費低,但是有可能在食堂就餐次數少。

2 基于CHAID算法的群體分組

卡方自動交互診斷器(CHi-squared Automatic Interaction Detector,CHAID)由Kass等在1980年提出,是一種決策樹算法。其核心思想是:根據給定的輸入變量和輸出變量對樣本進行最優分割,按照卡方檢驗的顯著性進行多元列聯表的自動判斷分組。利用卡方自動交互檢測法可以快速、有效地挖掘出主要的影響因素,它可以處理非線性和高度相關的數據,能克服傳統的參數檢驗方法在這些方面的限制。在CHAID技術中,可以直觀地看到在樹的分割變量和相關因子之間的關系。決策樹或分類樹的展開,始于確定作為根節點的目標變量或因變量。為了找出最優根節點,引入特征變量W=月消費次數/平均每天消費金額,加入常規變量中,作為CHARID算法的輸入變量。

2.1 輸入變量預處理

根據模型特點,輸出變量為分類型,0表示非貧困生,1表示貧困生,輸入變量均為數值型,包含W、早餐平均消費金額、中餐平均消費金額、晚餐平均消費金額、早餐月消費次數、中餐月消費次數、晚餐月消費次數、日平均消費金額,月消費總金額等。采用ChiMerge分組法,其特點是:輸入變量所具備的對輸出變量的解釋能力,不會因分箱處理而減弱。舉例W變量處理過程如下:

1) 將變量W按變量值升序排序,定義排序后的輸入變量取值w1,w2,…,wi,wi+1,…,wn,定義相對應的輸出變量取值Y1,Y2,…,Yi,Yi+1,…,Yn。

2) 以相鄰兩個輸入變量中間值Qi為組限,使每個數據均單獨落入初始區間中。

3) 得到分組區間與Y值的交叉表,如表1所示。

表1 相鄰兩區間與Y值的交叉表

4) 計算該交叉表的卡方值。

(4)

式中:r表示行的個數,這里是相鄰兩組數[Qi,Qi+1]與[Qi+1,Qi+2],所以值為2;C表示列的個數,這里是目標變量是否貧困,分為Y=0和Y=1兩類,所以值為2。

5) 將卡方值與臨界值進行比較。該模型中選擇自由度為1、顯著性水平為0.05的卡方臨界值3.841。如果卡方值小于臨界值,則兩組輸入區間可以合并為[Qi,Qi+2],若卡方值大于臨界值,則不能合并。

ChiMerge方法是一種在輸出變量指導下的分組。它注重從分組結果與輸出變量的相關性角度實施分組。這樣的分組結果減少了輸入變量的取值個數,但并不影響對輸出變量的分析。

2.2 確定最佳分組變量

對數據完成預處理之后,進行最佳分組變量的選擇,計算輸入變量與輸出變量相關性檢驗的統計量的概率P值,即卡方值對應的P值,P值越小,說明輸入變量與輸出變量的關系越緊密,應當作為當前最佳分組變量。當P值相同時,應該選擇檢驗統計量觀測值最大的輸入變量,也就是卡方最大的輸入變量。實驗結果顯示,變量W的P值為0,χ2=566.171最大,選取該變量為最佳分組變量即根節點,如表2所示。

表2 與輸出變量關系最緊密的前5個輸入變量

CHAID算法將變量W從低到高分組。貧困生在每組的占比隨著W的增加而增加。根據實際需要并結合其他節點的分組情況,適當進行剪枝,給出最終的判定貧困生標準:

1)w>2.194,中餐平均消費≤8.05。這部分貧困生在食堂消費次數高,消費水平微低于非貧困生,說明經過資助,消費水平已經接近正常水平,稱為一般貧困生。

2)w≤2.194,1.9<早餐平均消費<3.58,中餐月消費額≤107。這部分貧困生早餐多買一點當作午餐吃,午餐花費相對少,稱為消費困難生。

3)w≤2.194,早餐平均消費≤1.9,中餐平均消費額≤7.41。這部分貧困生消費次數少且消費水平低于貧困生的平均水平,稱為消費特困生。

2.3 驗證結果

在統計結果中有消費記錄的學生為15 747名,一日三餐都有消費記錄的為10 649名,其中在認定貧困生名單里的有1 703名,其他非貧困生有8 946名。

(1) 驗證貧困生名單情況。在貧困生名單里符合一般貧困生特征的有1 053名,符合消費貧困生特征的有320名,符合消費特困生特征有99名。貧困名單中按貧困規則判定的貧窮生占86.4%。調查發現在13.6%的疑似非貧困生中仍然存在少部分的貧困生。實驗誤差主要受在外實習、點外賣、學校周邊小吃店多以及自身食欲、體重等多種因素影響。

(2) 驗證非貧困生名單情況。一般貧困生經過學校資助后,消費水平接近于非貧困生,用這種消費特征作為判斷貧困生的標準會有誤差,這里使用消費困難生和消費特困生的特征來判斷貧困生。符合消費困難生特征的有862名,符合消費特困生特征的有314名,占非貧困生名單的13.1%。對判定的疑似貧困生進行調查分析,發現有部分學生家里比較富裕,但生活比較節儉。另外一部分家里確實比較困難,但因為各種因素,沒有申報成為貧困生。

3 結 語

本文建模得到的結果,基本符合預期的貧困生消費特征。兩種消費特征都滿足的占了大多數。少部分貧困生的消費特征是在食堂平均消費低,且次數低。食堂消費次數多、消費額偏高的情況并不顯著,表明大家的基本飯量和胃口差不多,對飯菜的要求不一樣。

分析貧困生的消費特點,兩類學生值得關注:消費困難生和消費特困生。消費困難生經濟上比較拮據,為了節省費用,中飯就吃早餐買的一些食物,給予資助可以改善他們的伙食。消費特困生不僅需要經濟的幫助,還需要心理的輔導。走訪調查發現這類消費特征的學生不在學校食堂就餐的消費金額,要比在食堂就餐還低。他們往往克扣自己的伙食費,沒有達到基本的生活飲食需求,對身體、學習都存在不利影響。學校應引導他們改變消費觀念或給予更多的經濟補助。

本文研究了用貧困生判斷規則檢驗貧困生名單的情況,以及在非貧困生中找疑似貧困生的方法,并闡釋了誤差產生的原因。這些研究分析數據可以輔助學校進行貧困生資助工作,資助那些真正需要經濟幫助的學生。盡管高校貧困生精準資助是個系統和復雜的問題,但隨著高校信息化的發展,大量采集多維度高質量的數據,并采用科學的評判方法,就一定能夠取得令人滿意的結果。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: av免费在线观看美女叉开腿| 黄色a一级视频| 中文字幕1区2区| 久久香蕉国产线看观看式| 特级精品毛片免费观看| 国产精品美乳| 岛国精品一区免费视频在线观看| 少妇被粗大的猛烈进出免费视频| 免费a在线观看播放| 久久久精品久久久久三级| 国产在线自乱拍播放| 国产91精品久久| 五月天福利视频| 无码内射在线| 国产福利影院在线观看| 午夜日本永久乱码免费播放片| 最新日本中文字幕| 欧美日韩v| 日韩天堂网| 国产麻豆永久视频| 98精品全国免费观看视频| 综合色婷婷| 91亚洲影院| 国产一区二区丝袜高跟鞋| 国产高清精品在线91| 成人第一页| 国产超薄肉色丝袜网站| 四虎成人免费毛片| 国产在线精品99一区不卡| 一级毛片在线免费视频| 国产91丝袜| 成人免费一级片| 中文字幕久久波多野结衣 | 一本二本三本不卡无码| 成人亚洲视频| 亚洲色图在线观看| 夜夜操天天摸| 免费AV在线播放观看18禁强制| 天堂中文在线资源| 国产成人无码Av在线播放无广告| 欧美成人精品高清在线下载| 熟妇丰满人妻av无码区| 亚洲区视频在线观看| 亚洲成A人V欧美综合| www.日韩三级| 国产一区三区二区中文在线| 日韩午夜片| 人妻中文久热无码丝袜| 真实国产乱子伦视频| 国产欧美精品一区aⅴ影院| 成人欧美在线观看| 国产成人调教在线视频| 国产高清色视频免费看的网址| 亚洲美女AV免费一区| 亚洲一区免费看| 在线观看欧美国产| 欧美综合区自拍亚洲综合天堂| 91娇喘视频| 青青青国产视频手机| 91小视频在线| 91av国产在线| 免费看美女毛片| 亚洲国产精品日韩专区AV| 久久伊伊香蕉综合精品| 亚洲欧洲日韩久久狠狠爱| 三上悠亚在线精品二区| 99精品在线看| 中文字幕2区| 精品国产aⅴ一区二区三区| 国产高清无码麻豆精品| 激情亚洲天堂| 国产18在线| 在线观看国产精美视频| 亚洲狼网站狼狼鲁亚洲下载| 青草精品视频| 在线综合亚洲欧美网站| 91高清在线视频| 青青草91视频| 呦女亚洲一区精品| 97国产在线视频| 亚洲欧洲日产国码无码av喷潮| 久久免费视频播放|