孫春蓮 陳勇智 龔浩
摘?要:基于我國高校教育事業的迅猛發展,高校資助工作愈發受到黨和政府高度重視,盡管在教育部的指導下,各地高校都建立起完善的資助體系。但是貧困認定無法量化、后期缺少審查監管機制,給基層輔導員和班主任開展工作帶來很大困難,本文將“大數據分析法”引入貧困認定審查工作中,通過分析學生在校期間消費情況來對學生的困難程度進行精準化定位,以期為后續資助工作提供有力依據。
關鍵詞:資助工作;精準認定;大數據分析;?學生工作
中圖分類號:F24?????文獻標識碼:A??????doi:10.19311/j.cnki.16723198.2023.02.046
教育公平是社會公平的基礎,對高校而言,貧困是阻斷教育公平實現的重要障礙,對于家庭經濟困難學生而言,高校資助尤為重要,貧困認定是高校開展資助育人工作的前提。目前,貧困認定工作還存在一些實際困難,嚴重影響了貧困認定的準確性和工作效率,因此剖析現今高校資助工作存在的弊端并提出合理化措施,進一步完善資助體系,確保資助工作落實到位,切實發揮資助的育人功能,真正實現教育公平迫在眉睫。習近平總書記指出,要推進教育精準脫貧,阻斷貧困代際傳遞,讓每一個孩子都對自己有信心、對未來有希望。
1?高校資助工作中存在的問題
為了解資助工作中存在的問題,筆者向學院各專業各年級參與貧困認定的學生發放調查問卷,共回收有效問卷255份,其中,來自農村學生占80%,來自城市學生占20%,參與貧困認定學生占94.51%,89.70%的學生通過了貧困認定。2021年學校貧困認定等級分為特別困難,一般困難和困難,認定結果基本與實際相符,但是通過實際調查及資料分析發現,多數高校對貧困生的認定依然缺少科學性,與我國精準扶貧理念存在差距。目前,高校在貧困認定中存在以下問題。
1.1?國家資助政策認識不足
學院大部分學生來自農村,且存在一定程度上家庭經濟困難,主要原因在于父母文化程度相對偏低、無穩定的工作、家庭在學子女多且還需贍養老人等。在被調查的學生中,有4.31%的學生反應對國家資助政策不了解,47.45%的同學反映身邊有需要資助的同學沒有得到相應的幫助。部分原因可能在于對貧困生概念模糊,不能準確判斷是否確實貧困,另一部分原因在于家庭條件相對困難的學生因思想觀念落后、情感缺失等原因不愿意將自己的隱私泄露,因而不申請困難補助,從而得不到學校和社會的幫助,使得自己在生活物質上依舊貧困,有的還引發了精神和心理上的“貧困”。而且,在后期摸排中,筆者發現一些家庭經濟較好的同學為了申請勵志獎學金等補助而瞞報實際家庭情況,扭曲了資助政策的本質。
1.2?精準識別貧困生存在困難
當前,大部分高校困難認定開展流程為:廣泛宣傳→學生提出書面申請→遞交貧困證明材料→班級小組評議認定→班主任審核簽字→學院審核公示,上報學校資助中心→學校審核公示→數據錄入省資助系統→助學金發放。這一認定標準堅持了“公平、公正、公開以及實事求是和民主評議原則”,但在具體實施過程中還存在評定依據比較單一,評定標準缺乏客觀性的問題。一方面表現在測評指標中家庭經濟困難程度、家庭成員組成和健康狀況、經濟收入來源和能力、家庭遭受突發事件和變故這些指標難以一一核實,而且學生的主觀性較強。其原因如下:家庭經濟狀況較為良好的學生能夠通過多個途徑獲知貧困資料的辦理方式,以此偽造出與自身經濟狀況不符的貧困資料;貧困家庭難以獲知材料辦理方式,導致其無法順利提供貧困資料,致使需要補助的學生失去貧困補助資格;另一方面有些指標是動態過程,無法在數據庫系統中體現出來。問卷調查結果顯示:對于家庭經濟困難是如何界定這個問題,76%以上同學反映主要根據“學生家庭所在地的證明”“家庭收入的證明材料”或“學生申請書中對自身家庭情況的描述”,而“學生平時生活消費和習慣”這一關鍵指標被大多數人忽略。
1.3?沒有健全的審查監管機制
學校在貧困認定及后期的資助項目中都建立了嚴格的“雙審核,雙公示”機制,經班級評議小組評議后,學院進行第一層審核,學校進行第二層審核,但無論學院還是學校審核的都是材料的完整性,一旦材料完整,通過貧困認定即可加入貧困生信息庫,獲得相應資助。但是對于助學金的科學合理支配缺少一定監督。經調查問卷發現5%左右同學反應獲得獎、助學金的同學會請同學吃飯和選購名牌衣物,29.41%的同學給父母買東西,79.22%的同學會拿助學金來補貼家用。
2?“大數據分析法”引入貧困生識別和審查工作中
針對上文對目前高校貧困認定工作中存在的缺陷這一問題的分析可以看出,高校必須積極引入大數據技術,將其與傳統認定方式進行融合,以此進一步加強貧困認定工作的精準性,從而為學校資助工作的順利進行提供保障。
基于以上分析,本文以國內某高校校園一卡通系統運營一個月的校園消費數據為基礎,共4341個樣本,519368條消費數據,采用大數據分析技術,構建困難生識別模型。該種模型能夠根據學生的實際消費情況進行困難程度的測算和認定,所測算的結果可與民主評議方法進行融合,從而幫助高校對困難生進行精準認定,具體模型構建方法如下。
2.1?數據預處理
通過對單個學生每月消費總額進行統計,筆者分析得出學生的單月平均消費金額為247.38元,而在對4341名學生的單月消費記錄進行統計分析后發現有少部分學生的消費記錄明顯高于平均值,其中單月消費記錄大于720元的學生有90人。這90個學生的單月平均消費記錄為1468元,最大值為10382.9元,可能存在一些極個別學生消費記錄高或者其他類似刷單等不正常的消費方式,綜合單月消費總金額和單月消費平均值的差異及學生消費分布情況后,筆者對單月消費記錄大于600以上的學生,共218人剔除,過濾后剩下4123個學生消費記錄。通過分析不同指標在學生消費記錄的多樣性和學生消費行為的相關程度來測算學生困難程度,本文選取了以下5個指標進行分析(如表1)。
2.2?模型特征選擇
通過對選取的不同指標統計后分析發現能直接反映學生消費情況的主要為單月消費總金額、單月消費次數、單次消費平均值及累計消費次數這幾個指標。利用python腳本對這些指標在人群中的分布情況進行統計,結果發現這些指標分布和相關性差別較大。本文對收集到的消費數據過濾后,利用R語言的scatterMatrix軟件包構建了單月消費總金額、單月消費次數、單次消費平均值及累計消費次數的分布圖和變量之間相關散點圖來表示變量之間的相互關系(如圖1)。單月消費總金額和單月消費次數呈現中間多兩邊少的近似正態分布,說明單月消費總金額和單月消費次數呈現高度的正相關,這一統計結果證實了過濾篩選后的數據沒有失真。單次消費平均值和累計消費次數分布大部分都集中在很小的區間范圍,而且單次消費平均值的統計更加集中,這說明學生單次消費金額基本相似,只有極少數樣本異常,這一分析再次驗證了單月消費總金額的差異大部分是由單月消費次數造成的。另外,從單月消費總金額和單次消費平均值散點圖可以得出:除極少數學生外,單月消費總金額和單次消費平均值對大部分學生而言是沒有線性相關。
除了上述4個與消費記錄直接相關的指標外,消費者經常消費的場所和消費的商品可能也是評價消費行為的一個指標。通過對各消費商品的id統計后發現本文分析的所有消費記錄中一共有147個不同的商品id,最大值為排名第一的id為196的商品,占總體消費次數的4.2%。所有消費商品的平均消費次數為3533,最小值為3,前6個消費商品的消費次數占總體消費次數的18.82%,以上分析可以得出學生消費的商品類型呈現聚集性和廣泛性兩個特點,少數商品消費次數很多,但總體來說商品消費總類及不同商品消費次數差異均很大。這也說明特定商品每月的消費次數可能是區分學生消費行為的一個很好指標。
對消費場所的id進行同樣的分析后發現,一共有74個不同的消費場所id(消費場所id對應有具體名字),所有消費場所的平均消費次數為7018次,最大值為137487,最小值為1。消費次數前6的消費場所的累次消費次數占總消費次數的66.13%,說明消費地點也呈現出和消費商品類似的聚集性和多樣性共存的特點,但是它呈現出比消費商品更集中的趨勢。考慮到進行消費行為分析時,選取的指標如果在人群中出現的次數低,那么該指標對整體模型預測能力的貢獻率會降低等原因,本文分別選取了消費商品次數多的前6個商品和消費場地次數多的前6個消費場所及單月消費總金額、單月消費次數、單次消費平均值、累計消費次數共16個指標作為分析學生消費水平的指標。
對過濾后的樣本用上文分析出的16個指標進行統計,并計算各個因素之間的相互作用關系,最后形成熱點圖,并在單元格內標注各因素之間的相關系數。分析結果顯示大部分因素之間相關性不高,然而有些因素之間有明顯的關聯關系。如?“商品196”和“好利來食品店”,相關系數為0.96.說明此商品極有可能為好利來食品店所特有,此外第二食堂也和一些商品呈現出較高的相關性(相關性>0.5,商品63和商品54等),說明學生可能經常在第二食堂消費這些產品。除了正相關關系,某些和某個消費場所次數高度正相關的商品可能和另外消費場所呈現負相關,例如商品63和第二食堂呈現較高的正相關(0.88)而和好利來食品店呈現負相關(-0.19),造成這種趨勢的原因可能是由于該商品是某消費地點特有的,進一步比較分析了第二食堂和好利來食品店兩個因素后發現他們呈現較強的負相關(-0.26)。
除了消費商品和消費場地之間的相互關系,作者分析發現一些消費直接相關的指標也與消費商品及消費場地相關。如單月消費次數這個指標和商品63及商品7的消費次數呈現高度正相關,所以學生單月消費次數多的可能是這些商品,而不是所有商品,進一步說明學生單月消費次數的高低不是由單一的商品消費次數高造成的,而是多個消費產品的消費次數的增加。總體來說單月消費總金額和單月消費次數呈現高度正相關(0.5)而和單次消費平均值呈現弱相關(0.1),所以學生單月消費總金額的差異主要和消費次數及其關聯的消費商品與消費地點相關而和單次消費平均值關系不大。
2.3?構建分析模型
本文數據模型采用聚類算法中的KMeans算法,通過對學生消費行為的一些特征進行統計與標準化處理,將這些特征信息轉化為區別學生消費水平的依據。在確定模型前需要對模型K值(即學生消費水平分組數量)進行一個預估和模型效果預測。
本文采用輪廓系數作為模型優劣綜合評估的標準(輪廓系數越接近1?,理論上模型效果越好,但并非絕對)。基于后續選擇分析的特征數目和輪廓系數值,最終選定K值為5,即將學生消費水平分為5組,具體分析方法如下。
通過上文學生消費相關的16個指標的聚類分析得知學生消費相關屬性之間比較獨立,相關性不高,所以本文使用無監督的Kmeans分類算法對學生的消費行為進行分類。由于本文用來構建分類模型的屬性在具體數值上差別較大,所以在進行分類模型構建時需首先對這些屬性進行標準化處理,即對每個屬性找出他們的最大值和最小值,然后把每個數值減去最大值再除以最小值得到新的標準化后的數據,這樣所有的數據都處于0到1之間。進行Kmeans聚類時最重要的是找到合適的分類中心點,通常的做法是針對不同數目的分類中心點分別計算輪廓系數,然后通過輪廓系數的變化來決定合適的分類中心數目。輪廓系數越大證明選擇該中心點數目時,各個聚類差異越大。本文用R語言的fpc軟件包計算輪廓系數聚類中心點從1到8的所有輪廓系數,而且為了消除單次聚類時隨機因素的干擾,對每個輪廓系數進行了10次重復,并求其平均值作為最后的輪廓系數。結果顯示聚類中心數為2到4時輪廓系數比較大,并且中心點為3和4時,輪廓系數差異不大,中心點數目大于4時輪廓系數顯著性降低。結合本文需要分類的樣本量較大的情況,本文分別繪制了聚類中心點數為3和4的分類圖(如圖2),結果發現分類中心點數為3和4時整體差異不大。中心點數為4時多出的那一聚類為中心點為3時中心交界的成分,原來的3個中心聚類整體不變。所以為了更好地對學校的消費行為進行劃分,本文選擇聚類中心點數為4進行后續Kmeans無監督聚類分析。
2.4?模型結果分析
對Kmeans輸出的每個類群的人數進行統計后發現類群2的人數為3732人(如圖2右邊中心點為4的分類圖),占總體的43.49%,人數最少的為類群4占比7.82%(671人),中間類群1和3之和為46.17%。所以整體上看消費水平低的學生和消費水平中等的學生占絕大多數,消費水平高的學生只是非常小的一部分。然而本文對消費金額低的類群2單月消費總金額進行統計后發現很多校園卡單月消費總金額不足100元,可能存在一些同學由其他渠道消費支出的情況,統計數據時過濾掉單月消費總金額低于100元的消費記錄樣本,最后預測出消費水平低的學生為1828名,占比21.30%。最終分析結果可以得出消費水平高、中和低的三類學生的人數呈現出中間多,兩邊少的現象,印證了用Kmeans聚類分析模型鑒定學生消費水平具有重要意義。
2.5?模型分析結果驗證
將分析結果與困難生信息庫中數據進行比對來驗證模型的準確性。對于模型預測出的困難生信息庫以外的學生,可以通過面對面訪談形式了解其真實情況,最終基于預測模型判別是否為困難生。對于模型預測出的消費水平高的學生與困難生信息庫中數據若有重合,需要通過面對面訪談、同班級宿舍同學了解情況等方式確認是否真實貧困,需要資助,并針對性地進行學生誠信、勵志、感恩、勤儉教育。
3?結束語
享受良好的教育是每個公民的權利,但是貧困可能導致部分學生不能安心的接受教育,這時資助工作顯得尤為重要,而貧困認定作為資助工作的最初環節,對后續所有資助工作起著決定性的作用。因此各高校應對其給予高度重視,并對大數據技術進行正確使用,本文采用大數據分析與構建數學模型相結合技術,建立校園貧困生識別模型,對學生進行智能辨別。在資助育人過程中,打出科技牌,達到精準識別、隱性資助、人性化關懷的目的,走出了一條獨特的資助育人暖心路線。基于此,我國高校家庭經濟困難學生認定的精準性及資助育人的效果將顯著提升。
參考文獻
[1]金久仁.新時期我國教育公平之價值立場研究[J].教育評論,2020,(9).
[2]周光來.論新時代高校學生資助工作與思想政治教育工作相結合[J].廣東職業技術教育與研究,2021,(01).
[3]李騰,王越,蘇倩覦.基于“相對比較法”的地方高校資助工作研究——以太原工業學院為例[J].社會與公益,2021,(11).
[4]董波.大數據背景下高校家庭經濟困難學生精準認定研究[J].教育教學論壇,2021,(45).
[5]吳菲.“大數據”視域下高校輔導員資助工作精準化研究[J].湖北開放職業學院學報,2020,33(13).