王 鶯
(臺州職業技術學院,浙江 臺州 318000)
高校貧困生兩大工作:一是貧困生認定工作;二是貧困生資助工作。對家庭經濟困難學生做到精準認定,是學生資助工作的基礎、前提,也是決定資助政策落實效果的基礎性工作。隨著每年國家資助力度的不斷加大、資助金額的大幅增長,不少家長及學生在龐大的資助金額利益驅動下,虛報家庭經濟狀況,加之部分地方民政部門工作的“缺失”,高校又缺乏行之有效的認定方法,“偽貧困生”現象陸續出現。“偽貧困生”不但侵占了國家部分資助資源,影響了高校貧困生資助的效益與效率,更影響了學校風氣,違背了“貧困助學”的初衷。
對高校來說,如何準確界定貧困生,有效落實國家各項資助政策,高效、合理地對貧困生開展資助工作,已成為高校貧困生工作的一大難題,也是學生工作的一項重要內容,一定程度上是衡量教育是否公平的有利杠桿。
2017年01月23日,教育部辦公廳發布《教育部辦公廳關于進一步加強和規范高校家庭經濟困難學生認定工作的通知》,通知明確指出各高校應采用大數據分析、個別訪談等方式,深入、直觀了解學生家庭經濟狀況,及時發現那些不困難卻受助的學生,及時糾正認定結果存在的偏差。精準分配資金名額,明確重點受助學生,分配資金和名額,不能搞簡單的劃比例、“一刀切”。在分配資金和名額時,要統籌考慮不同專業、不同年級、學生經濟困難程度等因素。綜上要求,需要一個相對客觀的評判標準,輔助判別學生的經濟狀況。
數據中心的大數據的實現可以彌補這些缺失。數據挖掘(Data Mining,DM),就是從大數據(包括文本)中抽取未知的、隱含其中的、對決策有潛在價值的信息和知識的過程。簡單說,數據挖掘的最終目的就是從一大堆數據中“淘金”、從數據中獲取智能的過程。運用數據挖掘技術,對學生在校基礎生活消費數據、高校貧困生數據庫數據進行挖掘、分析、預測,將挖掘結果運用到貧困生工作中,使貧困生工作更具準確性和科學性。
(一)一卡通系統數據庫。一卡通系統應用于校園各個消費場所,如食堂、餐廳、浴室、打印復印、超市、小賣部、電子閱覽室、機房等場所,高校學生生活數據量大,數據真實。雖然這些流水數據只限于其在校內的消費,但是這部分消費流水是屬于基本生活消費的,是大學生消費的主要方面,很大程度上能夠反映出學生在校的消費行為,也可以客觀地反映學生在校的經濟消費水平。
(二)高校貧困生數據庫。根據學生申報貧困材料,針對性地對申請貧困的學生進行調查,填寫調查問卷,包括學生學號、姓名、學生身份證號、系部、專業、班級、生源地、家庭人口總數、家庭人均月收入、持有手機品牌、持有計算機品牌等。這部分數據資料需經班主任核實確認,可以客觀地反映學生的家庭經濟水平。
SQL Server 2000數據庫;SQL Server 2000 Analysis Services(SSAS)數據挖掘工具等。
分類、整理相關數據,利用SSAS形成多維分析模型,可實時地對多維數據集進行數據切片、切塊、鉆取。對校園一卡通數據庫數據進行分析,利用數據挖掘DM、聯機分析OLAP等的分析引擎,構建分析決策支持應用,向管理決策者提供決策分析的結果。以下以臺州某高校為例,從系部維度、專業維度兩方面對數據進行分析。

表1某高校2016級學生校園卡在校基本生活的月消費情況
表1是按不同家庭人均月收入分類,對某高校8個不同系部2016級學生校園卡在校基本生活的月消費情況表。
根據該分析,分析各系部學生整體消費水平,學校資助部門制定更為合理的分配方案。例如,臺州該高校目前確定各系部貧困生資助名額是按各系部學生總數占全校學生總數比進行分配。該種分配方式第一步已假定每個學生家庭經濟困難程度相同,但從表1中可看出,各系部與系部間學生月消費平均金額是有差異的,最多可達170多元,占了1/5全校學生平均月消費。這種分配方式的假想第一步并不符合實際情況,存在一定的不合理性。建議資助部門在貧困生資助名額分配時,可分析學生在校近半年甚至一年的基本生活消費數據,了解各系部學生貧困狀況,做適當合理的傾向性分配,不要搞簡單的劃比例、“一刀切”。
在原有系部維度分析層面下精細到各專業,對不同專業學生在校基本生活消費水平進行分析,了解各專業學生的月消費情況,不僅在各系部分配名額時給予參考,更能結合專業特點給予實質性幫助。如該校建筑系,結合本系部專業特點,與標力集團合作,每學年不僅提供一定數量的勤工助學崗位,還設置了標力獎助學金,更為貧困生就業提供了一條就業渠道,對貧困生工作起到了實質性的作用。
通過數據挖掘分析,橫縱向評估與比較,可確定學生個體在校基本消費平均水平處于全校、全系、全專業的程度,既可做到貧困生認定前的動態考察,又可做到貧困生認定后的事后監督,有利于貧困生工作的有效開展。
運用數據挖掘決策樹C4.5算法,構建貧困生評價模型,分析提取分類規則,挖掘出家庭經濟特別困難和家庭經濟困難的學生各有哪些特點屬性,找出規律,從而在貧困生認定工作過程中預測學生是否屬于貧困生范疇之例,為貧困生認定提供參考,進而達到優化貧困生認定機制的目標。圖1是貧困生認定流程。圖2是數據挖掘中數據處理流程圖。
每學年進行一次家庭經濟困難學生認定工作,從信息完整性考慮,研究對象定為在校大二、大三學生。即研究大二、大三學生在校期間一卡通系統數據庫數據(在校基本生活消費數據)及貧困生數據庫數據。
根據文件《關于認真做好高等學校家庭經濟困難學生認定工作的指導意見》(教財〔2 0 0 7〕8號)給出的貧困生認定辦法,結合相關學者專家近年來對認定指標的分析研究,本文貧困生認定指標屬性主要由學生家庭情況((1)家庭人口數;(2)家庭月收入;(3)是否孤兒、單親、殘疾;(4)是否低保家庭、烈士家庭、農村五保戶家庭;(5)家庭成員健康情況)和學生情況((1)學生月消費金額;(2)是否有高檔奢侈用品)兩大指標組成。
通過數據采集、數據預處理、數據清洗等挖掘步驟,根據貧困生認定指標,用C4.5算法創建的決策樹模型如圖3所示:
根據圖3,決策樹規則提取后用IF-THEN表示,得到以下幾條主要規則:
1.IF(是否低保家庭、烈士家庭、農村五保戶家庭=是)THEN學生=特困。
2.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=疾病)AND(是否單親、孤兒、殘疾=是)THEN學生=特困。
3.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=疾病)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額<500)THEN學生=特困。
4.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=疾病)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額>500)AND(家庭月收入<1000)THEN學生=特困。
5.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾=是)AND(學生月消費金額<500)THEN學生=特困。
6.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾 =是)AND(學生月消費金額 >500)AND(家庭月收入<1000)THEN學生=特困。
7.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=疾病)AND(是否單親、孤兒、殘疾 = 否)AND(學生月消費金額 >500)AND(1000<家庭月收入<2000)THEN學生=困難。
8.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=疾病)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額>500)AND(家庭月收入>2000)AND(家庭人口數>5)THEN學生=困難。
9.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾 = 是)AND(學生月消費金額 >500)AND(1000<家庭月收入<2000)THEN學生=困難。
10.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾 =是)AND(學生月消費金額 >500)AND (家庭月收入>2000)AND(家庭人口數>5)THEN學生=困難。
11.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額<500)THEN學生=困難。
12.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額>500)AND(家庭月收入<1000)THEN學生=困難。
13.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND (家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額 >500)AND (1000< 家庭月收入<2000)AND(是否有高檔奢侈品=否)THEN學生=困難。
14.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND (家庭成員健康情況=疾病)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額 >500)AND (家庭月收入 >2000)AND(家庭人口數<5)THEN學生=不困難。

圖3 C4.5算法創建的決策樹模型

圖1貧困生認定流程圖

圖2數據處理流程圖
15.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND (家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾=是)AND(學生月消費金額>500)AND (家庭月收入 >2000)AND (家庭人口數 <5)THEN學生=不困難。
16.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾 = 否)AND(學生月消費金額 >500)AND(1000<家庭月收入<2000)AND(是否有高檔奢侈品=是)THEN學生=不困難。
17.IF(是否低保家庭、烈士家庭、農村五保戶家庭=否)AND(家庭成員健康情況=健康)AND(是否單親、孤兒、殘疾=否)AND(學生月消費金額>500)AND(家庭月收入>2000)THEN學生=不困難。
分析發現,家庭成員中有重大疾病或單親、孤兒、殘疾的學生一般多為特殊困難或一般困難家庭;學生在校月消費金額過低,一般也為困難家庭;學生是低保家庭、烈士家庭、農村五保戶家庭的一定為特殊困難家庭。此結果與資助政策是一致的,可為高校貧困生的認定工作提供決策支持。
國家資助是實現教育公平、促進社會公平的一種制度安排和重要舉措。通過建立貧困生數據庫,對貧困生數據進行挖掘分析,資助部門既能對貧困生基本信息進行全面、及時查閱,又能對這些數據進行有效、及時的分析,把分析結果運用于貧困生身份認定及貧困生等級界定,進而達到優化貧困生認定機制、落實國家資助政策的總目標。