摘要:高校貧困生認定工作一直是高校資助管理工作中一項重要的任務,隨著大數據技術的日益成熟,用戶畫像技術逐漸成為國內外研究熱點,能夠將用戶畫像技術應用于貧困生認定工作中,將給整個資助管理工作帶來巨大的便利。本文從高校貧困生認定的實際出發,研究高校貧困生用戶畫像的構建、系統設計和數據處理的關鍵性技術。
關鍵詞:貧困生認定;數據挖掘;用戶畫像
一、研究背景與意義
目前高校資助管理主要圍繞兩大工作:貧困生認定工作和貧困生資助工作,精準認定貧困生是開展學生資助工作的前提,也是判斷資助政策是否落實到位的重要標準。中共中央、國務院以及各級地方政府都先后出臺了一系列的資助政策,從多方面資助在校貧困大學生。隨著資助力度的不斷強化、資助金額的不斷提高,2019年資助認定流程簡化,民政部門取消家庭情況證明,由學生本人提出貧困生認定申請,部分學生在金錢的誘惑下出現虛報家庭經濟情況的現象,高校如果沒有科學有效的認定方法,將會出現部分“偽貧困生”,他們不僅占用了國家資助資金,影響高校資助工作的開展,更破壞了學校風氣,違背了“貧困助學”的初衷。如何認定困難學生,更加有效的落實各項資助政策,合理展開資助工作已成為高校資助管理工作的一大難題。
2017年教育部辦公廳發布《教育部辦公廳關于進一步加強和規范高校家庭經濟困難學生認定工作的通知》,通知指出高校應利用大數據采集、分析,深入、準確了解學生家庭經濟狀況,及時排除不困難卻受助的學生,實現資金合理分配,因此我們需要一個客觀的評判標準,輔助判別學生的經濟狀況。
使用數據挖掘技術從大數據中抽取潛在價值信息,對在校生基本信息、消費數據進行挖掘分析,結合高校貧困生數據庫,將數據挖掘技術應用到貧困生認定工作中,生成貧困生用戶畫像,貧困生認定工作會更科學更準確。
二、用戶畫像技術國內外研究現狀
“用戶畫像”理論是由Cooper交互設計公司創始人Alan?Cooper提出,是一個抽象標簽化的用戶模型,基于數據挖掘技術。用戶畫像最核心的技術是為研究對象貼上合適的“標簽”,這些“標簽”是通過數據挖掘技術采集分析數據,對數據進行高度概括后產生。
早在2005年,國外的很多專家就開始通過調研不同對象的國家、文化背景、風俗習慣、語言習慣等,將用戶畫像跟產品設計、軟件系統設計結合。目前很多企業將用戶畫像應用在企業營銷和管理當中,技術已經非常成熟。騰訊公司利用QQ、微信等社交平臺收集社交信息,同時收集用戶的身份信息、興趣偏好、位置信息等。騰訊的數據結構越來越豐富,數據類型也越來越廣泛。
隨著企業用戶畫像技術的成熟,一些高校也逐漸開始進行學生畫像研究,利用用戶畫像技術把握學生動態、精準定位,有效挖掘、分析教學管理過程中的大數據,給每位同學進行用戶畫像,形成自動預警機制,為校園管理開啟一扇新的大門。目前大部分高校用戶畫像系統分析維度比較少,各維度的數據缺乏協同性、數據源廣度也不夠,僅僅從教學資源、思想政治、圖書管理等方面進行分析,沒有將其他維度(課程預警、貧困生信息等)有機結合構建多維度的用戶畫像。
三、用戶畫像的構建
用戶畫像是真實用戶的虛擬代表,是建立在真實屬性數據之上的用戶模型。貧困生畫像構建技術是根據學生在校期間的行為數據,構建學生的基礎信息、消費能力、學習成績等標簽集合。
構建用戶畫像需遵循以下兩個原則:
(1)必須從工作任務出發,解決實際問題,比如根據不同的指標確定如何更好的完成學生消費能力評估;
(2)設計用戶畫像標簽時,明確用戶特征、屬性和習慣偏好以便更好的完成數據匯總。
用戶畫像的構建分析主要通過以下四個步驟:
(1)需求評估分析:通過需求分析,對用戶畫像的價值,預期效果和意義進行分析評估和預測。
(2)維度分解:根據需求分析結合實際工作需求,確定用戶畫像的維度,從學生基本信息入手,以個人信息、家庭成員基本情況、在校消費能力情況、學習情況等屬性為基礎,確定數據畫像維度。
(3)確定關鍵技術、完成數據清理:目前有很多數據清理工具,如Python中的?Sklearn和Pandas模塊。通常用替換常量、填充均值、預測回歸等方法處理重復值、異常值和缺失值。
(4)應用流程:完成以上三步后,最后生成用戶畫像,應用在實際工作中。
四、系統功能設計
系統功能設計通過分析學生的基本屬性、統計屬性、分析屬性,確定用戶畫像的維度。基本屬性顯示學生學號、姓名、性別、學院、專業、班級、入學年份、民族、生源地、聯系電話、父母親情況等標簽。統計屬性顯示學生的學業成績、校園卡消費、使用手機品牌、持有計算機品牌配置、網上購物數據等。分析屬性比對高校貧困生數據庫,根據基本屬性和統計屬性顯示貧困生的預測結果。
根據預測結果,將學生進行分類:特別貧困、比較貧困、不貧困。使用數據挖掘技術中的決策樹分類算法完成,該算法提供一定數量的樣本,這些樣本的屬性和類別要完整,經過對比產生分類器,利用決策樹算法,根據學生往年數據,對今年貧困生進行預測,挖掘學生真實的經濟情況,準確評估、動態管理。
決策樹算法首先完成數據清洗、轉換和泛化等預處理工作,再生成貧困生決策樹,并對決策樹進行剪枝處理,形成最終決策樹,對貧困生的貧困程度進行預測。
五、數據獲取與預處理
選取北海藝術設計學院近幾年1300名遞交貧困生申請的學生信息,完成數據分析和處理。綜合考慮影響貧困生家庭的主要原因,選擇了如下標簽:
(1)父母情況:是否健在、是否健康、是否離異;
(2)人均收入:家庭人均年收入狀況;
(3)戶口的類型:城市或者農村;
(4)家庭總人口數:學生直系親屬數量;
(5)證明材料:是否有建檔立卡、低保、殘疾證明等;
(6)成績狀況:該生各科成績情況、不及格課程的數量;
(7)校園卡消費:校園卡每年的消費情況;
(8)其他情況:手機、電腦使用情況。
預處理部分采用離散化處理和數據泛化處理。離散化處理將數據區間范圍化,比如將家庭人均年收入分成4個區間:0-1500、1500-3000、3000-5000和5000以上。數據泛化把數據從復雜概念轉換成邏輯判斷,比如將父母情況字段的三個取值、泛化成3個字段,健在、健康、離異分別取“是”或“否”。
六、總結
為了充分發揮高校在全國脫貧攻堅中的作用,在資助管理工作執行過程中,特別是貧困生認定工作中要充分利用大數據技術帶來的便利。用戶畫像在貧困生認定中具有巨大的發展潛力。本文從用戶畫像的國內外研究現狀出發、分析了用戶畫像的構建、系統結構分析、數據收集和預處理等關鍵性技術。
通過用戶畫像完成貧困生認定,建立貧困生數據庫,資助部門既掌握貧困生基本信息,又能對數據進行有效分析,使高校資助管理工作更加公平、準確。
參考文獻:
[1] 劉玉霞.大數據背景下高校精準資助路徑探析[J].未來與發展,2016.09
[2] ?孫夢;高峰.大數據時代精準識別高校貧困生研究[J].北京勞動保障職業學院學報,2017.06
[3] ?伍智鑫.基于一卡通數據挖掘的高校貧困生精準扶貧應用研究[J].湖南科技學院學報,2019-04
[4] ?楊長春;徐筱;宦娟;田迎春;經德林.基于隨機森林的學生畫像特征選擇方法[J].計算機工程與設計,2019.10
作者簡介:
呂雅婷(1984.4),性別?女,籍貫(河南省漯河市),單位(北海藝術設計學院),學歷(碩士)職稱(講師)
基金項目:
本論文是2019年度廣西高校中青年教師科研基礎能力提示項目“高校學生資助管理系統開發與研究——以北海藝術設計學院為例”階段性成果,項目編號:2019KY0953
(作者單位:北海藝術設計學院)