屈莉莉 董艷 于楊
摘 要:基于高校貧困生精準資助管理中建設數據倉庫的必要性,從數據倉庫體系結構設計,多源異構數據源的存儲與管理,數據倉庫的建模過程與方法,精準資助數據分析的多維屬性與主要模型等方面對面向高校貧困生精準資助的數據倉庫系統進行了深入研究,能夠有效支撐數據綜合查詢、多維分析和數據挖掘,提高高等院校學生資助管理的科學決策水平。
關鍵詞:高等學校;貧困大學生;精準資助;數據倉庫
中圖分類號:G640 文獻標識碼:A 文章編號:1002-4107(2018)08-0055-03
目前我國的貧困大學生資助體系日漸完善,基本解決了經濟困難學生的就學問題[1]。高校資助工作緊跟國家信息化建設的步伐,貸款與資助全部實行網絡化管理,各高?;窘ǔ蓪W生資助管理信息系統。但大數據給高校資助工作帶來了巨大的挑戰[2-3],大數據要求數據能充分發揮其外部性并通過與某些相關數據交叉融合產生遠大于簡單加和的巨大價值,數據挖掘技術的不斷更新與應用使得大數據發揮的作用日漸強大,因此,在高校的學生管理中應加強數據利用與處理的能力,強化大數據意識,完善各項制度保障[4]。
數據倉庫之父W.H.Inmon在其經典著作Building the Data Warehouse(《構建數據倉庫》)一書中指出,“數據倉庫是面向主題的、集成的、非易失的、隨時間變化的用來支持管理人員決策的數據集合”。因此,利用數據倉庫技術,高??梢詫崿F對多源異質數據的采集、匯聚與分析。以主體多元化、內容多維化、方法多樣化的數據倉庫系統為平臺,利用在線分析處理和數據挖掘工具,更全面了解學生的真實生活狀態和經濟水平,使貧困生評定資助的結果更為綜合客觀,數據倉庫系統將作為實現高校學生精準資助管理體系的基礎與工作機制。
一、設計高校貧困生精準資助的數據倉庫系統結構
搭建數據倉庫系統的目的是要形成一個存儲和使用數據的集成環境,這種體系化的環境可以把分散的或者結構等不一致的數據轉化為集中的、一致的信息,進一步分析解決問題,輔助決策以提高工作效率。參考通用的數據倉庫系統并結合高校貧困生精準資助管理的需求,本文設計的高校貧困生精準資助數據倉庫系統結構如圖1所示,該數據倉庫系統由四個部分構成:(1)數據源是數據倉庫系統的基礎,是整個系統的數據源泉[5]。(2)建立數據倉庫,數據的存儲與管理是整個數據倉庫系統的核心和關鍵。(3)數據分析主要指OLAP(在線分析處理On-Line Analysis Processing)和數據挖掘。OLAP服務實現多角度、多層次的多維數據組織與分析;數據挖掘是從海量的數據中發現有潛在價值和規律的知識和模式[6-7]。OLAP是一種求證性的分析工具,一般由用戶預先設定一些假設,然后使用OLAP去驗證這些假設,被動地進行數據分析;而數據挖掘是一種挖掘性的分析工具,它主要是利用各種挖掘算法主動地去挖掘大量數據中蘊含的規律和模式,主動地進行數據分析。
(4)前端展現與應用,包括各種數據報表、數據查詢、數據分析與應用管理等工具,與其他高校資助管理系統的功能進行集成。
二、高校貧困生精準資助數據倉庫系統關鍵技術
數據倉庫系統由數據倉庫的構建、基于OLAP與數據挖掘的數據分析等關鍵技術構成。
(一)建立高校貧困生精準資助的數據倉庫
1.多源異構的數據源
數據源一般分為內部信息和外部信息。為實現高校貧困生的精準資助需要對學生的家庭信息、消費情況、學習成績、是否貸款、是否獲得獎學金等信息進行全面的采集。
學生資助管理系統:將現行的學生資助管理系統中已認定的貧困生記錄作為主要的標簽數據源,在多種數據挖掘模型建立過程中均需要與真實的資助結果進行比較,進行模型的訓練進而建立有效的精準資助辨識模型。
學生基本信息數據庫:獲取在校學生基本信息,學生的出生年月、院系、專業、班級、聯系電話、家庭住址和聯系電話、郵編等。其中,對于分析學生貧困情況有意義的屬性,例如,可以通過家庭住址這一內容大體判斷該生是否出生在貧困地區或經濟欠發達地區。
學生教務系統數據庫:獲取學生成績信息分析受資助學生的學習情況。對貧困生的界定和相關資助措施中一般都會涉及學生的成績,國家和學校會優先資助品學兼優的貧困學生。如果貧困生接受資助卻不努力學習的話,學校有義務對其進行教育,對于屢教不改者,可以相應調整其受益的貧困資金數額甚至取消貧困資格。
學生獎學金管理數據庫:獲取學生所得獎學金和助學金情況,計入貧困等級考慮因素。對于學習成績優異的學生來說,除了貧困補助,還可以獲得國家勵志獎學金、優秀學生獎學金等助學基金,這些相加的總額可能已經大于維持正常生活的經濟需求,因此可以對貧困等級做適當的調整,給其他同樣貧困的學生更多機會。
學生一卡通消費記錄數據庫:校園一卡通集刷卡消費、身份識別、圖書借閱、考勤功能等于一體,可以通過網絡技術對學生的一卡通數據進行收集整理,獲取學生在校園內食堂和超市消費記錄,通過消費水平推測學生的貧困程度。
學生申請貧困資助的證明材料:從家庭收入支出、家庭成員關系、父母身體狀態(是否健康,醫療支出等)和工作情況、是否為低保戶等方面大體了解學生的家庭背景。上學期間是否貸款,以及貸款金額、年限,都可以在一定程度上反映學生的經濟生活來源。但必須確保所填信息真實可靠,并結合實際走訪和調查加以審核確認。
學生網絡消費行為記錄:隨著電子商務產業的發展,學生吃飯可選擇外賣訂餐或者掃碼支付費用,因此僅通過一卡通消費數據分析得出的結果可能是片面的、不完整的,需要進一步將網購記錄、外賣記錄、支付寶和微信等第三方支付記錄融入到學生經濟水平分析和貧困等級評定之中。
對上述與高校貧困生評定相關的數據進行存儲與管理。數據抽取(即數據清洗)是清除各數據來源中的噪聲干擾和對數據挖掘無用的數據;數據轉換是將雜亂的數據變為統一的形式,如相同意義字段名的轉換、編碼的轉換、單位的統一、冗余數據的消除等;同時為了壓縮海量數據,將源數據中的數據遷移到數據倉庫或者數據集市時要按照一定的維度(時間維、地點維等)進行匯總。同時,上述多個系統均為高校重要的應用系統,如果不便于直接連接其數據庫進行大數據量操作,可以采用先編寫數據庫腳本或者中間件程序,通過批量連接查詢導出的方式,實現數據倉庫的數據存儲。
2.數據倉庫建模
(1)數據倉庫的數據建模過程。數據倉庫的數據建模主要分為四個階段。
業務建模。劃分高校學生管理的整體業務,進行各個部門之間業務工作的界定,厘清其間關系。與學生資助管理相關的部門主要包括:教務處、學生處、財務處以及學生所在學院系。深入了解各個部門內具體業務流程并將其程序化,提出和改進業務部門與學生資助管理相關的工作流程并規范化。
領域概念建模。抽取關鍵業務概念并將之抽象化。按照業務主線聚合類似的分組概念。細化分組概念,厘清分組概念內的業務流程并抽象化。厘清分組概念之間的關聯,形成完整的領域概念模型。
邏輯建模。對概念模型中的信息進行實體化,定義實體與實體之間的關系,實體的屬性內容等。即定義具體表的作用,表與表的約束,表的字段,形成實體關系聯系。
物理建模。確定數據的存儲結構、索引策略、數據存放位置及存儲分配等。全面了解所選用的數據庫管理系統,特別是存儲結構和存取方法;了解數據環境、數據的使用頻度、使用方式、數據規模以及響應時間要求等,對時間和空間效率進行平衡和優化;了解外部存儲設備的特性,如分塊原則、塊大小的規定、設備的I/O特性等。
尤其是基于大數據架構,以分布式文件系統和非結構化數據庫實現結構化數據和非結構化數據的存儲,采用交互式分析和流處理工具的分布式數據倉庫系統可大幅提高數據存儲和數據服務的效率。
(2)數據倉庫的數據建模方法。數據倉庫邏輯模型的建模由核心事實表和一組維度表組成,主要包括星型模型和雪花模型。星型模型的維度表直接跟事實表連接;而雪花模型中的一些細粒度維度表不是直接與事實表連接,而是通過粗粒度的維度表中轉。星型模型查詢性能好,而雪花模型將使數據存儲更加規范化,減少數據冗余,易于維護和節省存儲空間。但為了滿足高性能的響應要求,可以增加冗余、隱藏表之間的約束等反第三范式的操作。
(二)高校貧困生精準資助的數據分析
1.分析高校貧困生精準資助的屬性因素。除應考慮大學生家庭收入和消費情況等傳統思維,隨著互聯網和通信技術的發展,電話費,網絡購物的次數、網購商品種類和件數等也在一定程度上反映出學生的經濟水平,因此應探究更加全面的影響貧困等級的關聯因素。主要包括:是否為低保戶,是否為農村戶口,是否為單親,是否為獨生子女,是否父母重病,是否獲得獎學金,是否申請到貸款,是否勤工助學,一卡通和外賣就餐月均消費,網購月均消費,網購平均每月奢侈品件數,電話費月消費等。
2.高校貧困生精準資助的數據分析方法。通過OLAP操作,統計分析學生的基本資料(身份信息、家庭情況、成績信息、獎學金信息等)和各類花銷細分信息(衣食住行等);篩選關鍵性能指標:每月、每年的各類消費金額;從不同維度進行切片、切塊和鉆取,獲取學生資助管理工作所需的分析結果。OLAP系統是數據倉庫系統最主要的應用之一,專門設計用于支持復雜的分析統計操作,可以根據分析人員的要求快速、靈活地進行大數據量的復雜查詢處理,并且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便高校里從事學生管理的教師能夠準確掌握在校學生的貧困情況,了解學生的真實需求,制定正確的資助方案。
采用層次分析法等多屬性評價方法計算影響貧困生評定的多層次因素,對致貧因素指標進行權重的定量測算;再收集各項指標數據,通過TOPSIS(Technique for Order Preference by Similarity to Ideal Solution,逼近理想解排序法)或模糊綜合評判等方法,對學生貧困程度進行打分排序。
對數據倉庫中的各類消費進行聚類分析。以學生食堂消費、外賣消費、網絡消費、學習成績排名、家庭情況等多項與“貧困生等級評定”相關的屬性作為聚類分析的數據,進行兩階段聚類。第一階段是粗類,分為貧困生和非貧困生;第二階段是細聚類,高校貧困生按照貧困程度可以享受國家每年每人4000元、3000元和1500元不等的補貼政策,以此為依據再對貧困生分為一等、二等和三等3個細類。
基于關聯規則發現高校貧困生精準資助管理中的有潛在價值的模式。進行多因素關聯分析從而得到與貧困程度聯系最密切的影響因素。通過設定合適的最小支持度和最小置信度,得到一定數量的顯著關聯,找出數據之間的關聯性,并驗證其有效性,簡化判斷貧困等級工作的步驟,加大資助認定的精確度,為以后的貧困生資助工作提供更科學可靠的依據。
使用預測模型對學生資助進行動態預警監控。動態監測與大學生貧困相關的若干關鍵指標,例如,食堂和外賣消費金額陡然降低、學習成績突然下降等情況可能會與該生家庭情況突遭變故有密切關聯,應迅速發現新情況并進一步深入探究,為實現動態資助管理工作提供及時準確的支持。
利用決策樹方法對未知貧困類別的大學生進行有效的分類。決策樹學習是以實例為基礎的歸納學習算法,構造決策樹的目的是從一組無次序、無規則的事例中找出多個屬性和貧困等級認定間的關系,以便用它來預測將來某些學生屬性記錄的類別。
為幫助家庭貧困的學子順利完成學業,為國家培養更多不論出身的優秀人才,提高貧困生評定的精準性勢在必行。數據倉庫系統為高校貧困生精準資助提供了更廣泛的數據源和更科學的分析方法,可作為高校貧困生精準資助動態管理的支持平臺。
參考文獻:
[1]陳乃車,曾劍,唐聞捷.提升高校資助育人成效的路徑探
析[J].教育研究,2017,(5).
[2]林佳佳.河北省高校貧困生救助問題研究[D].石家莊:河
北師范大學,2017.
[3]董魯皖龍.高校貧困生資助如何精準有效?[N]. 中國教育 報,2017-01-24.
[4]陶俊清.大數據背景下的高校資助工作創新研究[J].東華
大學學報:社會科學版,2015,(1).
[5]劉佳易.校園卡應用數據分析[D].北京:北京化工大學,2015.
[6]崔鳳.基于聚類算法的教育資助系統的設計與實現[D].長
沙:湖南大學,2016.
[7]饒亮.改進的Apriori算法在貧困生助學系統中的應用
[D].哈爾濱:哈爾濱工程大學,2011.