連家劍 廣西大學計算機與電子信息學院/桂林理工大學 南寧分校
隨著大數據、物聯網、移動互聯網等新型信息技術的廣泛應用,高校信息化已經從“數字化”走到了“智慧化”。其中,大數據作為智慧校園建設的關鍵支撐技術,對智慧校園建設具有無可替代的作用。通過大數據綜合分析,掌握校園里師生的行為規律和學校的整體運行水平,對學校整體教學科研形勢和發展態勢整體研判、動態監測,從被動應對到主動服務轉型,實現源頭發現、智慧服務。
大數據、云計算、物聯網等技術近年來給教育行業帶來了巨大的沖擊。許多高校均開始利用校園大數據開發了諸多面向管理和師生服務的應用,依賴數據挖掘方法支持教育領域的校園管理與決策以及對學生行為規律的分析。國外的多家在線教育機構,如edx、Coursera、Udacity 等,針對在線教育過程中很多學生高發的輟學情況,應用數據挖掘方法對學生在線學習數據進行深層次挖掘分析,發現引發學生輟學的內在原因,并基于挖掘結果制定督促和引導策略,從而大大改善了在線教育的輟學問題。智能教學系統ITS(Intellectual Tutoring System)則基于學生與系統中的交互日志數據進行數據挖掘,獲取學生學習行為特征,建立個性化知識庫,分析學生知識掌握情況,自適應地幫助學生建立培養知識體系。
在國內,隨著國家高度重視教育信息化的建設,各大高校開始重視數據深度分析和應用工作。比如華東師范大學利用預警系統跟蹤學生的餐飲消費數據,跟蹤分析學生是否有經濟困難,是否需要幫助。北京郵電大學高校學生行為分析系統完成了校園異構數據的分布式存儲和處理,實現了校園數據的深入挖掘和分析。中國科學技術大學利用學生在可控社交網絡實驗室上的行為數據以及學生在校的行為數據(微博、郵箱、刷卡信息、借閱信息)進行分析挖掘,以學生“體檢報告”的形式對行為進行總結,并在預警食堂突發事件和學生非正常離校方面取得了很大的進展。
用戶畫像是指抽象的標簽化用戶模型。這個模型是依據對用戶基本信息、社會信息、偏好信息與行為信息概括而來的。在形成用戶畫像過程中,最核心的步驟是為用戶貼上合適的“標簽”。這些給畫像貼上的標簽是分析所采集到的用戶數據產生的,并且可以對這些數據信息進行高度的概括。
用戶畫像所涉及的數據挖掘算法主要包括分類算法、聚類算法、關聯算法等,同時還引入概率統計、機器學習、人工智能等相關學科的技術,使其更具綜合性和交叉性。傳統的數據挖掘算法在商業領域和科研領域都得到廣泛應用,但在處理大規模數據方面,傳統算法不能在可接受的時間內獲取較好的結果,甚至因儲存空間限制,挖掘算法無法正常運行。鑒于傳統數據挖掘算法擴展性、伸縮性和資源利用不足的缺陷,越來越多的學者開始研究并行化的數據挖掘算法。司雅楠等研究高校大數據分析挖掘系統的設計框架,并提出基于Map Reduce的Apriori最小支持度閾值算法應用于學生成績的關聯分析;梁柱等通過分析高校校園大數據的特點,對傳統的K-means聚類算法進行改進并在Spark平臺上進行并行化,應用于學生行為聚類,研究并開發基于Spark平臺的學生行為分析與預測系統。
從目前高校存在的學生畫像系統可以看出,現存的學生畫像系統分析的維度都比較少,分析的數據源廣度也不夠。同時,對高校學生產生的多維度的數據缺乏協同性,沒有將學生的其他維度信息(基本信息、貧困程度、失聯預警等)綜合起來構建用戶畫像。此外,傳統的數據挖掘算法無法滿足這些結構化和非結構化數據的處理要求,傳統數據挖掘技術面臨巨大的挑戰,這也導致高校的大數據并沒有充分被利用,校園大數據有待新的數據處理工具進行深層次的挖掘。
3.1 系統架構
本文研究構建一個基于高校大數據的學生畫像系統,采用主流的Hadoop大數據框架,對數字化校園環境產生的大規模學生行為數據進行采集、加工和分析,對異構數據進行分布式存儲和處理,通過數據挖掘與機器學習等技術,構建“學生畫像”標簽庫,實現學生行為數據的智能分析與動態預測機制。本文的高校學生畫像系統的總體架構由四個層級組成,分別為異構數據源層、數據存儲層、數據分析與處理層以及應用服務層,如圖1所示。

圖1 基于高校大數據的學生畫像系統框架
主要內容如下:
(1)整合高校基礎數據資源,實現數據的共享和轉化。目前高校積累了豐富的學生行為數據,包括消費數據、成績、教務考勤、圖書、網絡日志等多種數據。將學校各應用系統的數據進行集成和整合,使來源各異、種類不一的各類數據可以相互使用,打破系統間的信息孤島,實現數據的共享和應用。
(2)構建基于高校數據的“學生畫像”研究指標。學生畫像工作的核心是給學生“打標簽”,通過分析數據可用性以及評價學生在校行為的指標,構建學生“畫像”標簽庫,確定構建的畫像的維度。
(3)研究基于Hadoop技術的數據存儲架構。用于存儲高校學生行為結構化和非結構化數據,對接校內各應用系統,為業務應用程序提供數據服務接口。
(4)研究基于Spark架構的大數據分析挖掘技術。針對學生畫像、預警問題,基于Spark大數據分析平臺對數據采集與存儲層提供的多種數據,采用數據挖掘、機器學習等相關技術,對數據之間的關聯關系、潛在價值等進行挖掘,提供分布式計算服務。
(5)研究Web框架與前端可視化模塊。開發學生畫像數據展示系統,采用豐富的可視化技術,直觀呈現大數據分析效果,為學生、學院及管理部門提供學生消費、學習等多方位的行為分析與預測功能。
3.2 解決的關鍵問題
(1)異構數據源的數據采集
高校學生行為分析數據包括結構化和非結構化的數據,將現有分布的、異構的高校信息系統中的數據進行抓取、采集、清洗,最后加載到數據倉庫或數據集市中,為數據挖掘與分析提供基礎。
(2)異構數據的存儲
存儲高校學生行為數據中的結構化數據和非結構化數據,對于非結構化數據,重點研究基于HDFS的文件存儲方法;對于結構化數據,重點研究基于HBase的分布式存儲。
(3)學生畫像所涉及大數據分析與挖掘技術
通過研究基于MapReduce或Spark計算框架的數據挖掘與分析技術,以統計分析、聚類、預測等數據挖掘方法為基礎,進行算法選型與應用實驗,對海量行為數據進行分析和挖掘。
本文的研究可以為大多數高等院校提供一種相對可行的學生畫像系統構建方案。項目依托典型的Hadoop架構、數據挖掘與機器學習算法等技術,最大化的挖掘智慧校園數據背后的價值。該平臺建成后能夠充分利用各部門的業務數據,有效的展現業務數據的數據價值,為提升學生的日常行為分析、管理及發展指導建議提供可靠的依據。本課題構建的高校學生畫像系統是具有開拓性的實踐探索,在高校中具有廣闊的應用前景。