安 洋,李軍懷,王懷軍,殷仕剛
(西安理工大學 a.信息化管理處,b.計算機科學與工程學院,西安 710048)
隨著物聯網、云計算、人工智能、大數據等技術的飛速發展,新一代信息技術深刻改變著人們的生產生活方式。大數據技術自全球推廣以來,對各行各業均產生了重要的影響。尤其是在教育行業,利用大數據技術開展的各種分析應用對于現階段各類學校的師生及學校管理人員等都有非常重要的意義[1]。
智能環境不僅改變了傳統教與學的方式,而且逐漸推動教育理念、文化和生態的變革。積極推進“大數據+教育”,堅持信息技術與教育教學深度融合的核心理念,構建數字化、智能化、個性化、終身化的教育體系,實現更加適合,更加可持續的教育[2-3]。
目前,高校教育教學普遍存在管理方式陳舊,效率低下,教學模式單一,缺乏個性化差異教學及考核測評體系不夠全面等問題。隨著各高校信息化建設的持續發展,從數字化校園建設階段步入智慧校園建設階段,學校管理、教學、科研等教育教學活動中的每一個環節,每分每秒都在產生各種各樣的數據[4]。作為學校的信息化部門,如何利用校園信息化環境中產生的大量數據來更好的輔助教育教學,為學生提供更加智能化的學習體驗成為本文的研究重點。
隨著大數據技術的不斷發展與應用,對學生日常生活學習過程中產生的數據進行采集,分析和處理,挖掘其潛在價值。本文依托學校數字化校園三大平臺,以學校公共數據庫為基礎,將分散在學工、教務、財務、圖書、門禁、一卡通、校園網等系統中的學生教務考勤數據、學習成績數據、圖書館借閱數據、食堂就餐消費數據、校園無線網絡定位、網絡日志等數據進行采集存儲、分析計算。通過構建學生行為與成績等主題間的關系模型,從不同維度挖掘、分析學生在校行為數據與學生成績、個性發展之間的關系,搭建學生在校行為綜合分析與服務平臺,為師生、各級管理機構和校領導提供一個實時、全景式的數據分析和展現平臺,及時發現管理與教學活動中存在的問題和規律,為學校各項決策提供輔助支持和依據。
現行高校教學管理大多主要依靠日常經驗和個人主觀意識進行安排,管理方式陳舊,效率較低;教學模式主要采用線下課堂授課,以知識灌輸為主,缺乏興趣引導,形式單一,無法實現個性差異化教學;考核測評體系不夠全面,傳統的素質測評體系形式單一,重結果輕過程,綜合素質測評內容陳舊。以上問題導致高校教育教學存在各種問題,不能很好地滿足師生需求。
隨著大數據技術的迅速普及,大數據+教育模式受到了專家學者的廣泛關注[5]。整合學校海量數據,進行跨域關聯、分析,為教育教學提供輔助,如:對學生上網行為與吃早餐和成績的關系預測學生下學期成績上升與下降趨勢,從而為學校開展個性化教育引導、教育資源優化、教學方式改革、學生成長與發展預測等提供數據支撐。同時,進一步推動教育改革向個性化、定量化、前置性預測的方向發展[6]。
大數據+教育模式相比于傳統教育環境下,對學生綜合分析方法有如下優勢。
第一分析方法從主觀經驗判斷發展到客觀數據支持;
第二分析方式從總結性到伴隨性;
第三分析內容從單一性到多元全面綜合性;
第四分析手段從人工到智能。
國內對于大數據在學生行為綜合分析方面的研究也成為了眾多研究學者的研究重點。胡雅祺等人將大數據運用于現代化教學中,幫助教師精準掌握學生的學情;龔黎旰等人基于校園一卡通大數據對高校學生消費行為進行了分析;陳華等人對大數據視域下高職院校學生異常行為進行了分析和研究[7];傲起等人采用大數據技術對高校學生網絡行為進行了監測,防止學生沉迷于網絡游戲[8]。本文以西安理工大學為例具體研究基于校園大數據的學生行為綜合分析與服務平臺設計與實現。
校園學生行為數據的積累為學生行為分析與預測提供了數據基礎,如何運用好這些數據對學生行為實現精準、高效的感知、分析以及趨勢預測是本文研究的重點。針對以上問題,本文以學校線上業務系統、線下業務數據和日志數據為原始數據源,借助統一數據集成平臺、數據錄入工具及日志處理工具分別對三種數據源數據進行處理與多源數據融合,形成基于主題的結構化數據集存儲于Hadoop 數據倉庫中。其次,通過對原始數據預處理、統計、分析建立能夠完整刻畫學生個人特點以及其校園各方面行為的學生行為模型庫,結合機器學習、挖掘算法、特征模型、應用模型、實時流計算等技術,對學生行為進行綜合分析。最后通過應用層,將分析結果分模塊進行呈現。基于大數據的學生行為綜合分析與服務系統分為數據源、數據采集層、數據存儲層、數據處理層和應用層,其總體結構設計如圖1 所示。

圖1 平臺總體結構設計
設計的平臺核心在于分布式數據處理與分析,流程如圖2 所示。首先對Hadoop 數據倉庫里的原始數據進行預處理,這些數據包括考勤數據、成績數據、消費數據、門禁數據、圖書數據、上網數據等,形成質量較高、冗余度低的基本數據。其次,對于一些無需挖掘分析的數據,我們僅僅進行統計分析,并建立可視化模型,通過API 接口進行發布,直觀的進行應用呈現。同時,針對成績、消費、考勤、圖書借閱等具有關聯關系或潛在數據價值的數據進行深度挖掘分析,建立學生行為特征,基于提取的學生行為特征數據進一步形成基于不同主題的分析模型庫(包括:預警模型、成績模型、消費模型、軌跡模型等),結合聚類分析、關聯規則挖掘、協同過濾等機器學習算法對學生行為進行深度分析,最后根據系統功能劃分分別進行相關數據呈現。

圖2 分布式數據處理與分析流程
通過采集教務系統相關學生課程信息、成績信息、以及同專業學生成績信息等,實現對學生在校成績的趨勢分析,通過對比學生及同年級學生成績情況,幫助學生了解自身在校內成績等級情況;整體呈現學生的個人信息,包括學生各個學期的課程表、上課情況、學生的基礎個人信息;采集校園一卡通數據及商戶信息,呈現學生個人消費流水及消費偏好、消費項分布,通過對歷史消費流水的分析,反饋學生消費歷史及消費發展情況,為后續分析學生近期在校狀態、學生獎助學金評選、助學貸款申請等奠定數據基礎;采集學生上網行為審計及上網認證信息,對學生上網行為進行分析,發現學生上網偏好、上網內容分布及歷史上網流量和上網時長情況,基于這些信息來確定學生網絡使用習慣等,為后續評價學生日常行為習慣提供參考。
設計的基于大數據的學生行為綜合分析與服務平臺,功能結構如圖3 所示。該系統在上文數據采集、轉換、預處理、數據建模、挖掘算法的基礎上進行數據呈現,主要分為綜合畫像、綜合預警、行為軌跡和精準資助四部分。

圖3 系統功能結構
綜合畫像:用大數據來描繪學生“個人畫像”和學校“群體畫像”。“個人畫像”展示了學生的學習、生活和成長軌跡,實現學生信息整合,讓學生管理部門能夠全面掌握學生的基本信息、學業成績、考勤情況、獎懲情況、圖書借閱、預警信息、作息習慣、消費情況、社交狀況、以及網絡使用等信息,實現不同個人的多維度對比,有助于老師或輔導員快速全面、全維度的認識學生,全面提高學生管理工作的精細化。“群體畫像”包括生源分布、學生結構、待處理預警數量、學院預警分布、圖書借閱次數、學生成績績點分布、近三年課程成績趨勢分析、圖書借閱關鍵詞排名、上網時長和時段分布、一卡通消費趨勢分析、三餐就餐率、熱門窗口排名、就業去向分析等,能夠實現對全校或某學院所有學生信息的概覽。
綜合預警:通過學生行為數據,進行學業預警、考勤預警、失聯預警、網絡預警等,讓學生工作預警更加精準和有針對性,實現學生問題從“被動管理”向“主動預防”發展。跟蹤學生學習軌跡,進行定量化分析,幫助學校把握學生學業知識理解程度與上課出勤率,進行成績預測并預警掛科情況;配置學年完成條件,評估學業完成進度,對完成度低、存在學業困難或出勤率低導致掛科率高的學生提供主動式學業預警和考勤預警,提前引導。失聯預警是通過一卡通消費,無線網接入,圖書借閱和考勤門禁記錄等數據,及時預警學生作息紊亂、行為異常等情況,可根據實際情況定義失聯輕重緩急程度,實現24 小時全天候預警,對學生的安全管理提供精細化數據支撐。對學生日常上網時長和時段進行監測,發現沉迷網絡、作息紊亂的學生予以網絡預警。
行為軌跡:基于全校所有學生、群體學生和重點人群的在校軌跡,結合百度地圖,提供分析學校的熱力分布、趨勢和學生軌跡校園活動圖,并且分析各類群體和個人的熱門訪問地點,發現群體間的行為區別,便于學校對不同群體和個人進行針對性管理。
精準資助:將學生在校消費數據與建檔立卡情況相結合,利用大數據分析技術,深入解析學生消費水平、經濟能力等,對學生經濟情況進行精準化、個性化的綜合分析與評定,了解真實貧困狀態,實現困難學生的精準發現。同時,對于已經獲得貧困生資助的學生進行動態管理,實時對其在校消費情況進行分析,助力學校全方位、全過程的掌握學生經濟水平,為學工處評定學校的獎助補人員提供數據支撐。
實踐表明,本文提出的基于大數據的學生行為綜合分析與服務平臺能夠很好的輔助教育教學中的環節,為師生、校領導提供客觀的數據分析結果,過程與結果并重,促進教育服務供給精準化、個性化和智能化。
高校信息化的不斷發展為師生提供了更加智能化、個性化的學習生活環境。通過大數據技術實現在校學生行為全過程的跟蹤監測和無感式、伴隨性的數據采集,實現基于大數據的多維度綜合性智能化分析。本文依托學校數字化校園平臺研究并搭建了包含數據轉換、數據預處理、數據建模、挖掘算法的基于大數據的學生行為綜合分析與服務平臺,通過構建學生行為描述模型,利用深度學習的相關方法,分析學生在校學習、消費等行為,為綜合全面的評價學生提供依據,對學校教育教學質量的提升具有促進意義。