◆王利祥
?
大數據背景下高校學生行為分析系統的研究
◆王利祥
(河南護理職業學院 河南 455000)
隨著各大高校數字化校園建設工作的推進,大多數高校已經在數字化校園階段積累了大量的數據,如何把這些數據進行整合為人們所用呢?這便是智慧校園需要推進的。本文在深入研究市場中多數智慧校園建設方案之后,結合高校工作實際,對學生行為分析系統需要完成的工作做了深入研究,為后期智慧校園建設做重要支撐。
大數據;數字校園;智慧校園;學生行為分析系統
隨著互聯網的飛速發展,信息技術不斷進步,至今為止,大多數高校已經完成了對校園內部信息進行收集、優化處理以及傳遞應用,數字化校園實現了教育事業建設和管理的全面信息化,大幅度提高了校園管理的水平和效率。通過前期數字化校園階段的建設,學校的各種資源信息以及師生行為信息大量的產生,并存儲下來,如何將這些信息量大而且是異構數據源進行整合,為后期的分析系統提供數據支撐呢?這便是本研究的一個重要的用途。
人們在利用網絡技術以及信息技術的同時,會產生大量的數據,人們對海量數據的存儲、分析和處理,不斷挖掘出日常生活中看似沒有關系的數據便會為我們所用。大數據有如下4個特點,分別為:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值),一般稱之為4V。
(1)大量:社交網絡(微博、推特、臉書)、移動網絡、各種智能工具,服務工具等,都成為數據的來源。
(2)多樣。廣泛的數據來源,決定了大數據形式的多樣性。
(3)高速。生活中每個人都離不開互聯網,也就是說每天個人每天都在向大數據提供大量的資料。并且這些數據是需要及時處理的,對于一個平臺而言,也許保存的數據只有過去幾天或者一個月之內,再久遠的數據也要及時清理,不然代價太大。基于這種情況,大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用于處理和計算數據,很多平臺都需要做到實時分析。
(4)價值。這也是大數據的核心特征。現實世界所產生的數據中,有價值的數據所占比例很小。相比于傳統的小數據,大數據最大的價值在于通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,并通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識,并運用于農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的目的。
國內高校大多數已經完成了數字化校園的基礎建設,因此可以利用現有的數據平臺,進一步完善數據源,提高數據有效性,搭建起能夠跨業務域和跨系統的數據分析和展示平臺,并構建起適合不同主題不同導向的多類應用系統。在當前的大數據時代,學生的各種行為也在不斷地產生各種類型的數據,因此可以利用這些數據對學生在校的各個方面進行量化測評,搭建高校學生行為管理系統。對系統的總體要求大致如下:
由于高校中機構設置比較多,學生的數據存放位置和維度也會有差異,因此需要將這些分散的、不同維度的信息進行整合。如學生處、教務處、圖書館等都有學生的相關數據信息,此時可以建立數據中心,將所有相關數據按照統一的格式進行整合并存放到數據中心中,打破因為業務域的不同而產生的數據界限,實現數據“1+1>2”的效果。
在建立數據中心之后,對學生行為產生的歷史數據與當前數據進行整合分析,并將分析結果以圖形或圖表的直觀化形式展示出來,以便為我們工作增加輔助性工具,提高工作效率。如針對學生使用一卡通借書信息、出入操場信息以及每天的步行數等相關數據,綜合評估學生心理問題和身體狀況等。
大數據技術最重要的價值在于從海量數據中挖掘出盡量多的類型的數據的相關性,而非單純的人為去考慮事情之間的因果關系。自然界中萬物均存在聯系,挖掘出事物之間潛在的關系,為我們做出決策提供依據和參考,這才是大數據被提出的真正目的。
隨著全國高校智慧校園建設的發展,學生的信息類型也在不斷被發現和存儲,如學生上網日志信息、微信微博信息及學生之間的交友信息等,再加上學生數量比較多,因此產生的數據量巨大。因此需要構建大數據處理平臺,來作為大數據分析數據和存儲數據的工具。
系統的設計分為系統物理架構、系統功能設計和數據結構設計。系統物理架構一般是基于多臺物理服務器的虛擬機實現,在此不做贅述。由于大數據平臺中存放的大量的數據,這些數據有些是與分析系統沒有關聯,數據結構設計主要任務便是對數據平臺中有用的數據進行讀取和存儲,通過分析系統將分析結果在前端界面設計中展示出來。此處我們重點介紹系統功能設計。
系統的功能架構主要有以下4層:支撐功能層、數據挖掘層、智能分析層和信息發布層。
(1)支撐功能層主要是對用戶信息和權限管理以及對用戶操作的日志進行管理。具體功能如下:
①支持對用戶信息的增刪改查功能以及批量操作。
②根據用戶不同的需求設置不同的權限,如設置系統管理員賬號,該賬號具有系統操作的所有權限,并且可以對其他管理員以及用戶信息進行操作,包括增刪改查等基本功能。
③系統管理員賬號可以根據系統維護的需要對其他管理員賬號設置不同的權限。
④系統登錄日志功能,系統要根據需要設定系統日志記錄的信息,主要包括登錄名、登錄時間、是否登錄成功、登錄失敗的次數等信息,并提供檢索查詢導出功能。
(2)數據挖掘層主要是對大數據平臺中學生相關的海量數據信息,采用大數據技術構建數據挖掘模型,利用現有模型評測學生的行為。由于在校學生活動具有區域性的特點,因此可以將挖掘層分為以下5個模塊進行實現:
①學生基本信息模塊:該模塊主要展示學生的一些基本信息,并對這些基本信息進行簡單的分析。如學生總數、學生民族組成比例、宗教信仰、年齡段分布等。
②圖書館分析模塊:該模塊主要是對學生圖書借閱信息、進出圖書館信息等進行分析。如學生借閱書籍的類別和名稱、借閱的時間、借閱的數量等,可以作為分析學生學習情況、課外活動情況、學生心理情況等的參考。
③餐廳消費模塊:這些數據大多數都會在數字化校園建設時使用的一卡通中有記錄。根據學生使用一卡通消費情況,如消費金額、消費時間、消費品種等信息對學生情況進行判斷,如早飯消費時間和消費種類可以用來做學生健康調查分析,消費金額可以作為判斷貧困生的一個參考。
④學生宿舍分析模塊,主要是對學生就寢時間、出入宿舍的次數等數據的分析。如學生晚上入寢時間可以作為學生晚歸的分析依據,早上離開宿舍的時間可以作為學生身體健康以及學習情況的分析依據。
⑤綜合分析模塊,這是功能設計中的核心價值,也是能夠根據用戶需求實現自定義分析的功能。為了能夠完成對海量數據的處理,項目采用Hadoop生態圈中的Hive子項目以及Spark平臺中檢索查詢和統計分析功能。相對于關系數據庫中的SQL語句,該方法執行速度更快。
(3)智能分析層主要是將上層所挖掘出來的數據進行深層次分析,其中包括學生歷史特征信息以及當前信息。根據學生歷史特征分析出正常數據正常的參數值,然后根據此參數值對學生進行篩選和匹配。
(4)信息發布層主要是將分析結果展示出來,方便人們閱讀。可以采用周期性推送的方式,也可以采用被動查詢分析的方式,一般都為兩種方式相結合使用。
當前階段,大多數高校已經基本完成了數字化校園的建設,正處在智慧校園建設之中,本文在深入了解市場上已經存在的數據分析系統之后,結合學校工作中經常使用的分析結果,探討了學生管理工作中行為分析系統的大致架構以及經常使用的輔助工具的搭建模型,為后期智慧校園建設提供了理論支撐。
[1]申華.基于大數據的高校學生綜合測評系統設計與實現[D].北京:北京工業大學,2017.
[2]潘奇.基于Hadoop技術的高校學生行為分析系統研究與實現[D].北京:北京郵電大學,2014.