曾楊
(上海大學信息化工作辦公室,上海 200444)
各高校在近十年全面發展信息化建設,統一身份認證、公共數據庫、服務器、網絡、各系統平臺都陸續建設實施。在數字化校園的建設過程中,各高校相繼建設了許多的業務系統,業務邏輯得以梳理,辦理步驟得以簡化,信息數據得以采集。但是,各業務系統在建設之初沒有進行較好的統籌規劃和統一管理,這就造成后期維護成本高、數據共享難度大、數據利用率低,數據展示效果差。為解決上述存在的問題,上海大學依靠表單+流程+數據+展示的開發理念,圍繞統一數據平臺、一站式服務大廳、數據分析展示三個方面進行重點建設。但是,這三個平臺主要還是依托傳統的關系型數據庫自底向上地建設教育信息化,這就成為目前智慧化校園的建設瓶頸。
隨著互聯網技術的發展,機器學習和人工智能的崛起標志著大數據時代的到來,許多領域包括教育信息化相繼進入大數據時代。有些高校和研究者已經從理論上定義了大數據,從思維上提煉了大數據時代的思維轉變[1],從技術上構建了計算、存儲和分析挖掘模型[2]。高校大數據從理論到實踐的過程中,平臺的構建是至關重要的環節。東北師范大學針對數據采集、數據存儲、數據計算、分析挖掘四個方面的需求進行分析,提出了自底向上分別是數據源、采集層、存儲層、計算層、分析挖掘層、應用層的教育大數據平臺[3]。不同于傳統的結構化、半結構化、非結構化數據源的分類,其從應用場景出發將數據源分為管理、資源、行為、評價四大類。數據源中的各類數據依照實際需求實時采集或者批量采集到分布式架構的存儲層中,再通過計算層的各類數據計算引擎實現數據的過濾和整合,經過分析挖掘層的處理產生新的數據,繼而在應用層表現出來。
受其他高校大數據平臺構建的啟發,并結合本校教育信息化的實際情況,本文從數據平臺、數據倉庫、數據分析、算法推薦四個部分構建符合本校人員結構、管理方式、應用實踐的教育大數據平臺。
利用Java技術對各類數據源采集的數據進行ETL操作,并把處理后的數據存入Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)。對于一部分需要在報表中顯示的數據,存入MongoDB中,利用Python進行查詢,快速在報表中進行分頁展示,還可以利用Storm對數據進行快速的流處理[4]。例如:通過師生在食堂的校園卡消費記錄,獲取到實時消費的熱力圖,提供給后勤部門,后勤部門可以根據圖例實時調整開放窗口的數量,增加或者減少菜的供應,根據食堂的刷卡人數科學管理食堂的供應,發現各個食堂潛在的營業差異。
在數據平臺部門將數據存入HDFS之后,需要利用Hive、Postgres等客戶端,根據數據分析的業務需求,將數據進行重新的分庫和分表操作,以便應對用戶個性化的需求。數據倉庫將原先分散的數據根據主題的不同,集成為新的數據源,產生新的數據接口,供平臺和業務系統調用。例如:高校各部門的業務系統數據進入數據倉庫后可以根據不同的主題集成學校管理、學生管理、教學管理、教職工管理、科研管理、資產設備管理、辦公管理、財務管理等數據子集。學生的獎學金評定、老師的績效考核、部門的年終考核都可以調用這些數據子集。
基于數據倉庫中的數據和Hive客戶端,運用Python、Go、R等編程語言,結合Spark等計算工具[5],對數據倉庫中的數據進行多維度、全方位的分析以便給領導層和決策者提供政策擬定和結果判斷的依據。運用關聯規則分析、線性回歸、非線性回歸等分析模型擬合出相應的數學模擬,從而發現問題、描繪趨勢、預測結果。例如:可以對學校的學生進行行為分析,通過填寫調查問卷直接獲取數據或者提取學生在校的相關行為日志數據,從這些數據中訓練出學生的性格、興趣、作息,以此作為社區分配寢室的依據。
利用聚類、分類算法可以得到不同屬性的數據分類情況,這些屬性稱為特征,根據不同的特征用戶群體,可以有不同的報表推薦。協同過濾算法可以過濾出相似的用戶,之后再用共現規則算法或者互信息算法可以分析出有關聯的特征。所以,運用協同過濾算法、共現規則算法、互信息算法可以向學生推薦適合的社團,也可以向師生推薦可能感興趣的學?;顒?。如果有新的特征的加入,可以采用諸如神經網絡的機器學習方法,根據不同的事務訓練不同的特征參數。如果研究深入也可以嘗試多層神經網絡,進入深度學習的研究范圍。高校中的學生獎學金評定和績效考核就可以采用神經網絡的訓練方面,從而得到符合每個高校自身的評價指標體系。
本文從自身高校實際部門人員結構出發構建了大數據平臺的四個部分,這四個部分都包含許多的大數據技術。伴隨著管理方式的更新和機構改革的實施,上述教育大數據平臺的四個部分可以對應四個機構部門,四個機構部門既獨立運作,又相互聯系,分配清晰,便于統籌管理。
教育大數據平臺也包含了傳統領域大數據平臺中的開發平臺、查詢系統、計算框架、存儲、消息傳遞。但其更側重于分析,教育大數據平臺的分析廣義上可以分為兩塊,一塊是實時計算,另一塊是定時運算。
實時計算可以體現在對頁面或者日志進行埋點的分析中。平臺獲取到一些操作或者特定行為的時候,將信息通過消息系統傳遞給實時計算平臺Storm,Storm收到消息完成計算并持久化結果。例如:對于Web數據可以通過埋點的方式,實時獲取已發布活動的關注熱度,對于關注度高的活動可以適當地增加活動場次來滿足大家的需求,對于關注度低的活動可以通過校內推廣、彈窗、算法推薦等方式增加關注。對于關注度高,但是,轉化率低的活動,可以進一步分析其產生的原因。
定時運算可以體現在學生畫像的分析中。平臺每天定時獲取學生的上網數據、門禁數據、活動參與數據、借書數據、校園卡消費數據等,利用大數據平臺分析其學習、生活、消費等習慣,在學生畫像上以分析出的特征屬性作為標簽,方便學校和企業對于學生有更好的認知。對學生進行畫像數據的采集和分析,有利于學校通過分析學生的行為來改變教學模式、改善管理制度,建設更符合學生意識形態的智慧校園。