文/劉香玉 徐紅彥 侯英哲 齊嘉亮 顏玲
近年來,大數據被世界各國視為塑造國家競爭力的戰略制高點之一。2015年國家發布《促進大數據發展行動綱要》,將大數據正式上升為國家戰略,從國家意志層面將大數據作為推動社會轉型的新動力和提升社會治理能力的新途徑。高校作為新觀念和新人才聚集的社會重要構成單元,也紛紛抓住機遇,探索利用大數據促進學校發展的現實路徑。而在實施過程中,大數據平臺的構建和示范性應用是兩個至關重要的方面,分別關系到大數據項目的落地實現和最終的價值體現,是未來高校大數據戰略的必經之路。
大數據至今尚無統一的嚴格定義,被廣泛接受的是Laney 提出的3V特點(Volume,Velocity,Variety),即大量、高速、多樣性,決定了大數據平臺與傳統數據平臺有明顯區別。大數據平臺應該能夠滿足海量、多模態(結構、半結構、非結構化)數據高效甚至實時的采集、存儲、分析計算、呈現共享需求,平臺框架和關鍵技術如下。
高校大數據處理的過程通常包含數據采集、存儲、清洗規范、分析計算、結果展現等步驟,因此大數據平臺架構可大致分為三層:底部數據源層、中部大數據處理平臺層、頂部用戶端層,如圖1所示。數據源層負責多模態數據的廣泛采集,包括結構化的業務數據,半結構化或非結構化的機器數據、學校外部互聯網數據,ETL、日志處理集群、爬蟲引擎工具采集數據后完成初步的數據清洗預處理工作。中部大數據處理平臺層負責數據的存儲、交換、建模和分析計算,是整個架構的核心部分,為上次的數據呈現和應用提供支撐。頂部用戶端提供數據的具體應用以及可視化輸出。
2.2.1 數據采集、預處理技術
數據獲取和清洗預處理需要考慮到多種多樣的數據來源,例如RFID射頻、傳感器、社交網絡、移動互聯網數據等。除傳統關系型數據庫MySQL、Oracle的數據采集外,統日志采集方面,主要利用開源的Flume、Scribe等系統;網絡數據采集主要研究網絡爬蟲、網站提供的API以及DPI等網絡流量采集。由于大數據的“低值性”,數據在采集后還應該進行過濾去噪、集成變換、規約等預處理。
2.2.2 數據存儲、分析處理、可視化技術
存儲方面主要涉及Hadoop、Hive等分布式存儲技術,具體包括分布式文件系統、分布式數據倉庫、分布式緩存等;并行計算技術,包含批處理、流處理、內存計算、圖計算技術等;數據分析挖掘技術,包括數據建模、分類、聚類、回歸分析、關聯規則挖掘、語義分析、算法推薦技術等;數據可視化呈現與利用技術,提供友好的分析圖表呈現模式、靈活便捷的數據接口供其他應用調用。
3.1.1 學科“雙一流”競爭力評估和發展定位
提供精準、明晰的學校學科競爭指標對比,分析優勢劣勢,更加科學、理性的凝練學科發展方向定位。分析學科熱點領域,啟發學校學科制定未來發展方向。模擬學科評估,進行本校自評定位,精準對比和分析學科各項指標的差距,制定未來發展規劃。
3.1.2 師資隊伍和學科梯隊數據分析
從學科發展的角度分析師資隊伍和學科梯隊結構,有目的的優化師資隊伍整體水平。提供人才數量、專業技術職務、學科分布、學歷學緣背景、年齡構成等多角度的綜合分析和院校間對比,為高端人才引進、完善考核晉升機制等措施明確方向。
3.1.3 教師個人科研評價和輔助定位
為教師個人提供科研自畫像和研究優勢、劣勢定位分析報告。根據學科熱點,協助教師形成未來科研發展方向定位。根據教師研究興趣分析,智能推薦各級別層次的文獻資料,提高教師科研效率等。
3.2.1 學校辦學趨勢分析
聚焦學校辦學方向和實際辦學效果的關系,提供學校總體和各學科專業的生源招收、培養方案、教學質量、學生成績的數據挖掘分析情況,對比同類專業的優勢劣勢,提供辦學趨勢、課程設置、學習資源等方面的分析建議等。
3.2.2 學習行為數據分析和學業預警
根據學生學業成績、課堂考勤、實踐活動、獲獎情況、學習時間分布等方面的數據分析,構建學生畫像,提供與優秀學生之間學習行為數據對比,描繪學生學業發展趨勢和診斷,在掛科、排名突降之前給予學生和相關教師預先提醒,提供針對性引導、學習經驗分享和相關資源推薦等。
3.2.3 教師教學能力數據分析
根據學生成績和評價提供多角度教學效果分析,如科目整體教學效果同校、同專業、國內對比,科目中知識點和技能弱勢不足分析,便于教師改進教學。提供教學經驗、教學資源個性化推薦。
3.3.1 學生管理:大數據輔助就業、資助評估、行為預警、健康預警
大數據在學生管理方面有較大用武之地。大數據輔助就業方面,通過網絡爬蟲、網站接口等技術廣泛搜集各企事業單位公布的就業招聘信息,并根據專業、興趣等實現精準推薦,分析應聘情況和學生實力成功率,大量節約學生就業精力。困難生經濟資助、行為預警方面,可以根據校園卡用餐用水消費、圖書借閱、門禁、Wi-Fi等數據,判斷學生真實經濟情況,或者是否有失聯情況。此外還可根據學校體檢、用餐、健身記錄和體育課成績為學生提供健康預警和提醒。
3.3.2 基建財務資產管理
通過分析學校多年基建、財務、資產數據,得出學校發展投入、預算和支出趨勢分析,便于提高財務績效,加強房產、設備、家具等資產的合理配置,加強水、電等能源的監控,制定節能減排措施。
大數據平臺的構建和大數據示范應用僅是大數據賦能高校信息化的兩個關鍵環節,以大數據為基礎的現代大學生態治理是一項復雜的系統工程,遠不止技術實現這么簡單,還涉及到學校發展戰略思維的轉變、學校政策規劃、多元主體之間的相互作用、配套體制機制、隊伍建設等方面的模式和策略。技術實現層面也還有其他一些重要問題需要關注,包括但不限于個人隱私問題、數據標準問題、數據質量質量問題,以及如何通過校企合作模式克服學校不足、形成成果共享和優勢互補的長期共贏策略。但總體核心思想應該是圍繞學校發展的核心關鍵需求,走好與科研、教學和服務管理深度融合之路。