文/楊愛華
在“互聯(lián)網+教育”的時代背景下,應當深入挖掘高校信息的大數據的“金山銀庫”,充分發(fā)揮高校信息管理大數據開發(fā)應用的效益。但現(xiàn)階段高校教育中,各系統(tǒng)產生的數據分散保存在不同的數據庫中,存在嚴重的“信息孤島”,同時互聯(lián)網教育數據和第三方部門數據未能得到充分利用,無法為教育提供全面的數據支撐。大數據挖掘技術可以很好地解決這個問題。例如,大數據可以通過分析學生的一卡通中的就餐情況,給學生提供科學配餐的建議。大數據可關注學生的消費情況,選定貧困生并給與幫助的建議。可見,根據高校信息構建一個大數據挖掘系統(tǒng),對高校實行統(tǒng)籌管理是大有必要的。
基于大數據高校信息系統(tǒng)是一個大數據離線分析的系統(tǒng),將集合數據挖掘以及機器學習的技術,通過建立數據分析模型,利用機器學習以及數據統(tǒng)計的分析方法,對海量數據進行挖掘分析,從中發(fā)現(xiàn)隱藏的數據以及背后隱藏的運行規(guī)則,并將挖掘結果進行可視化展示,為數據分析人員提供一個良好的交互式分析系統(tǒng)。
根據現(xiàn)狀調研與需求分析情況,結合高校對數據分析的需求,設計高校信息大數據挖掘分析系統(tǒng)。技術系統(tǒng)應考慮從架構設計、功能要求、運行環(huán)境要求、性能要求、配置要求、集成要求、系統(tǒng)安全要求、擴展性要求、易用性要求等方面進行分析并以此設計系統(tǒng)的具體工作。
基于大數據高校信息系統(tǒng)功能框架的子系統(tǒng)應具備的功能組成,包括數據預處理、大數據挖掘、大數據存儲、算法管理、任務管理、任務執(zhí)行調度、數據展示與分析、模型評估、角色管理等。
1.1.1 數據預處理
現(xiàn)實中的數據大多數是“臟”數據,即信息不完整數據,僅僅包含聚集數據或者缺少屬性值的數據,含噪音數據,存在偏離期望的離群值或者包含明顯數據錯誤,比如 age=“-8”;還有編碼和名字不一致的“臟”數據,如果要精準預測和計算出結果,需要一致性、準確性、完整性、可信性高的數據。但由于獲得的數據大,難免會出現(xiàn)數據的不完整、冗余度高、雜亂的狀況。
數據預處理為大數據挖掘準備的有價值的數據,提供大數據分析需要的數據集,包括數據的加載、數據的抽取、數據的轉換、數據的清洗、數據的聚合等。數據加載支持從諸如HDFS等大數據存儲設備中加載數據,加載的數據內容最好支持Avro數據格式。根據大數據挖掘以及機器學習的需要,對數據進行相應的處理,最后生成滿足分析要求的數據集。
1.1.2 大數據挖掘
大數據挖掘利用機器學習算法,對預處理產生的數據集進行挖掘分析。通過聚類、分類、統(tǒng)計、關聯(lián)分析、回歸、聚合分析等各種機器學習算法,對數據集進行分組統(tǒng)計、排重統(tǒng)計、頻度分析等各種挖掘分析,形成數據分析結果。

圖1:算法管理頁面
1.1.3 大數據存儲
大數據存儲對大數據挖掘形成的分析結果,存儲到大數據環(huán)境中,支持存儲到HDFS環(huán)境中存儲。此系統(tǒng)采用數據存儲部分集成大數據hadoop的生態(tài)環(huán)境,集成HDFS,挖掘計算的結果存儲HDFS,系統(tǒng)通用功能存儲使用關系數據庫。
1.1.4 算法管理
大數據挖掘中,算法是精髓。系統(tǒng)用到的數據挖掘算法有決策樹、K-均值聚類、Apriori算法、AdaBoost算法、K-近鄰算法、樸素貝葉斯等經典算法。實際上隨便拿出一種來都可以稱得上是經典算法,它們在數據挖掘領域都產生了極為深遠的影響。
在系統(tǒng)中設置算法管理功能。所謂算法管理,即將機器學習算法統(tǒng)一進行配置和管理。在此,可以進行算法的插裝和算法參數的定義。插裝的算法可以在挖掘分析中使用。算法可升級,在hadoop集群環(huán)境下,在hdfs指定的目錄下,替換算法插件包。
算法管理是用于對數據挖掘分析中所需算法信息以及算法參數的管理,方便用戶對數據挖掘分析中所用到的算法進行管理。
(1)支持算法的添加:算法基本信息、類型、算法參數的名稱、默認值、展示形式等;
(2)支持算法基本信息及算法參數的修改、刪除;
(3)支持算法基本信息、算法的搜索以及參數的查看。
算法管理頁面內容如圖1所示。
1.1.5 任務管理與監(jiān)控系統(tǒng)
系統(tǒng)中數據計算集成大數據計算環(huán)境,利用Spark的計算集群進行數據的計算,利用web框架管理與應用框架管理的功能,對計算的任務進行管理與調度。其任務管理是對大數據計算與分析的任務進行管理,包括任務的配置、任務的提交、結算結果的查看等功能。監(jiān)控系統(tǒng),對任務的提交以及任務計算進行管理。可查看任務依賴關系及運行狀態(tài),查看任務運行狀態(tài)及運行日志。
1.1.6 數據展示與數據分析
數據展示對計算分析的結果進行展示,并提供對計算結果進行交互分析的界面。分析的結果以圖表化的方式直觀的展現(xiàn)給用戶。大數據可視化具有直觀性的優(yōu)點,可以直觀展示高校各項工作指標和變化趨勢,讓高校教育決策有“數”可依。
最后,我們需要對建立的模型進行評估。模型評估將使用統(tǒng)計分析的方法對模型指標進行統(tǒng)計計算,基于歷史數據計算出模型指標值的均值、方差、標準差等參數的實際閾值與歷史閾值進行比較,通過閾值偏離度來評估模型是否有效,當模型指標計算需要的指標元數據為空、模型指標偏離度超過預設偏離度時將給出預警信息,便于用戶對模型指標進行跟蹤分析。
模型評估任務,盡量支持批量評估任務跟蹤執(zhí)行情況統(tǒng)計;支持評估任務運行進度、任務狀態(tài)的實時跟蹤;支持評估任務運行中被終止等。模型評估預警 ,盡量支持評估預警結果詳情查看,支持評估預警報告導出,支持模型指標閾值、偏離度重置。
基于大數據高校信息系統(tǒng)的作用是毋容置疑的,教師信息、教務系統(tǒng)、學生考試系統(tǒng)等各種數據信息價值是非常大的,但如果這些數據未能被進行有效保護,同樣帶來很大的安全隱患。若系統(tǒng)運行中被黑客攻擊,重要數據被篡改,考試信息數據被竊取,系統(tǒng)密碼被獲取,后果不堪設想,需加強系統(tǒng)的安全建設。所以要整個系統(tǒng)的生命周期都要注重系統(tǒng)安全問題,定期對開發(fā)團隊進行安全培訓,并聘請滲透測試專家對系統(tǒng)進行漏洞掃描并及時進行漏洞的修復,讓安全問題消失在萌芽狀態(tài)。
大數據產業(yè)已經上升至國家戰(zhàn)略的高度,滲透到社會生活和經濟發(fā)展的各個方面。“大數據”這個名詞已經根植在我們的大腦里。但如何有效利用大數據還是個正在探索的過程。高校信息管理是一項龐大、繁瑣的工作,需要用大數據技術挖掘有效數據,并為管理工作提供量化決策依據。根據調研高校信息管理的現(xiàn)狀,在大數據環(huán)境下采用Hadoop與Spark結合的方式初步勾畫出一個可行的高校信息系統(tǒng)設計方案。并對系統(tǒng)在開發(fā)中預計出現(xiàn)的風險給出相應的風險控制措施建議。