吳佳清 姚文偉
摘 要 簡要介紹大數據分析技術的相關概念,論述了大數據分析技術應用于高校人才質量評價的必要性,介紹了人才培養數據采集存儲、人才培養數據安全管理的方法,闡述了大數據分析過程中3個數據挖掘算法在高校人才質量評價中的應用。
關鍵詞 大數據;高校;人才質量評價;應用
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2019)236-0118-02
在當今大數據時代,大數據分析技術被廣泛應用于各種組織包括政府和企業,為相關部門提高工作效率和決策科學性提供有力支撐。根據國際數據公司(IDC)監測,人類產生的數據量正在呈指數級增長,在2020年前繼續保持大約每兩年翻一番的速度[1]。大數據分析技術將是一個科技創新的前沿技術,人類將從數據中獲取改變生活方式的有效價值信息。
1 大數據分析技術簡述
大數據具有體量大、類型繁多、時效性高和價值高密度低4個特點。大數據分析是指對規模巨大的數據進行分析并提取數據價值的過程,是在強大的支撐平臺上運行分析算法發現隱藏在大數據中潛在價值的過程[2]。大數據分析分為可視化分析、數據挖掘、預測分析、語義分析和數據質量管理5個領域,常見的大數據分析工具有Weka、R、Enterprise Miner等[2]。結構化數據分析、文本數據分析、多媒體數據分析、Web數據分析、網絡數據分析和移動數據分析是大數據分析技術研究的六個重要方向。
2 大數據分析技術應用于高校人才質量評價的必要性
在高等教育領域,各類高校招生規模的與日俱增與學校內部教學管理人員增幅相對較緩之間產生了巨大的矛盾。高等教育人才培養質量評價作為高校教學管理工作中一個重要的環節,既是高校人才培養的落腳點,也是高校教學工作的參照點。只有充分借鑒大數據分析技術在其他行業的應用經驗,采用最新的大數據分析手段,結合各高校教學管理的內在需求和工作流程,以大數據分析技術應用為手段,構建完善的人才質量評價大數據分析流程,通過對海量人才培養數據的采集存儲、數據交換、清洗、整合、分析等過程,達到對人才培養過程相關信息的跟蹤與檢測,挖掘出學生人才培養質量與各因素之間的關系并準確預測未來,才能夠有力提高高校教學管理的水平。
3 大數據分析技術在高校人才質量評價中的應用
3.1 人才培養數據的采集存儲
3.1.1 數據的屬性與存儲
人才培養數據是大數據分析技術在高校人才質量評價中應用的先決條件。數據的屬性必須滿足規模性、多樣性和動態性的特點。只有符合以上3個特點,大數據分析技術才能夠挖掘出科學和有效的數據。具體來講,規模性是從體量的維度衡量,規模越大,數據就越精細且越能反映真實情況,多樣性是從種類的維度衡量,數據的種類多少體現了數據的采集層面廣度和微觀度,動態性是從時間序列的維度衡量,即要求人才培養數據不僅要包含在校期間情況,還要包含畢業后的工作、家庭、工作晉升等重要時點數據。如果人才培養相關數據不完整、不準確,即使采用最先進、前沿的大數據分析技術手段,數據挖掘出的結果也毫無價值。因此,做好人才培養數據采集工作是所有教育管理者應該關注的重點。在數據存儲方面,隨著高校辦學規模越來越大,且教學管理的精細化要求越來越高,教學管理的相關數據與日俱增,數據規模越來越大。如果還是采用原有的服務器模式,服務器的數量會呈現多而分散的問題。因此,人才培養數據要存儲在云架構的分布式文件系統(DFS)中,以云的形式存儲。
3.1.2 數據的來源與獲取
與高校人才質量評價有關的數據庫主要包括本科教學狀態數據庫、畢業生質量評價數據庫、學生成績數據庫、教師教學質量數據庫、學生第二課堂數據庫等,其中本科教學狀態數據庫是教育部要求全國本科院校每年于十月左右將本校當學年的教學狀態數據上傳至申報數據平臺,畢業生質量評價數據庫一般依托第三方機構對高校畢業生進行跟蹤與評價形成數據,其他教學數據庫一般由學校教務處、學生處和團委牽頭開發系統并由各二級學院或學生填報形成數據。以本科教學狀態、學生第二課堂和畢業生質量評價數據庫為例,本科教學狀態數據庫涉及師資隊伍、教育教學、學生課外活動等11類近115個數據實體、900多個狀態數據項,數據以結構化數據為主,學生第二課堂數據庫主要是采集學生參加社交活動、創新創業活動等數據,這類數據以非結構化數據為主,畢業生質量評價數據庫中的數據包括就業去向、薪酬水平、職務晉升與調動、職業發展水平等,以非結構化數據為主。
3.2 人才培養數據的安全管理
人才培養數據采集存儲后還需要做好安全措施和備份方案。人才培養數據的安全直接決定了數據的準確性,是保證大數據分析技術在人才質量評價有效性的前提。當前高校人才質量相關數據使用率高,由于相關管理人員安全意識差、計算機操作不規范等原因,再加上計算機網絡開放共享的特點決定了大量的黑客惡意攻擊、人為破壞因素的客觀存在,數據信息的安全性問題成為必須要考慮的問題[3]。因此,除了定期升級系統補丁并安裝好殺毒軟件和防火墻外,系統管理員還需要做好人才培養數據的備份方案。通過信息加密、遠程數據庫鏡像等手段進行數據管理和備份,確保緊急時候能夠利用恢復數據手段使教學運行正常化。
3.3 人才培養數據的數據挖掘
數據挖掘有4種常見的分析方法,分別是描述型分析、診斷型分析、指令型分析和預測型分析。描述性分析注重分析數據的背后發生了什么,也是最常見的大數據分析方法,診斷型分析一般在描述性分析之后,側重分析為什么會發生的問題,預測型分析注重分析接下來可能發生什么,包括發生的事情、該事情發生的時點、發生的可能性等等,指令型分析通常是最后一步,是在分析過“發生了什么”“發生的原因”“可能發生什么”之后,進一步為用戶提供決策,即應該采取什么樣的措施。數據挖掘采用的算法主要包括分類與預測挖掘、聚類挖掘、關聯規則、決策樹方法、神經網絡方法、遺傳算法、模糊理論、可視化技術等等,其中聚類分類與預測挖掘、關聯規則和決策樹分類三種算法比較適用于高校人才質量的評價。
3.3.1 聚類、分類與預測挖掘算法在人才質量評價中的應用
聚類算法主要包括K-means、 BIRCH、DBSCAN、CLIQLE等方法,高校在人才培養質量評價時候可采用K-means算法的聚類挖掘分析技術,這種分析技術能夠分析出某一類學生群體的行為特征。該算法通過分析學生自身特點、學習目標環境與行為來分析學生的學習特征,然后將學生以及學習特征進行聚類和分類,分析有可能出現學業預警的學生群體特征,或者科研能力較強或是就業質量好的學生群體的行為特征[4],以此向這類學生推薦他們感興趣或者有用的課程和學習路徑。通過聚類、分類與預測,高校能夠對學生實施分類、精準和個性化的培養方案。
3.3.2 關聯規則算法在人才質量評價中的應用
關聯規則算法主要用于發現大數據背后各要素之間可能存在的關聯,主要算法有挖掘布爾關聯規則頻繁項集的Apriori算法,該算法可用于分析學生學習成績的影響因素。利用學生參與社會活動情況、文體互動情況和成績的關聯規則算法,高校可以了解第二課堂與學習成績是正相關還是負相關。通過分析學生在課程在線平臺上作業完成情況、登陸次數、材料瀏覽情況等信息,加上學生登陸圖書館的次數和借閱情況,高校可以分析出學生自主學習習慣與學習成效之間的關系。利用人臉識別技術采集學生上課的抬頭率情況,可以分析出課堂學習注意力與學習成績之間的關系。
3.3.3 決策樹分類算法在人才質量評價中的應用
決策樹算法是一種逼近離散函數值的方法,在70年代末由J Ross Quinlan提出了ID3算法。利用決策樹分類算法構建人才培養質量評測決策樹來實現定性分析也是一種常見的應用,其背后的邏輯是具備某種優勢的群體具備另一種優勢的概率較大。因此,通過決策樹分類算法,高校教學管理者能夠分析出不同專業不同類別學生的潛在就業領域,大概測量出某個學生繼續深造還是立即就業的適合度,為學生的職業生涯提供科學的量化建議和輔助決策數據。
參考文獻
[1]高志鵬,牛琨,劉杰.面向大數據的分析技術[J].北京郵電大學學報,2015,38(3):1-12.
[2]陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013,25(S1):142-146.
[3]姚文偉.高校教務管理系統數據備份解決方案研究[J].湖南科技學院學報,2018,39(2):109-111.
[4]傅鋼善,王改花.基于數據挖掘的網絡學習行為與學習效果研究[J].電化教育研究,2014,35(9):53-57.