吳佳清 姚文偉
摘 要 簡要介紹大數(shù)據(jù)分析技術(shù)的相關(guān)概念,論述了大數(shù)據(jù)分析技術(shù)應(yīng)用于高校人才質(zhì)量評價(jià)的必要性,介紹了人才培養(yǎng)數(shù)據(jù)采集存儲、人才培養(yǎng)數(shù)據(jù)安全管理的方法,闡述了大數(shù)據(jù)分析過程中3個(gè)數(shù)據(jù)挖掘算法在高校人才質(zhì)量評價(jià)中的應(yīng)用。
關(guān)鍵詞 大數(shù)據(jù);高校;人才質(zhì)量評價(jià);應(yīng)用
中圖分類號 TP3 文獻(xiàn)標(biāo)識碼 A 文章編號 1674-6708(2019)236-0118-02
在當(dāng)今大數(shù)據(jù)時(shí)代,大數(shù)據(jù)分析技術(shù)被廣泛應(yīng)用于各種組織包括政府和企業(yè),為相關(guān)部門提高工作效率和決策科學(xué)性提供有力支撐。根據(jù)國際數(shù)據(jù)公司(IDC)監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,在2020年前繼續(xù)保持大約每兩年翻一番的速度[1]。大數(shù)據(jù)分析技術(shù)將是一個(gè)科技創(chuàng)新的前沿技術(shù),人類將從數(shù)據(jù)中獲取改變生活方式的有效價(jià)值信息。
1 大數(shù)據(jù)分析技術(shù)簡述
大數(shù)據(jù)具有體量大、類型繁多、時(shí)效性高和價(jià)值高密度低4個(gè)特點(diǎn)。大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析并提取數(shù)據(jù)價(jià)值的過程,是在強(qiáng)大的支撐平臺上運(yùn)行分析算法發(fā)現(xiàn)隱藏在大數(shù)據(jù)中潛在價(jià)值的過程[2]。大數(shù)據(jù)分析分為可視化分析、數(shù)據(jù)挖掘、預(yù)測分析、語義分析和數(shù)據(jù)質(zhì)量管理5個(gè)領(lǐng)域,常見的大數(shù)據(jù)分析工具有Weka、R、Enterprise Miner等[2]。結(jié)構(gòu)化數(shù)據(jù)分析、文本數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、Web數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)分析和移動數(shù)據(jù)分析是大數(shù)據(jù)分析技術(shù)研究的六個(gè)重要方向。
2 大數(shù)據(jù)分析技術(shù)應(yīng)用于高校人才質(zhì)量評價(jià)的必要性
在高等教育領(lǐng)域,各類高校招生規(guī)模的與日俱增與學(xué)校內(nèi)部教學(xué)管理人員增幅相對較緩之間產(chǎn)生了巨大的矛盾。高等教育人才培養(yǎng)質(zhì)量評價(jià)作為高校教學(xué)管理工作中一個(gè)重要的環(huán)節(jié),既是高校人才培養(yǎng)的落腳點(diǎn),也是高校教學(xué)工作的參照點(diǎn)。只有充分借鑒大數(shù)據(jù)分析技術(shù)在其他行業(yè)的應(yīng)用經(jīng)驗(yàn),采用最新的大數(shù)據(jù)分析手段,結(jié)合各高校教學(xué)管理的內(nèi)在需求和工作流程,以大數(shù)據(jù)分析技術(shù)應(yīng)用為手段,構(gòu)建完善的人才質(zhì)量評價(jià)大數(shù)據(jù)分析流程,通過對海量人才培養(yǎng)數(shù)據(jù)的采集存儲、數(shù)據(jù)交換、清洗、整合、分析等過程,達(dá)到對人才培養(yǎng)過程相關(guān)信息的跟蹤與檢測,挖掘出學(xué)生人才培養(yǎng)質(zhì)量與各因素之間的關(guān)系并準(zhǔn)確預(yù)測未來,才能夠有力提高高校教學(xué)管理的水平。
3 大數(shù)據(jù)分析技術(shù)在高校人才質(zhì)量評價(jià)中的應(yīng)用
3.1 人才培養(yǎng)數(shù)據(jù)的采集存儲
3.1.1 數(shù)據(jù)的屬性與存儲
人才培養(yǎng)數(shù)據(jù)是大數(shù)據(jù)分析技術(shù)在高校人才質(zhì)量評價(jià)中應(yīng)用的先決條件。數(shù)據(jù)的屬性必須滿足規(guī)模性、多樣性和動態(tài)性的特點(diǎn)。只有符合以上3個(gè)特點(diǎn),大數(shù)據(jù)分析技術(shù)才能夠挖掘出科學(xué)和有效的數(shù)據(jù)。具體來講,規(guī)模性是從體量的維度衡量,規(guī)模越大,數(shù)據(jù)就越精細(xì)且越能反映真實(shí)情況,多樣性是從種類的維度衡量,數(shù)據(jù)的種類多少體現(xiàn)了數(shù)據(jù)的采集層面廣度和微觀度,動態(tài)性是從時(shí)間序列的維度衡量,即要求人才培養(yǎng)數(shù)據(jù)不僅要包含在校期間情況,還要包含畢業(yè)后的工作、家庭、工作晉升等重要時(shí)點(diǎn)數(shù)據(jù)。如果人才培養(yǎng)相關(guān)數(shù)據(jù)不完整、不準(zhǔn)確,即使采用最先進(jìn)、前沿的大數(shù)據(jù)分析技術(shù)手段,數(shù)據(jù)挖掘出的結(jié)果也毫無價(jià)值。因此,做好人才培養(yǎng)數(shù)據(jù)采集工作是所有教育管理者應(yīng)該關(guān)注的重點(diǎn)。在數(shù)據(jù)存儲方面,隨著高校辦學(xué)規(guī)模越來越大,且教學(xué)管理的精細(xì)化要求越來越高,教學(xué)管理的相關(guān)數(shù)據(jù)與日俱增,數(shù)據(jù)規(guī)模越來越大。如果還是采用原有的服務(wù)器模式,服務(wù)器的數(shù)量會呈現(xiàn)多而分散的問題。因此,人才培養(yǎng)數(shù)據(jù)要存儲在云架構(gòu)的分布式文件系統(tǒng)(DFS)中,以云的形式存儲。
3.1.2 數(shù)據(jù)的來源與獲取
與高校人才質(zhì)量評價(jià)有關(guān)的數(shù)據(jù)庫主要包括本科教學(xué)狀態(tài)數(shù)據(jù)庫、畢業(yè)生質(zhì)量評價(jià)數(shù)據(jù)庫、學(xué)生成績數(shù)據(jù)庫、教師教學(xué)質(zhì)量數(shù)據(jù)庫、學(xué)生第二課堂數(shù)據(jù)庫等,其中本科教學(xué)狀態(tài)數(shù)據(jù)庫是教育部要求全國本科院校每年于十月左右將本校當(dāng)學(xué)年的教學(xué)狀態(tài)數(shù)據(jù)上傳至申報(bào)數(shù)據(jù)平臺,畢業(yè)生質(zhì)量評價(jià)數(shù)據(jù)庫一般依托第三方機(jī)構(gòu)對高校畢業(yè)生進(jìn)行跟蹤與評價(jià)形成數(shù)據(jù),其他教學(xué)數(shù)據(jù)庫一般由學(xué)校教務(wù)處、學(xué)生處和團(tuán)委牽頭開發(fā)系統(tǒng)并由各二級學(xué)院或?qū)W生填報(bào)形成數(shù)據(jù)。以本科教學(xué)狀態(tài)、學(xué)生第二課堂和畢業(yè)生質(zhì)量評價(jià)數(shù)據(jù)庫為例,本科教學(xué)狀態(tài)數(shù)據(jù)庫涉及師資隊(duì)伍、教育教學(xué)、學(xué)生課外活動等11類近115個(gè)數(shù)據(jù)實(shí)體、900多個(gè)狀態(tài)數(shù)據(jù)項(xiàng),數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,學(xué)生第二課堂數(shù)據(jù)庫主要是采集學(xué)生參加社交活動、創(chuàng)新創(chuàng)業(yè)活動等數(shù)據(jù),這類數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主,畢業(yè)生質(zhì)量評價(jià)數(shù)據(jù)庫中的數(shù)據(jù)包括就業(yè)去向、薪酬水平、職務(wù)晉升與調(diào)動、職業(yè)發(fā)展水平等,以非結(jié)構(gòu)化數(shù)據(jù)為主。
3.2 人才培養(yǎng)數(shù)據(jù)的安全管理
人才培養(yǎng)數(shù)據(jù)采集存儲后還需要做好安全措施和備份方案。人才培養(yǎng)數(shù)據(jù)的安全直接決定了數(shù)據(jù)的準(zhǔn)確性,是保證大數(shù)據(jù)分析技術(shù)在人才質(zhì)量評價(jià)有效性的前提。當(dāng)前高校人才質(zhì)量相關(guān)數(shù)據(jù)使用率高,由于相關(guān)管理人員安全意識差、計(jì)算機(jī)操作不規(guī)范等原因,再加上計(jì)算機(jī)網(wǎng)絡(luò)開放共享的特點(diǎn)決定了大量的黑客惡意攻擊、人為破壞因素的客觀存在,數(shù)據(jù)信息的安全性問題成為必須要考慮的問題[3]。因此,除了定期升級系統(tǒng)補(bǔ)丁并安裝好殺毒軟件和防火墻外,系統(tǒng)管理員還需要做好人才培養(yǎng)數(shù)據(jù)的備份方案。通過信息加密、遠(yuǎn)程數(shù)據(jù)庫鏡像等手段進(jìn)行數(shù)據(jù)管理和備份,確保緊急時(shí)候能夠利用恢復(fù)數(shù)據(jù)手段使教學(xué)運(yùn)行正常化。
3.3 人才培養(yǎng)數(shù)據(jù)的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘有4種常見的分析方法,分別是描述型分析、診斷型分析、指令型分析和預(yù)測型分析。描述性分析注重分析數(shù)據(jù)的背后發(fā)生了什么,也是最常見的大數(shù)據(jù)分析方法,診斷型分析一般在描述性分析之后,側(cè)重分析為什么會發(fā)生的問題,預(yù)測型分析注重分析接下來可能發(fā)生什么,包括發(fā)生的事情、該事情發(fā)生的時(shí)點(diǎn)、發(fā)生的可能性等等,指令型分析通常是最后一步,是在分析過“發(fā)生了什么”“發(fā)生的原因”“可能發(fā)生什么”之后,進(jìn)一步為用戶提供決策,即應(yīng)該采取什么樣的措施。數(shù)據(jù)挖掘采用的算法主要包括分類與預(yù)測挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、模糊理論、可視化技術(shù)等等,其中聚類分類與預(yù)測挖掘、關(guān)聯(lián)規(guī)則和決策樹分類三種算法比較適用于高校人才質(zhì)量的評價(jià)。
3.3.1 聚類、分類與預(yù)測挖掘算法在人才質(zhì)量評價(jià)中的應(yīng)用
聚類算法主要包括K-means、 BIRCH、DBSCAN、CLIQLE等方法,高校在人才培養(yǎng)質(zhì)量評價(jià)時(shí)候可采用K-means算法的聚類挖掘分析技術(shù),這種分析技術(shù)能夠分析出某一類學(xué)生群體的行為特征。該算法通過分析學(xué)生自身特點(diǎn)、學(xué)習(xí)目標(biāo)環(huán)境與行為來分析學(xué)生的學(xué)習(xí)特征,然后將學(xué)生以及學(xué)習(xí)特征進(jìn)行聚類和分類,分析有可能出現(xiàn)學(xué)業(yè)預(yù)警的學(xué)生群體特征,或者科研能力較強(qiáng)或是就業(yè)質(zhì)量好的學(xué)生群體的行為特征[4],以此向這類學(xué)生推薦他們感興趣或者有用的課程和學(xué)習(xí)路徑。通過聚類、分類與預(yù)測,高校能夠?qū)W(xué)生實(shí)施分類、精準(zhǔn)和個(gè)性化的培養(yǎng)方案。
3.3.2 關(guān)聯(lián)規(guī)則算法在人才質(zhì)量評價(jià)中的應(yīng)用
關(guān)聯(lián)規(guī)則算法主要用于發(fā)現(xiàn)大數(shù)據(jù)背后各要素之間可能存在的關(guān)聯(lián),主要算法有挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的Apriori算法,該算法可用于分析學(xué)生學(xué)習(xí)成績的影響因素。利用學(xué)生參與社會活動情況、文體互動情況和成績的關(guān)聯(lián)規(guī)則算法,高校可以了解第二課堂與學(xué)習(xí)成績是正相關(guān)還是負(fù)相關(guān)。通過分析學(xué)生在課程在線平臺上作業(yè)完成情況、登陸次數(shù)、材料瀏覽情況等信息,加上學(xué)生登陸圖書館的次數(shù)和借閱情況,高校可以分析出學(xué)生自主學(xué)習(xí)習(xí)慣與學(xué)習(xí)成效之間的關(guān)系。利用人臉識別技術(shù)采集學(xué)生上課的抬頭率情況,可以分析出課堂學(xué)習(xí)注意力與學(xué)習(xí)成績之間的關(guān)系。
3.3.3 決策樹分類算法在人才質(zhì)量評價(jià)中的應(yīng)用
決策樹算法是一種逼近離散函數(shù)值的方法,在70年代末由J Ross Quinlan提出了ID3算法。利用決策樹分類算法構(gòu)建人才培養(yǎng)質(zhì)量評測決策樹來實(shí)現(xiàn)定性分析也是一種常見的應(yīng)用,其背后的邏輯是具備某種優(yōu)勢的群體具備另一種優(yōu)勢的概率較大。因此,通過決策樹分類算法,高校教學(xué)管理者能夠分析出不同專業(yè)不同類別學(xué)生的潛在就業(yè)領(lǐng)域,大概測量出某個(gè)學(xué)生繼續(xù)深造還是立即就業(yè)的適合度,為學(xué)生的職業(yè)生涯提供科學(xué)的量化建議和輔助決策數(shù)據(jù)。
參考文獻(xiàn)
[1]高志鵬,牛琨,劉杰.面向大數(shù)據(jù)的分析技術(shù)[J].北京郵電大學(xué)學(xué)報(bào),2015,38(3):1-12.
[2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013,25(S1):142-146.
[3]姚文偉.高校教務(wù)管理系統(tǒng)數(shù)據(jù)備份解決方案研究[J].湖南科技學(xué)院學(xué)報(bào),2018,39(2):109-111.
[4]傅鋼善,王改花.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)行為與學(xué)習(xí)效果研究[J].電化教育研究,2014,35(9):53-57.