余 弦,周誼芬
(1. 南通大學 杏林學院,江蘇 南通 226000;2. 南通大學 醫學院,江蘇 南通 226000)
隨著各項信息技術的加速發展,如今世界已經邁入大數據時代,大數據正在驅動很多行業產生前所未有的變革,它逐漸改變著人們的生產、生活方式,對技術的演變和社會的進步產生了重大影響。 大數據具有體量大、種類繁多、單個數據價值密度低、數據更新速度快、數據時效高等特點[1],大數據時代對各行各業從業者們的數據使用能力提出了新的要求,它是一種具有蘊含巨大潛在價值、表格特征多樣化的海量信息資產,能夠幫助人們通過數據提高對事物的洞察發現力,使人們更容易透過表面數據看到各項事物之間的內在聯系[2]。如何充分利用大數據技術的優點,切實解決各行各業中的存在問題,是目前研究的一個熱點。
大數據技術的快速發展也為高等教育行業提供了改革機遇,為傳統的教學、管理注入了新的改革理念。隨著我國高等教育在信息化時代的不斷發展,互聯網和云計算等高科技技術手段在高校教學、管理中被廣泛應用,當前的高校教學過程已全面邁入了大數據時代。挖掘教學大數據的潛在價值,通過大數據發現規律,利用大數據技術優化辦學要素的結構,可以有效提高高校教育管理的智慧水平,促進高等教育管理由增量發展向質量發展[3]。以各項教學過程數據大集中為代表的信息技術成為了高校教學改革的一個重要切入點。
海量的學生成績數據是高校教學大數據的一個重要表現。課程成績作為教學質量評價的一個重要指標,不僅與眾多學生群體的切身利益緊密相關,也是高校人才培養的一個重要參考,對高校深化教學評價、改革教學管理具有重要指導意義[4]。如何合理引入大數據技術,分析海量學生成績數據的隱藏規律,挖掘這些數據里的潛在價值,將其更科學地應用于教學管理各方面的改革,進而更好地服務于高等教學全過程,提升高校人才培養水平,是當前高等教育從業者的一個努力方向[5]。本文利用大數據背景下的Apriori 算法,深入分析學生成績與就業流向之間的關系,對高校就業管理部門有效預測學生的就業流向,制定更科學的就業決策,從而更好地引導教育學生,具有重要的指導意義。
Apriori 算法是一種經典的關聯規數據挖據算法,它利用頻繁項集性質的先驗知識,通過逐層搜索迭代的布爾型關聯規則從事務數據庫或關系數據庫中發現同時滿足最小支持度和置信度的頻繁項目集[6]。Apriori 算法的核心是統計各項數據的出現頻率,利用一個層次順序搜索的循環辦法,使用頻繁k 項集搜索頻繁k+1 項集[7],來完成頻繁項集的挖掘工作。
Apriori 算法分為連接和剪枝步兩個步驟。連接過程主要采用類矩陣運算,剪枝過程是為了去除不符合條件的中間結果[8]。為了發掘用戶感興趣的關聯規則,首先需要設置最小支持度,如果某個項集A 滿足最小支持度,那么就稱這一項目集為頻繁項集。
在連接步驟中,假設所有的頻繁項集集合為Lk,所有的頻繁k-1 項集的集合為Lk-1,利用Lk-1與自身連接產生候選k 項集的集合Ck。首先執行第一次迭代操作,通過掃描所有事務得到所有侯選的項集C1,在C1中挑選出符合最小支持度的頻繁項集L1,隨后項集L1自我連接得到候選項集C2,在C2中再次選擇滿足最小支持度的頻繁項集L2,依此類推,最終得到頻繁項集集合為Lk。
在剪枝的步驟中要利用Apriori 算法一個特點:每個頻繁項集的所有非空子集肯定也是頻繁的。同樣,如果某個候選項集的非空子集不是頻繁的,則可以推斷該候選項集也一定不是頻繁的,那么就需要從候選項集CK中將其刪除[9]。Apriori 算法中LK是被包含在CK里面的,因此,CK的里的某個項目存在不是頻繁的可能性。根據對所有事務的統計結果,如果CK中某個候選項目的個數大于等于最小支持度計數,則認為該候選項目是頻繁的。如果CK中某個候選項目的個數小于最小支持度計數,則該候選項目是不頻繁的,可以將其從CK中剪除。
根據Apriori 算法的思想及實現過程,本文以某高校自動化專業2020 屆畢業生的成績數據和就業數據為數據來源,分析學生成績與就業流向之間的關系。學生成績數據數目眾多,首先去除無意義的冗余數據,選擇CET4 成績、計算機二級考試成績、專業課平均成績、不及格課程數量等四個成績指標為篩選對象,其中專業課平均成績以自動控制原理、電機及拖動、模擬電子線路三門代表性的專業課平均成績確定,整理得到的有效數據共156 條,并加入學生的就業流向,作為全部的數據挖掘對象,部分考取研究生和未就業的學生數據如表1 所示,為保護學生隱私,學生姓名用編號代替。
表1 部分考取研究生和未就業的學生數據
表2 離散規則
表3 離散化后的部分學生數據
為方便Apriori 算法處理,將以上學生數據做進一步的離散化處理。將專業課平均成績記為項目A,低于75 分記為A0,達到或超過75 分記為A1;CET4 成績編為項目B,小于425 分記為B0,大于等于425 分記為B1;計算機二級成績編為項目D,未通過記為D0,通過則記為D1;不及格課程數量編為項目E,大于0 記為E0,等于0 則記為E1。離散規則和離散化后的部分學生數據分別如表2、表3 所示。
本文以考取研究生的學生數據為例來分析學生成績與就業流向之間的關系。根據Apriori算法思想,通過以下步驟來完成學生成績數據與就業流向的關系挖掘。
(1)在算法的第一次迭代操作中,每項都是候選項集的集合C1的成員,掃描全部學生成績數據,對每個候選項計數,得到包含8 個子項的候選項集C1。
(2)設置最小支持度為10,在C1中挑選出符合最小支持度的頻繁項集L1,L1共包含個4 個子項,隨后項集L1自我連接得到包含6 個子項的候選項集C2,再從C2中篩選出滿足最小支付度的頻繁項集L2,L2共包含5 個子項,5 個子項之間再連接,得到包含4 個子項的候選項集C3,再依據最小支持度篩選,得到頻繁項集L3。
(3)L3自我連接之后又產生候選項集C4,C4只包含一個子項且不符合最小支持度,故循環中止。L3即為最終所得頻繁項集。這些候選項集和頻繁項集的產生過程如圖1 所示。
圖1 候選項集和頻繁項集的產生過程
通過圖1 所示的候選項集和頻繁項集產生過程得到L3為最后的頻繁項集,據此分析,符合(A1 D1 E1)項或(A1 B1 E1)項的學生與考取研究生這一就業流向之間存在關聯。由此可以得出,如果某學生滿足自動控制原理、電機及拖動、模擬電子線路三門專業課平均成績在75 分及以上、通過計算機二級考試且不及格課程數量為0,或者滿足自動控制原理、電機及拖動、模擬電子線路三門專業課平均成績在75 分及以上、通過CET4 考試且不及格課程數量為0,且該學生將來在就業流向中考取研究生的概率比較大。
針對就職國企業、就職外企、未就業等其他就業流向的學生,也可根據以上流程,掃描離散化后的全部學生數據得到候選集合C1,再依據最小支持度確定頻繁項集L1,之后通過頻繁項集的自我連接與最小支持度的篩選,循環產生候選項集CK和頻繁項集LK,直至候選項集CK的成員均不滿足最小支持度,則LK即為最終所得的關聯規則。根據頻繁項集LK所代表的成績特征,可以推斷出學生成績與對應就業流向之間的關聯。
本文指出了大數據時代給高校教學管理帶來機遇和挑戰,分析了Apriori 算法特點及其實現步驟,并以某高校自動化專業學生為例,通過將學生成績數據預處理和離散化,并引入Apriori 算法進行分析處理,充分挖掘學生成績數據與學生就業流向之間的潛在關系,得到了學生成績數據與學生就業流向之間的關聯規則。根據關聯規則,學校就業管理部門可以很方便地預測在校生的就業趨向,為就業指導工作提供有力的理論依據,也能為可能存在就業困難的學生及時進行預警和干預,有效提高學校就業率。同時可以為畢業生在就業過程中明確自己的定位提供參考,減少應聘過程中的彎路,提高就業競爭力。