趙 曦,李 穎
(廣東科學技術(shù)職業(yè)學院,廣東 珠海 519090)
高職院校學生綜合素質(zhì)培養(yǎng)對培養(yǎng)學生的創(chuàng)造性思維、社會實踐能力、健全人格等有重要作用,能促進學生在知識結(jié)構(gòu)、能力結(jié)構(gòu)方面更加全面,培養(yǎng)學生的探索精神。對高校培養(yǎng)德才兼?zhèn)?、全面發(fā)展的中國特色社會主義合格的建設(shè)者和可靠的接班人具有重要意義。如何科學系統(tǒng)地評價大學生的綜合素質(zhì),是現(xiàn)代大學教育的一個重要研究課題。目前國內(nèi)學制研究主要集中在高職院校學生綜合素質(zhì)評價體系的構(gòu)建原則、構(gòu)建策略、構(gòu)建理論等方面。
高職院校綜合素質(zhì)評價體系仍存在缺少實證研究、指標僵化、數(shù)據(jù)處理手段單一等問題。其主要原因是大學生的綜合素質(zhì)評價過程較為復(fù)雜、評價維度過大、指標難以均衡。因此,利用數(shù)據(jù)挖掘算法,從大量的樣本數(shù)據(jù)中找出隱藏的規(guī)律,對高職學生綜合素質(zhì)進行科學、有效、系統(tǒng)的評價具有重要的意義。國內(nèi)學者和專家已經(jīng)利用數(shù)據(jù)挖掘技術(shù)對高職綜合素質(zhì)評價數(shù)據(jù)進行研究,也取得了很多成果。一些學者結(jié)合學生的大數(shù)據(jù),按照質(zhì)量評價體系對高職學生的綜合素質(zhì)評價進行了研究,闡述了大數(shù)據(jù)在學生綜合素質(zhì)評價中的應(yīng)用價值和創(chuàng)新,構(gòu)建了優(yōu)化的評價模型。
應(yīng)用數(shù)據(jù)挖掘技術(shù)可以分析出數(shù)據(jù)中潛在有用的信息,一般可以分為描述性和預(yù)測性兩大類。描述性數(shù)據(jù)挖掘的目的是以簡明、通用的方式提煉和總結(jié)大量復(fù)雜數(shù)據(jù),以便快速掌握數(shù)據(jù)的主要特征和信息;預(yù)測性數(shù)據(jù)挖掘強調(diào)推理,基于已知信息推斷未知或基于過去推斷未來。描述性數(shù)據(jù)挖掘技術(shù)包括聚類、摘要、主題發(fā)現(xiàn)、關(guān)鍵字提取和描述性統(tǒng)計等。預(yù)測性數(shù)據(jù)挖掘技術(shù)包括分類技術(shù)、回歸技術(shù)和關(guān)聯(lián)分析技術(shù)等。數(shù)據(jù)挖掘算法主要包括神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、蟻群算法、粒子群算法、粗糙集、關(guān)聯(lián)規(guī)則等。
本文使用神經(jīng)網(wǎng)絡(luò)算法進行描述類數(shù)據(jù)挖掘。
神經(jīng)網(wǎng)絡(luò)通過類似人腦等生物神經(jīng)元的方式運行,數(shù)據(jù)和信息被分布在神經(jīng)網(wǎng)絡(luò)的各個神經(jīng)元上,每個神經(jīng)元都有相應(yīng)的連接權(quán)值。由于人工神經(jīng)網(wǎng)絡(luò)不用先確定輸入層、輸出層之間的數(shù)學映射關(guān)系,僅通過多樣本的訓練,即可在給定輸入值時得到最接近期望輸出值的結(jié)果,近幾年來,在模式識別、系統(tǒng)辨識、推薦系統(tǒng)、分類回歸、圖像與自然語言處理等應(yīng)用方面也獲得了極大發(fā)展。通過神經(jīng)網(wǎng)絡(luò)的處理,存儲數(shù)據(jù)和信息都是分布式的,每一個神經(jīng)元上都存有數(shù)據(jù)信息的一部分。所以,雖然根據(jù)某個單一權(quán)值并不能得到完整的存儲數(shù)據(jù)和信息,但是通過整個神經(jīng)網(wǎng)絡(luò),可以通過多個神經(jīng)元節(jié)點相關(guān)聯(lián)的聯(lián)想記憶獲得存儲的完整信息。神經(jīng)網(wǎng)絡(luò)對缺損的不完全數(shù)據(jù)可以進行很好的處理,并且容錯性良好,同時還有自適應(yīng)能力強、適合并行計算的優(yōu)點。
神經(jīng)網(wǎng)絡(luò)可以用來分類和聚類,Werbos 提出通過反向傳播算法解決多層網(wǎng)絡(luò)權(quán)值學習的問題,可以把帶有標簽的輸入向量按照所定義的合適方式進行分類,屬于有監(jiān)督學習。而由Teuvo Kohonen 在1981年提出自組織神經(jīng)網(wǎng)絡(luò)(SOM,Self Organizing Feature Map)也是人工神經(jīng)網(wǎng)絡(luò)的一種,該算法是一種無監(jiān)督學習網(wǎng)絡(luò),具有自組織映射功能,輸入層不需要標簽信息。它把系統(tǒng)劃分為若干子系統(tǒng),每一個子系統(tǒng)對外界輸入都有不同的響應(yīng)。Kohonen 認為,當一個神經(jīng)網(wǎng)絡(luò)接收外界輸入時,將會自動地分為不同的對應(yīng)區(qū)域,每一個區(qū)域?qū)ν饨巛斎肽J蕉即嬖谥灰粯拥捻憫?yīng)特征。
SOM 模型的基本思想是當從外界接收復(fù)雜的輸入模式時,在輸出層中將形成不同的反應(yīng)區(qū)域和不同的響應(yīng)特征,所以不同位置的神經(jīng)元具有不同的功能劃分。因此,SOM 模型可以傳遞高維輸出數(shù)據(jù)映射到低維輸出空間,同時保留在高維空間的拓撲結(jié)構(gòu)。
以輸出層為二維矩陣的網(wǎng)格為例,SOM 的輸出層由一系列組織在二維平面上的有序節(jié)點構(gòu)成,輸入節(jié)點與輸出節(jié)點通過權(quán)重向量連接。算法學習過程中,找到與輸入節(jié)點距離最短的輸出層單元節(jié)點作為獲勝單元,對其進行更新。同時,將獲勝單元鄰近區(qū)域的節(jié)點權(quán)值更新,使輸出節(jié)點保持輸入向量的拓撲特征。高維空間中的相似輸入樣本經(jīng)過算法映射到輸出層中的相鄰神經(jīng)元。
SOM 算法(如圖1 所示)步驟如下:

圖1 SOM 算法框架示意圖
(1)初始化,用較小的隨機數(shù)設(shè)定輸出層各權(quán)值向量的初始值W。
(2)輸入樣本向量x=(x,x,…,x)。
(3)計算歐氏距離,尋找獲勝神經(jīng)元,輸出神經(jīng)元相互競爭激活的機會,每次只有一個被激活。被激活的神經(jīng)元就叫作獲勝神經(jīng)元。由于存在這種競爭,神經(jīng)元被迫自我組織,形成自組織映射(SOM)。
歐氏距離計算公式如下:

其中w為輸出層第(i,j)個神經(jīng)元對應(yīng)的權(quán)值,這樣計算的歐氏距離取最小值,即可得出相似性最強的優(yōu)勝神經(jīng)元,記為j。
(4)通過鄰域半徑函數(shù)Uj(t)確定優(yōu)勝鄰域包含的節(jié)點,一般通過高斯函數(shù)或者其他函數(shù)來設(shè)置優(yōu)勝鄰域,來確定對其近鄰節(jié)點的影響強弱。
(5)更新優(yōu)勝鄰域節(jié)點的權(quán)值。
公式如下:


(6)從第2 步開始重復(fù),直到滿足迭代次數(shù),或者學習率降到給定值。
學校和二級學院一般將綜合素質(zhì)評價作為標準來進行評獎評優(yōu)、就業(yè)推薦等,至于評價結(jié)果,通常的方法是根據(jù)加權(quán)分配后的計算結(jié)果進行排名,或者使用“優(yōu)”“好”“合格”和“不合格”的等級作為定性結(jié)果。高職院校綜合素質(zhì)評價中最常見的方案是將評價指標和結(jié)果視為簡單的加權(quán)線性關(guān)系,例如,學年的綜合評價=學業(yè)成績×60%+綜合素質(zhì)成績×40%。至于綜合素質(zhì)成績,則通過把每個學生的綜合素質(zhì)評價得分按照一定的標準進行分類,例如分類為思想政治實踐、職業(yè)技能與職業(yè)素養(yǎng)、審美與人文素養(yǎng)、公益與志愿服務(wù)、品格與身心健康、創(chuàng)新創(chuàng)業(yè)實戰(zhàn)、勞動實踐等,然后主觀地確定每項分類的權(quán)重,計算每項分類的得分,最后對這些具體指標得分進行加權(quán)計算。
職業(yè)教育以提高學生技術(shù)技能水平以及就業(yè)和創(chuàng)業(yè)能力為核心要素和關(guān)鍵環(huán)節(jié)?;谏鲜鼍€性關(guān)系簡單加權(quán)算出學生綜合評價分數(shù),通過排名或者給出不同的等級進行評價,難以達到職業(yè)教育的目的。事實上,綜合素質(zhì)的評價內(nèi)容和評價結(jié)果之間存在非常復(fù)雜的非線性關(guān)系。因此,可采用數(shù)據(jù)挖掘算法,在各種評價數(shù)據(jù)中尋找聯(lián)系,減弱排名對學生綜合素質(zhì)評價的影響,使學生綜合素質(zhì)評價更加科學有效,為評價者提供決策支持。本文提出用SOM 對綜合素質(zhì)的各項評價得分進行聚類,為下一步分類和評價提供重要參考。試驗步驟如下:
(1)取樣本個數(shù)為300,依據(jù)樣本個數(shù),用試湊法測試,設(shè)置輸出層的最佳維度為10,然后進行權(quán)值初始化,用(0,1)之間的隨機數(shù)設(shè)定輸出層權(quán)重。
本文設(shè)定了六個一級指標,從綜合素質(zhì)評價系統(tǒng)中提取包括思想政治、身心健康、創(chuàng)新創(chuàng)業(yè)、技術(shù)技能、志愿服務(wù)、人文藝術(shù)六個維度,選300 個2018 級計算機工程技術(shù)學院學生數(shù)據(jù)作為樣本,如表1 所示。

表1 輸入數(shù)據(jù)樣本
(2)設(shè)定輸入向量。依據(jù)上文,輸入?yún)?shù)為array([[1.,6.,8.,2.,7.,10.],[1.,7.,3.,0.,2.,6.],[4.,9.,4.,1.,2.5,4.],...,[ 2.,5.,2.,0.,3.5.,3.]])。
(3)初始學習率設(shè)置為0.5,設(shè)置優(yōu)勝領(lǐng)域的函數(shù)包括冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)等。
(4)以迭代次數(shù)作為算法結(jié)束條件。依據(jù)算法,輸出層為一個10*10 的二維的向量矩陣,其中每一個向量對應(yīng)一個權(quán)值,都和輸入層的維度相同,即六維。通過這個輸出層,可以得到每一個向量捕獲的樣本,再結(jié)合輸出層向量之間的距離,可以得到樣本的一個聚類。因此,算法完成后,得到最終的輸出矩陣保留了原來輸入層的拓撲結(jié)構(gòu)。
最后通過輸出層的距離矩陣,用熱圖(heatmap)來展現(xiàn)數(shù)據(jù)的差異性,通過熱圖可視化,直觀了解數(shù)據(jù)的分布情況和差異情況。本文嘗試使用冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)(“bubble”,“gaussian”,“mexican_hat”)三種函數(shù)作為設(shè)置優(yōu)勝鄰域半徑函數(shù),分別按照迭代次數(shù)50 次和200 次作為算法終止條件,得到聚類結(jié)果如圖2、圖3 所示,試驗表明,通過墨西哥草帽函數(shù)迭代200 次具有相對較好的收斂性。

圖2 用“bubble”“gaussian”“mexican_hat”作為鄰域半徑函數(shù)進行聚類(迭代50 次)

圖3 用“bubble”“gaussian”“mexican_hat”作為鄰域半徑函數(shù)進行聚類(迭代200 次)
對于收斂性最好的聚類結(jié)果,通過統(tǒng)計輸出層每個神經(jīng)元被激活的次數(shù),可以得到一個合理有效的分類,此結(jié)果為一個10*10 的二維矩陣:[[0.,0.,0.,0.,0.,0.,0.,0.,0.,0.],...,[ 0.,0.,37.,26.,29.,0.,0.,0.,0.,0.],[0.,1.,34.,28.,27.,0.,0.,0.,0.,0.],[0.,0.,45.,56.,14.,0.,0.,0.,0.,0.],...,[ 0.,0.,0.,0.,0.,0.,0.,0.,0.,0.]]。因此可以將數(shù)據(jù)分為9 類,在此基礎(chǔ)上再進行進一步的分析與比較,更加科學、客觀、合理地進行高職院校學生的綜合素質(zhì)評價。
SOM 是一種無監(jiān)督學習網(wǎng)絡(luò),通過自組織映射,把系統(tǒng)劃分為若干子系統(tǒng),每一個子系統(tǒng)對外界輸入有不同的響應(yīng),SOM 算法將完全保留輸入層的拓撲結(jié)構(gòu)。本文選取了六個維度的300 份高職院校學生綜合素質(zhì)各類評分數(shù)據(jù)作為樣本,利用SOM 進行聚類分析,通過試驗,發(fā)現(xiàn)收斂性比較好的優(yōu)勝領(lǐng)域的函數(shù)設(shè)置,在此基礎(chǔ)上完成聚類,為進一步研究科學、合理的評價和分類方式提供了依據(jù)。