基于SOM 的高職學生綜合素質(zhì)評價數(shù)據(jù)聚類研究

2022-03-12 13:30:32趙曦，李穎

中國管理信息化 2022年3期

趙曦，李穎

（廣東科學技術(shù)職業(yè)學院，廣東珠海 519090）

0 引言

高職院校學生綜合素質(zhì)培養(yǎng)對培養(yǎng)學生的創(chuàng)造性思維、社會實踐能力、健全人格等有重要作用，能促進學生在知識結(jié)構(gòu)、能力結(jié)構(gòu)方面更加全面，培養(yǎng)學生的探索精神。對高校培養(yǎng)德才兼?zhèn)?、全面發(fā)展的中國特色社會主義合格的建設(shè)者和可靠的接班人具有重要意義。如何科學系統(tǒng)地評價大學生的綜合素質(zhì)，是現(xiàn)代大學教育的一個重要研究課題。目前國內(nèi)學制研究主要集中在高職院校學生綜合素質(zhì)評價體系的構(gòu)建原則、構(gòu)建策略、構(gòu)建理論等方面。

高職院校綜合素質(zhì)評價體系仍存在缺少實證研究、指標僵化、數(shù)據(jù)處理手段單一等問題。其主要原因是大學生的綜合素質(zhì)評價過程較為復(fù)雜、評價維度過大、指標難以均衡。因此，利用數(shù)據(jù)挖掘算法，從大量的樣本數(shù)據(jù)中找出隱藏的規(guī)律，對高職學生綜合素質(zhì)進行科學、有效、系統(tǒng)的評價具有重要的意義。國內(nèi)學者和專家已經(jīng)利用數(shù)據(jù)挖掘技術(shù)對高職綜合素質(zhì)評價數(shù)據(jù)進行研究，也取得了很多成果。一些學者結(jié)合學生的大數(shù)據(jù)，按照質(zhì)量評價體系對高職學生的綜合素質(zhì)評價進行了研究，闡述了大數(shù)據(jù)在學生綜合素質(zhì)評價中的應(yīng)用價值和創(chuàng)新，構(gòu)建了優(yōu)化的評價模型。

應(yīng)用數(shù)據(jù)挖掘技術(shù)可以分析出數(shù)據(jù)中潛在有用的信息，一般可以分為描述性和預(yù)測性兩大類。描述性數(shù)據(jù)挖掘的目的是以簡明、通用的方式提煉和總結(jié)大量復(fù)雜數(shù)據(jù)，以便快速掌握數(shù)據(jù)的主要特征和信息；預(yù)測性數(shù)據(jù)挖掘強調(diào)推理，基于已知信息推斷未知或基于過去推斷未來。描述性數(shù)據(jù)挖掘技術(shù)包括聚類、摘要、主題發(fā)現(xiàn)、關(guān)鍵字提取和描述性統(tǒng)計等。預(yù)測性數(shù)據(jù)挖掘技術(shù)包括分類技術(shù)、回歸技術(shù)和關(guān)聯(lián)分析技術(shù)等。數(shù)據(jù)挖掘算法主要包括神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、蟻群算法、粒子群算法、粗糙集、關(guān)聯(lián)規(guī)則等。

本文使用神經(jīng)網(wǎng)絡(luò)算法進行描述類數(shù)據(jù)挖掘。

1 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)通過類似人腦等生物神經(jīng)元的方式運行，數(shù)據(jù)和信息被分布在神經(jīng)網(wǎng)絡(luò)的各個神經(jīng)元上，每個神經(jīng)元都有相應(yīng)的連接權(quán)值。由于人工神經(jīng)網(wǎng)絡(luò)不用先確定輸入層、輸出層之間的數(shù)學映射關(guān)系，僅通過多樣本的訓練，即可在給定輸入值時得到最接近期望輸出值的結(jié)果，近幾年來，在模式識別、系統(tǒng)辨識、推薦系統(tǒng)、分類回歸、圖像與自然語言處理等應(yīng)用方面也獲得了極大發(fā)展。通過神經(jīng)網(wǎng)絡(luò)的處理，存儲數(shù)據(jù)和信息都是分布式的，每一個神經(jīng)元上都存有數(shù)據(jù)信息的一部分。所以，雖然根據(jù)某個單一權(quán)值并不能得到完整的存儲數(shù)據(jù)和信息，但是通過整個神經(jīng)網(wǎng)絡(luò)，可以通過多個神經(jīng)元節(jié)點相關(guān)聯(lián)的聯(lián)想記憶獲得存儲的完整信息。神經(jīng)網(wǎng)絡(luò)對缺損的不完全數(shù)據(jù)可以進行很好的處理，并且容錯性良好，同時還有自適應(yīng)能力強、適合并行計算的優(yōu)點。

神經(jīng)網(wǎng)絡(luò)可以用來分類和聚類，Werbos 提出通過反向傳播算法解決多層網(wǎng)絡(luò)權(quán)值學習的問題，可以把帶有標簽的輸入向量按照所定義的合適方式進行分類，屬于有監(jiān)督學習。而由Teuvo Kohonen 在1981年提出自組織神經(jīng)網(wǎng)絡(luò)（SOM，Self Organizing Feature Map）也是人工神經(jīng)網(wǎng)絡(luò)的一種，該算法是一種無監(jiān)督學習網(wǎng)絡(luò)，具有自組織映射功能，輸入層不需要標簽信息。它把系統(tǒng)劃分為若干子系統(tǒng)，每一個子系統(tǒng)對外界輸入都有不同的響應(yīng)。Kohonen 認為，當一個神經(jīng)網(wǎng)絡(luò)接收外界輸入時，將會自動地分為不同的對應(yīng)區(qū)域，每一個區(qū)域?qū)ν饨巛斎肽Ｊ蕉即嬖谥灰粯拥捻憫?yīng)特征。

2 SOM 算法

SOM 模型的基本思想是當從外界接收復(fù)雜的輸入模式時，在輸出層中將形成不同的反應(yīng)區(qū)域和不同的響應(yīng)特征，所以不同位置的神經(jīng)元具有不同的功能劃分。因此，SOM 模型可以傳遞高維輸出數(shù)據(jù)映射到低維輸出空間，同時保留在高維空間的拓撲結(jié)構(gòu)。

以輸出層為二維矩陣的網(wǎng)格為例，SOM 的輸出層由一系列組織在二維平面上的有序節(jié)點構(gòu)成，輸入節(jié)點與輸出節(jié)點通過權(quán)重向量連接。算法學習過程中，找到與輸入節(jié)點距離最短的輸出層單元節(jié)點作為獲勝單元，對其進行更新。同時，將獲勝單元鄰近區(qū)域的節(jié)點權(quán)值更新，使輸出節(jié)點保持輸入向量的拓撲特征。高維空間中的相似輸入樣本經(jīng)過算法映射到輸出層中的相鄰神經(jīng)元。

SOM 算法（如圖1 所示）步驟如下：

圖1 SOM 算法框架示意圖

（1）初始化，用較小的隨機數(shù)設(shè)定輸出層各權(quán)值向量的初始值W。

（2）輸入樣本向量x＝（x，x，…，x）。

（3）計算歐氏距離，尋找獲勝神經(jīng)元，輸出神經(jīng)元相互競爭激活的機會，每次只有一個被激活。被激活的神經(jīng)元就叫作獲勝神經(jīng)元。由于存在這種競爭，神經(jīng)元被迫自我組織，形成自組織映射（SOM）。

歐氏距離計算公式如下：

其中w為輸出層第（i，j）個神經(jīng)元對應(yīng)的權(quán)值，這樣計算的歐氏距離取最小值，即可得出相似性最強的優(yōu)勝神經(jīng)元，記為j。

（4）通過鄰域半徑函數(shù)Uj（t）確定優(yōu)勝鄰域包含的節(jié)點，一般通過高斯函數(shù)或者其他函數(shù)來設(shè)置優(yōu)勝鄰域，來確定對其近鄰節(jié)點的影響強弱。

（5）更新優(yōu)勝鄰域節(jié)點的權(quán)值。

公式如下：

（6）從第2 步開始重復(fù)，直到滿足迭代次數(shù)，或者學習率降到給定值。

3 基于SOM 的高職綜合素質(zhì)評價數(shù)據(jù)聚類

學校和二級學院一般將綜合素質(zhì)評價作為標準來進行評獎評優(yōu)、就業(yè)推薦等，至于評價結(jié)果，通常的方法是根據(jù)加權(quán)分配后的計算結(jié)果進行排名，或者使用“優(yōu)”“好”“合格”和“不合格”的等級作為定性結(jié)果。高職院校綜合素質(zhì)評價中最常見的方案是將評價指標和結(jié)果視為簡單的加權(quán)線性關(guān)系，例如，學年的綜合評價＝學業(yè)成績×60%＋綜合素質(zhì)成績×40%。至于綜合素質(zhì)成績，則通過把每個學生的綜合素質(zhì)評價得分按照一定的標準進行分類，例如分類為思想政治實踐、職業(yè)技能與職業(yè)素養(yǎng)、審美與人文素養(yǎng)、公益與志愿服務(wù)、品格與身心健康、創(chuàng)新創(chuàng)業(yè)實戰(zhàn)、勞動實踐等，然后主觀地確定每項分類的權(quán)重，計算每項分類的得分，最后對這些具體指標得分進行加權(quán)計算。

職業(yè)教育以提高學生技術(shù)技能水平以及就業(yè)和創(chuàng)業(yè)能力為核心要素和關(guān)鍵環(huán)節(jié)?；谏鲜鼍€性關(guān)系簡單加權(quán)算出學生綜合評價分數(shù)，通過排名或者給出不同的等級進行評價，難以達到職業(yè)教育的目的。事實上，綜合素質(zhì)的評價內(nèi)容和評價結(jié)果之間存在非常復(fù)雜的非線性關(guān)系。因此，可采用數(shù)據(jù)挖掘算法，在各種評價數(shù)據(jù)中尋找聯(lián)系，減弱排名對學生綜合素質(zhì)評價的影響，使學生綜合素質(zhì)評價更加科學有效，為評價者提供決策支持。本文提出用SOM 對綜合素質(zhì)的各項評價得分進行聚類，為下一步分類和評價提供重要參考。試驗步驟如下：

（1）取樣本個數(shù)為300，依據(jù)樣本個數(shù)，用試湊法測試，設(shè)置輸出層的最佳維度為10，然后進行權(quán)值初始化，用（0，1）之間的隨機數(shù)設(shè)定輸出層權(quán)重。

本文設(shè)定了六個一級指標，從綜合素質(zhì)評價系統(tǒng)中提取包括思想政治、身心健康、創(chuàng)新創(chuàng)業(yè)、技術(shù)技能、志愿服務(wù)、人文藝術(shù)六個維度，選300 個2018 級計算機工程技術(shù)學院學生數(shù)據(jù)作為樣本，如表1 所示。

表1 輸入數(shù)據(jù)樣本

（2）設(shè)定輸入向量。依據(jù)上文，輸入?yún)?shù)為array（［［1.，6.，8.，2.，7.，10.］，［1.，7.，3.，0.，2.，6.］，［4.，9.，4.，1.，2.5，4.］，...，［ 2.，5.，2.，0.，3.5.，3.］］）。

（3）初始學習率設(shè)置為0.5，設(shè)置優(yōu)勝領(lǐng)域的函數(shù)包括冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)等。

（4）以迭代次數(shù)作為算法結(jié)束條件。依據(jù)算法，輸出層為一個10*10 的二維的向量矩陣，其中每一個向量對應(yīng)一個權(quán)值，都和輸入層的維度相同，即六維。通過這個輸出層，可以得到每一個向量捕獲的樣本，再結(jié)合輸出層向量之間的距離，可以得到樣本的一個聚類。因此，算法完成后，得到最終的輸出矩陣保留了原來輸入層的拓撲結(jié)構(gòu)。

最后通過輸出層的距離矩陣，用熱圖（heatmap）來展現(xiàn)數(shù)據(jù)的差異性，通過熱圖可視化，直觀了解數(shù)據(jù)的分布情況和差異情況。本文嘗試使用冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)（“bubble”，“gaussian”，“mexican＿hat”）三種函數(shù)作為設(shè)置優(yōu)勝鄰域半徑函數(shù)，分別按照迭代次數(shù)50 次和200 次作為算法終止條件，得到聚類結(jié)果如圖2、圖3 所示，試驗表明，通過墨西哥草帽函數(shù)迭代200 次具有相對較好的收斂性。

圖2 用“bubble”“gaussian”“mexican＿hat”作為鄰域半徑函數(shù)進行聚類（迭代50 次）

圖3 用“bubble”“gaussian”“mexican＿hat”作為鄰域半徑函數(shù)進行聚類（迭代200 次）

對于收斂性最好的聚類結(jié)果，通過統(tǒng)計輸出層每個神經(jīng)元被激活的次數(shù)，可以得到一個合理有效的分類，此結(jié)果為一個10*10 的二維矩陣：［［0.，0.，0.，0.，0.，0.，0.，0.，0.，0.］，...，［ 0.，0.，37.，26.，29.，0.，0.，0.，0.，0.］，［0.，1.，34.，28.，27.，0.，0.，0.，0.，0.］，［0.，0.，45.，56.，14.，0.，0.，0.，0.，0.］，...，［ 0.，0.，0.，0.，0.，0.，0.，0.，0.，0.］］。因此可以將數(shù)據(jù)分為9 類，在此基礎(chǔ)上再進行進一步的分析與比較，更加科學、客觀、合理地進行高職院校學生的綜合素質(zhì)評價。

4 結(jié)論

SOM 是一種無監(jiān)督學習網(wǎng)絡(luò)，通過自組織映射，把系統(tǒng)劃分為若干子系統(tǒng)，每一個子系統(tǒng)對外界輸入有不同的響應(yīng)，SOM 算法將完全保留輸入層的拓撲結(jié)構(gòu)。本文選取了六個維度的300 份高職院校學生綜合素質(zhì)各類評分數(shù)據(jù)作為樣本，利用SOM 進行聚類分析，通過試驗，發(fā)現(xiàn)收斂性比較好的優(yōu)勝領(lǐng)域的函數(shù)設(shè)置，在此基礎(chǔ)上完成聚類，為進一步研究科學、合理的評價和分類方式提供了依據(jù)。