付 裕
模糊聚類分析在高校分層次教學中的探索
付 裕
本文以一個班級學生學習成績為數據樣本,使用R語言進行模糊聚類的分析,進而對學生分層次教學管理提出一定的理論建議。
模糊聚類 R語言 分層次教學
隨著高等教育轉變成大眾教育,單獨招生的規模在各個高職高專院校都有所擴大,高職高專學校在校學生的數量也不斷增長,伴隨著的是學生的質量千差萬別。學校為了提高對學生教學管理的質量,做到因材施教,倡導分層次教學的管理模式。傳統的聚類方法屬于一種硬性劃分即對象不是屬于這一類就是屬于另外的類。這種劃分在研究聚類的很多文獻中都提到他的局限性。本文在參考了眾多文獻的基礎上,試圖使用模糊聚類分析的軟劃分方法以學生成績為依據對學生進行分層次[1]。為后續的學校的分層次教學管理提供理論支撐。
本文選自供電班2016-2017學年第一學期的期末考試成績為所分析的數據集,其源自于學校教務處,數據具有真實性、可靠性。該數據集共有37個樣本,每個樣本具有四個屬性,其值分別為高等數學、英語、電工測量、電子技術四門課程的考試成績。部分數據如表1所示。具有4個屬性的37個樣本形成了一個37行4列的矩陣??梢允褂肦的read.table()函數載入數據集,使用Matrix()函數將其轉化成可以進行模糊聚類處理的矩陣。

表1 供電班部分學生期末考試數據
加載fclust包之后,使用R中的FKM()函數對該數據集進行模糊聚類。FKM函數執行的是模糊C均值[1]算法。該算法是通過最小化目標函數來實現樣本的劃分。FKM函數有8個參數,對前三個參數進行必要的設置,第一個參數X為樣本數據集,選擇的是供電班期末考試成績;第二個參數K為聚類的數目,選擇聚為3類,第三個參數M為加權指數,對聚類效果有很大的影響,在許多文獻中對該參數都有所研究,其最佳的選取范圍在[1.5-2.5]之間。
FKM函數輸出為一個數據框,包含有類的成員及其數量、相關隸屬度矩陣、迭代次數、計算時間等相關聚類結果。
選取不同的M值,對類中成員的數量起著決定性的作用。本文在下文中會選取3個不同的加權指數值對學生四門課的期末考試成績進行聚類分析比較。通過對聚類結果的比較,探索出一個比較適合于分層次教學管理的加權指數。
(一)M=2
選取加權指數M的值為2,聚類數目K的值為3。類的成員及數量如表2所示,部分成員保留兩位數的隸屬度及最有可能被劃分的類如表3所示。

表2 類的成員及數量

2 12 3 13

表3 部分成員隸屬度及最大隸屬類
通過分析表2,發現類1有12個成員,類2有12個成員,類3有13個成員,基本實現了類之間成員平均分配。分析表3發現,成員屬性值接近的基本上聚在一類,并且根據隸屬度給出了將成員劃分在哪一類中理論建議。通過分析所有成員的隸屬度及最有可能被劃分的類并結合成員的屬性值進一步發現,類1中成員的成績普遍較高,類2中成員的成績普遍較低,類3中成員的成績處于類1與類2之間。如果將該班級分成3個小班進行層次教學,則建議類1中的成員為1個班,在授課時可以適當加深一些理論教學。類2中的成員為1個班,因為其理論課成績普遍較低,則在授課時適當偏重實踐教學內容,減少理論教學內容。類3中的成員為1個班,該班的理論成績表現得一般,授課時則按正常教學內容進行。
(二)M=1.5
選取加權指數M的值為1.5,聚類數目K的值同樣為3。通過聚類分析結果發現,類1的成員數為12,類2的成員數為17,類3的成員數為8。類之間的成員數沒有平均分布,如果按此結果進行分層次教學,則會出現班級人數相差大,教學資源分配不均等的情況。通過把成員隸屬度矩陣、最有可能被劃分到的類與原始數據相結合分析后發現,在加權指數M=1.5的情況下,一些被認為應該劃分到類3中的成員被劃分到了類2中。其給出的理論指導具有誤導性。
(三)M=2.0
選取加權指數M的值為2.5,聚類數目K的值仍然為3。其類中的成員數仍然相差比較大,類3的成員個數達到15個比類2要多5個。并且同樣造成了本應該劃分到類2中的成員被建議劃分到類3中,其理論指導同樣具有誤導性。
本文通過R語言的FCM函數對一個班級37個成員的期末考試成績進行模糊聚類分析。展現了模糊聚類技術為分層次教學提供理論依據的可行性。并通過選取不同的加權指數對聚類結果進行了比較分析。初步得出了加權指數M=2時具有重要的理論指導價值。
[1]James C,Bezdek,Robert Ehrlich,etal.FCM:The Fuzzy C-means Cluster Algorithm[J].Computers & Geosciences,1984(10):191~203.
(作者單位:陜西國防工業職業技術學院)