摘要:基于聚類的考試分析可以將成績特征相同的考生聚集為一類,從而更加客觀和準確地揭示考生的知識和能力水平。將試卷中的各個試題分別視為一個特征項,利用傳遞閉包法進行模糊聚類分析。在取得聚類結(jié)果的基礎(chǔ)上,利用Excel對聚類特征項進行再分析,即可得到聚類依據(jù)并驗證聚類結(jié)果。仿真實驗表明,基于模糊聚類的考試分析結(jié)果明確、可信、有效,并可得到傳統(tǒng)的試卷分析難以發(fā)現(xiàn)的現(xiàn)象和規(guī)律,對于個性化教學(xué)和素質(zhì)教育有很大指導(dǎo)意義,值得推廣應(yīng)用。
關(guān)鍵詞:模糊聚類;傳遞閉包;特征分析;考試分析
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2009)33-9579-02
Methed of Examination Analysis Based on Fuzzy Cluster
ZHANG Dong-sheng, JI Chao, ZHENG Wen-kui
(Computing Center of Henan University, Kaifeng 475004, China)
Abstract: Examination analysis based on cluster can cluster the testees with same feature of score to one class, and bring to light the level of knowledge and capability of testees more objectivity and more correctly. The way is to looked upon each examination question as a feature item, and make use of transitive closure for fuzzy clustering analysis. Based on the reselt of the clustering, use the Excel to analysis the clustering feature item farther, to get the reason of the clustering and to validate the reselt of clustering. The simulation show that reselt of examination analysis based on clustering is clear, believable and effective, and can get the hard-won phenomena and rule what by traditional examination analysis. It has important meaning for individuation teaching and education for all-around development, and it is extending and applying worthwhile.
Key words: fuzzy clustering; transitive closure; feature analysis; examination analysis
1 概述
基于聚類的考試分析可以從應(yīng)試者的全部考試數(shù)據(jù)中,將各試題得分作為特征值,并依此將應(yīng)試者劃分若干類簇,從而客觀、準確地揭示應(yīng)試者知識點和能力點的掌握情況。相比傳統(tǒng)的對試卷所作的信度、效度、區(qū)分度等統(tǒng)計學(xué)數(shù)據(jù)的分析,聚類分析可以更深入更全面地表現(xiàn)考生的認知水平和能力水平。例如,一群考生的考試成績可能均為70分左右,但其對考試的知識點和能力點的掌握情況可能有很大不同,聚類分析可以找出這些差異,而傳統(tǒng)的成績統(tǒng)計分析卻難以做到。模糊聚類分析是眾多聚類算法中較為成熟和聚類效果較好的一種,包括傳遞閉包法、直接聚類法和C-劃分法等三種分析方法[1-2]。模糊聚類分析已成功應(yīng)用于數(shù)據(jù)挖掘、模式識別及經(jīng)濟、管理、生物醫(yī)學(xué)等許多領(lǐng)域。本文作者應(yīng)用傳遞閉包法對某考試數(shù)據(jù)進行聚類分析,取得良好效果。第2節(jié)介紹考試數(shù)據(jù),第3節(jié)介紹聚類算法,第4節(jié)介紹仿真實驗,第5節(jié)分析聚類結(jié)果。
2 數(shù)據(jù)材料
考試數(shù)據(jù)來自河南大學(xué)本科生的某次考試。試卷包括4個大題(仿真題號分別為A、B、C、D),每題25分。全體考生平均成績78分,符合正態(tài)分布。不失一般性,本文抽取得分為78±5分的考生20人的考試數(shù)據(jù)進行聚類分析。數(shù)據(jù)見表1。
3 模糊聚類算法
3.1 聚類對象定義
設(shè)論域U={x1,x2,…,xn}為被聚類的對象集,其中xi|i=1,2,…,n稱為一個樣本;每個樣本有m個特征指標,即: xi={xi1,xi2,…,xim}(i=1,2,…,n),全部原始數(shù)據(jù)構(gòu)成數(shù)據(jù)矩陣X=(xij)n×m。根據(jù)本文表1中的數(shù)據(jù),有n=20,m=4。
3.2 數(shù)據(jù)標準化
為使不同量綱的數(shù)據(jù)可以相比較,通常需要將原始數(shù)據(jù)xij壓縮至[0,1]區(qū)間,這一過程稱為數(shù)據(jù)標準化。通常可以通過2種變幻實現(xiàn)數(shù)據(jù)標準化[6],即平移·極差變幻(式1)和平移·標準差變幻(式2)。
(1)
(2)
其中: 。
3.3 模糊相似矩陣及其性質(zhì)
分別計算樣本xi與xj的相似度值rij,組成模糊相似矩陣R=(rij)n×n。相似度rij的計算方法有歐氏距離法、數(shù)據(jù)積法、相關(guān)系數(shù)法、夾角余弦法、最大最小法等多種。不具一般性,本文的實驗數(shù)據(jù)更適合使用相關(guān)系數(shù)法,其計算方法為:
(3)
其中:。
如果模糊相似矩陣R的主對角線元素均為1,則稱其具有自反性;若主對角線對稱元素均相等,則稱其具有對稱性;若滿足R·R?哿R,則稱其具有傳遞性。三個性質(zhì)同時具備的R稱為等價模糊矩陣。只有等價模糊矩陣才可用于模糊聚類。
3.4 傳遞閉包
容易理解,通過上述方法得到的模糊相似矩陣 具有自反性和對稱性,但多數(shù)情況(并不總是)不具有傳遞性;其傳遞性可通過傳遞閉包變幻實現(xiàn)。
多次進行矩陣R的自乘運算R·R,直到R2k=Rk為止,此時Ek稱為R的傳遞閉包t(R)·t(R)是模糊等價矩陣。文獻[7]給出了傳遞閉包的詳細證明,下面介紹傳遞閉包的計算方法:
對于模糊相似矩陣R=(rij)n×n,有R·R=R'=(r'ij) n×n,其中
(4)
式中∧表示并運算(取最小值),∨表示或運算(取最大值)。運算過程為:R矩陣的第i行n個元素與第j列n個元素對應(yīng)兩兩取小值,然后再取其中的最大值。
3.5 截集取得聚類矩陣
取適當閾值λ(λ∈[0,1]),對模糊等價矩陣t(R)作截集處理,求出聚類矩陣R\"=(r\"ij) n×n,其中:
(5)
將r\"ij為1的相應(yīng)樣本聚合為同一類,聚類完成。容易證明,λ值選取越大,聚合出的類別數(shù)越多,選取得越小,則聚合出的類別數(shù)越少。 但聚類結(jié)果并不矛盾:較粗類別是較細類別的上位類,利用λ取值不同,可獲得不同程度的聚類,形成多層次分類結(jié)構(gòu)。特別當λ=0時聚類最粗,λ=1時聚類最細。
4 仿真實驗
仿真編程工具:Matlab7.0. 編程實現(xiàn)的主要步驟如下:
Step1. 使用平穩(wěn)·標準差變幻公式(2)將表1中的原始數(shù)據(jù)標準化;
Step2. 使用公式(3)計算模糊相似矩陣R=(rij)20×20;
Step3. 使用公式(4)計算傳遞閉包,得到模糊等價矩陣R'=(r'ij) 20×20;
Step4. 使用公式(5)進行截集處理,取λ=0.85, 得到聚類矩陣R''=(r''ij) 20×20;
Step5. 根據(jù)R''得出聚類結(jié)果(圖1)。
5 結(jié)果與討論
根據(jù)上節(jié)步驟進行仿真實驗的聚類結(jié)果為:第Ⅰ類:{02,09,13,17},第Ⅱ類:{04,07,08,12,16, 19},第Ⅲ類:{05,06,14,18},第Ⅳ類:{03,15},第Ⅴ類:{11,20},第Ⅵ類:{01,10}。
為驗證聚類結(jié)果是否可信和有效,本文將表1中的原始數(shù)據(jù)導(dǎo)入Excel工作表,添加上述類別列,再分別按類別求各特征項均值,結(jié)果見表2。
容易發(fā)現(xiàn),第Ⅰ類的聚類依據(jù)是A題得分較低;第Ⅱ類的聚類依據(jù)是B題得分較低;第Ⅲ類的聚類依據(jù)是C題得分較低;第Ⅳ類的聚類依據(jù)是D題得分較低;第Ⅴ類的聚類依據(jù)是D題得分較高;第Ⅵ類聚類依據(jù)是4個題得分比較均衡.。證明聚類是可信和有效的,聚類結(jié)果的意義是明確和有用的。
6 結(jié)束語
基于聚類的考試數(shù)據(jù)分析,其主要分析對象雖然也是試題分數(shù),但聚類分析的意義明顯優(yōu)于僅以成績值的比較和排序所進行的試卷分析。如果按傳統(tǒng)的成績值分析方法,本文所列舉的20位考生應(yīng)屬于同一類,但聚類分析卻可以更加深刻和準確地找出這些學(xué)生知識點和能力點掌握的不同情況,并將其自動劃分為若干類。聚類結(jié)果可用來有的放矢地指導(dǎo)個性化教學(xué)和素質(zhì)教育,因此,基于聚類的考試分析值得更加深入地研究探討和更加廣泛地應(yīng)用于各級各類教學(xué)和評估測試活動。同時,該方法清晰、規(guī)范、穩(wěn)定,容易編程實現(xiàn),可嵌入已有的考試系統(tǒng)或教育、教學(xué)軟件中運行。
參考文獻:
[1] Carl G Looney. A Fuzzy Clustering and Fuzzy Merging Algorithm[D]. Computer Science Department/171, University of Nevada, Redo, NV89557,1999.
[2] Keller A. Fuzzy clustering with outliers[C]//Proceedings of the 19th International Conference of the North American Fuzzy Information Processing Society. Atlanta, USA: IEEE, 2000: 143-147.
[3] 皋軍,王士同.具有特征排序功能的魯棒性模糊聚類方法[J].自動化學(xué)報,2009,35(2):145-153.
[4] 馮梅.基于模糊聚類分析的教師課堂教學(xué)質(zhì)量評價[J]. 數(shù)學(xué)的實踐與認識,2008,38(2):12-15.
[5] 楊淑瑩.模式識別與智能計算—Matlab技術(shù)實現(xiàn)[M].北京:電子工業(yè)出版社,2008:271-298.
[6] 梁何松,曹殿立.模糊數(shù)學(xué)及其應(yīng)用[M].北京:科學(xué)出版社,2007:72-75.
[7] 胡寶清.模糊理論基礎(chǔ)[M].武漢:武漢大學(xué)出版社,2004:148-175.
[8] 孫宇峰.基于MATLAB的模糊聚類分析及應(yīng)用[J].韶關(guān)學(xué)院學(xué)報,2006,27(9):1-4.
[9] 于錄.模糊聚類分析在商品銷售中的應(yīng)用[J].哈爾濱商業(yè)大學(xué)學(xué)報,2005,21(4):534-538.