卓景文 ,趙 鵬 ,李學俊 ,趙志偉
(1.安徽大學 計算智能與信號處理教育部重點實驗室,安徽 合肥230039;2.安徽大學 計算機科學與技術學院,安徽 合肥230039)
教學管理是為了實現教學目標,按照教學規律和特點對教學過程進行的全面管理。通過不斷改善影響學校教學質量的內部因素和外部因素,建立科學的評價體系來提高教學質量,達到最佳教學效果。
數據挖掘是從大量數據中提取或“挖掘”知識(即數據中的知識發現),并以這些知識為基礎,自動做出決策和預測。數據挖掘已經應用于眾多領域,如金融數據分析、零售業、信息檢索等。隨著信息技術的發展和高等教育體制改革的不斷深入,高校實現了教育信息化,大大提高了工作效率。將數據挖掘技術應用于高校教務管理中,可以挖掘出重要的對決策或者預測有用的信息和知識,利用分析結果輔助教學,幫助教學管理者做出科學的決策。然而數據庫或者數據倉庫的容量越大,系統復雜性越高,相應的精確化能力就越低,也就是說模糊性越強,因而僅僅依靠復雜算法和推理并不能完全發現隱藏知識,因此,考慮將模糊數學、模糊邏輯和數據挖掘結合起來的模糊數據挖掘技術引入到教學質量評估中。
模糊集是用來表達模糊性概念的集合[1]。
定義 1:設 X 為論域,x∈X,設A?是論域 X 到[0,1]的一個映射,即A?(X):X→[0,1],x→A?(x),稱A?是 X 上的模糊 集,而 函數A?(X)稱為模 糊 集A?的 隸 屬 函 數 ,A?(x)稱 為 x對模糊集A?的隸屬度。
定義2:公式A→B的邏輯含義稱為決策規則,A稱為規則的前件,B稱為規則的后件,它們表達一種因果關系。其中公式A中所包含的原子公式只有決策表中的條件屬性,B中所包含的原子公式只有決策表中的決策屬性。
聚類是一種無監督的學習過程,把具有類似屬性的個體聚成一類。從聚類的角度出發,由于客觀世界中大量存在著界限并不分明的聚類問題,模糊聚類應運而生。模糊聚類是基于模糊等價關系分類的,模糊等價關系往往由模糊相似矩陣產生。
定義3:假設有N個要分類的樣本,記為集合X=(x1,x2,x3,…,xn),每個樣本 有 m 個量 化指 標,記為 Y=(y1,y2,y3,…,ym),則可以列出樣本-指標 原始數據矩陣M,其中xij表示第i個對象相應于第j個指標的數值[1]。
在教學質量評估中,評估對象的某些評估因子往往會帶有一定程度的模糊性。所以用模糊理論來進行聚類分析,然后再進行模糊數據挖掘,依據挖掘結果進行預測,得到有利于領導決策的有用規則。基于模糊聚類最大樹算法的模糊數據挖掘算法如下:
(1)由定義3確定聚類分析的對象,得到原始矩陣:

(2)由于采集到的數據往往不在[0,1]內,根據模糊矩陣的要求,通過下面兩步將數據壓縮到區間[0,1]上:
①標準差變換:

②極差變換:

(3)建立模糊相似矩陣。模糊相似矩陣用來描述樣本之間的相關程度,即標出衡量被分類對象間相似程度的統計量 rij(i,j=1,2,…,n)。 設論域 U={u1,u2,u3,…,un},其中每個元素為一個樣本,建立U上的模糊相似矩陣:

考慮到正確性原則、不變性原則和可區分性原則,使用絕對值倒數法[2]計算 rij,即:

其中c為相似系數,反映樣本之間相對于某些屬性的相似程度。
(4)聚類分析。常用的模糊聚類分析方法有三種:傳遞閉包法、最大樹法和編網法。考慮到計算量,本文采用最大樹算法進行模糊聚類。構造最大樹的算法如下:
①將模糊相似關系矩陣中的rij由大到小排序:β1>β2>…>βh,其中 βk(k=1,2,…,h)為某 rij;
②以被分類的對象為頂點,依據模糊相似矩陣將關聯程度為β1的頂點連接,并在相應的線段上標明β1,若在連接某兩個頂點時出現回路,則不畫此線;
③依次對 β2,β3,…,βk(k≤h)按照上步重復,直到所有頂點構成一個無向連通賦權圖(不一定到h步),即得到最大樹 G=(X,rij)。
(5)得到聚類結果。首先確定截割水平λ,然后根據λ值對最大樹進行切割[3]。分別比較λ與最大樹各邊的權值之間的大小。當λ>rij時,將rij對應的邊截斷,這樣剩余的并且還相互連通的頂點就構成一類。
課堂教學質量測評工作是教學質量評估體系的重要組成,是加強教學管理、提高教學質量的重要手段。為使課堂教學質量、學生測評工作科學化和規范化,教務處制定了完善的課堂教學評價指標體系,其中第n條是整體評價。如表1所示。
通過科學評估教師的課堂教學質量,為學校教學管理提供決策的信息與依據,促使形成一套較為完整的教學評價機制。每門課程的學生測評成績(統計時自動剔除5%的最高分和最低分)由教務管理系統自動生成。教師的學期測評成績為其該學期所承擔的各門課程學生測評成績的平均值。年度測評成績為兩學期的平均值。如教師只承擔一個學期的課程,則以該學期測評成績為其該年成績。教師年度學生測評成績以70%計入教師當年教學考核總評成績。表2所示為我校10名教師的學生測評成績。

表1 課堂教學質量評價指標表

表2 課堂教學質量評分數據表
對表2中的數據應用基于模糊聚類的最大樹算法找出影響教學質量的主要因素。
(2)由于得到的原始矩陣不是模糊矩陣,先由式(1)進行標準差變換,再由式(2)進行極差變換后的矩陣即為模糊矩陣:

(3)由式(3)建立模糊相似矩陣 R7×7:

(4)由上一步得到的模糊相似矩陣 R7×7,按照算法步驟(4)最大樹的構造算法建立的最大樹如圖1所示。
(5)從最大樹中可以得出:當λ=1 時 , 分 為 7 類 :{n1},{n2},{n3},{n4},{n5},{n6},{n7}; 當 λ≥0.71 時 , 分 為 5 類 :{n1,n3,n7},{n2},{n4},{n5},{n6}; 當λ≥0.33 時 , 分 為 3 類 :{n1,n3,n7},{n2,n4,n5},{n6};當λ≥0.25 時,分為 2 類 :{n1,n3,n7},{n2,n4,n5,n6};當 λ≥0.18 時,分為 1 類:{n1,n2,n3,n4,n5,n6,n7}。 用 F-統 計量確定最佳劃分閾值為 λ≥0.71,評價指標被分為{n1,n3,n7},{n2},{n4},{n5},{n6},對課堂教學質量評估數據應用最大樹算法聚類得到 n1,n3,n7,即為影響課堂教學質量的關鍵評價指標集。

用基于模糊相似關系的規則獲取方法可以進一步由關鍵評價指標集得到分類規則[4]。課程整體評價指標n的取值分為4類:優秀、良好、中等、及格,分別用m1、m2、m3、m4表 示 ,in表 示 編 號 為 n 的 教 師 ,m1={i1,i7,i9},m2={i2,i5,i8,i10},m3={i3,i4},m4={i6}。
對于表1中的評價指標屬性評價結果數值劃分為5個 區 間 , 分 別 為 y1:90~100 分 ;y2:80~89 分 ;y3:70~79分;y4:60~69 分;y5:小于 60 分。 得到關鍵評價指標集的評價結果劃分為5個區間以后的數據如表3所示。

表3 關鍵指標集的評價等級劃分表
基于關鍵評價指標集可將表3中的數據劃分為7類 :k1={i7,i9},k2={i1},k3={i5,i10},k4={i2,i8},k5={i3},k6={i4},k7={i6}。
將 ki(i=1,2,…,7)作為條件,mi(i=1,2,3,4)作為結論,歸納總結可以得到如下規則:
規則 1:(n1=y1)∧(n3=y1)∧(n7=y1)?m1
規則 2:(n1=y2)∧(n3=y2)∧(n7=y2∨y3)?m2規則 3:(n1=y3)∧(n3=y3)∧(n7=y4∨y2)?m3
以上規則分析,當在教學過程中認真負責,遵紀守時,注重為人師表;教學中做到條理清晰,重點突出,語言生動,表述準確;教學中注意啟迪思維,激發興趣,聯系實際,培養能力三條都≥90分時,教學質量整體評價一定為優秀;當這三個指標都為[80,89)分或者后一指標為[70,79)分時,教學質量整體評價一定為良好;當前兩個指標為[70,79)分且后一指標為[80,89)或[70,79)分時,教學質量整體評價一定為中等。基于以上分析可以看出,上述三條標準為影響課堂教學質量的關鍵因素。總之教師在上課過程中要注意做到端正教學態度,授課中要有條理、重點突出、表述準確,另外教學過程不能忽略學生這個主體,要激發學生興趣,培養其獨立思考和解決問題的能力。
本文使用基于模糊聚類最大樹算法的模糊數據挖掘發現教學質量評估數據庫中教師課堂教學質量評估等級同評估指標之間的規則知識,依據該規則知識對挖掘結果進行有效的評價,并且在分析、預測方面有著很大的優勢,從而幫助決策者做出決策。當然對于該教學質量數據挖掘來說,這只是一部分工作,如何進一步優化該系統是下一步研究的主要工作。
[1]劉琦,林懷忠,陳純.模糊聚類的最大樹算法在Web頁面分類中的應用[J].計算機應用研究,2004,21(11):286-287.
[2]王新洲,舒海翅.模糊相似矩陣的構造[J].吉首大學學報(自然科學版),2003,24(3):37-41.
[3]Zhan Liqiang,Liu Daxin.Fuzzy clustering method for web user based on pages classification[J].Wuhan University Journal of Natural Sciences,2004,9(5):553-556.
[4]馮源.基于模糊相似矩陣與粗糙集的規則獲取[J].太原師范學院學報(自然科學版),2008,7(1):26-30.