[摘要] 粗糙集不依賴于數(shù)據(jù)集之外的附加信息,是處理含有噪聲、不精確、不完整數(shù)據(jù)的有力工具,是一種新的數(shù)據(jù)挖掘技術(shù)。首先,本文介紹了粗糙集理論和決策表約簡(jiǎn)算法,然后采用粗糙集數(shù)據(jù)挖掘技術(shù)對(duì)多指標(biāo)教學(xué)質(zhì)量進(jìn)行評(píng)價(jià),挖掘出數(shù)據(jù)背后隱含的規(guī)則。
[關(guān)鍵詞] 粗糙集; 屬性約簡(jiǎn); 值約簡(jiǎn); 教學(xué)質(zhì)量評(píng)價(jià)
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 22. 049
[中圖分類(lèi)號(hào)]G642 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673 - 0194(2011)22- 0086- 02
0引言
粗糙集理論是1982年由波蘭科學(xué)家Pawlak提出的一種新型的處理模糊和不確定知識(shí)的數(shù)學(xué)工具[1]。經(jīng)典粗糙集的理論基礎(chǔ)是不可分辨關(guān)系,將分類(lèi)理解為在特定空間上的等價(jià)關(guān)系。粗糙集的精髓是屬性約簡(jiǎn),在保持知識(shí)庫(kù)分類(lèi)能力完全不變的條件下,刪除其中不相關(guān)或不重要的屬性。
1粗糙集理論的基本概念
1.1信息系統(tǒng)的定義
用四元組S = (U,A,V,f)表示一個(gè)信息系統(tǒng),其中,U表示一組對(duì)象的非空有限集合,稱(chēng)為論域。A表示屬性的非空有限集合,A = CIDIDII,其中C為條件屬性,D為決策屬性。V表示屬性a的值域。信息函數(shù)f:U × AIV為對(duì)象的屬性到其值的映射。這種知識(shí)表達(dá)系統(tǒng)也稱(chēng)作決策表。如果有相同條件屬性的對(duì)象其決策屬性也相同,則稱(chēng)為相容決策表,否則稱(chēng)為不相容決策表。
1.2等價(jià)類(lèi)的定義
若R是非空集合A上的等價(jià)關(guān)系,則A上互相等價(jià)的元素構(gòu)成A的若干個(gè)子集,就是等價(jià)類(lèi)。如A = { 1, 2, … , 8 }上模 3 等價(jià)關(guān)系的等價(jià)類(lèi):[1] = [4] = [7] = {1,4,7},[2] = [5] = [8] = {2,5,8},[3] = [6] = {3,6}。
1.3近似集的定義,X的下近似
R*(X) = {x:(x∈U)∧([x]R?哿X )},X的上近似:R*(X)={x:(x∈U)∧([x]R∩X≠?準(zhǔn))}。下近似包含了所有使用知識(shí)R可確切分類(lèi)到X的元素,上近似則包含了所有那些可能是屬于X的元素。表1為感冒及其影響因素的決策表。
R = {頭疼,體溫}
U/R= {{X1},{X2},{X3},{X4},{X5,X7},{X6,X8},X1 = {u | 感冒 = yes} = {X2,X3,X6,X7},圖1表示X1的上近似與下近似。
2一致決策表的約簡(jiǎn)
在對(duì)決策表進(jìn)行約簡(jiǎn)前,要將不一致的決策表轉(zhuǎn)化成一致的。基于粗糙集理論的知識(shí)發(fā)現(xiàn),主要是保證約簡(jiǎn)后的決策表與約簡(jiǎn)前的決策表具有相同的功能,包括屬性約簡(jiǎn)和值約簡(jiǎn)。
2.1屬性約簡(jiǎn)
粗糙集理論研究的主要內(nèi)容之一就是屬性約簡(jiǎn),在數(shù)據(jù)庫(kù)中,條件屬性對(duì)于決策屬性的重要性是不相同的,甚至有些屬性是多余的,大量不相關(guān)屬性的存在增大了數(shù)據(jù)挖掘的難度,使分類(lèi)的準(zhǔn)確率降低。常見(jiàn)的屬性約簡(jiǎn)算法有以下兩種。
2.1.1直接求核集算法
輸入:相容決策表DT = <U,A,V,f>,A=C∪D是屬性集合;
輸出:約簡(jiǎn)的屬性集。
步驟
Step 1對(duì)每一條屬性ai∈C,計(jì)算POS{c-{ai}}(D)。
Step 2如果POS{c-{ai}}(D)= POSc(D),則稱(chēng)屬性ai在C中是關(guān)于D可省的,可以從決策表中刪除。
Step 3否則稱(chēng)屬性ai在中C中是關(guān)于D不可省的,應(yīng)該保留。
Step 4重復(fù)前三步,直到屬性集合不在發(fā)生變化,終止算法。
該算法有很大的局限性,起搜索空間和時(shí)間的代價(jià)都很大,不利于有過(guò)多個(gè)屬性的決策表的約簡(jiǎn)。
2.1.2基于差別矩陣的求核約簡(jiǎn)算法
令S=(U, A, V, f)為一信息系統(tǒng),A = C∪D,論域U中元素的個(gè)數(shù) | U | = n,| C | = m,S的分辨矩陣M定義為一個(gè)n階對(duì)稱(chēng)矩陣,其i行j列處元素定義為:
mij{ak | ak∈C∧ak(xi) ≠ ak(xj)}, d(xi) ≠ d(xj)0,d(xi) ≠ d(xj)?準(zhǔn),ak(xi) = ak(xj),d(xi) ≠ d(xj)
即mij是能夠區(qū)別對(duì)象xi和xj的所有屬性的集合。當(dāng)兩個(gè)樣本的決策屬性取同時(shí),對(duì)象值為0;當(dāng)兩個(gè)樣本的決策屬性不同且可以通過(guò)某些條件屬性的取值加以區(qū)分時(shí),對(duì)象值為這兩個(gè)樣本屬性值不同的條件屬性集合。
可辨識(shí)矩陣屬性約簡(jiǎn)算法:
輸入:相容決策表DT = <U,A,V,f >,A = C∪D是屬性集合;
輸出:約簡(jiǎn)的屬性集。
步驟:
Step 1計(jì)算決策表的可辨識(shí)矩陣MD;
Step 2對(duì)于可辨識(shí)矩陣中所有取值為非空集合的對(duì)象Mij,建立相應(yīng)的析取邏輯表達(dá)式Tij。
Step 3將所有的析取邏輯表達(dá)式Tij進(jìn)行合取運(yùn)算,得到一個(gè)合取范式T。
Step 4將合取范式T轉(zhuǎn)換為析取范式的形式。
Step 5輸出屬性約簡(jiǎn)結(jié)果。
基于可辨識(shí)矩陣和邏輯運(yùn)算的屬性約簡(jiǎn)算法可以得到?jīng)Q策表的所有可能的屬性約簡(jiǎn)結(jié)果,它實(shí)際上是將對(duì)屬性組合情況的搜索演變成為邏輯公式的簡(jiǎn)化。
2.2值約簡(jiǎn)
在判斷某個(gè)對(duì)象屬于某類(lèi)時(shí),其屬性的取值不同,對(duì)分類(lèi)產(chǎn)生的影響也不同。例如,判斷一個(gè)人的飯量(大、中、小)時(shí),每頓飯的食量是主要屬性。但若食量屬性值為3時(shí)(即每頓飯吃3個(gè)饅頭),此人的飯量要結(jié)合其年齡、性別等屬性才能確定。如果食量屬性值為8時(shí),幾乎可以確定此人飯量很大,這時(shí)年齡、性別屬性已不重要。對(duì)于決策表而言,屬性值的約簡(jiǎn)就是決策規(guī)則的約簡(jiǎn)。
3基于粗糙集的教學(xué)質(zhì)量評(píng)價(jià)
3.1教學(xué)質(zhì)量評(píng)價(jià)管理的內(nèi)容要求
教學(xué)工作是有目標(biāo)的系統(tǒng)工程,只有建立科學(xué)合理的評(píng)價(jià)體系,準(zhǔn)確地對(duì)教師的教學(xué)水平進(jìn)行評(píng)價(jià),才能有針對(duì)性地加強(qiáng)對(duì)個(gè)別教師的督促。本文主要討論對(duì)教師教學(xué)質(zhì)量的評(píng)價(jià),有以下4個(gè)指標(biāo)。
(1) 平均成績(jī):假設(shè)每位數(shù)學(xué)老師教兩個(gè)班級(jí),每個(gè)班級(jí)50名學(xué)生,則計(jì)算這100名學(xué)生的平均成績(jī),進(jìn)行老師間橫向比較。
(2) 優(yōu)秀人數(shù):對(duì)照優(yōu)秀標(biāo)準(zhǔn),按班級(jí)優(yōu)秀人數(shù)測(cè)算優(yōu)秀率。若優(yōu)秀率在30%以上,則認(rèn)為優(yōu)秀人數(shù)多;否則認(rèn)為優(yōu)秀人數(shù)少。
(3) 及格人數(shù):測(cè)定樣本的及格率,若及格率在70%以上,則認(rèn)為及格人數(shù)多;否則認(rèn)為及格人數(shù)少。
(4) 抽測(cè)成績(jī):在100名學(xué)生中隨機(jī)抽取10名學(xué)生,若5個(gè)以上的學(xué)生在85分以上,則認(rèn)為抽取成績(jī)高;否則認(rèn)為抽取成績(jī)低。
3.2粗糙集的應(yīng)用
表2為一個(gè)數(shù)據(jù)記錄表,通過(guò)測(cè)定平均成績(jī),及格人數(shù),優(yōu)秀人數(shù)和抽取成績(jī)來(lái)判斷6位老師的教學(xué)水平。
其中,條件屬性集為{a,b,c,d},決策屬性集為{e}。屬性及屬性值的含義為:
平均成績(jī)a,50~60——0,60~70——1,70~80——2;及格人數(shù)b,70%以上——1,70%以下——0;優(yōu)秀人數(shù)c, 30%以上——1,30%以下——0;抽取成績(jī)d,50%在85分以上——1,其補(bǔ)集——0;教學(xué)水平e,好——1,不好——0。
首先,用分辨矩陣直接求核集。教學(xué)評(píng)價(jià)決策表所示是一個(gè)知識(shí)系統(tǒng),U = {U1,U1,…,Un}是論域,C = {a,b,c,d}是條件屬性集,D = {e}是決策屬性集,P = C + D。則其相應(yīng)的分辨矩陣為:
D = cdacdabcdabdabcda ababcab ababcb caac
其次,從分辨矩陣中可以得出,由于D = {e}是決策集,不需要約簡(jiǎn),約簡(jiǎn)的是條件集合C,根據(jù)差別矩陣的求核約簡(jiǎn)算法求出該知識(shí)系統(tǒng)的核集為{a,b,c}。該約簡(jiǎn)求核集的方法可以在計(jì)算機(jī)上實(shí)現(xiàn)。本實(shí)例比較簡(jiǎn)單,也可以用直接求核集算法。經(jīng)約簡(jiǎn)后的決策表(見(jiàn)表3)。
再次,約簡(jiǎn)值,對(duì)于決策規(guī)則1,[1]a={1,2}, [1]b ={1,2,3}, [1]c={1,5}, [1]e={1,2},其中:[1]a∩[1]b={1,2 }∩ {1,2,3}={1,2}[1]e,則c0(表示c屬性值為0)可約;[1]a∩[1]c={1,2}∩{1,5}={1}[1]e,則b0可約;[1]b∩[1]c = {1,2,3 }∩{1,5}={1}[1]e,則a0可約;對(duì)于決策規(guī)則2,[2]a = {1,2}, [2]b = {1,2,3},[2]c = {2,3,4,6},[2]e = {1,2}。其中:[2]a∩[2]b = {1,2}∩{1,2,3} = {1,2} [2]e,則c1是可約的;[2]a∩[2]c = {1,2}∩{2,3,4,6} = {2}[2]e,則b0是可約的;[2]b∩[2]c = {1,2,3}∩{2,3,4,6} = {2,3}[2]e,則a0不可約;其邏輯語(yǔ)義表示為:a0b0Va0c1e0。同理,決策規(guī)則3推出:a1不可約,b0可約,c1不可約,其邏輯語(yǔ)義為: a1c1Va1b0c1e1. 決策規(guī)則4推出:a1,b1,c1均可約;決策規(guī)則5推出:a2,b1,c0均可約;決策規(guī)則6推出:a1,b1,c1均可約。經(jīng)過(guò)上述約簡(jiǎn)得到了最小決策算法,它的邏輯語(yǔ)義為:a0b0Va0c1-e0和a1c1Va1b0c1-e1。用自然語(yǔ)言表示為:若平均成績(jī)50~60且及格人數(shù)在70%以下或者平均成績(jī)50~60且優(yōu)秀人數(shù)在30%以下的老師被認(rèn)為教學(xué)質(zhì)量不好;若平均成績(jī)?cè)冢叮啊罚扒覂?yōu)秀人數(shù)在30%以上或者平均成績(jī)60~70且及格人數(shù)在70%以下且優(yōu)秀人數(shù)在30%以上的老師被認(rèn)為教學(xué)質(zhì)量好。
4結(jié)束語(yǔ)
粗糙集的生命力在于有較強(qiáng)的實(shí)用性,不需要附加信息和先驗(yàn)知識(shí),使評(píng)價(jià)結(jié)果更加客觀公正。本文主要論述了粗糙集的理論知識(shí)和基于粗糙集的決策表約簡(jiǎn)算法,分析了評(píng)價(jià)教師教學(xué)水平的指標(biāo),在此基礎(chǔ)上提出了4個(gè)成績(jī)指標(biāo),并就基于粗糙集的數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用進(jìn)行了簡(jiǎn)單的探討。
主要參考文獻(xiàn)
[1] Pawlak Z. Rough Sets:Theoretical Aspects of Reasoning About Data[M]. Boston,MA:Kluwer Academic Publishers,1991.
[2] [加]Jiawei Han. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明,譯. 北京:機(jī)械工業(yè)出版社,2005.
[3] 劉翔. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M]. 上海:上海交通大學(xué)出版社,2005.
[2] 黃麗萍. 基于粗糙集的屬性約簡(jiǎn)與規(guī)則提取[D]. 廈門(mén):廈門(mén)大學(xué),2007.
[3] 張靜. 基于粗集理論的數(shù)據(jù)挖掘方法及應(yīng)用研究[D]. 大連:大連理工大學(xué),2007.
[4] 唐建國(guó), 譚明術(shù). 粗糙集理論中的求核與約簡(jiǎn)[J]. 控制與決策,2003,18(4):449-452.
[5] 陳曉紅,陳嵐. 基于粗糙集理論的知識(shí)約簡(jiǎn)及應(yīng)用實(shí)例[J]. 大學(xué)數(shù)學(xué),2003,19(4):68-73.