摘要:首先比較了現(xiàn)有的兩種挖掘方法,提出了一種改進(jìn)技術(shù)。綜合考慮例外的局部和全局興趣度,剔除非真正有趣的局部例外;增加兩種客觀度量并按模式重要度排序。實(shí)驗(yàn)表明該方法不僅可以有效挖掘多數(shù)據(jù)庫(kù)中例外模式,而且還大大減少了用戶負(fù)擔(dān)。
關(guān)鍵詞:多數(shù)據(jù)庫(kù)挖掘;例外模式;低選票例外;興趣度度量
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)02-0382-04
0引言
多數(shù)據(jù)庫(kù)挖掘就是對(duì)多個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,從中找出多個(gè)數(shù)據(jù)庫(kù)共有的或個(gè)別數(shù)據(jù)庫(kù)特有的新穎有趣的模式。隨著分布式數(shù)據(jù)庫(kù)技術(shù)及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和應(yīng)用,多數(shù)據(jù)庫(kù)挖掘技術(shù)研究已經(jīng)成為近年來(lái)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域研究的熱點(diǎn)[1~6]。相對(duì)于傳統(tǒng)的從選擇數(shù)據(jù)到綜合數(shù)據(jù)最后集中挖掘的多數(shù)據(jù)庫(kù)挖掘技術(shù)[7~11],新的多數(shù)據(jù)庫(kù)挖掘方法保持了數(shù)據(jù)的分布式存儲(chǔ)方式,采用先挖掘單個(gè)數(shù)據(jù)庫(kù)得到局部模式,再綜合局部模式進(jìn)行全局分析的兩級(jí)挖掘過(guò)程[1],不僅避免了集成數(shù)據(jù)造成的海量數(shù)據(jù)挖掘,同時(shí)還保持了局部數(shù)據(jù)庫(kù)的獨(dú)立性和完整性,對(duì)局部私有數(shù)據(jù)的安全性也起到了保護(hù)作用,因此成為近年來(lái)多數(shù)據(jù)庫(kù)挖掘的重點(diǎn)研究課題。在文獻(xiàn)[1]中,將多數(shù)據(jù)庫(kù)挖掘的模式分為局部模式(local pattern)#65380;高選票模式(high-vote pattern)#65380;例外模式#65380;推薦模式(suggested pattern)四類。本文研究的是例外模式。所謂多數(shù)據(jù)庫(kù)例外模式,就是那些僅被少數(shù)幾個(gè)子公司或個(gè)別子公司高度支持的模式[1]。通過(guò)參考這些例外的模式,總公司可以因地制宜地為少數(shù)幾個(gè)公司制定適合它們特點(diǎn)的策略。這對(duì)于日益激烈的商業(yè)競(jìng)爭(zhēng)來(lái)說(shuō),是必不可少的舉措。因此多數(shù)據(jù)庫(kù)例外模式也成為一項(xiàng)有重要意義和應(yīng)用價(jià)值的研究工作。到目前為止,文獻(xiàn)[4,5]分別提出了多數(shù)據(jù)庫(kù)中例外模式挖掘的方法,它們?yōu)槎鄶?shù)據(jù)庫(kù)模式挖掘提供技術(shù)支持?,F(xiàn)有的技術(shù)方法中存在如下兩個(gè)問(wèn)題:存在冗余的例外模式,降低了模式挖掘的質(zhì)量;對(duì)于挖掘出來(lái)的模式,用戶無(wú)法辨別它們的例外程度,造成用戶負(fù)擔(dān)過(guò)重。本文為此提出了一種改進(jìn)的例外模式挖掘方法。
1現(xiàn)有的挖掘技術(shù)
多數(shù)據(jù)庫(kù)例外模式是多數(shù)據(jù)庫(kù)模式挖掘中的一種,它首次在文獻(xiàn)[1]中提出并定義。這類模式在個(gè)別數(shù)據(jù)庫(kù)里具有較高的支持度而在其他數(shù)據(jù)庫(kù)中具有較低支持度或零支持度(即不被其他數(shù)據(jù)庫(kù)支持)。從該定義中可以知道,局部模式中那些被越少的數(shù)據(jù)庫(kù)支持而在局部數(shù)據(jù)庫(kù)中支持度越高的就有可能成為例外模式。由于本文中的例外模式是從全局的角度考慮(如總公司決策層),因此也稱為全局例外模式。如不特別說(shuō)明,本文中的模式指的是頻繁項(xiàng)集。
文獻(xiàn)[4]介紹了一種多數(shù)據(jù)庫(kù)例外模式的挖掘方法和過(guò)程。該方法采用了兩極挖掘過(guò)程:首先對(duì)各個(gè)局部數(shù)據(jù)庫(kù)進(jìn)行挖掘,得到局部模式; 然后將每個(gè)子數(shù)據(jù)庫(kù)中局部模式綜合之后再進(jìn)行分析,從而得到例外模式。 局部模式綜合之后,先統(tǒng)計(jì)每個(gè)模式的選票數(shù)num(P)(即支持該模式的數(shù)據(jù)庫(kù)個(gè)數(shù))與所有模式的平均選票率。將每個(gè)模式的選票數(shù)與平均選票率進(jìn)行比較,若小于平均選票率,則為候選例外模式并保存。通過(guò)計(jì)算所有候選例外模式的全局支持度,將所有候選例外模式按照全局支持度的大小排序,最后輸出所有滿足用戶要求的例外模式及來(lái)自數(shù)據(jù)庫(kù)的名稱。文獻(xiàn)[5]中,使用了兩個(gè)度量即例外模式的全局例外偏離度EPI和局部相對(duì)重要度RI,同時(shí)滿足專家給定的這兩個(gè)最小閾值的為例外模式。其中選票偏離度EPI考慮了模式的選票率與平均選票率的偏離度;局部相對(duì)重要度RI考慮了模式在局部數(shù)據(jù)庫(kù)的相對(duì)支持率(EPI和RI的計(jì)算公式見(jiàn)第2章)。EPI越高,說(shuō)明越少的數(shù)據(jù)庫(kù)支持,例外可能性越大; RI越大,在支持的數(shù)據(jù)庫(kù)中,模式支持度越高,例外的可能性越大。這兩個(gè)度量剛好符合了多數(shù)據(jù)庫(kù)例外模式的定義。文獻(xiàn)[4]中,全局支持度計(jì)算用的是模式在各個(gè)數(shù)據(jù)庫(kù)中支持度的均值,也就意味著若一個(gè)模式被確定為例外模式,則在所有支持它的數(shù)據(jù)庫(kù)中都是例外模式。實(shí)際上,挖掘例外模式正是要找出某些數(shù)據(jù)中真正有趣的對(duì)總公司發(fā)展起重要作用的少量模式,并不意味著凡是支持它的數(shù)據(jù)庫(kù)都要特別考慮,即造成了模式冗余。而且,兩種模式挖掘方法都沒(méi)有考慮到一個(gè)問(wèn)題,即挖掘出來(lái)的模式得到的例外模式會(huì)出現(xiàn)一個(gè)數(shù)據(jù)庫(kù)中有多個(gè)例外#65380;一個(gè)例外同時(shí)在多個(gè)數(shù)據(jù)庫(kù)中的情況。對(duì)用戶而言,如何看待這種例外模式在全局的地位呢?這并不是無(wú)足輕重的問(wèn)題。 例如,新的子公司經(jīng)營(yíng)的是新的領(lǐng)域#65380;新的產(chǎn)品,那么,挖掘該子數(shù)據(jù)庫(kù)中很可能出現(xiàn)多個(gè)例外。這種情況下若一視同仁,把大量的資源投資在這個(gè)新的部門,勢(shì)必會(huì)造成決策失誤。因此,需要從總公司的全局角度考慮,對(duì)采用上述方法挖掘出來(lái)的例外進(jìn)行進(jìn)一步的分析,確定例外模式的優(yōu)先次序。目的就在于將有限的資源用在最有價(jià)值的例外模式上,這對(duì)于商業(yè)競(jìng)爭(zhēng)來(lái)說(shuō)是很必要也是很重要的。
2改進(jìn)的多數(shù)據(jù)庫(kù)例外模式挖掘方法
2.1挖掘過(guò)程
假設(shè)有n個(gè)數(shù)據(jù)庫(kù)D1,D2,…,Dn;LP1,LP2,…,LPn為相應(yīng)的數(shù)據(jù)庫(kù)挖掘出來(lái)的局部模式集合;minsup pi為用戶給定的第i個(gè)數(shù)據(jù)庫(kù)的最小支持度(i=1,2,…,n);對(duì)于任一個(gè)模式Pj,它在第i個(gè)數(shù)據(jù)庫(kù)中的支持度為sup pi(Pj)。
改進(jìn)的挖掘方法采用的是文獻(xiàn)[1]提出的新的兩極挖掘思想。首先在各個(gè)子數(shù)據(jù)庫(kù)進(jìn)行局部模式的挖掘,過(guò)程如下:
a)各個(gè)局部數(shù)據(jù)庫(kù)中滿足用戶或?qū)<以O(shè)定的最小支持度的頻繁模式首先被挖掘出來(lái),成為局部模式集合。統(tǒng)計(jì)各個(gè)局部模式的個(gè)數(shù)NLocal以及所有局部模式個(gè)數(shù)m。
b)保持各個(gè)局部模式集合的獨(dú)立性,計(jì)算不同局部模式的選票率VR(Pi)以及模式的平均選票數(shù)(average voting number,AVN)。其中:選票率VR(Pi)為支持該模式的數(shù)據(jù)庫(kù)個(gè)數(shù)與所有局部數(shù)據(jù)庫(kù)個(gè)數(shù)的比值;AVN為所有模式的支持?jǐn)?shù)之和與模式個(gè)數(shù)的比值,即
d)對(duì)各個(gè)候選模式使用局部和全局興趣度兩個(gè)度量,找出真正的例外。
兩個(gè)度量分別是全局例外興趣度EPI和相對(duì)興趣度RI。其中,EPI也稱為模式的例外偏離度,是指模式Pi的選票率偏離平均選票率的程度。這是從全局的角度考慮的,所以也稱全局例外興趣度。
EPI(Pi)=[VN(Pi)-AVN]/(-AVN)(3)
因?yàn)?AVN RI指的是模式在支持其數(shù)據(jù)庫(kù)中的興趣程度。因?yàn)榭紤]是在局部數(shù)據(jù)庫(kù)中,也稱為局部例外興趣度。它也是用一個(gè)比值表示: RI(Pj)=[sup pi(Pj)-minsup pi]/(maxsup pi-minsup pi)(4) 其中:sup pi(Pj)表示模式Pj在第i個(gè)數(shù)據(jù)庫(kù)中的實(shí)際支持度;minsup pi表示第i個(gè)數(shù)據(jù)庫(kù)的最小支持度;maxsup pi表示第i個(gè)數(shù)據(jù)庫(kù)的最大支持度。注意:若Pj在某個(gè)數(shù)據(jù)庫(kù)中不出現(xiàn),則sup pi(Pj)=0。 式(4)利用了區(qū)間值計(jì)算,即利用某個(gè)模式的支持度與最小支持度的差距作為度量的一個(gè)尺度。不同的數(shù)據(jù)庫(kù)有不同的數(shù)據(jù)信息,當(dāng)兩個(gè)數(shù)據(jù)庫(kù)的最小支持度分別是0.49和0.11時(shí),不能簡(jiǎn)單地說(shuō)一個(gè)數(shù)據(jù)庫(kù)中支持度為0.5的模式比另一個(gè)數(shù)據(jù)庫(kù)中支持度為0.22的模式的支持度大。因?yàn)檫@兩個(gè)數(shù)據(jù)庫(kù)的最小支持度不同,需要將每個(gè)模式的支持度與相應(yīng)的最小支持度比較后再綜合計(jì)算。根據(jù)這個(gè)公式可以獲知某個(gè)模式P在某個(gè)數(shù)據(jù)庫(kù)dbi的重要性。若RI值越大,則該模式在第i個(gè)數(shù)據(jù)庫(kù)中的重要程度越大,這樣的例外也就越有趣。 EPI與RI可以有效地度量從局部到全局兩極模式的興趣度。與僅考慮全局興趣度方法[4]相比,更合理且更有說(shuō)服力。 e)根據(jù)用戶設(shè)定的最小閾值minEPI 和minRI, 從各局部數(shù)據(jù)庫(kù)中篩選出滿足這兩個(gè)閾值的模式為例外模式,歸并入待定模式集合;同時(shí)統(tǒng)計(jì)各個(gè)局部模式集合中滿足這兩個(gè)閾值的例外模式個(gè)數(shù)m。其次,對(duì)由上述過(guò)程得到的例外模式集合進(jìn)行合并,并最后進(jìn)行匯總分析。在模式匯總后,增加兩個(gè)客觀度量EPS和RS。EPS和RS的計(jì)算是基于模式本身的統(tǒng)計(jì)數(shù)據(jù),因此從度量的分類來(lái)說(shuō),屬于客觀度量[12]??陀^度量的使用對(duì)模式的興趣度和重要度評(píng)估起到了重要的作用[13]。具體由下面的步驟f)#65380;g)所示。 f)對(duì)于匯總后的不同例外模式P1,P2,…,Pm, 計(jì)算它們的重要度EPS以確定不同例外的地位。例外模式全局重要度為 EPS(EPi)={EPI(EPi)+[∑kj=1RI(EPi)]/k}/2(5) 其中:EPI(Pi)為模式Pi的選票偏離度;k為支持該模式的數(shù)據(jù)庫(kù)個(gè)數(shù),也為模式的選票數(shù);[∑kj=1RI(EPi)]/k為例外模式的全局支持度。為了能進(jìn)一步度量例外模式的興趣程度,在定義EPS時(shí),同時(shí)考慮了模式的選票偏離度以及全局支持度,能更充分地體現(xiàn)例外模式的重要程度。所以,EPS可以有效度量不同例外的重要程度,特別是可以有效解決同一個(gè)數(shù)據(jù)庫(kù)中有多個(gè)例外時(shí)的情形。當(dāng)用戶得到的是按照EPS值進(jìn)行降序排列的例外模式序列時(shí),就可以有的放矢地進(jìn)行分析和決策。 g)對(duì)于同一個(gè)例外模式在不同數(shù)據(jù)庫(kù)中的重要度,也定義了一個(gè)例外模式相對(duì)重要度RS。例外模式相對(duì)重要度為 其中:numEPdbi為第i個(gè)數(shù)據(jù)庫(kù)中例外的個(gè)數(shù);numCEPdbi為第i個(gè)數(shù)據(jù)庫(kù)中候選例外的個(gè)數(shù)。兩者的比值為第i個(gè)數(shù)據(jù)庫(kù)的權(quán)值,用來(lái)表示該數(shù)據(jù)庫(kù)在所有數(shù)據(jù)庫(kù)中的例外權(quán)重。為了衡量同一個(gè)例外模式在不同數(shù)據(jù)庫(kù)中的例外程度,RS同時(shí)考慮了模式的相對(duì)支持度RI#65380;數(shù)據(jù)庫(kù)中例外的個(gè)數(shù)以及數(shù)據(jù)庫(kù)的權(quán)重因子。同樣對(duì)RS值按降序排序,將排序結(jié)果輸出給用戶,用戶可以有效地決定哪些例外才是真正有趣的例外。 改進(jìn)的挖掘方法與已有的方法區(qū)別之處在于: a)不是直接將局部模式綜合起來(lái)馬上進(jìn)行全局挖掘,而是全局分析時(shí)依然保持各個(gè)局部數(shù)據(jù)庫(kù)的局部模式的完整性,在得到了例外模式集合后才將所有例外模式集合合并。同時(shí)考慮了局部數(shù)據(jù)庫(kù)的權(quán)重,依據(jù)例外模式的比重決定各個(gè)數(shù)據(jù)庫(kù)的不同權(quán)值,而不是一視同仁。這樣更符合實(shí)際情況。 b)從局部和全局兩個(gè)角度考慮模式的興趣度和重要度,既剔除了非真正有趣的例外,也解決了同一個(gè)數(shù)據(jù)庫(kù)中不同例外以及不同例外處于同一個(gè)數(shù)據(jù)庫(kù)中的例外重要度計(jì)算。 c)輸出給用戶的不是一堆無(wú)區(qū)別的模式集合,而是經(jīng)過(guò)了重要度排序的模式序列,給出了例外模式的優(yōu)劣之分,解決了用戶無(wú)法輕易識(shí)別出哪些才是真正有趣的例外難題。 為何D的重要度最大呢? 可以從上述數(shù)據(jù)中看出,由于D只有一個(gè)數(shù)據(jù)庫(kù)支持,并且在支持的數(shù)據(jù)庫(kù)中相對(duì)支持度較高,而其他例外具有兩個(gè)或兩個(gè)以上數(shù)據(jù)庫(kù)支持,并且相對(duì)支持度也沒(méi)有明顯優(yōu)勢(shì)。G的重要度為何比H高呢?G和H都是只有兩個(gè)數(shù)據(jù)庫(kù)支持,但是G在支持的數(shù)據(jù)庫(kù)中支持度均相對(duì)比H的高,如G在db4中為最大支持度0.5。這也可以很好地解釋G的重要度要高于H;而且對(duì)于同一個(gè)DB中的G和E, 由于G的支持度要大于E,G 的重要度也大于E。 同理,也可以解釋序列中其他模式的重要度排序。 對(duì)于同一個(gè)模式在不同DB中的重要度,模式G 在db2#65380;db4中均為例外,那么在哪一個(gè)中更重要呢?計(jì)算它們的例外模式相對(duì)重要度: 即RSdb4(G)> RSdb2(G)。說(shuō)明首先考慮db4中的G例外。上面的數(shù)據(jù)表明,由于db2中例外有三個(gè),候選例外有四個(gè),并且G在db2中的支持度相對(duì)并不突出,而在db4中只有兩個(gè)例外并且G的支持度為最高支持度,db4中的G相對(duì)重要。這也與計(jì)算的結(jié)果相呼應(yīng)。 上述例子說(shuō)明本文方法是準(zhǔn)確有效的,是直接服務(wù)于用戶的,是多數(shù)據(jù)庫(kù)例外模式挖掘過(guò)程中重要的一步。增加的兩個(gè)度量看似后挖掘的模式評(píng)價(jià),但在本文中特地將模式的進(jìn)一步分析和評(píng)價(jià)融入數(shù)據(jù)挖掘階段。因?yàn)檫@樣做可以提高模式挖掘的質(zhì)量,縮短知識(shí)發(fā)現(xiàn)的過(guò)程[14,15]。 3實(shí)驗(yàn)和結(jié)果分析 MDBExcePMining算法用VC++ 6.0實(shí)現(xiàn),在內(nèi)存為2 GB#65380;CPU主頻為2.6 GHz#65380;操作系統(tǒng)為Windows 2000的Dell Workstation PWS650計(jì)算機(jī)上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)的目的不是要評(píng)價(jià)算法的運(yùn)行速度,而是與現(xiàn)有的挖掘算法相比,改進(jìn)的算法能否更有效地發(fā)現(xiàn)例外以及能否有效度量例外。對(duì)真實(shí)數(shù)據(jù)集zoo database[16]進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集共有101個(gè)實(shí)例,7個(gè)大類,18個(gè)屬性域。為了獲得多個(gè)相關(guān)的數(shù)據(jù)庫(kù),將該數(shù)據(jù)庫(kù)按照類別屬性垂直劃分成7類數(shù)據(jù)集。由于zoo database是一個(gè)小型數(shù)據(jù)集,選擇了其中3個(gè)最大的類來(lái)進(jìn)行試驗(yàn),每類數(shù)據(jù)集平均分成若干個(gè)子數(shù)據(jù)集。預(yù)處理時(shí),使用不同的數(shù)字代表不同的屬性值使之易于用程序?qū)崿F(xiàn)。預(yù)處理后,挖掘每類數(shù)據(jù)集得到相應(yīng)的頻繁集。數(shù)據(jù)集中共有101個(gè)實(shí)例,具體劃分后,表1顯示了3個(gè)類數(shù)據(jù)集的相關(guān)信息。由于數(shù)據(jù)集的真實(shí)特性,為提高算法的效率#65380;減少不必要的時(shí)間損耗,選取了11個(gè)存在差異的屬性作為屬性集合,而且頻繁集取屬性域中那些與其他同類中非一致的屬性。模式取不同的屬性特征,屬性特征的相異個(gè)數(shù)為支持度。這個(gè)實(shí)驗(yàn)中低選票模式的平均選票數(shù)C1: AVN=2.25, C2:ANV=3.3。 表2給出了挖掘出的部分典型例外模式及它們的rank情況。 從表2中可以看到:先是屬性特征例外挖掘,當(dāng)屬性特征例外集合起來(lái),就是例外動(dòng)物樣本挖掘了,即得到的例外是那些在數(shù)據(jù)集中不同于眾的動(dòng)物。例如哺乳類別數(shù)據(jù)集中的dolphin,就由于其屬性特征的不同于眾,無(wú)毛發(fā)#65380;水里生活#65380;無(wú)腳以及有翅這四個(gè)不同于其他哺乳類動(dòng)物的特征,是La1中特有的,因而成為一個(gè)例外。同樣,C2類數(shù)據(jù)集Lb1中的ostrich#65380;Lb2中的penguin#65380;C3類數(shù)據(jù)集Lc1中的carp等都是由于其特征例外而成為特殊動(dòng)物。限于篇幅,結(jié)果中沒(méi)有列出所有的例外模式以及那些在局部例外而全局非例外的模式。從該結(jié)果可以看出,本文的方法是合理而有效的。 4 結(jié)束語(yǔ) 本文針對(duì)現(xiàn)有多數(shù)據(jù)庫(kù)例外挖掘中存在的不足,提出了進(jìn)一步的改進(jìn),同時(shí)采用局部和全局興趣度#65380;重要度對(duì)例外模式進(jìn)行有效的度量,既剔除了冗余例外,又提高了模式質(zhì)量,還減少了用戶負(fù)擔(dān)。實(shí)驗(yàn)證明,改進(jìn)的挖掘方法是現(xiàn)有例外模式挖掘方法的改進(jìn)和完善。 參考文獻(xiàn): [1]ZHANG Shi-chao,WU Xin-dong, ZHANG Cheng-qi.Multi-database mining [J].IEEE Computational Intelligence Bulletin,2003,2(1):5-13. [2]ZHANG Shi-chao,ZHANG Cheng-qi,WU Xin-dong.Knowledge discovery in multiple databases[M]. London: Springer Press,2004. [3]WU Xin-dong, ZHANG Shi-chao. Synthesizing high-frequency rules from different data sources[J].IEEE Trans on Knowledge and Data Engineering,2003,15(2):353-367. [4]ZHANG Shi-chao,ZHANG Cheng-qi,YU J X.An efficient strategy for mining exceptions in multi-databases[J].Information System,2004,165(1-2):1-20. [5]ZHANG Cheng-qi, LIU Mei-ling, NIE Wen-long, et al.Identifying global exceptional patterns in multi-database mining[J].IEEE Computational Intelligence Bulletin,2004,3(1):19-24. [6]ZHANG Cheng-qi,ZHANG Shi-chao.Database clustering for mining multi-databases[C]//Proc of the 11th IEEE International Conference on Fuzzy Systems. 2002:974-979. [7]WROBEL S.An algorithm for multi-relational discovery of subgroups[C]//Proc of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery. London: Springer-Verlag, 1997:367-375. [8]LIU Huan,LU Hong-jun,YAO Jun.Identifying relevant databases for multi-database mining[C]//Proc of Pacific-Asia Conference on Knowledge Discovery and Data.1998:210-221. [9]YAO Jun, LIU Huan.Searching multiple databases for interesting complexes[C]//Proc of Pacific-Asia Conference on Knowledge Discovery and Data Mining. 1997:198-210. [10]ZHONG Ning,YAO Yi-yu,OHSUGA S.Peculiarity oriented multi-database mining[C]//Proc of Pacific-Asia Conference on Knowledge Discovery and Data Mining. 1999:136-146. [11]ARONIS J, KOLLURI V, PROVOST F, et al.The WoRLD: know-ledge discovery from multiple distributed databases[C]//Proc of the 10th International Florida AI Research Symposium. 1997:337-341. [12]BHATNAGAR V, HEGMI A S,KUMAR N. Novelty as a measure of interestingness in knowledge discovery[J].International Journal of Information Technology,2005,2(1):36-41. [13]HUSSAIN F,LIU H,SUZUKI E,et al.Exception rule mining with a relative interestingness measure[C]//Proc of Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2000:86-97. [14]ZHANG Shi-chao, ZHANG Cheng-qi,YAN Xiao-wei.Post-mining: maintenance of association rules by weighting [J].Information Systems,2003,28(7):691-707. [15]FAYYAD U M, PIATESKY-SHAPIRO G,SMYTH P,et al.Advances in knowledge discovery and data mining [M]. Cambridge: AAAI/MIT Press,1996. [16]Collections of datasets UCI[EB/OL].http://www.cs.waikato.ac.nz/ml/weka. “本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”