999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗集可辨識矩陣的屬性頻率約簡算法

2009-03-02 09:33:12逄玉俊
現(xiàn)代電子技術(shù) 2009年4期

逄玉俊 李 爽

摘 要:針對信息系統(tǒng)在屬性約簡過程中存在屬性頻率值相同的問題進行改進,改進后的算法在基于可辨識矩陣屬性頻率約簡算法的基礎(chǔ)上,引進強等價集概念,以屬性在可辨識矩陣中出現(xiàn)的次數(shù)越多其重要性越大為啟發(fā)式信息,利用強等價集中的屬性是可以約簡的特性,在屬性頻率約簡過程中判斷具有相同屬性頻率屬性是否最終包含在核屬性集里,提出改進的屬性頻率約簡算法。通過理論和實例的分析證明,該算法在保持時間復雜度不變的情況下,處理具有相同屬性頻率信息系統(tǒng)的屬性約簡,使其準確性得到提高,與原算法相比,改進后的算法可以得到一個更為精準的約簡結(jié)果。

關(guān)鍵詞:粗糙集;可辨識矩陣;強等價集;屬性頻率

中圖分類號:TP391 文獻標識碼:B 文章編號:1004-373X(2009)04-145-03

Attribute Frequency Reduction Arithmetic Based on Discernibile Matrix of Rough Set

PANG Yujun,LI Shuang

(Shenyang Institute of Chemical Technology College,Shenyang,110142,China)

Abstract:In the view of improving system exsists the same attribute frequency value in attribute reduction,the improved algorithm based on discernibile matrix affribute frequency reduction arithmentic,the concept of strong equivalent set is introduced to identify attributes in the matrix in the number of the more importance to the greater heuristics.Using strong focus on the strong equivalent set is the reduction of the frequency attribute reduction in judgements have the same attributes′frequency of property included in the final set of attributes,and the properties frequency reduction algorithm is improved.Through theoretical analysis and examples prove that the algorithm to maintain the same time complexity of the situation,to deal with the same attributes′ frequency of information systems attribute reduction,the accuracy is improved,compared with the original algorithm,improved algorithm can get a more precise reduction results.

Keywords:rough set;discernibility matrix;strong compressible set;attribute reduction

0 引言

粗糙集理論是由波蘭數(shù)學家Z.Pawlak在1982年提出的一種智能決策分析數(shù)學工具。它是研究不完整,不確定知識和數(shù)據(jù)的表達、學習、歸納的理論方法。粗糙集目前主要被廣泛地應用與數(shù)據(jù)挖掘、人工智能、模式識別、網(wǎng)頁分類、故障診斷和專家系統(tǒng)等領(lǐng)域[1]。

屬性約簡是粗糙集理論中重要的核心內(nèi)容之一。屬性約簡主要目的是保持知識庫分類能力不變的條件下,刪除其中不相關(guān)或不重要的屬性,從而簡化原有的系統(tǒng)。雖然Wond等已經(jīng)證明找出一個決策表的所有約簡和最小約簡是NP-h(huán)ard問題,但是利用啟發(fā)式信息減小搜索空間,還是能得到一個相對最優(yōu)的約簡[2]。

以基于可辨識矩陣的屬性頻率約簡算法為基礎(chǔ),引入強等價集概念,以屬性在可辨識矩陣中出現(xiàn)的次數(shù)越多,其重要性越大為啟發(fā)式信息。提出一種新的有效的屬性約簡算法,該算法可以處理當屬性頻率相同時,對決策表的屬性約簡可以高效準確的進行。

1 相關(guān)概念和證明

1.1 決策表

形式上,四元組S=(U,A,V,f)是一個知識表達系統(tǒng),其中U為對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪a∈AVa,Va是屬性a的值域;f為U×A→V是一個信息函數(shù),它為每個對象的每個屬性賦予一個信息值,即對于所有的a∈A,x∈X,f(x,a)∈Va[3]。

知識表達系統(tǒng)也稱為智能系統(tǒng)。通常也用S=(U,A)來代替S=(U,A,V,f)。

1.2 約簡和核

在信息系統(tǒng)S中,對于P罜,則P在S的不可分辨關(guān)系IND(P)定義為:

IND(P)={(x,y)∈U2|衋∈P,a(x)=a(y)}

IND(P)把對象集U劃為k個等價類,記為U/P={X1,X2,…,Xk}。

定義1[4]:設Q罰,如果Q是獨立的,并且IND(Q)=IND(P),則稱Q是P的一個約簡。P中所有必要關(guān)系的集合稱為P的核,用CORE(P)來表示。

定理1:簇集P的核等于P的所有約簡的交集。即CORE(P)=∩RED(P)。

1.3 可辨識矩陣

令決策表系統(tǒng)S=<U,R,V,f>,R=C∪D是屬性集合;子集P={a i|i=1,2,…,m}和D=g0gggggg分別稱為條件屬性和決策屬性集;U={x1,x2,…,xn}是論域,ai(xj)是樣本xj在屬性ai上的取值。CD(i,j)表示可辨識矩陣中第i行和第j列的元素,則可辨識矩陣CDФㄒ澹5]為:

CD(i,j)={ak|ak∈P∧ak(xi)≠ak(xj)},d(xi)≠d(xj);

0,d(xi)=d(xj)

其中:i,j=1,2,…,n。

1.4 強等價集

設a∈A,如果存在某一集合B粒踑],則稱集合B是屬于a的強等價集[6]。

定理2:A的子集B罙是強等價集的充分必要條件是:B被區(qū)分矩陣中2個或2個以上項同時包含,且B與區(qū)分矩陣中其它項的交為空。

定理3:如果C是一個約簡,B是強等價集,且{a,b}∈B,則{a,b}不包含于C。

此定理可用反證法證明,證明過程[6]如下:

證明:假定C是一個約簡,且有{a,b}罜因為{a,b}∈B且B是強等價集,所以有Dis({a})=Dis({b}),于是有Dis(C-{a})=Dis(a)即IND(C-{a})=IND(C),這與C是一個約簡相矛盾,因此應有{a,b}不包含于C。可見,任何一個約簡最多只能包含強等價集中的一個屬性,簡而言之,強等價集中的屬性是可以約簡的。

2 基于可辨識矩陣的屬性頻率約簡算法

2.1 算法思想

胡可云博士提出關(guān)于屬性頻率有兩種重要的啟發(fā)式思想[7]:

(1) 屬性在可辨識矩陣中出現(xiàn)的次數(shù)越多,該屬性的重要性越大;

(2) 在可辨識矩陣中屬性項越短,屬性的重要性越大。

由思想(2)可知:在可辨識矩陣中,可能會有一些只有1個屬性的屬性項,則這個惟一的屬性一定是核屬性,可直接把它加入到約簡集中。提出一種新的計算屬性頻率的函數(shù):

g(ai)=countai∑nj=2(counterai/j)

式中:countai體現(xiàn)出屬性在可辨識矩陣中出現(xiàn)的次數(shù)越多,這個屬性的重要性越大;counterai為屬性ai在可辨識矩陣中出現(xiàn)的總次數(shù);j為含有屬性ai的屬性項中屬性的個數(shù),n為含有屬性ai所有項中,屬性個數(shù)最多的項的屬性個數(shù)。基于此公式,可以計算出屬性頻率。

在文獻[3]中,算法的缺陷在于不能很好地解決出現(xiàn)2個屬性頻率相同時的情況。針對這個問題,這里引入強等價集概念對屬性進行區(qū)分。定理2表明強等價集中的屬性對分類具有相同的重要性。利用定理3判斷,當屬性頻率相同時是否有屬性包含在強等價集中,可以保留出現(xiàn)在強等價集中的某個屬性去掉其他屬性。

2.2 算法描述

輸入:決策表S=(U,C∪D,V,f),其中C={a1,a2,…,an};

輸出:決策表的約簡集Red。

(1) 把決策表S轉(zhuǎn)化成相應的可辨識矩陣M,并初始化候選約簡集合Red=h,令counterai=0;

(2) 將可辨識矩陣中屬性組合數(shù)為1的條件屬性(核屬性)直接加到約簡集Red中,去掉含有核屬性的屬性項;

(3) 利用屬性頻率函數(shù)g(ai)對剩余屬性項中的各屬性計算屬性頻率。判斷是否有屬性頻率相同的屬性,有則轉(zhuǎn)(4),否轉(zhuǎn)(5);

(4) 對有相同屬性頻率的屬性用定理2判斷是否為強等價集,若是則在可辨識矩陣M中保留強等價集中任一屬性去除其他屬性。否則轉(zhuǎn)(5);

(5) 找出屬性頻率最高的屬性記作a1則Red=Red∪{a1},去掉可辨識矩陣中含有屬性a1的屬性組合;

(6) 判斷可辨識矩陣是否為h,是結(jié)束,否則轉(zhuǎn)(3)。

顯然,該算法給處理具有相同屬性頻率的決策表屬性約簡提供了較好的方法。大量數(shù)據(jù)表明遇到出現(xiàn)相同屬性頻率的情況非常多,所以該算法的實用性很廣泛。與文獻[3]的算法相比,改進的基于屬性頻率的算法的實現(xiàn)對條件屬性的更優(yōu)的約簡,其計算的主要時間花費在計算g(ai)上,為O(|C||U|2),而原算法的時間復雜度亦為O(|C||U|2),可見新的算法在保持計算的時間復雜度不變的前提下,得到更精確的約簡結(jié)果。

3 實例分析

表1[4]是一個信息系統(tǒng)。應用這里改進算法對該信息系統(tǒng)進行屬性約簡。

表1 信息系統(tǒng)

objectSizePanelBackMidClassification

1ShortDarkBluePale0

2TallDarkBrownMatt1

3TallRedBluePale0

4ShortBlondBlueMatt1

5TallBlondBluePale1

6TallDarkBluePale0

7TallBlondBrownMatt1

8ShortDarkBrownMatt1

式(2)為可辨識矩陣:

0

SBM0

hPBM0

PMhSPM0

SPhPh0

hBMhSPMP0

SPBMhPBMhhPBM0

BMhSPBMhhSBMh0〗(1)

式(3)為去掉核屬性后的可辨識矩陣:

0

SBM0

hh0

hhh0

hhhh0

hBMhhh0

hhhhhh0

BMhhhhSBMh0〗(2)

表1變換成對應的可辨識矩陣,得式(1)所對應的可辨識矩陣。式(2)是在式(1)的基礎(chǔ)上由算法第(2)步得到P為核屬性直接加入到約簡Red中后,去掉含有P的屬性項得到化簡后的新可辨識矩陣;在新的可辨識矩陣中可以得出屬性B,M頻率一樣,g(B)=g(M)=12.33,{B,M}有可能是強等價集,此時再利用定理1求出原可辨識矩陣的強等價集為{B,M},根據(jù)強等價集的定理2,在可辨識矩陣中可以去掉M保留B,最后得到的約簡集合{P,B}。再去掉含有B的屬性項,此時可辨識矩陣為h,則算法結(jié)束。而按照文獻[3]中的算法得到的約簡集合為{P,B,M},又由定理2中關(guān)于強等價集的性質(zhì)中可知,包含在強等價集中的屬性是可以約簡的,所以{P,B,M}不是最后的約簡結(jié)果。實例證明新算法可以實現(xiàn)更加有效精確的數(shù)據(jù)屬性約簡。

4 結(jié) 語

由于現(xiàn)實信息系統(tǒng)的數(shù)據(jù)復雜度很高,出現(xiàn)相同頻率屬性的幾率很大,所以在基于粗糙集屬性頻率的約簡算法的基礎(chǔ)上,引入強等價集概念,較好地解決了出現(xiàn)相同屬性頻率時屬性約簡的問題,具有一定的實際意義和應用價值。與原算法相比,在保持計算速度保持不變的前提下實現(xiàn)了對信息系統(tǒng)更為精確的屬性約簡。

參 考 文 獻

[1]Pawlak Z.Rough Set:Theoretical Aspects of Reasoning about Data.Dordrecht:Kluwer Academic Publisher,1991.

[2]Roman W Swiniarski,Andrzej Skowrin.Rough Set Methods in Feature Selection and Recognition.Pattern Recognition Letter,2003,24(6):833-849.

[3]任小康,吳尚智,馬如云.基于可辨識矩陣的屬性頻率約簡算法[J].蘭州大學學報,2007,43(1):138-141.

[4]蘆曉紅,陳世權(quán),吳今培.基于可辨識矩陣的啟發(fā)式屬性約簡方法及其應用[J].計算機工程,2003,29(1):56.

[5]薛安榮,韓紅霞,潘雨青.基于可辨識矩陣的快速粗糙集屬性約簡算法[J].計算機工程與設計,2007,28(20):49-87.

[6]陶志,許寶棟,汪定偉.基于區(qū)分矩陣與強等價集的啟發(fā)式知識約簡算法[J].系統(tǒng)工程理論方法應用,2004,13(6):513-514.

[7]胡可云.基于概念格和粗糙集的數(shù)據(jù)挖掘方法研究[D].北京:清華大學,2001.

[8]張文修,吳偉志,梁吉業(yè),等.粗糙集理論和方法[M].北京:科學出版社,2001.

[9]王國胤.Rough集理論與知識獲取[M].西安:西安交通大學出版社,2001.

注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

主站蜘蛛池模板: 欧美精品高清| 国产一区二区三区在线观看免费| 国产成人精品日本亚洲| 激情综合图区| 国产va欧美va在线观看| 日韩在线1| 国产理论精品| 欧美色图久久| 亚洲国产日韩欧美在线| 精品亚洲麻豆1区2区3区| 999在线免费视频| 久久综合亚洲鲁鲁九月天| 国产成人免费观看在线视频| 精品伊人久久久久7777人| 91伊人国产| 狠狠色噜噜狠狠狠狠奇米777| 国产麻豆91网在线看| 国产日韩av在线播放| 毛片在线看网站| 亚欧美国产综合| 九九热精品视频在线| 亚洲va精品中文字幕| 黄色片中文字幕| 无码有码中文字幕| 国产大片喷水在线在线视频| 欧美亚洲网| 激情国产精品一区| 无码久看视频| 亚洲精品国产综合99| 国产麻豆永久视频| 国产鲁鲁视频在线观看| 亚洲午夜福利精品无码| 久久久久国产一级毛片高清板| 亚洲啪啪网| 伊人五月丁香综合AⅤ| 精品亚洲欧美中文字幕在线看| 激情成人综合网| 国产精品99久久久| 91精品啪在线观看国产60岁| 国产va在线观看| 久草美女视频| 亚洲欧州色色免费AV| 又爽又大又黄a级毛片在线视频 | 97国产精品视频人人做人人爱| 日日噜噜夜夜狠狠视频| 色丁丁毛片在线观看| 国产v精品成人免费视频71pao| 人人妻人人澡人人爽欧美一区 | 国产拍揄自揄精品视频网站| 国内丰满少妇猛烈精品播| 久久中文字幕不卡一二区| 老色鬼欧美精品| 国产日本欧美亚洲精品视| 98精品全国免费观看视频| 日韩无码白| 国产乱论视频| 中文字幕永久视频| 日本爱爱精品一区二区| a毛片免费观看| 国产午夜无码片在线观看网站| 天天躁日日躁狠狠躁中文字幕| 九月婷婷亚洲综合在线| 热这里只有精品国产热门精品| 色偷偷综合网| 91成人在线免费观看| 在线亚洲小视频| 国产日本视频91| 日本一区高清| 97精品国产高清久久久久蜜芽| 在线五月婷婷| 波多野结衣一二三| 无码中字出轨中文人妻中文中| 55夜色66夜色国产精品视频| 永久在线播放| 欧美va亚洲va香蕉在线| 国产美女丝袜高潮| 成人va亚洲va欧美天堂| 日韩小视频在线观看| 国产精品三级专区| 青青草原国产精品啪啪视频| 亚洲日本精品一区二区| 国内a级毛片|