999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

貝葉斯網(wǎng)在數(shù)據(jù)挖掘中的應(yīng)用

2012-11-07 08:40:31李強(qiáng)徐捷
中國(guó)科技信息 2012年13期
關(guān)鍵詞:數(shù)據(jù)挖掘方法

李強(qiáng)徐捷

1.國(guó)防科技大學(xué)電子科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410073

2.國(guó)防科技大學(xué)信息工程研究所,湖南 長(zhǎng)沙 410073

貝葉斯網(wǎng)在數(shù)據(jù)挖掘中的應(yīng)用

李強(qiáng)1徐捷2

1.國(guó)防科技大學(xué)電子科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410073

2.國(guó)防科技大學(xué)信息工程研究所,湖南 長(zhǎng)沙 410073

貝葉斯網(wǎng)用圖形的模式表示變量集合的聯(lián)合分布,應(yīng)用于數(shù)據(jù)挖掘能夠?qū)⒆兞恐g的潛在依賴關(guān)系反映出來。介紹了貝葉斯網(wǎng),概括了構(gòu)造貝葉斯網(wǎng)的方法,給出了建網(wǎng)的偽代碼,通過一個(gè)實(shí)例說明了貝葉斯網(wǎng)在數(shù)據(jù)挖掘中的應(yīng)用。

貝葉斯網(wǎng);數(shù)據(jù)挖掘;貝葉斯學(xué)習(xí);貝葉斯推理

貝葉斯網(wǎng)(Bayesian Network),是一種對(duì)概率關(guān)系的有向圖描述,適用于概率性的和不確定性的事物。貝葉斯網(wǎng)的結(jié)構(gòu)蘊(yùn)含了某些規(guī)則,節(jié)點(diǎn)之間的依賴關(guān)系則蘊(yùn)含了某些知識(shí)。數(shù)據(jù)挖掘中使用貝葉斯網(wǎng)方法,能夠發(fā)掘出多層次的、多點(diǎn)的關(guān)聯(lián)關(guān)系,具有處理不完整數(shù)據(jù)和噪聲數(shù)據(jù)的能力,能夠挖掘出隱含的知識(shí)而且具有良好的可理解性和邏輯性[1]。

1 貝葉斯網(wǎng)

N元隨機(jī)變量X={X1,X2,…,Xn},其貝葉斯網(wǎng)絡(luò)模型是一個(gè)二元組B={Bs,Bp},其中:

(1)Bs={X,E}表示貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)。Bs是一個(gè)有向無環(huán)圖(Directed Acyclic Graph, DAG),X={X1,X2,…,Xn}是結(jié)點(diǎn)的集合,每個(gè)結(jié)點(diǎn)代表一個(gè)變量、狀態(tài)或者屬性等實(shí)體,記π(xi)為BS中結(jié)點(diǎn)的父結(jié)點(diǎn)的集合;E是圖中結(jié)點(diǎn)之間的有向弧的集合,反映結(jié)點(diǎn)之間的依賴關(guān)系。是貝葉斯網(wǎng)模型的概率分布集合,用于衡量結(jié)點(diǎn)之間的依賴關(guān)系,其中π(xi)表示結(jié)點(diǎn)xi的父節(jié)點(diǎn)集合,表示先驗(yàn)知識(shí)。貝葉斯網(wǎng)約定任意結(jié)點(diǎn)的子節(jié)點(diǎn)與非子節(jié)點(diǎn)之間是條件獨(dú)立的,并且滿足d-分割[2]的結(jié)點(diǎn)都是條件獨(dú)立的,那么由貝葉斯概率的鏈規(guī)則(chain rule)有:

圖1 一個(gè)簡(jiǎn)單的貝葉斯網(wǎng)

這種由條件獨(dú)立性得到的鏈規(guī)則可以將聯(lián)合分布分解為若干個(gè)復(fù)雜度較低的概率分布的乘機(jī),使得模型的復(fù)雜度降低。例如,假設(shè)圖1中的變量都是布爾型的,,其中xi表示xi=true,表示xi=false。那么圖1中所有變量都取true的聯(lián)合分布概率可以這樣計(jì)算:

一般來說,描述圖1中8個(gè)點(diǎn)組成的聯(lián)合分布需要28-1=255個(gè)局部概率,而在貝葉斯網(wǎng)中,只需要計(jì)算21+23+22+21+1+22+1+1=23個(gè)局部概率,這就是所謂的條件概率表(CPT)。

2 貝葉斯網(wǎng)的學(xué)習(xí)

貝葉斯網(wǎng)的學(xué)習(xí)就是要尋找一種能夠按照某種測(cè)度最好地與給定實(shí)例數(shù)據(jù)集擬合的網(wǎng)絡(luò)結(jié)構(gòu),即尋找一個(gè)有向無環(huán)圖和一個(gè)與圖中每個(gè)結(jié)點(diǎn)相關(guān)的條件概率表。尋找有向無環(huán)圖稱為網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),獲取條件概率表稱為網(wǎng)絡(luò)參數(shù)學(xué)習(xí)。由于通過網(wǎng)絡(luò)結(jié)構(gòu)與數(shù)據(jù)集可以確定參數(shù),故網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)學(xué)習(xí)的核心。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)一般可分為兩類:基于獨(dú)立性檢測(cè)的方法和基于網(wǎng)絡(luò)質(zhì)量衡量的方法。

基于獨(dú)立性檢測(cè)的方法假設(shè)存在一個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)能夠完全的表示變量之間的依賴或者獨(dú)立性關(guān)系[3],使用給定的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)測(cè)試每一個(gè)依賴或者獨(dú)立性關(guān)系,其基本步驟為:

基于網(wǎng)絡(luò)質(zhì)量衡量的方法也稱為基于打分-搜索的方法,其基本思想是為可能的網(wǎng)絡(luò)結(jié)構(gòu)打分,通過得分衡量網(wǎng)絡(luò)的質(zhì)量,選擇質(zhì)量最好的結(jié)構(gòu)。這種方法需要為結(jié)構(gòu)打分的標(biāo)準(zhǔn)和搜索網(wǎng)絡(luò)結(jié)構(gòu)的方法。常用的打分標(biāo)準(zhǔn)有:貝葉斯標(biāo)準(zhǔn)[4]、MDL[5](最小描述長(zhǎng)度)標(biāo)準(zhǔn)、AIC標(biāo)準(zhǔn)和Entropy(熵)標(biāo)準(zhǔn)[6]等。使用窮舉法遍歷完全結(jié)構(gòu)空間是一個(gè)NP難度的問題[7],因此一般使用啟發(fā)式的搜索算法,常用的有K2算法、爬山法、模擬退火算法、禁忌搜索和遺傳算法等。基于網(wǎng)絡(luò)質(zhì)量衡量的偽代碼如下:

3 貝葉斯網(wǎng)推理

貝葉斯網(wǎng)推理就是在給定一個(gè)貝葉斯網(wǎng)模型的情況下,根據(jù)已知條件,利用貝葉斯概率中的條件概率的計(jì)算方法,計(jì)算出查詢結(jié)點(diǎn)概率[8]。在理論上由聯(lián)合分布可以推斷出任何在貝葉斯網(wǎng)絡(luò)中人們想知道的概率,根據(jù)局部概率分布可以得到聯(lián)合概率分布。貝葉斯網(wǎng)推理主要有三類問題:由原因推結(jié)論的后驗(yàn)概率問題、由結(jié)論推出原因的最大后驗(yàn)假設(shè)問題(MAP)和提供解釋以支持現(xiàn)象的最大可能假設(shè)問題(MPE)。

4 貝葉斯網(wǎng)與數(shù)據(jù)挖掘

貝葉斯網(wǎng)不僅可以表達(dá)不確定知識(shí),還能夠進(jìn)行概率推理。其學(xué)習(xí)算法能夠從大量的數(shù)據(jù)中自動(dòng)構(gòu)建網(wǎng)絡(luò),非常適合不確定知識(shí)的發(fā)現(xiàn)。貝葉斯網(wǎng)應(yīng)用于數(shù)據(jù)挖掘獨(dú)特地優(yōu)勢(shì):能挖掘出隱含性的知識(shí),具有良好的邏輯性和可理解性,極大地簡(jiǎn)化了概率的運(yùn)算,能夠進(jìn)行因果雙向推理。圖2是貝葉斯網(wǎng)應(yīng)用于數(shù)據(jù)挖掘的基本框架。

圖2 基于貝葉斯網(wǎng)的數(shù)據(jù)挖掘框架

使用貝葉斯網(wǎng)進(jìn)行數(shù)據(jù)挖掘一般按照三步進(jìn)行:首先確定變量集和變量域,這里要充分利用相關(guān)領(lǐng)域的專家知識(shí);然后構(gòu)建貝葉斯網(wǎng),確定網(wǎng)絡(luò)結(jié)構(gòu)和條件概率分布;最后計(jì)算查詢變量的概率。

為了說明貝葉斯網(wǎng)在數(shù)據(jù)挖掘中的計(jì)算方法,使用來自UCI 的Wisconsin BREAST_CANCER乳腺癌數(shù)據(jù)集[10]。數(shù)據(jù)集包含699個(gè)實(shí)例,每個(gè)實(shí)例有9個(gè)數(shù)值型的特征屬性和一個(gè)類屬性。使用這個(gè)數(shù)據(jù)集建立貝葉斯網(wǎng),挖掘各屬性之間的關(guān)系,推斷腫瘤是良性的(class=0)還是惡性的(class=1)。

針對(duì)BREAST_CANCER數(shù)據(jù)集,李光,張鳳斌等使用樸素貝葉斯法和K-Means算法進(jìn)行了分類挖掘[11],得出的結(jié)果如表1中的第2、3行所示。本文在WEKA3.7智能分析環(huán)境[9]下使用C4.5決策樹算法得到的結(jié)果如表1中第4行所示。將以上三種方法作為對(duì)比,本文使用貝葉斯網(wǎng)方法進(jìn)行挖掘。首先將數(shù)值型變量離散化,得到如表2所示的結(jié)果,接著使用基于MDL評(píng)分標(biāo)準(zhǔn)和局部衡量的K2搜索算法進(jìn)行,得到如圖3所示的貝葉斯網(wǎng)結(jié)構(gòu),經(jīng)過10重交叉驗(yàn)證,該模型精確度為94.2%。將四種方法得出的結(jié)果匯總?cè)氡?,可以看出:貝葉斯網(wǎng)方法精度優(yōu)于樸素貝葉斯算法和K-Means算法,與C4.5算法水平相當(dāng),其優(yōu)勢(shì)是輸出了反映變量依賴關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)。

表1 結(jié)果對(duì)比

表2 BREAST_CANCER數(shù)據(jù)集的屬性和值域

圖3 由數(shù)據(jù)集構(gòu)建的貝葉斯網(wǎng)

從得到的貝葉斯網(wǎng)可以挖掘出一些有用的信息,如屬性clump_thickness、cell_ shape_uniformity、bland_chromatin與其他屬性依賴關(guān)系數(shù)量最多,可能是識(shí)別腫瘤細(xì)胞的重要特征,需要密切關(guān)注;沒有連線的屬性之間不存在依賴關(guān)系(如cell_size_ uniformity與bare_nuclei),它們的變化可能是由不同的因素引起的,需要區(qū)別研究等,這些信息將為腫瘤細(xì)胞狀態(tài)的推斷和病情研究提供輔助。

需要注意的是,同一個(gè)問題可能建立起不同的貝葉斯網(wǎng),但描述的是來自于同一個(gè)聯(lián)合概率分布,這是由于聯(lián)合概率分布被分解為條件概率分布而產(chǎn)生的。通過機(jī)器學(xué)習(xí)得到的網(wǎng)絡(luò)中有向邊代表依賴關(guān)系,因果關(guān)系只是依賴關(guān)系中的一部分。

5 結(jié)語(yǔ)

貝葉斯網(wǎng)是結(jié)合概率、統(tǒng)計(jì)和圖論發(fā)展起來的,有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),是研究復(fù)雜系統(tǒng)的不確定性和數(shù)據(jù)分析的一種有效工具。貝葉斯網(wǎng)應(yīng)用于數(shù)據(jù)挖掘,能夠發(fā)現(xiàn)出數(shù)據(jù)的內(nèi)在本質(zhì),在許多領(lǐng)域應(yīng)用并取得了很好地效果,將在數(shù)據(jù)挖掘領(lǐng)域發(fā)揮愈加重要的作用。

[1] 劉偉娜,霍利民,張立國(guó).貝葉斯網(wǎng)絡(luò)精確推理算法的研究[J].微計(jì)算機(jī)信息,2006.3-2:92~94

[2] 張連文,郭海鵬.貝葉斯網(wǎng)引論.[M] 北京:科學(xué)出版社,2006:67~69

[3] Chen J, Bell D, Liu W.Learning Bayesian networks from data: An efficient approach based on information theory [J].Artificial Intelligence, 2002, 137(1-2), pp.43~90.

[4] David Heckerman.A tutorial on learning Bayesian networks.Technical ReportMSR-TR-95-06, Microsoft Research, 1996.

[5] Suzuki J.Learning Bayesian Belief networks Based on the Minimum Description Length Principle: Basic Properties.IEEE Transactions on fundamentals, 1999, E82-A (9), pp.2237~2245.

[6] Cooper G F, Herskovits E A.A Bayesian method for the induction of probabilistic networks from data[J].Machine Learning, 1992, 9(4), pp.309~347.

[7] Cooper G.Computational complexity of probabilistic inference using Bayesian belief networks.[J].Artificial Intelligence, 1990, 42(2-3), pp.393~405.

[8] 董立巖,苑森淼等.基于預(yù)測(cè)能力的連續(xù)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(9),pp.23~24

[9] Ian H.Witten, Eibe Frank, Mark A.Hall.Data Mining Practical Machine Learning Tools and Techniques.[M] 3rd Edition.2010, pp.262~273

[10] K.P.Bennett, O.L.Mangasarian: "Robust linear programming discrimination of two linearly inseparable sets".[J].Optimization Methods and Software 1, 1992, 23~34 (Gordon & Breach Science Publishers).

[11] 李光,張鳳斌.基于樹突狀細(xì)胞算法的分類方法研究[M].電腦知識(shí)與技術(shù),2010, 6(31), pp.8798~8800

A

TP391.4

10.3969/j.issn.1001-8972.2012.13.050

李強(qiáng)(1987-),男,碩士研究生 ,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,信息。

猜你喜歡
數(shù)據(jù)挖掘方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
學(xué)習(xí)方法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 亚洲毛片网站| 久热这里只有精品6| 久久国产精品嫖妓| 毛片一区二区在线看| 亚洲欧洲综合| 超薄丝袜足j国产在线视频| 丁香六月激情婷婷| 日韩欧美国产另类| 99激情网| 超碰aⅴ人人做人人爽欧美 | 日韩成人在线一区二区| a级毛片视频免费观看| 国产精品偷伦在线观看| 丰满人妻一区二区三区视频| 天堂亚洲网| 精品国产欧美精品v| 五月激情婷婷综合| 91久久国产热精品免费| 欧美日韩国产系列在线观看| 久久精品只有这里有| 女人18毛片一级毛片在线| 午夜少妇精品视频小电影| 91福利一区二区三区| 国产激爽大片高清在线观看| 久久99国产综合精品女同| 欧美一区精品| 久久这里只有精品国产99| 91小视频在线| 亚洲欧美自拍视频| 亚洲国产精品日韩av专区| 日韩成人高清无码| 国产91麻豆免费观看| 免费网站成人亚洲| 国产理论最新国产精品视频| 毛片免费高清免费| 成人精品视频一区二区在线| 国产精品成人啪精品视频| 91精品国产一区| 成人韩免费网站| 国产视频久久久久| 亚洲专区一区二区在线观看| 亚洲日本在线免费观看| 国产精品嫩草影院视频| 免费一级α片在线观看| 亚洲一道AV无码午夜福利| 日韩国产无码一区| 在线看免费无码av天堂的| 午夜福利视频一区| 欧美成在线视频| 国产熟睡乱子伦视频网站| 国产欧美又粗又猛又爽老| 国产日韩丝袜一二三区| 国内精品小视频在线| 成人福利在线免费观看| 免费xxxxx在线观看网站| 999国产精品| 麻豆精品国产自产在线| 一级一级一片免费| 性色一区| 国产成人精彩在线视频50| 97在线公开视频| 久草视频精品| 国产精品亚洲а∨天堂免下载| 波多野一区| 免费看a级毛片| av午夜福利一片免费看| 在线毛片免费| 在线观看免费国产| 成人一区在线| 怡红院美国分院一区二区| 亚洲乱亚洲乱妇24p| 色妞www精品视频一级下载| 日韩一区精品视频一区二区| 国产一区二区三区在线精品专区| 精品无码日韩国产不卡av| 性视频一区| 日本五区在线不卡精品| 91精品亚洲| 亚洲美女高潮久久久久久久| 亚洲国产在一区二区三区| 一级毛片网| 欧美成人手机在线观看网址|