999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樣本-屬性加權的樸素貝葉斯改進算法

2014-07-25 07:43:54曾文賦福建省福州第一中學福建福州350001
網絡安全與數據管理 2014年6期
關鍵詞:分類

曾文賦(福建省福州第一中學,福建 福州350001)

分類是通過分析訓練數據樣本,生成分類函數或模型,通過模型將數據庫中的數據映射到某一類別中,產生數據關于類別的精確描述。

樸素貝葉斯算法作為一種最簡單、有效且在實際使用中很成功的分類算法,其性能可與神經網絡、決策樹相媲美[1]。它發源于古典數學理論,具有堅實的理論基礎,與其他方法相比有較小的誤差率,并廣泛應用于數據挖掘、自然語言處理、醫療研究等眾多領域。例如,潘志方提出一種可根據用戶的網頁訪問記錄和網上交易記錄來動態地對顧客進行分類的方法[2];劉青[3]等通過不斷改變EM算法的收斂初始條件以提高收斂效果,并結合樸素貝葉斯分類方法對未標記的中文網頁進行分類;張麗偉[4]等用遺傳算法對樸素貝葉斯分類算法進行改進,使之能夠較好地鑒別診斷病患所屬的癥候,比較分析改進前后的識別效率。

樸素貝葉斯算法主要通過假設待考查的變量遵循某種概率分布,根據這些概率和已觀測到的數據進行推理,作出最優決策。算法基于條件獨立性假設,即假定特征向量的各分量間相對于決策變量相對獨立,然而在實際應用中該假設并不現實,從而影響其分類性能。

1 樸素貝葉斯算法描述

設每個數據具有k個屬性,用向量a=[a1,a2,…,ak]描述, 其中a1,a2,…,ak分別表示樣本在屬性A1,A2,…,Ak上的值。假設數據有m個類,分別用V1,V2,…,Vm來表示。給定一個樣本,可得到最可能的目標值如下:

對一個未知數據樣本x=[x1,x2,…,xk],由貝葉斯定理得:

結合貝葉斯定理、條件獨立假設和P(x)對所有類均為常數,可判斷x的類別如下:

綜上,根據樸素貝葉斯算法,對于一個未分類的樣本x,只需分別計算出P(Vj)和 x屬于類別Vj的先驗概率P(x|Vj),再選出式(3)中概率最大的那個類即為x的類別。

2 改進策略及算法描述

由于樸素貝葉斯算法假設數據遵循某種概率分布,認為條件屬性對決策屬性的重要程度均相同且須滿足條件獨立性假設等,這些都會影響其在實際應用中的分類性能。在實際應用中,不同屬性對分類影響的效果是不同的,故改進算法中考慮對不同的屬性給予不同的權值,定義屬性權刻畫條件屬性對決策屬性的重要性,以克服條件獨立性假設的缺陷,從而擴展樸素貝葉斯算法;同時,通過屬性權結合信息熵獲得樣本熵權,對原始數據樣本進行修正,提高算法的泛化能力。

2.1 屬性權計算

訓練數據集由條件屬性和決策屬性來描述[5],對不同的條件屬性進行加權,通過計算條件屬性和決策屬性間的相關系數表示兩者間的相關度,得到屬性權WA。

假設X=(X1,X2,…,Xk)表示k個條件屬性,Y表示決策屬性。計算Xi和Y的相關系數如下:

其中 Cov(Xi,Y)為Xi和Y的協方差,D(Xi)、D(Y)分別為Xi和Y的方差。可知,屬性權WAi的值越大,表示第i個條件屬性對分類的影響越大。

2.2 樣本熵權計算

信息熵由香農所提出[6],用來度量不確定的信息量(隨機性)的大小,故計算信息熵等價于確定隨機變量的分布。假設一個數據樣本x=(x1,x2,…,xk),結合信息熵和2.1節中所定義的屬性權計算樣本熵權如下:

通過結合屬性權和信息熵定義樣本熵權WS(x),融合屬性信息修正原始數據樣本以提高泛化能力。

2.3 樣本-屬性加權的樸素貝葉斯算法描述

設數據集X中包含n個數據樣本,每個數據樣本具有k個屬性,第i個樣本可表示為Xi=(Xi1,Xi2,…,Xik),i=1,2,…,n。X中含有m個類,用V1,V2,…,Vm來表示。樣本-屬性加權的樸素貝葉斯算法步驟描述如下:

(1)對原始數據集X中的屬性,由 2.1節計算出屬性權 WA;

(2)對原始數據集X中的每個樣本,由2.2節計算出樣本熵權,記為WS;

(3)利用步驟(2)中計算獲得的已融合屬性信息的樣本熵權WS,對數據集X進行加權,得到修正后的數據集X′,使得X′相比于X具有更好的泛化能力;

(4)對修正后的數據集X′,使用式(6)的加權樸素貝葉斯分類模型進行分類,得到分類結果:

其中P(Vj)和P(xi|Vj)可由修正后數據集X′中獲得,加權樸素貝葉斯分類模型的加權因子WAi即為步驟(1)中計算獲得的屬性權。

3 實驗結果與分析

實驗數據采用UCI機器學習數據庫中的16個數據集,在Matlab開發環境中完成調試,對各個數據集分別使用樸素貝葉斯算法和樣本-屬性加權的樸素貝葉斯算法采用十折交叉驗證方式比較其分類性能。

表1列出了實驗所使用的各個數據集名、樣本數、屬性數和兩種算法分類的準確率。

表1 數據集信息及兩種算法比較

由上表可知,改進算法在實驗中所使用的12個數據集分類準確率與樸素貝葉斯算法相比均有不同程度的提高;且在兩個數據集上準確率相同;另外,有兩個數據集的準確率低于樸素貝葉斯算法??傮w上看,樣本-屬性加權的樸素貝葉斯算法與樸素貝葉斯算法相比具有更好的分類性能。

本文對樸素貝葉斯算法進行改進,給出了樣本-屬性加權的樸素貝葉斯算法,在UCI數據集上進行實驗,驗證了改進算法相比于原算法具有更好的分類性能。

[1]LANGLEY P,IBA W,THOMPSON K.An analysis of Bayesian classifiers[C].In:Proc of the 10th National Conference on Artificial Intelligence.MenloPark:AAA I Press,1992:223-228.

[2]潘志方.基于樸素貝葉斯學習的電子商務網站客戶興趣分類的應用研究[J].計算機科學,2007,34(6):214-215,222.

[3]劉青,何政.結合EM算法的樸素貝葉斯方法在中文網頁分類上的應用[J].計算機工程與科學,2005,27(7):65-66,90.

[4]張麗偉,段禪倫,熊志偉,等.樸素貝葉斯方法在中醫證候分類識別中的應用研究[J].內蒙古大學學報,2007,38(5):568-571.

[5]宮秀軍,劉少輝,史忠植.一種增量貝葉斯分類模型[J].計算機學報,2002,25(6):645-650.

[6]Zhang Jiguo,Zhu Yongzhong.Information entropy measures for fuzziness[J].Journal of Hohai University Changzhou,2001,15(4):16-21.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 无码日韩精品91超碰| 波多野结衣国产精品| 99久久精品免费看国产免费软件 | 亚洲色成人www在线观看| 午夜久久影院| 欧美成在线视频| 国产精品网址你懂的| 毛片最新网址| 国产精品观看视频免费完整版| 亚洲综合网在线观看| 国产激情无码一区二区免费| 亚洲一级毛片在线观播放| 99精品免费欧美成人小视频| 中文无码毛片又爽又刺激| 99这里精品| 美女被狂躁www在线观看| 亚洲无码视频一区二区三区| 无码人中文字幕| 国产精品免费p区| 在线精品亚洲一区二区古装| 黄色免费在线网址| 久久国产亚洲偷自| 国产精品无码AV中文| 喷潮白浆直流在线播放| 国产流白浆视频| 无码人妻热线精品视频| 国产美女在线观看| 午夜免费视频网站| 日韩欧美国产中文| 日韩在线2020专区| 精品精品国产高清A毛片| 72种姿势欧美久久久大黄蕉| 日韩av无码精品专区| 狠狠躁天天躁夜夜躁婷婷| 亚洲天堂网在线视频| 激情综合网址| 成人亚洲国产| 伊人丁香五月天久久综合| 精品少妇三级亚洲| 色婷婷亚洲十月十月色天| 伊人五月丁香综合AⅤ| 囯产av无码片毛片一级| 欧美成人怡春院在线激情| 无码综合天天久久综合网| 性激烈欧美三级在线播放| 国产成人亚洲无码淙合青草| www.亚洲一区二区三区| 国产美女人喷水在线观看| 久久久久亚洲精品成人网| 99九九成人免费视频精品 | 伊人久热这里只有精品视频99| 国产在线小视频| 精品久久久久久成人AV| 91精品国产福利| 亚洲伊人天堂| av大片在线无码免费| 亚洲国产成人精品一二区| 久久精品aⅴ无码中文字幕 | 久久久久亚洲Av片无码观看| 国产日韩欧美在线播放| 国产H片无码不卡在线视频 | 成人免费午间影院在线观看| 亚洲第一在线播放| 国产探花在线视频| 亚洲av日韩综合一区尤物| 久久久久九九精品影院 | 欧美日韩成人在线观看| 97国产成人无码精品久久久| 亚洲女人在线| 国产女人18毛片水真多1| 日韩欧美中文字幕在线精品| 综合网久久| 最新痴汉在线无码AV| 日本在线亚洲| 国产精彩视频在线观看| 最新亚洲av女人的天堂| 97se综合| 91网址在线播放| 少妇被粗大的猛烈进出免费视频| 国产精品视频第一专区| 无码福利日韩神码福利片| 国产精品爽爽va在线无码观看|