999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樣本-屬性加權的樸素貝葉斯改進算法

2014-07-25 07:43:54曾文賦福建省福州第一中學福建福州350001
網絡安全與數據管理 2014年6期
關鍵詞:分類

曾文賦(福建省福州第一中學,福建 福州350001)

分類是通過分析訓練數據樣本,生成分類函數或模型,通過模型將數據庫中的數據映射到某一類別中,產生數據關于類別的精確描述。

樸素貝葉斯算法作為一種最簡單、有效且在實際使用中很成功的分類算法,其性能可與神經網絡、決策樹相媲美[1]。它發源于古典數學理論,具有堅實的理論基礎,與其他方法相比有較小的誤差率,并廣泛應用于數據挖掘、自然語言處理、醫療研究等眾多領域。例如,潘志方提出一種可根據用戶的網頁訪問記錄和網上交易記錄來動態地對顧客進行分類的方法[2];劉青[3]等通過不斷改變EM算法的收斂初始條件以提高收斂效果,并結合樸素貝葉斯分類方法對未標記的中文網頁進行分類;張麗偉[4]等用遺傳算法對樸素貝葉斯分類算法進行改進,使之能夠較好地鑒別診斷病患所屬的癥候,比較分析改進前后的識別效率。

樸素貝葉斯算法主要通過假設待考查的變量遵循某種概率分布,根據這些概率和已觀測到的數據進行推理,作出最優決策。算法基于條件獨立性假設,即假定特征向量的各分量間相對于決策變量相對獨立,然而在實際應用中該假設并不現實,從而影響其分類性能。

1 樸素貝葉斯算法描述

設每個數據具有k個屬性,用向量a=[a1,a2,…,ak]描述, 其中a1,a2,…,ak分別表示樣本在屬性A1,A2,…,Ak上的值。假設數據有m個類,分別用V1,V2,…,Vm來表示。給定一個樣本,可得到最可能的目標值如下:

對一個未知數據樣本x=[x1,x2,…,xk],由貝葉斯定理得:

結合貝葉斯定理、條件獨立假設和P(x)對所有類均為常數,可判斷x的類別如下:

綜上,根據樸素貝葉斯算法,對于一個未分類的樣本x,只需分別計算出P(Vj)和 x屬于類別Vj的先驗概率P(x|Vj),再選出式(3)中概率最大的那個類即為x的類別。

2 改進策略及算法描述

由于樸素貝葉斯算法假設數據遵循某種概率分布,認為條件屬性對決策屬性的重要程度均相同且須滿足條件獨立性假設等,這些都會影響其在實際應用中的分類性能。在實際應用中,不同屬性對分類影響的效果是不同的,故改進算法中考慮對不同的屬性給予不同的權值,定義屬性權刻畫條件屬性對決策屬性的重要性,以克服條件獨立性假設的缺陷,從而擴展樸素貝葉斯算法;同時,通過屬性權結合信息熵獲得樣本熵權,對原始數據樣本進行修正,提高算法的泛化能力。

2.1 屬性權計算

訓練數據集由條件屬性和決策屬性來描述[5],對不同的條件屬性進行加權,通過計算條件屬性和決策屬性間的相關系數表示兩者間的相關度,得到屬性權WA。

假設X=(X1,X2,…,Xk)表示k個條件屬性,Y表示決策屬性。計算Xi和Y的相關系數如下:

其中 Cov(Xi,Y)為Xi和Y的協方差,D(Xi)、D(Y)分別為Xi和Y的方差。可知,屬性權WAi的值越大,表示第i個條件屬性對分類的影響越大。

2.2 樣本熵權計算

信息熵由香農所提出[6],用來度量不確定的信息量(隨機性)的大小,故計算信息熵等價于確定隨機變量的分布。假設一個數據樣本x=(x1,x2,…,xk),結合信息熵和2.1節中所定義的屬性權計算樣本熵權如下:

通過結合屬性權和信息熵定義樣本熵權WS(x),融合屬性信息修正原始數據樣本以提高泛化能力。

2.3 樣本-屬性加權的樸素貝葉斯算法描述

設數據集X中包含n個數據樣本,每個數據樣本具有k個屬性,第i個樣本可表示為Xi=(Xi1,Xi2,…,Xik),i=1,2,…,n。X中含有m個類,用V1,V2,…,Vm來表示。樣本-屬性加權的樸素貝葉斯算法步驟描述如下:

(1)對原始數據集X中的屬性,由 2.1節計算出屬性權 WA;

(2)對原始數據集X中的每個樣本,由2.2節計算出樣本熵權,記為WS;

(3)利用步驟(2)中計算獲得的已融合屬性信息的樣本熵權WS,對數據集X進行加權,得到修正后的數據集X′,使得X′相比于X具有更好的泛化能力;

(4)對修正后的數據集X′,使用式(6)的加權樸素貝葉斯分類模型進行分類,得到分類結果:

其中P(Vj)和P(xi|Vj)可由修正后數據集X′中獲得,加權樸素貝葉斯分類模型的加權因子WAi即為步驟(1)中計算獲得的屬性權。

3 實驗結果與分析

實驗數據采用UCI機器學習數據庫中的16個數據集,在Matlab開發環境中完成調試,對各個數據集分別使用樸素貝葉斯算法和樣本-屬性加權的樸素貝葉斯算法采用十折交叉驗證方式比較其分類性能。

表1列出了實驗所使用的各個數據集名、樣本數、屬性數和兩種算法分類的準確率。

表1 數據集信息及兩種算法比較

由上表可知,改進算法在實驗中所使用的12個數據集分類準確率與樸素貝葉斯算法相比均有不同程度的提高;且在兩個數據集上準確率相同;另外,有兩個數據集的準確率低于樸素貝葉斯算法??傮w上看,樣本-屬性加權的樸素貝葉斯算法與樸素貝葉斯算法相比具有更好的分類性能。

本文對樸素貝葉斯算法進行改進,給出了樣本-屬性加權的樸素貝葉斯算法,在UCI數據集上進行實驗,驗證了改進算法相比于原算法具有更好的分類性能。

[1]LANGLEY P,IBA W,THOMPSON K.An analysis of Bayesian classifiers[C].In:Proc of the 10th National Conference on Artificial Intelligence.MenloPark:AAA I Press,1992:223-228.

[2]潘志方.基于樸素貝葉斯學習的電子商務網站客戶興趣分類的應用研究[J].計算機科學,2007,34(6):214-215,222.

[3]劉青,何政.結合EM算法的樸素貝葉斯方法在中文網頁分類上的應用[J].計算機工程與科學,2005,27(7):65-66,90.

[4]張麗偉,段禪倫,熊志偉,等.樸素貝葉斯方法在中醫證候分類識別中的應用研究[J].內蒙古大學學報,2007,38(5):568-571.

[5]宮秀軍,劉少輝,史忠植.一種增量貝葉斯分類模型[J].計算機學報,2002,25(6):645-650.

[6]Zhang Jiguo,Zhu Yongzhong.Information entropy measures for fuzziness[J].Journal of Hohai University Changzhou,2001,15(4):16-21.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 九九热这里只有国产精品| 一区二区三区在线不卡免费| 综合色88| 一级毛片在线播放免费| 亚洲a级毛片| 中文字幕人成人乱码亚洲电影| 91无码人妻精品一区二区蜜桃| 国产系列在线| 日韩精品成人在线| 婷婷色中文| 国产黑丝一区| a级毛片毛片免费观看久潮| 亚洲资源站av无码网址| 国产午夜精品鲁丝片| 精品免费在线视频| 五月婷婷精品| 国产在线麻豆波多野结衣| 一区二区偷拍美女撒尿视频| 亚洲水蜜桃久久综合网站| 国产精品福利一区二区久久| 久久久精品无码一区二区三区| 国产一区二区人大臿蕉香蕉| 久久不卡精品| 亚洲天堂视频网| 久久9966精品国产免费| 一本大道香蕉高清久久| 中文字幕在线播放不卡| 亚洲男人的天堂久久香蕉 | 成人欧美日韩| 国产免费久久精品99re不卡| 欧美一级在线| 国产免费怡红院视频| 免费毛片全部不收费的| 亚洲国产精品无码AV| 亚洲无码37.| 婷婷久久综合九色综合88| 国产肉感大码AV无码| 精品国产成人av免费| 免费观看国产小粉嫩喷水| 中文字幕资源站| 理论片一区| 国产99视频在线| 黄色片中文字幕| 国产情侣一区二区三区| 日韩二区三区| 亚洲人成日本在线观看| 伊人色婷婷| 国产精品一区二区不卡的视频| 欧美伦理一区| 激情无码视频在线看| 全裸无码专区| 婷婷六月综合网| 99中文字幕亚洲一区二区| 国产无吗一区二区三区在线欢| 欧洲在线免费视频| 欧美精品三级在线| 久久亚洲欧美综合| 日韩成人在线视频| 国产在线观看99| 无码'专区第一页| 九色最新网址| 日本午夜三级| 亚洲国产看片基地久久1024| 亚洲无码视频喷水| 久久特级毛片| 日韩一区二区在线电影| 日韩精品无码免费专网站| 精品久久国产综合精麻豆 | 欧美日韩免费在线视频| 日韩A∨精品日韩精品无码| 亚洲成a人片在线观看88| 精品一区二区三区视频免费观看| 亚洲av无码成人专区| 91蝌蚪视频在线观看| 综合五月天网| 99久久精品美女高潮喷水| 国产高清不卡| 伊人久久久久久久久久| 亚洲无码一区在线观看| 国产精品久久久久鬼色| 亚洲不卡网| 国产精品成人AⅤ在线一二三四|