999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于屬性值加權(quán)的隱樸素貝葉斯算法

2018-05-11 06:17:53,
關鍵詞:分類特征

,

(山東科技大學 數(shù)學與系統(tǒng)科學學院,山東 青島 266590)

貝葉斯網(wǎng)絡(Bayesian networks, BN)源于概率統(tǒng)計學,作為機器學習的重要方法受到了廣泛的關注[1]。在無限制條件下學習最優(yōu)的BN網(wǎng)絡結(jié)構(gòu)是一個NP難問題,所以GREGOR[2]建議在一定的限制條件下尋找最優(yōu)的BN網(wǎng)絡結(jié)構(gòu),而樸素貝葉斯(Naive Bayes,NB)分類算法是一個很好的解決思路。樸素貝葉斯分類算法是一種以概率密度分析為基礎,根據(jù)已知事件來預測未知事件發(fā)生可能性的分類算法[3],具有易于實現(xiàn)、計算速度快和分類精確率高的特點,但是當其特征屬性條件獨立這一假設在一些數(shù)據(jù)集上被違背時,其分類精確率會降低。因此學者們紛紛通過放松NB算法的假設條件,提出了許多更加優(yōu)化的改進算法,如樹擴展的樸素貝葉斯(tree-augmented Naive Bayes,TAN)算法[4]、平均單一依賴估計(averaged one-dependence estimators, AODE)算法[5]和隱樸素貝葉斯算法[6]等。

其中HNB算法具有分類效率高,計算速度快的特點,且因其給訓練集中的每一個特征屬性虛構(gòu)了一個隱藏的父屬性,這個隱藏的父屬性是由其他所有特征屬性共同作用產(chǎn)生的,所以HNB算法極大的放松了樸素貝葉斯分類算法的假設條件,使HNB算法能夠在更多的不同種類的數(shù)據(jù)集上均有較好的分類表現(xiàn)。

但HNB算法提出的構(gòu)建隱藏父屬性的方法太過簡單,無法詳細地描述訓練集中各屬性間的相互依賴關系,針對這個問題,許多學者又提出了一些改進的HNB算法。李晶輝[7]提出了雙層隱樸素貝葉斯分類(Double-layer Hidden Naive Bayes Classification, DHNBC)算法,該算法在HNB算法的基礎上為每個特征屬性多引入一個隱藏父屬性,表示其他屬性與該特征屬性相關程度的加權(quán)和,其中權(quán)值的大小為屬性間的條件互信息值。杜婷[8]提出加權(quán)隱樸素貝葉斯分類(weighted hidden Naive Bayes classification, WHNBC)算法,該算法利用KL距離和分裂信息的屬性權(quán)值計算公式來構(gòu)造相應的加權(quán)公式,設計了一個改進的HNB算法。

上述關于HNB的改進算法均是從特征屬性出發(fā),而實際上特征屬性的不同取值對分類的貢獻程度也是不同的[9]。在分類階段,HNB算法沒有考慮測試實例的特征屬性不同的取值對分類的貢獻程度,這在一定程度上限制了其表現(xiàn)。針對這個問題,本研究提出利用訓練集中的相應特征屬性值的統(tǒng)計信息來構(gòu)建加權(quán)函數(shù),在分類階段計算每個測試實例的特征屬性在取不同屬性值時對分類的貢獻程度,并把計算結(jié)果作為權(quán)重,對HNB算法中用到的條件概率計算公式加權(quán),得到基于屬性值加權(quán)的隱樸素貝葉斯(attribute value weighting for Hidden Naive Bayes,AVWHNB)算法,然后通過實驗驗證AVWHNB算法較原始的HNB算法在分類精確率方面有很大的提高。

1 基于屬性值加權(quán)的隱樸素貝葉斯算法

構(gòu)建樸素貝葉斯分類器是一個利用給定類標記的訓練集構(gòu)建分類器的過程,其中訓練集定義為D={X(1),X(2),…,X(t)},包含t個訓練實例。假設Ai(i=1,2,…,n)是訓練集中的n個特征屬性,并且假定訓練集中有m個類標記,記為C={c1,c2,…,cm},給定一個具體的測試實例X=(a1,a2,…,an),這里ai就是特征屬性Ai的取值,則可以依據(jù)公式(1)來判斷測試實例X的類標記。

(1)

HNB算法是結(jié)構(gòu)擴展后的NB改進算法,針對訓練集中的每一個特征屬性Ai,給其構(gòu)建一個隱藏的父屬性Ahpi,并且Ahpi是由除了特征屬性Ai之外的其他所有的特征屬性共同作用產(chǎn)生的,ahpi為Ahpi的取值。由此得到HNB算法的分類公式

(2)

本節(jié)中將要介紹的AVWHNB算法即是在HNB算法的基礎上得到的。

1.1 AVWHNB算法介紹

由公式(2)可以看出,在分類階段,HNB算法把每個測試實例的特征屬性的各個不同取值對分類的貢獻看成是一樣的,這在一定程度上限制了HNB算法的分類精確度。針對這一問題,構(gòu)建加權(quán)函數(shù)wijk對公式(2)中的條件概率計算公式進行加權(quán),得到AVWHNB算法。其中wijk的計算公式如式(3)所示。

(3)

(4)

式(4)中的Wij可由式(5)求得。

(5)

式(5)中的Ip(Ai;AjC)可由式(6)求得。

(6)

公式(6)表示的是訓練集中兩個特征屬性的條件互信息值。

1.2 AVWHNB算法步驟

結(jié)合1.1節(jié)中的內(nèi)容,本節(jié)給出AVWHNB算法對一個測試實例X=(a1,a2,…,an)的具體分類步驟,如表1所示。

表1 AVWHNB算法步驟Tab.1 Steps of AVWHNB algorithm

在實驗時需要計算P(ck)、P(ajck)和P(aiaj,ck)的值。為了避免零概率估計對實驗的影響,采用拉普拉斯平滑對上述的概率公式進行估計,其具體的公式[10]為:

(7)

(8)

(9)

在實驗前需要對訓練集中的數(shù)據(jù)做如下的預處理:

1) 把訓練集中各訓練實例的缺失特征屬性值補齊,使用的是weka中的無監(jiān)督過濾器Replace Missing Values;

2) 把訓練集中各訓練實例的數(shù)值型特征屬性值離散化,使用的是weka中的無監(jiān)督過濾器Discretization;

3) 把訓練集中無用的特征屬性刪除,使用的是weka中的無監(jiān)督過濾器Remove;

4) 把訓練集中類標記缺失的訓練實例刪除,使用的是weka中Instances類下的方法delete with Missing Class。

表1中的第一步為分類器構(gòu)建過程的訓練階段,第二步和第三步為分類構(gòu)建過程的分類階段。第三步中主要是利用公式(4)來判斷測試實例X屬于哪個類標記,公式(4)得到的結(jié)果可以解釋為:在設計的公式中,測試實例屬于這個類標記的概率最大。

2 實驗分析

本節(jié)對NB算法、AODE算法、HNB算法和AVWHNB算法進行分類實驗,實驗采用的數(shù)據(jù)是UCI標準數(shù)據(jù)集,數(shù)據(jù)集的具體描述如表2所示[11]。編程使用Java語言和Weka軟件中的core.jar算法包,使用的實驗平臺為Eclipse,運行程序時的電腦配置為:處理器為AMD Phenom(tm)II P920,內(nèi)存大小為2 GB。

表2 訓練集數(shù)據(jù)描述Tab.2 Training set data description

實驗采用的是十折交叉驗證的方法。十折交叉驗證指的是將一個原始訓練數(shù)據(jù)集平分成10份,進行10次實驗,每一次都是將這10份數(shù)據(jù)中的1份作測試集、9份做訓練集,10次實驗結(jié)果的平均值為最終的結(jié)果[12]。在上面的準備工作后,通過數(shù)值實驗得到了NB、AODE、HNB和AVWHNB算法的分類精確率,如表3所示。

表3 各算法分類精確率對比Tab.3 Classification accuracy comparison of different algorithms %

對比這4個算法在每一個訓練集上的表現(xiàn)得到表4。

表4 各算法在每個數(shù)據(jù)集上的分類精確率對比Tab.4 Classification accuracy comparison of different algorithms at each dataset

對比上述4個算法的時間復雜度得到表5。

表5 各算法時間復雜度對比Tab.5 Time complexity comparison of different algorithms

在表5中,m是類標記的種類數(shù),n是特征屬性的數(shù)目,v是一個特征屬性的各個屬性值的平均數(shù)目,t是訓練集中訓練實例的數(shù)目[13]。

由表3可知AVWHNB算法的平均分類精確率大于NB算法、AODE算法和HNB算法。由表4看出AVWHNB算法分類效果好的數(shù)據(jù)集數(shù)目多于NB、AODE和HNB算法。由表5可以看出AVWHNB算法的訓練時間、分類時間和HNB算法相同,即AVWHNB算法的時間復雜度和HNB算法相同。綜合上面的分析可知,AVWHNB算法在提高分類精確率的同時并未增加算法的時間復雜度,這充分說明了AVWHNB算法的分類效果比HNB算法好。

從表3和表4的數(shù)據(jù)中可以看出AVWHNB算法也存在著一些不足。首先,當數(shù)據(jù)集中各特征屬性間的關聯(lián)程度較弱[14]時,其在某些數(shù)據(jù)集上的表現(xiàn)不如NB算法。其次,在某些數(shù)據(jù)集上的表現(xiàn)不如原始HNB算法說明AVWHNB算法的穩(wěn)定性有待提高。針對上述問題,在分類中常用的多分類器思想是一個很好的解決辦法,而針對于多個分類器的輸出,則可以用投票機制來進行綜合以給出最終的分類結(jié)果[15-16]。

4 結(jié)束語

本研究提出的AVWHNB算法為一種改進的HNB算法,其核心思想是利用構(gòu)建的加權(quán)函數(shù)計算各個特征屬性值對分類的貢獻程度,并將得到的結(jié)果對HNB算法中用到的條件概率計算公式加權(quán)來改進HNB算法,然后通過實驗對比了AVWHNB、HNB、NB和AODE算法的平均分類精確率、在每個數(shù)據(jù)集上的分類精確率和時間復雜度,結(jié)果顯示AVWHNB算法的整體分類效果要優(yōu)于原始的HNB算法。

雖然AVWHNB算法的整體分類效果要優(yōu)于HNB算法,但在對比每個數(shù)據(jù)集上的分類效果時,AVWHNB算法分類效果好的數(shù)據(jù)集的數(shù)目只是略高于HNB算法,這說明改進的算法還是不夠穩(wěn)定,所以在以后的研究中,可以將特征屬性值加權(quán)和特征屬性加權(quán)相結(jié)合,并借鑒AODE算法聚合分類器的思想。具體的思路是:先找到一個合適的方法來判斷數(shù)據(jù)集中各個特征屬性的關聯(lián)程度。然后設置一個閾值,當關聯(lián)程度低于這個閾值時可以使用NB算法來對數(shù)據(jù)集進行分類,而當關聯(lián)程度高于這個閾值時可以采用AVWHNB算法對數(shù)據(jù)集進行分類。對于這兩類分類器,在每一類上均可以設置多個分類器,在具體分類時可采用某種方法將原始數(shù)據(jù)集分成若干份,每一份數(shù)據(jù)都由一個分類器來處理。最后用投票機制綜合多個分類器的分類結(jié)果來確定測試實例的類標記。經(jīng)過上述處理,理論上可以得到分類效果好且穩(wěn)定的HNB改進算法。

參考文獻:

[1]秦鋒,任詩流,程澤凱,等.基于屬性加權(quán)的樸素貝葉斯分類算法[J].計算機工程與應用,2008,44(6):107-109.

QIN Feng,REN Shiliu,CHENG Zekai,et al.Attribute weighted Naive Bayes classification[J].Computer Engineering and Applications,2008,44(6):107-109.

[2]GREGORY F C.The computational complexity of probabilistic inference using Bayesian belief networks[J].Artificial Intelligence,1990,42(2/3):393-405.

[3]王輝,黃自威,劉淑芬.新型加權(quán)粗糙樸素貝葉斯算法及其應用研究[J].計算機應用研究,2015,32(12):3668-3672.

WANG Hui,HUANG Ziwei,LIU Shufen.Novel weighted rough naive Bayes algorithm and its application[J].Application Research of Computers,2015,32(12):3668-3672.

[4]FRIEDMAN N,GEIGER D,GOLDSZMIDT M.Bayesian network classifiers[J].Machine Learning,1997,29:131-163.

[5]GEOFFREY I W,JANICE R B,WANG Z H.Not so Naive Bayes:Aggregating one-dependence estimators[J].Machine Learning,2005,58(1):5-24.

[6]JIANG L X,ZHANG H,CAI Z H.A novel Bayes Model:Hidden Naive Bayes[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(10):1361-1371.

[7]李晶輝.基于互信息的多層隱樸素貝葉斯算法研究[D].長沙:湖南大學,2012.

[8]杜婷.基于屬性選擇的樸素貝葉斯分類[D].合肥:中國科學技術(shù)大學,2016.

[9]CHANG H L.A gradient approach for value weighted classification learning in Naive Bayes[J].Knowledge -Based Systems,2015,85:71-79.

[10]ZHONG L X,XIANG R Y,DAE K K.Experimental analysis of Naive Bayes classifier based on an attribute weighting framework with smooth kernel density estimations[J].Applied Intelligence,2016,44(3):611-620.

[11]MERZ C,MURPHY P,AHA D.UCI repository of machine learning database[DB/OL].[2017-09-08],http://www.ics.uci.edu/mlearn/MLRpository.html.

[12]袁梅宇.數(shù)據(jù)挖掘與機器學習WEKA應用技術(shù)與實踐[M].北京:清華大學出版社,2014:330-333.

[13]ZHONG L X,DAE K K.Attribute weighting for averaged one-dependence estimators[J].Applied Intelligence,2017,46(3):616-629.

[14]JUN Y.Correlation coefficient between dynamic single valued neutrosophic multisets and its multiple attribute decision-making method[J].Information,2017,8(2):41.

[15]CAGATAY C,MEHMET N.A sentiment classification model based on multiple classifiers[J].Applied Soft Computing,2017,50:135-141.

[16]ANDRONIKI T,GEORGE E T,ANASTASIOS R,et al.A methodology to carry out voting classification tasks using a particle swarm optimization-based neuro-fuzzy competitive learning network[J].Evolving Systems,2017,8(1):49-69.

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产精品久久久久久久伊一| 国产精品女主播| 91精品免费久久久| 99er精品视频| 91在线无码精品秘九色APP| 91破解版在线亚洲| 91小视频在线观看免费版高清| 97国产精品视频自在拍| 亚洲国产成人在线| 亚洲成在线观看| 青青草原国产av福利网站| 免费一级毛片完整版在线看| 国产9191精品免费观看| 国产精品lululu在线观看| 亚洲中文字幕无码爆乳| 不卡无码h在线观看| 亚洲中字无码AV电影在线观看| 日韩欧美国产另类| 一级毛片在线播放| 久久久久青草大香线综合精品| 97视频免费在线观看| 天堂在线www网亚洲| 久久99精品久久久久久不卡| 性做久久久久久久免费看| 国产丝袜91| 亚洲中文字幕日产无码2021| 成人福利在线看| 免费看a级毛片| 国产欧美视频在线观看| 喷潮白浆直流在线播放| 色婷婷成人| 成人午夜免费观看| 久久狠狠色噜噜狠狠狠狠97视色 | 国产91精选在线观看| 亚洲天堂精品视频| 超碰91免费人妻| 国产成人亚洲无吗淙合青草| 亚洲成AV人手机在线观看网站| 久热re国产手机在线观看| 91在线播放免费不卡无毒| 第九色区aⅴ天堂久久香| 国产免费一级精品视频 | 国产男人的天堂| 美美女高清毛片视频免费观看| 中文字幕无码电影| 夜夜爽免费视频| 国产丝袜无码一区二区视频| 国产成人亚洲精品无码电影| 欧美成人A视频| 无码福利视频| 99er这里只有精品| 国产18在线播放| 午夜a视频| 国产毛片网站| 成人在线不卡视频| 在线视频精品一区| 久久综合五月婷婷| 2021无码专区人妻系列日韩| 久久综合AV免费观看| 中文字幕人妻av一区二区| 2021天堂在线亚洲精品专区| 国产精品视频系列专区| 一级毛片免费播放视频| 亚洲天堂网在线播放| 91在线中文| 亚洲综合经典在线一区二区| 91在线丝袜| 就去色综合| 国产精品尤物在线| 国产在线高清一级毛片| 日韩色图区| 在线不卡免费视频| 亚洲乱码视频| www中文字幕在线观看| 日本久久网站| 日本高清在线看免费观看| 丝袜美女被出水视频一区| 大陆精大陆国产国语精品1024| 毛片视频网| 毛片网站在线看| 亚洲av无码牛牛影视在线二区| 亚洲a级在线观看|