(山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院 山東 青島 266590)
樸素貝葉斯分類(lèi)算法淺析
秦懷強(qiáng)
(山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院山東青島266590)
貝葉斯分類(lèi)是一類(lèi)分類(lèi)算法的總稱(chēng),這類(lèi)算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱(chēng)為貝葉斯分類(lèi)。而樸素樸素貝葉斯分類(lèi)是貝葉斯分類(lèi)中最簡(jiǎn)單和常見(jiàn)的一種分類(lèi)方法。它之所以叫樸素貝葉斯分類(lèi),關(guān)鍵在于它的假設(shè)條件:一個(gè)實(shí)例的特征屬性值在給定類(lèi)別值的條件下是相互獨(dú)立的。
樸素貝葉斯;分類(lèi);訓(xùn)練集;特征屬性值1分類(lèi)問(wèn)題綜述
已知集合C={y1,y2,…,yn}和I={x1,x2,…,xm,…},確定映射規(guī)則y=f(x),使得任意的xi∈I有且僅有一個(gè)yi∈C使得yj=f(xi)成立。其中C叫做類(lèi)別集合,每一個(gè)元素是一個(gè)類(lèi)別,而I叫做項(xiàng)集合,其中每一個(gè)元素是一個(gè)待分類(lèi)項(xiàng),f叫做分類(lèi)器。分類(lèi)算法的任務(wù)就是構(gòu)造分類(lèi)器f。
這里要著重強(qiáng)調(diào),分類(lèi)問(wèn)題往往采用經(jīng)驗(yàn)性方法構(gòu)造映射規(guī)則,即一般情況下的分類(lèi)問(wèn)題缺少足夠的信息來(lái)構(gòu)造完全正確的映射規(guī)則,而是通過(guò)對(duì)經(jīng)驗(yàn)數(shù)據(jù)的學(xué)習(xí)實(shí)現(xiàn)一定概率意義上正確的分類(lèi),因此所訓(xùn)練出的分類(lèi)器并不是一定能將每個(gè)待分類(lèi)項(xiàng)準(zhǔn)確映射到其分類(lèi),分類(lèi)器的質(zhì)量與分類(lèi)器構(gòu)造方法、待分類(lèi)數(shù)據(jù)的特性以及訓(xùn)練樣本數(shù)量等諸多因素有關(guān)[1]。
首先,P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,其基本的求解公式為(1)。

(1)
貝葉斯定理之所以有用,是因?yàn)樯钪薪?jīng)常遇到這種情況:可以很容易直接得出P(A|B),而P(B|A)則很難直接得出,而有時(shí)后者則是需要的,貝葉斯定理就打通了從P(A|B)獲得P(B|A)的道路。下面給出貝葉斯定理如公式(2)所示。

(2)
(一)樸素貝葉斯分類(lèi)的原理
樸素貝葉斯分類(lèi)算法是貝葉斯分類(lèi)算法的一種,之所以是樸素的很大程度上是因?yàn)樗募僭O(shè)條件:一個(gè)實(shí)例在給定類(lèi)別值的條件下各特征屬性值間是相互獨(dú)立的[2]。樸素貝葉斯分類(lèi)算法的定義如下所示:
給定一個(gè)訓(xùn)練集D={X1,X2,…,Xt},它里面有t個(gè)訓(xùn)練實(shí)例,針對(duì)于每個(gè)訓(xùn)練實(shí)例X={a1,a2,…,an},它里面有n個(gè)屬性值,并且被類(lèi)別標(biāo)簽y∈Y所標(biāo)記。則一個(gè)測(cè)試實(shí)例X,它的類(lèi)別標(biāo)簽為y的概率為公式(3)。

(3)
又因?yàn)闃闼刎惾~斯定理的假設(shè)條件:一個(gè)訓(xùn)練實(shí)例在給定類(lèi)別值的條件下特征屬性值間是相互獨(dú)立的。可以得到公式(4)。
(4)
結(jié)合公式(3)和(4)可以得到樸素貝葉斯分類(lèi)器的公式如(5)所示。
(5)
(二)估計(jì)類(lèi)別下特征屬性劃分的條件概率和拉普拉斯平滑
由(一)節(jié)可以看出,計(jì)算各個(gè)劃分的條件概率
P(ai|y)是樸素貝葉斯分類(lèi)的關(guān)鍵性步驟,當(dāng)特征屬性為離散值時(shí),只要很方便的統(tǒng)計(jì)訓(xùn)練樣本中各個(gè)劃分在每個(gè)類(lèi)別中出現(xiàn)的頻率即可用來(lái)估計(jì)P(ai|y),下面重點(diǎn)討論特征屬性是連續(xù)值的情況。
當(dāng)特征屬性為連續(xù)值時(shí),通常假定其服從高斯分布即公式(6)。
(6)
因此只要計(jì)算出訓(xùn)練集中各個(gè)類(lèi)別中此特征項(xiàng)劃分的各均值和標(biāo)準(zhǔn)差,代入公式(6)即可得到需要的估計(jì)值。
另一個(gè)需要討論的問(wèn)題是當(dāng)P(ai|y)=0時(shí),這會(huì)令分類(lèi)器質(zhì)量大大降低。為了解決這個(gè)問(wèn)題,可以引入拉普拉斯校準(zhǔn),如公式(7)和(8)所示。

(7)

(8)
其中F(ai,y)指的是訓(xùn)練集中,有特征屬性值ai和類(lèi)別值y的訓(xùn)練實(shí)例的數(shù)目,N(Y)指的是類(lèi)別值Y的種類(lèi)數(shù)。
[1]袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)WEKA應(yīng)用技術(shù)與實(shí)踐[M].北京,清華大學(xué)出版社2014:64-64
[2]Friedman N,Geiger D,Goldszmidt M.Bayesian network classifiers[J].Machine Learning,1997,29:131-163
秦懷強(qiáng)(1992-),男,漢,山東省棗莊,碩士,山東科技大學(xué),方向數(shù)據(jù)挖掘。