999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯及其改進算法在垃圾郵件過濾中的應用

2018-07-28 07:20:04詹鵬偉謝小姣
科技創新與應用 2018年20期

詹鵬偉 謝小姣

摘 要:樸素貝葉斯模型在文本分類領域應用廣泛,但因為算法本身的缺陷,分類性能有待提高。文章在傳統的樸素貝葉斯模型的基礎上,利用對數處理解決了算術下溢問題,使用拉普拉斯平滑解決了因訓練集過小出現的零概率問題,并采用了系數加權的方法改善了樸素貝葉斯因假設所有條件都是獨立的而導致的性能問題,進一步根據垃圾郵件過濾必須要有的查準率高的特點提出了閾值限定條件,最終訓練的出的模型分類效果較傳統的樸素貝葉斯模型有所提高,對垃圾郵件過濾模型的設計有一定的指導作用。

關鍵詞:樸素貝葉斯;系數加權;閾值限定

中圖分類號:TP393.0 文獻標志碼:A 文章編號:2095-2945(2018)20-0157-03

Abstract: Naive Bayesian model is widely used in the field of text classification, but the classification performance needs to be improved because of the defects of the algorithm itself. Based on the traditional naive Bayesian model, the problem of arithmetic underflow is solved by logarithmic processing, and the zero probability problem due to the small training set is solved by Laplacian Smoothing. The method of coefficient weighting is used to improve the performance of naive Bayes, which is caused by the assumption that all the conditions are independent. Furthermore, the threshold limit condition is proposed according to the characteristic of the high precision rate necessary for spam filtering. The classification effect of the final training model is improved compared with the traditional naive Bayes model, which can guide the design of spam filtering model.

Keywords: naive Bayes; coefficient weighting; threshold qualification

引言

隨著互聯網的發展,電子郵件的使用也越來越普及,但是電子郵件的安全性與可靠性卻還有待提高。各種釣魚郵件、垃圾郵件、騷擾郵件極大的影響了我們的日常生活,根我國網絡不良與垃圾信息舉報受理中心的統計,超過半數的用戶會因為垃圾郵件而浪費時間、浪費資源,將近一半的用戶則有可能因為垃圾郵件而遭受經濟損失??梢?,設計一個性能良好的垃圾郵件過濾器將有很重要的現實意義。

在文本分類領域,樸素貝葉斯模型有著重要的應用。得益于其簡單有效,能夠實現增量式計算且對缺失數據敏感度較低的優點,特別適合構建垃圾郵件的過濾模型,但由于其所假設的特征項之間的獨立性,將會對最終的結果的準確率產生一定的影響,且未經平滑處理的貝葉斯模型在小數據集上容易出現較大的誤差。本文將采用一種有閾值限制的條件的基于系數加權的改進貝葉斯模型,改善了傳統貝葉斯模型的分類性能,實現對垃圾郵件的準確過濾。

1 樸素貝葉斯模型及相關原理

1.1 貝葉斯定理

貝葉斯定理是用于描述的是兩個不同的事件A、B間,A為條件B發生的概率與B為條件A發生的概率之間的關系。貝葉斯公式可表示為:

其中P為事件發生的概率。利用貝葉斯定理來構造的決策方法是在所有相關概率都已知的情況下,考慮如何基于這些概率和可能的期望損失來選擇最優分類的方法?,F假設有N種可能的類別{c1,c2,…,cN},且存在樣本x∈{x1,x2,…,xN},需要將樣本x分為相應的類別,則可以定義基于后驗概率P(ci|x)將某一樣本x分類為ci所產生的期望損失:

其中λij表示將真實類別為cj分類為ci所產生的損失。利用貝葉斯定理來分類的目標是:尋找能夠最小化全局風險的準則h,h應為:

即在每個樣本x上都選擇能使得期望損失R最小的類別c,此時為所得到的貝葉斯分類器的性能上限。

在利用貝葉斯定理來最小化期望損失相當于是利用有限的訓練樣本盡可能準確的估計后驗概率P(c|x)的過程,而基于貝葉斯定理,后驗概率P(c|x)可表示為:

其中P(c)、P(x)稱為先驗概率,P(x|c)為樣本x相對于類別c的條件概率,則求后驗概率P(c|x)的過程就轉化為了在給定的數據集中估計先驗概率P(c)和條件概率P(x|c)的問題,這相比于后驗概率P(c|x)來說更容易實現。

1.2 極大似然估計

對于上一節中所敘述的貝葉斯概率模型,訓練過程就是對模型的參數進行估計的過程,而根據頻率主義學派的思想,極大似然估計可以用于解決參數估計的問題。

假設Dc為數據集合D中類別為c的樣本的集合,則需要估計的數據集Dc對于參數θc的條件概率,即似然為:

極大似然估計就是尋找一個能使數據出現的可能性最大的θc。

1.3 算術下溢問題

在使用計算機進行極大似然估計時,有大量的概率值乘法計算,有可能出現算術下溢問題,導致所計算出來的后驗概率具有不確定性,使得參數估計與預期相差甚遠,最終的分類性能也會大大下降。為了解決算術下溢問題,可將極大似然估計的目標進行對數化處理,則所用到的對數極大似然估計為:

1.4 樸素貝葉斯模型

在利用貝葉斯定理來估計后驗概率P(c|x)時,由于P(x|c)是所有屬性上的聯合概率,難以估計。樸素貝葉斯則假定各屬性之間都是條件獨立的,將后驗概率的計算方式轉變為了:

其中d為屬性的數量。在此假設下,所需要尋找的準則h轉變為了:

以上即為樸素貝葉斯分類器的表達式。

1.5 拉普拉斯平滑

因為在訓練貝葉斯模型的時候存在大量的連乘,在訓練集不夠全面的情況下,可能因為某個特征從未在訓練集中出現過,導致該特征對預測概率的貢獻值為0,進一步導致最終計算出來的概率為0,分類結果會產生較大的誤差,稱這種情況為零概率問題。特別是在將郵件文本作為向量的情況下,雖然構造的詞表很大,但是文字的組合更多,極有可能出現未在詞表中出現的詞語,導致最終的預測結果為不準確。

為了解決這種情況,需采用拉普拉斯平滑(Laplacian smoothing),即在計算先驗概率與似然的時候為每個特征出現的次數加上一個很小的數,這樣對最終的結果影響不大,且在數據集足夠大的時候,產生的概率變化可以忽略不計,但是卻很好的解決了零概率問題。在拉普拉斯平滑下,所計算的先驗概率P(c)與P(xi|c)變為了:

其中D表示訓練集合,Dc表示訓練集中類別為c的樣本組成的集合,Dc,xi表示Dc中出現的取值為xi的樣本集合,N表示D中出現的可能的類別數,Ni表示第i個屬性可能的類別數,所加的常數1即為解決零概率問題而選擇的一個很小的常數。

2 樸素貝葉斯模型的改進

2.1 系數加權

樸素貝葉斯模型假設所有的條件都是相互獨立的,也就是所有條件對于最終結果的貢獻程度都是一樣的,但是在現實中是過于理想的。為了避免這一局限性,對最終結果貢獻程度較大的特征不應該與貢獻程度較小的特征采取同樣的處理方式,在這一思想下,本文采用了一種基于系數加權的改進貝葉斯模型,來為模型中的不同特征賦予部不同的權重,從而突出貢獻率大的特征的作用。如在垃圾郵件的識別中,如果發現郵件中出現了類似于“優惠”、“購買”、“理財”等詞語,則這封郵件有很大概率是一封垃圾郵件,就算這封郵件中的其他詞語是在垃圾郵件中比較少見的,也必須對這封郵件提起警覺。在這一思想下,樸素貝葉斯模型中的準則h轉變為了:

其中wi為每個屬性的權重。

為了使用基于系數加權的樸素貝葉斯模型,首先需要先確定權值,其方法為:對出現的每個屬性直接用樸素貝葉斯分類器進行分類,分類得到的正確率即為權值wi。

2.2 閾值限定條件

一個實用性強的垃圾郵件過濾器必須在不將重要郵件誤歸為垃圾郵件的前提下,將垃圾郵件盡可能的過濾出來,即分類的結果必須有極高的查準率(Precision)。若是用戶的重要郵件被垃圾郵件過濾器給過濾掉了,則可能會耽誤用戶的正事,給用戶帶來極大的損失。相比之下,若是有少數的垃圾郵件未被成功過濾,雖然對用戶的使用體驗有影響,但是不至于給用戶帶來直接的損失,在遇到這類很有可能是垃圾郵件但是確定性不夠高的郵件時,可以專門作出提醒,但是不進行過濾。

為了提高垃圾郵件分類的查準率,在本文中采取的垃圾郵件的改進樸素貝葉斯分類器還新增了一個閾值條件:當一封郵件被歸為垃圾郵件的概率至少為該郵件被歸為正常郵件概率的1.3倍時,才有足夠的把握將一封郵件歸為垃圾郵件過濾掉,否則只進行提醒,而不進行過濾,既:

3 分類結果與分析

為了能夠將本文所用的分類器與傳統的樸素貝葉斯分類器的性能進行比較,首先定義參數查準率P與查全率R:

本文采用的實驗數據集為CCERT提供的郵件數據集,從中隨機選取1000封正常郵件和1000封垃圾郵件,并經過純文本化處理,去除html標簽以及其他不相關項。首先利用Python接口的結巴分詞庫完成詞向量表的構建,然后將郵件轉換為對應的向量表示,再分別利用傳統的樸素貝葉斯模型與本文提出的帶有閾值限制的系數加權的貝葉斯模型進行訓練與預測。實驗環境為macOS HighSierra、Intel Core i5、1.8GHz主頻、4GB內存Python3.6、結巴分詞v0.39。最終所得到的結果如表1所示。

可見最終的分類結果不管是P值還是R值都有一定的提高,其中P值提高了將近2%,R值提高了超過5%,綜合兩者的綜合評價F1-Measure值從91.36%上升到了94.94%,可見,改進的貝葉斯模型對垃圾郵件的分類效果較好。在查準率提高了的情況下,用戶的正常郵件被誤分類的幾率下降了,該垃圾郵件分類器的實用性有所提高,減少了因為用戶的正常郵件被過濾而造成損失的幾率。但是因為在運算中新增的加權計算,訓練模型所用到的時間較傳統的貝葉斯模型有所增加,當郵件數量較大時耗費的時間較久,速度有待提高。

4 結束語

垃圾郵件過濾器必須在不將正常郵件分為垃圾郵件的基礎上盡可能的過濾垃圾郵件,即必須要有較高的查準率才具有實用價值。本文在傳統的樸素貝葉斯模型的基礎上,解決了算術下溢問題與應訓練集較小而導致的零概率問題,并采取了系數加權的方法來改善樸素貝葉斯模型因假設所有特征都是相互獨立所導致的分類性能問題,進一步提出閾值限定條件,來改善模型的查準率,一定程度上提高了分類的性能。雖然改進之后的模型在訓練時間上有所增加,但是分類性能有所提高,對垃圾郵件過濾的應用有一定的指導作用。

參考文獻:

[1]王青松,魏如玉.基于短語的貝葉斯中文垃圾郵件過濾方法[J].計算機科學,2016,43(04):256-259+269.

[2]楊杉,何躍,顏錦江.基于貝葉斯的反垃圾郵件技術探討[J].網絡安全技術與應用,2007(08):54-56.

[3]劉牛.基于屬性加權的樸素貝葉斯分類算法改進[J].網絡安全技術與應用,2011(06):72-74.

[4]鄭煒,沈文,張英鵬.基于改進樸素貝葉斯算法的垃圾郵件過濾器的研究[J].西北工業大學學報,2010,28(04):622-627.

[5]秦鋒,任詩流,程澤凱,等.基于屬性加權的樸素貝葉斯分類算法[J].計算機工程與應用,2008(06):107-109.

主站蜘蛛池模板: 国产精品白浆无码流出在线看| 免费无遮挡AV| 香蕉视频在线观看www| 国内精品视频在线| 日本欧美午夜| 久久综合五月| 最近最新中文字幕在线第一页 | 国产丝袜第一页| a亚洲天堂| 国产成人免费高清AⅤ| 午夜视频免费一区二区在线看| 亚洲AⅤ永久无码精品毛片| 国产精品免费露脸视频| 久久99精品国产麻豆宅宅| av在线5g无码天天| 亚洲精品第一页不卡| 免费人欧美成又黄又爽的视频| 久久免费观看视频| 黄片一区二区三区| 91亚洲国产视频| 免费啪啪网址| 国产一级妓女av网站| 欧美日韩精品在线播放| 欧美中文字幕无线码视频| 国产美女自慰在线观看| 国产凹凸视频在线观看| 国产成人久久综合777777麻豆| 99在线观看免费视频| 国产三级a| 精品剧情v国产在线观看| 国产精品免费久久久久影院无码| 国产成人艳妇AA视频在线| 国产麻豆aⅴ精品无码| 全部毛片免费看| 久久久久九九精品影院 | 国产精品亚洲一区二区三区z| 国产麻豆精品在线观看| 丁香五月激情图片| 国产人在线成免费视频| 亚洲美女一区二区三区| 国产高潮流白浆视频| 在线观看视频99| P尤物久久99国产综合精品| 伊人成人在线| 日本一本在线视频| 国产精品网址你懂的| 狠狠干综合| 国产成人亚洲欧美激情| 五月天婷婷网亚洲综合在线| 国产高清在线丝袜精品一区| 九色综合视频网| 毛片基地视频| 麻豆精品久久久久久久99蜜桃| 亚洲午夜福利精品无码| 国产色伊人| 精品成人一区二区三区电影| 欧美亚洲中文精品三区| 99精品视频在线观看免费播放| 国产97视频在线观看| 精品日韩亚洲欧美高清a| 日本国产在线| 免费一级毛片在线观看| 午夜一级做a爰片久久毛片| 亚洲欧美另类日本| 国产在线视频自拍| 亚洲国产一区在线观看| 久久综合亚洲色一区二区三区| 五月婷婷中文字幕| 国产呦视频免费视频在线观看| 91年精品国产福利线观看久久| 91毛片网| …亚洲 欧洲 另类 春色| 国产91线观看| 国产精品太粉嫩高中在线观看| 毛片免费在线视频| 日韩一级二级三级| 手机在线国产精品| 制服丝袜一区| 亚洲精品手机在线| 国产精品免费电影| 日韩AV手机在线观看蜜芽| 国产精品成人AⅤ在线一二三四|