999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯及其改進算法在垃圾郵件過濾中的應用

2018-07-28 07:20:04詹鵬偉謝小姣
科技創新與應用 2018年20期

詹鵬偉 謝小姣

摘 要:樸素貝葉斯模型在文本分類領域應用廣泛,但因為算法本身的缺陷,分類性能有待提高。文章在傳統的樸素貝葉斯模型的基礎上,利用對數處理解決了算術下溢問題,使用拉普拉斯平滑解決了因訓練集過小出現的零概率問題,并采用了系數加權的方法改善了樸素貝葉斯因假設所有條件都是獨立的而導致的性能問題,進一步根據垃圾郵件過濾必須要有的查準率高的特點提出了閾值限定條件,最終訓練的出的模型分類效果較傳統的樸素貝葉斯模型有所提高,對垃圾郵件過濾模型的設計有一定的指導作用。

關鍵詞:樸素貝葉斯;系數加權;閾值限定

中圖分類號:TP393.0 文獻標志碼:A 文章編號:2095-2945(2018)20-0157-03

Abstract: Naive Bayesian model is widely used in the field of text classification, but the classification performance needs to be improved because of the defects of the algorithm itself. Based on the traditional naive Bayesian model, the problem of arithmetic underflow is solved by logarithmic processing, and the zero probability problem due to the small training set is solved by Laplacian Smoothing. The method of coefficient weighting is used to improve the performance of naive Bayes, which is caused by the assumption that all the conditions are independent. Furthermore, the threshold limit condition is proposed according to the characteristic of the high precision rate necessary for spam filtering. The classification effect of the final training model is improved compared with the traditional naive Bayes model, which can guide the design of spam filtering model.

Keywords: naive Bayes; coefficient weighting; threshold qualification

引言

隨著互聯網的發展,電子郵件的使用也越來越普及,但是電子郵件的安全性與可靠性卻還有待提高。各種釣魚郵件、垃圾郵件、騷擾郵件極大的影響了我們的日常生活,根我國網絡不良與垃圾信息舉報受理中心的統計,超過半數的用戶會因為垃圾郵件而浪費時間、浪費資源,將近一半的用戶則有可能因為垃圾郵件而遭受經濟損失??梢?,設計一個性能良好的垃圾郵件過濾器將有很重要的現實意義。

在文本分類領域,樸素貝葉斯模型有著重要的應用。得益于其簡單有效,能夠實現增量式計算且對缺失數據敏感度較低的優點,特別適合構建垃圾郵件的過濾模型,但由于其所假設的特征項之間的獨立性,將會對最終的結果的準確率產生一定的影響,且未經平滑處理的貝葉斯模型在小數據集上容易出現較大的誤差。本文將采用一種有閾值限制的條件的基于系數加權的改進貝葉斯模型,改善了傳統貝葉斯模型的分類性能,實現對垃圾郵件的準確過濾。

1 樸素貝葉斯模型及相關原理

1.1 貝葉斯定理

貝葉斯定理是用于描述的是兩個不同的事件A、B間,A為條件B發生的概率與B為條件A發生的概率之間的關系。貝葉斯公式可表示為:

其中P為事件發生的概率。利用貝葉斯定理來構造的決策方法是在所有相關概率都已知的情況下,考慮如何基于這些概率和可能的期望損失來選擇最優分類的方法?,F假設有N種可能的類別{c1,c2,…,cN},且存在樣本x∈{x1,x2,…,xN},需要將樣本x分為相應的類別,則可以定義基于后驗概率P(ci|x)將某一樣本x分類為ci所產生的期望損失:

其中λij表示將真實類別為cj分類為ci所產生的損失。利用貝葉斯定理來分類的目標是:尋找能夠最小化全局風險的準則h,h應為:

即在每個樣本x上都選擇能使得期望損失R最小的類別c,此時為所得到的貝葉斯分類器的性能上限。

在利用貝葉斯定理來最小化期望損失相當于是利用有限的訓練樣本盡可能準確的估計后驗概率P(c|x)的過程,而基于貝葉斯定理,后驗概率P(c|x)可表示為:

其中P(c)、P(x)稱為先驗概率,P(x|c)為樣本x相對于類別c的條件概率,則求后驗概率P(c|x)的過程就轉化為了在給定的數據集中估計先驗概率P(c)和條件概率P(x|c)的問題,這相比于后驗概率P(c|x)來說更容易實現。

1.2 極大似然估計

對于上一節中所敘述的貝葉斯概率模型,訓練過程就是對模型的參數進行估計的過程,而根據頻率主義學派的思想,極大似然估計可以用于解決參數估計的問題。

假設Dc為數據集合D中類別為c的樣本的集合,則需要估計的數據集Dc對于參數θc的條件概率,即似然為:

極大似然估計就是尋找一個能使數據出現的可能性最大的θc。

1.3 算術下溢問題

在使用計算機進行極大似然估計時,有大量的概率值乘法計算,有可能出現算術下溢問題,導致所計算出來的后驗概率具有不確定性,使得參數估計與預期相差甚遠,最終的分類性能也會大大下降。為了解決算術下溢問題,可將極大似然估計的目標進行對數化處理,則所用到的對數極大似然估計為:

1.4 樸素貝葉斯模型

在利用貝葉斯定理來估計后驗概率P(c|x)時,由于P(x|c)是所有屬性上的聯合概率,難以估計。樸素貝葉斯則假定各屬性之間都是條件獨立的,將后驗概率的計算方式轉變為了:

其中d為屬性的數量。在此假設下,所需要尋找的準則h轉變為了:

以上即為樸素貝葉斯分類器的表達式。

1.5 拉普拉斯平滑

因為在訓練貝葉斯模型的時候存在大量的連乘,在訓練集不夠全面的情況下,可能因為某個特征從未在訓練集中出現過,導致該特征對預測概率的貢獻值為0,進一步導致最終計算出來的概率為0,分類結果會產生較大的誤差,稱這種情況為零概率問題。特別是在將郵件文本作為向量的情況下,雖然構造的詞表很大,但是文字的組合更多,極有可能出現未在詞表中出現的詞語,導致最終的預測結果為不準確。

為了解決這種情況,需采用拉普拉斯平滑(Laplacian smoothing),即在計算先驗概率與似然的時候為每個特征出現的次數加上一個很小的數,這樣對最終的結果影響不大,且在數據集足夠大的時候,產生的概率變化可以忽略不計,但是卻很好的解決了零概率問題。在拉普拉斯平滑下,所計算的先驗概率P(c)與P(xi|c)變為了:

其中D表示訓練集合,Dc表示訓練集中類別為c的樣本組成的集合,Dc,xi表示Dc中出現的取值為xi的樣本集合,N表示D中出現的可能的類別數,Ni表示第i個屬性可能的類別數,所加的常數1即為解決零概率問題而選擇的一個很小的常數。

2 樸素貝葉斯模型的改進

2.1 系數加權

樸素貝葉斯模型假設所有的條件都是相互獨立的,也就是所有條件對于最終結果的貢獻程度都是一樣的,但是在現實中是過于理想的。為了避免這一局限性,對最終結果貢獻程度較大的特征不應該與貢獻程度較小的特征采取同樣的處理方式,在這一思想下,本文采用了一種基于系數加權的改進貝葉斯模型,來為模型中的不同特征賦予部不同的權重,從而突出貢獻率大的特征的作用。如在垃圾郵件的識別中,如果發現郵件中出現了類似于“優惠”、“購買”、“理財”等詞語,則這封郵件有很大概率是一封垃圾郵件,就算這封郵件中的其他詞語是在垃圾郵件中比較少見的,也必須對這封郵件提起警覺。在這一思想下,樸素貝葉斯模型中的準則h轉變為了:

其中wi為每個屬性的權重。

為了使用基于系數加權的樸素貝葉斯模型,首先需要先確定權值,其方法為:對出現的每個屬性直接用樸素貝葉斯分類器進行分類,分類得到的正確率即為權值wi。

2.2 閾值限定條件

一個實用性強的垃圾郵件過濾器必須在不將重要郵件誤歸為垃圾郵件的前提下,將垃圾郵件盡可能的過濾出來,即分類的結果必須有極高的查準率(Precision)。若是用戶的重要郵件被垃圾郵件過濾器給過濾掉了,則可能會耽誤用戶的正事,給用戶帶來極大的損失。相比之下,若是有少數的垃圾郵件未被成功過濾,雖然對用戶的使用體驗有影響,但是不至于給用戶帶來直接的損失,在遇到這類很有可能是垃圾郵件但是確定性不夠高的郵件時,可以專門作出提醒,但是不進行過濾。

為了提高垃圾郵件分類的查準率,在本文中采取的垃圾郵件的改進樸素貝葉斯分類器還新增了一個閾值條件:當一封郵件被歸為垃圾郵件的概率至少為該郵件被歸為正常郵件概率的1.3倍時,才有足夠的把握將一封郵件歸為垃圾郵件過濾掉,否則只進行提醒,而不進行過濾,既:

3 分類結果與分析

為了能夠將本文所用的分類器與傳統的樸素貝葉斯分類器的性能進行比較,首先定義參數查準率P與查全率R:

本文采用的實驗數據集為CCERT提供的郵件數據集,從中隨機選取1000封正常郵件和1000封垃圾郵件,并經過純文本化處理,去除html標簽以及其他不相關項。首先利用Python接口的結巴分詞庫完成詞向量表的構建,然后將郵件轉換為對應的向量表示,再分別利用傳統的樸素貝葉斯模型與本文提出的帶有閾值限制的系數加權的貝葉斯模型進行訓練與預測。實驗環境為macOS HighSierra、Intel Core i5、1.8GHz主頻、4GB內存Python3.6、結巴分詞v0.39。最終所得到的結果如表1所示。

可見最終的分類結果不管是P值還是R值都有一定的提高,其中P值提高了將近2%,R值提高了超過5%,綜合兩者的綜合評價F1-Measure值從91.36%上升到了94.94%,可見,改進的貝葉斯模型對垃圾郵件的分類效果較好。在查準率提高了的情況下,用戶的正常郵件被誤分類的幾率下降了,該垃圾郵件分類器的實用性有所提高,減少了因為用戶的正常郵件被過濾而造成損失的幾率。但是因為在運算中新增的加權計算,訓練模型所用到的時間較傳統的貝葉斯模型有所增加,當郵件數量較大時耗費的時間較久,速度有待提高。

4 結束語

垃圾郵件過濾器必須在不將正常郵件分為垃圾郵件的基礎上盡可能的過濾垃圾郵件,即必須要有較高的查準率才具有實用價值。本文在傳統的樸素貝葉斯模型的基礎上,解決了算術下溢問題與應訓練集較小而導致的零概率問題,并采取了系數加權的方法來改善樸素貝葉斯模型因假設所有特征都是相互獨立所導致的分類性能問題,進一步提出閾值限定條件,來改善模型的查準率,一定程度上提高了分類的性能。雖然改進之后的模型在訓練時間上有所增加,但是分類性能有所提高,對垃圾郵件過濾的應用有一定的指導作用。

參考文獻:

[1]王青松,魏如玉.基于短語的貝葉斯中文垃圾郵件過濾方法[J].計算機科學,2016,43(04):256-259+269.

[2]楊杉,何躍,顏錦江.基于貝葉斯的反垃圾郵件技術探討[J].網絡安全技術與應用,2007(08):54-56.

[3]劉牛.基于屬性加權的樸素貝葉斯分類算法改進[J].網絡安全技術與應用,2011(06):72-74.

[4]鄭煒,沈文,張英鵬.基于改進樸素貝葉斯算法的垃圾郵件過濾器的研究[J].西北工業大學學報,2010,28(04):622-627.

[5]秦鋒,任詩流,程澤凱,等.基于屬性加權的樸素貝葉斯分類算法[J].計算機工程與應用,2008(06):107-109.

主站蜘蛛池模板: 国产成人亚洲欧美激情| 国产欧美日韩在线一区| 亚洲色图另类| 美女视频黄频a免费高清不卡| 日韩二区三区无| 亚洲最大福利视频网| 国产视频欧美| 国产黄在线观看| 日韩黄色精品| 国产91丝袜| 国产超薄肉色丝袜网站| 热99re99首页精品亚洲五月天| 午夜视频免费一区二区在线看| 蝴蝶伊人久久中文娱乐网| 国产一国产一有一级毛片视频| 亚洲国产精品成人久久综合影院| 老司机精品99在线播放| 1769国产精品视频免费观看| 日韩精品视频久久| 亚洲色图欧美激情| 午夜日b视频| 无码视频国产精品一区二区| 亚洲国产成人麻豆精品| 久草网视频在线| 人妻一区二区三区无码精品一区| 亚洲精品第五页| 欧美综合区自拍亚洲综合天堂| 欧美一区中文字幕| a级毛片免费看| 亚洲精品无码不卡在线播放| 四虎影视库国产精品一区| 日本欧美在线观看| 婷婷色婷婷| a色毛片免费视频| 国产在线专区| 超碰精品无码一区二区| 毛片免费观看视频| 97视频精品全国免费观看 | 亚洲成a人片7777| 国产一区二区精品高清在线观看| 女同国产精品一区二区| 日韩最新中文字幕| 91在线免费公开视频| 日本免费a视频| 国产又大又粗又猛又爽的视频| 色有码无码视频| 凹凸国产分类在线观看| 亚洲色图欧美在线| 欧美亚洲另类在线观看| 国产 在线视频无码| 国内精品自在欧美一区| 日韩精品一区二区深田咏美| 亚洲福利视频一区二区| 久久久精品国产亚洲AV日韩| 亚洲欧美在线看片AI| 男女男免费视频网站国产| 亚洲二三区| 日本国产精品| 亚洲精品成人片在线观看| 自拍亚洲欧美精品| 成人字幕网视频在线观看| 久草国产在线观看| 亚洲精品自拍区在线观看| 亚洲无码在线午夜电影| 熟女日韩精品2区| 一本大道香蕉久中文在线播放 | 综合人妻久久一区二区精品 | 青青青草国产| 干中文字幕| 全部免费特黄特色大片视频| 天堂在线www网亚洲| 国产在线98福利播放视频免费| 青青青草国产| 国产青榴视频| 国产免费黄| 成年片色大黄全免费网站久久| 午夜日b视频| 亚洲av无码人妻| 国产精品久久久久久久久kt| 亚洲人成色77777在线观看| 精品撒尿视频一区二区三区| 中文字幕日韩久久综合影院|