999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設計與實現

2018-03-07 02:40:54李騰飛
科技資訊 2018年33期

李騰飛

摘 要:基于概率的樸素貝葉斯分類器因其算法復雜度低、分類精度高而被廣泛應用于垃圾郵件過濾領域。該文在對傳統樸素貝葉斯分類器進行分析的同時,結合垃圾郵件過濾的特性,設計并實現了基于多項式樸素貝葉斯算法的垃圾郵件過濾器。該過濾器引入拉普拉斯平滑因子降低合法郵件被誤判為垃圾郵件的概率,得到了較好的分類效果。實驗結果驗證了方法的有效性。

關鍵詞:垃圾郵件分類 多項式樸素貝葉斯 網格搜索 平滑因子

中圖分類號:TP393.098 文獻標識碼:A 文章編號:1672-3791(2018)11(c)-0001-03

Abstract: Probability-based naive bayes classifiers are widely used in spam filtering because of their low algorithm complexity and high classification accuracy. In this paper, the traditional naive bayes classifier is analyzed, and combined with the characteristics of spam filtering, a spam filter based on polynomial naive bayes algorithm is designed and implemented. The filter introduces a Laplacian smoothing factor to reduce the probability that a legitimate mail is misjudged as spam, and a better classification effect is obtained. The experimental results verify the effectiveness of the method.

Key Words: Spam classification; Polynomial naive bayes; Grid search; Smoothing factor

隨著互聯網的迅速發展,網絡改變了人們傳統的通訊方式[1]。電子郵件因為其方便快捷而被人們廣泛接受和使用。但是郵件系統的安全和可靠性依然是人們關注的焦點,尤其是垃圾郵件日益泛濫的問題更加值得我們去關注。根據中國網絡不良與垃圾信息舉報受理中心的數據顯示,中國網民平均每周收到的垃圾郵件達12封,全國網民每年收到的垃圾郵件總計3700億封。所以垃圾郵件嚴重干擾了正常的互聯網秩序,研究并設計有效的垃圾郵件過濾器具有非常重要的現實意義。

白名單、行為監控、黑名單以及關鍵字過濾等是目前常用的垃圾郵件過濾技術,但這些過濾技術缺乏自適應性,面對內容多變的垃圾郵件其過濾效果不夠理想。針對這一問題,面向內容的多項式樸素貝葉斯過濾器不僅具有自適應性[2],而且也可以根據用戶需求進行個性化過濾,加之其算法復雜度低、分類精度高,故而被廣泛使用。

1 樸素貝葉斯算法

1.1 貝葉斯原理在郵件過濾中的應用

18世紀英國學者貝葉斯提出了貝葉斯原理。根據貝葉斯原理,我們可以通過計算某事件已經發生過的頻率來估計該事件未來發生的概率。基于此,貝葉斯理論被廣泛應用于文本分類中。垃圾郵件過濾是文本分類中的二分類問題。在垃圾郵件過濾中,首先把收集到的非垃圾郵件和垃圾郵件劃分為訓練集和測試集,然后將訓練集中的郵件用于分類器的訓練,使用訓練好的貝葉斯分類器對測試集的郵件進行分類,最終將該待分類歸為概率最大的類別中去,從而準確地對垃圾郵件進行過濾[3]。

1.2 樸素貝葉斯分類器

其中:P和r分別為類別ci的正確率和召回率,TP為被正確判定為類別ci的文本數量,FP為被分類器錯誤判定為類別ci的文本的數量,FN為實際屬于類別ci但被分類器判定為其他類別的文本數量。現實中,我們并不希望非郵件被錯誤劃分為垃圾郵件,也就是說在垃圾郵件分類過程中我們希望的FP值為0,即式(7)的值為1。表1列出了不同平滑因子對應的正確率、召回率和精確率;表2列出了精確率為1時對應的平滑因子、正確率和召回率。

從實驗結果中可以看出,改變平滑因子的大小會對分類結果產生顯著影響。當取16.4、16.5、16.6或16.7時,對應的精確率為1,且此時的正確率和召回率均不變。

4 結語

本文描述了一種基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設計與實現方法,該方法包括數據集預處理、特征工程、分類器分類和分類性能評估4個部分。數據集預處理是指將數據讀入計算機內并劃分訓練集和測試集,同時進行分詞和去停用詞操作;特征工程把預處理后的特征詞轉化為對應的特征向量;使用特征向量訓練多項式樸素貝葉斯分類器,把訓練好的分類器應用在測試集上;最后使用正確率、召回率和精確率評估分類性能。實驗結果表明該系統實現了較高精度的垃圾郵件分類,并且可以保證所有非垃圾郵件都能被正確分類。

參考文獻

[1] 周文霞.現代文本分類技術研究[J].武警學院學報,2007,23(12):93-96.

[2] 王國才.樸素貝葉斯的研究與應用[D].重慶交通大學,2010.

[3] 謝小民.基于樸素貝葉斯的垃圾郵件過濾算法設計研究[J].電子技術與軟件工程,2014(15):42-43.

[4] 張龍飛.基于互信息的樸素貝葉斯改進模型研究[D].吉林大學,2010.

[5] 楊赫,孫廣路,何勇軍.基于樸素貝葉斯模型的垃圾郵件過濾技術[J].哈爾濱理工大學學報,2014(1:49-53.

[6] 陸旭.文本挖掘中若干關鍵問題研究[M].北京:中國科學技術大學出版社,2008.

[7] 尚文倩.文本分類及其相關技術研究[D].北京交通大學,2007.

主站蜘蛛池模板: 日韩欧美国产区| 亚洲无码视频一区二区三区| 99视频精品在线观看| 成人福利在线视频免费观看| 国产日本一区二区三区| 亚洲成人在线免费观看| 伊人成人在线| 国产高清不卡| 亚洲av无码成人专区| 日韩成人免费网站| 欧美日韩免费观看| 国产全黄a一级毛片| 久久久精品国产SM调教网站| 国产精品无码翘臀在线看纯欲| 好吊妞欧美视频免费| 成人午夜天| 久久动漫精品| 在线观看欧美国产| 欧美亚洲一二三区| 久久公开视频| 在线国产91| 亚洲三级a| 亚洲第一在线播放| 成人精品区| 国产特一级毛片| 青草视频免费在线观看| 思思99思思久久最新精品| 国产精品大白天新婚身材| 国产真实乱子伦精品视手机观看 | 无码aaa视频| 亚洲色无码专线精品观看| 欧美不卡视频在线观看| 日本久久网站| 丁香五月亚洲综合在线| 久草热视频在线| 国产黄色爱视频| 亚洲国产成人精品一二区| 国产精品真实对白精彩久久| 亚州AV秘 一区二区三区| 中文字幕无码电影| 91青青草视频在线观看的| 青青青国产视频手机| 热九九精品| 日韩毛片在线播放| 欧美精品啪啪| 天天操天天噜| 久久情精品国产品免费| 伊人国产无码高清视频| 婷婷99视频精品全部在线观看| 亚洲天堂久久新| 青青青视频91在线 | 99偷拍视频精品一区二区| 99久久成人国产精品免费| 久久综合伊人 六十路| 久久综合成人| 在线观看91精品国产剧情免费| 青青久久91| 国产在线视频二区| 成年免费在线观看| 久久亚洲日本不卡一区二区| 午夜小视频在线| 久久亚洲黄色视频| 呦视频在线一区二区三区| 国产乱肥老妇精品视频| 毛片一区二区在线看| 98精品全国免费观看视频| 制服丝袜 91视频| 一区二区日韩国产精久久| 日韩毛片在线播放| 国产国语一级毛片在线视频| 亚洲成人精品在线| 国产激情在线视频| 久久久久久尹人网香蕉 | 天堂久久久久久中文字幕| 乱人伦99久久| 国产精品永久不卡免费视频| 国产一级做美女做受视频| 18禁不卡免费网站| 在线亚洲小视频| 国产精品视屏| 国产精品无码AV片在线观看播放| 国产午夜一级淫片|