李騰飛



摘 要:基于概率的樸素貝葉斯分類器因其算法復雜度低、分類精度高而被廣泛應用于垃圾郵件過濾領域。該文在對傳統樸素貝葉斯分類器進行分析的同時,結合垃圾郵件過濾的特性,設計并實現了基于多項式樸素貝葉斯算法的垃圾郵件過濾器。該過濾器引入拉普拉斯平滑因子降低合法郵件被誤判為垃圾郵件的概率,得到了較好的分類效果。實驗結果驗證了方法的有效性。
關鍵詞:垃圾郵件分類 多項式樸素貝葉斯 網格搜索 平滑因子
中圖分類號:TP393.098 文獻標識碼:A 文章編號:1672-3791(2018)11(c)-0001-03
Abstract: Probability-based naive bayes classifiers are widely used in spam filtering because of their low algorithm complexity and high classification accuracy. In this paper, the traditional naive bayes classifier is analyzed, and combined with the characteristics of spam filtering, a spam filter based on polynomial naive bayes algorithm is designed and implemented. The filter introduces a Laplacian smoothing factor to reduce the probability that a legitimate mail is misjudged as spam, and a better classification effect is obtained. The experimental results verify the effectiveness of the method.
Key Words: Spam classification; Polynomial naive bayes; Grid search; Smoothing factor
隨著互聯網的迅速發展,網絡改變了人們傳統的通訊方式[1]。電子郵件因為其方便快捷而被人們廣泛接受和使用。但是郵件系統的安全和可靠性依然是人們關注的焦點,尤其是垃圾郵件日益泛濫的問題更加值得我們去關注。根據中國網絡不良與垃圾信息舉報受理中心的數據顯示,中國網民平均每周收到的垃圾郵件達12封,全國網民每年收到的垃圾郵件總計3700億封。所以垃圾郵件嚴重干擾了正常的互聯網秩序,研究并設計有效的垃圾郵件過濾器具有非常重要的現實意義。
白名單、行為監控、黑名單以及關鍵字過濾等是目前常用的垃圾郵件過濾技術,但這些過濾技術缺乏自適應性,面對內容多變的垃圾郵件其過濾效果不夠理想。針對這一問題,面向內容的多項式樸素貝葉斯過濾器不僅具有自適應性[2],而且也可以根據用戶需求進行個性化過濾,加之其算法復雜度低、分類精度高,故而被廣泛使用。
1 樸素貝葉斯算法
1.1 貝葉斯原理在郵件過濾中的應用
18世紀英國學者貝葉斯提出了貝葉斯原理。根據貝葉斯原理,我們可以通過計算某事件已經發生過的頻率來估計該事件未來發生的概率。基于此,貝葉斯理論被廣泛應用于文本分類中。垃圾郵件過濾是文本分類中的二分類問題。在垃圾郵件過濾中,首先把收集到的非垃圾郵件和垃圾郵件劃分為訓練集和測試集,然后將訓練集中的郵件用于分類器的訓練,使用訓練好的貝葉斯分類器對測試集的郵件進行分類,最終將該待分類歸為概率最大的類別中去,從而準確地對垃圾郵件進行過濾[3]。
1.2 樸素貝葉斯分類器
其中:P和r分別為類別ci的正確率和召回率,TP為被正確判定為類別ci的文本數量,FP為被分類器錯誤判定為類別ci的文本的數量,FN為實際屬于類別ci但被分類器判定為其他類別的文本數量。現實中,我們并不希望非郵件被錯誤劃分為垃圾郵件,也就是說在垃圾郵件分類過程中我們希望的FP值為0,即式(7)的值為1。表1列出了不同平滑因子對應的正確率、召回率和精確率;表2列出了精確率為1時對應的平滑因子、正確率和召回率。
從實驗結果中可以看出,改變平滑因子的大小會對分類結果產生顯著影響。當取16.4、16.5、16.6或16.7時,對應的精確率為1,且此時的正確率和召回率均不變。
4 結語
本文描述了一種基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設計與實現方法,該方法包括數據集預處理、特征工程、分類器分類和分類性能評估4個部分。數據集預處理是指將數據讀入計算機內并劃分訓練集和測試集,同時進行分詞和去停用詞操作;特征工程把預處理后的特征詞轉化為對應的特征向量;使用特征向量訓練多項式樸素貝葉斯分類器,把訓練好的分類器應用在測試集上;最后使用正確率、召回率和精確率評估分類性能。實驗結果表明該系統實現了較高精度的垃圾郵件分類,并且可以保證所有非垃圾郵件都能被正確分類。
參考文獻
[1] 周文霞.現代文本分類技術研究[J].武警學院學報,2007,23(12):93-96.
[2] 王國才.樸素貝葉斯的研究與應用[D].重慶交通大學,2010.
[3] 謝小民.基于樸素貝葉斯的垃圾郵件過濾算法設計研究[J].電子技術與軟件工程,2014(15):42-43.
[4] 張龍飛.基于互信息的樸素貝葉斯改進模型研究[D].吉林大學,2010.
[5] 楊赫,孫廣路,何勇軍.基于樸素貝葉斯模型的垃圾郵件過濾技術[J].哈爾濱理工大學學報,2014(1:49-53.
[6] 陸旭.文本挖掘中若干關鍵問題研究[M].北京:中國科學技術大學出版社,2008.
[7] 尚文倩.文本分類及其相關技術研究[D].北京交通大學,2007.