鄧金


摘要:隨著電子時(shí)代的發(fā)展,人與人之間的通信越來越便捷。郵件是如今社交中非常重要的交流工具,然而郵件在給人帶來有效交流信息的同時(shí),也會(huì)給人帶來大量的垃圾信息。本文針對(duì)對(duì)垃圾郵件的辨別,提出一種基于自然語言處理技術(shù)的郵件檢測系統(tǒng)方案。首先利用TF-IDF特征提取技術(shù)、PCA降維技術(shù)獲得訓(xùn)練樣本中最能夠識(shí)別垃圾郵件的特征,然后使用樸素貝葉斯分類算法對(duì)郵件進(jìn)行檢測。
關(guān)鍵詞:垃圾郵件;TF-IDF;PCA;樸素貝葉斯分類算法
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)06-0117-02
0 引言
在如今的日常生活中,無論是工作需要,抑或是生活交流,郵件已經(jīng)成為當(dāng)代人的重要交通工具。然而,交流便利的同時(shí),會(huì)有很多非法分子通過郵件傳遞垃圾信息,例如我們會(huì)時(shí)不時(shí)接收到來自陌生人的騷擾信息、廣告信息等。針對(duì)這樣的垃圾郵件,本文在傳統(tǒng)樸素貝葉斯分類過濾郵件的基礎(chǔ)上,引入TF-IDF和PCA技術(shù),提高了傳統(tǒng)垃圾郵件過濾的準(zhǔn)確率。
1 自然語言處理相關(guān)技術(shù)
1.1 TF-IDF技術(shù)
TF-IDF技術(shù)主要通過對(duì)單詞權(quán)重的計(jì)算,來得到文本的特征詞。它的計(jì)算式如下:
(1)
其中,W(ti,dj)是特征項(xiàng)ti在文本dj的權(quán)重取值;tf(ti,dj)是特征項(xiàng)ti在文本dj中出現(xiàn)的頻率,用于計(jì)算該詞描述文檔內(nèi)容的能力;是特征項(xiàng)在文本集中出現(xiàn)文本頻率數(shù)的反比,稱為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力[1]。
1.2 PCA降維技術(shù)
PCA降維技術(shù)主要思想是為提取特征空間中最具有區(qū)分能力的特征詞,從而進(jìn)行降維。成分分析(Principal Component Analysis,PAC)是用特征向量對(duì)樣本數(shù)據(jù)進(jìn)行分析,達(dá)到降維目的的一種多元統(tǒng)計(jì)分析方法。……