鄧金


摘要:隨著電子時代的發展,人與人之間的通信越來越便捷。郵件是如今社交中非常重要的交流工具,然而郵件在給人帶來有效交流信息的同時,也會給人帶來大量的垃圾信息。本文針對對垃圾郵件的辨別,提出一種基于自然語言處理技術的郵件檢測系統方案。首先利用TF-IDF特征提取技術、PCA降維技術獲得訓練樣本中最能夠識別垃圾郵件的特征,然后使用樸素貝葉斯分類算法對郵件進行檢測。
關鍵詞:垃圾郵件;TF-IDF;PCA;樸素貝葉斯分類算法
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2019)06-0117-02
0 引言
在如今的日常生活中,無論是工作需要,抑或是生活交流,郵件已經成為當代人的重要交通工具。然而,交流便利的同時,會有很多非法分子通過郵件傳遞垃圾信息,例如我們會時不時接收到來自陌生人的騷擾信息、廣告信息等。針對這樣的垃圾郵件,本文在傳統樸素貝葉斯分類過濾郵件的基礎上,引入TF-IDF和PCA技術,提高了傳統垃圾郵件過濾的準確率。
1 自然語言處理相關技術
1.1 TF-IDF技術
TF-IDF技術主要通過對單詞權重的計算,來得到文本的特征詞。它的計算式如下:
(1)
其中,W(ti,dj)是特征項ti在文本dj的權重取值;tf(ti,dj)是特征項ti在文本dj中出現的頻率,用于計算該詞描述文檔內容的能力;是特征項在文本集中出現文本頻率數的反比,稱為反文檔頻率,用于計算該詞區分文檔的能力[1]。
1.2 PCA降維技術
PCA降維技術主要思想是為提取特征空間中最具有區分能力的特征詞,從而進行降維。成分分析(Principal Component Analysis,PAC)是用特征向量對樣本數據進行分析,達到降維目的的一種多元統計分析方法。即將高維特征向量通過特征向量矩陣轉變為低維向量,該方法僅損失了一些次要信息,主要信息得以保留。其中,PCA借助Karhunen-loeve變換式(簡稱KL展開式)將測量空間里的數據分解映射到低維度的特征空間[2]。
1.3 樸素貝葉斯分類算法
貝葉斯算法是一種基于概率分析事件發生可能性的方法,其核心思想在于選擇發生概率高的作為分類的結果[3]。貝葉斯公式如下:
(2)
上述式子計算的P(A|B)是表示在事件B發生的前提下,事件A發生的概率。
假設郵件類別有正常郵件和垃圾郵件兩類,即V={v1,v2},其中v1代表正常郵件,v2代表垃圾郵件。通過TF-IDF和PCA技術對訓練樣本進行特征選取后,得到了最能區分正常郵件和垃圾郵件的n個單詞,從而設特征集合為X={x1,x2,...,xn}。則根據貝葉斯公式,可以推出:
(3)
由于需要假設各個單詞之間相互獨立,互不影響,所以:
(4)
所以檢測一個郵件是垃圾郵件還是正常郵件,只需要比較和,如果當前郵件的 >,判斷其為正常郵件,否則為垃圾郵件。
2 郵件檢測系統
本文提出一種基于自然語言處理技術的郵件檢測系統,首先需要人工搜集垃圾郵件和正常郵件作為訓練樣本,其中正常郵件數為7594,垃圾郵件數為22401。對已經分好類的訓練樣本,首先對所有的文本進行中文分詞,得到總詞庫,使用TF-IDF算法分別構建每一個正常郵件和垃圾郵件的特征向量,獲得一個特征空間,然后使用PCA降維技術,對這個特征空間進行降維,得到最能夠區分正常郵件和垃圾郵件的特征詞,由這些特征詞構成的特征向量空間,能夠最大程度上區分兩類郵件。由此,就得到了樸素貝葉斯分類器所需要的基礎。最后,根據得到的特征詞,對測試樣本中的每一個郵件,利用樸素貝葉斯公式,進行正常郵件和垃圾郵件的概率計算,并且比較兩個概率,如果判斷為垃圾郵件,則系統拒絕接收郵件,如果是正常郵件,則無需進行任何處理,直到所有的測試樣本檢測完畢,結束系統工作。系統大體流程如圖1所示。
根據訓練樣本,使用TF-IDF技術和PCA降維技術得到的特征詞一共有5001個,然后根據這些特征詞,就可以使用樸素貝葉斯算法進行分類。
3 測試與結果
本文選擇正常郵件數為844,垃圾郵件數為2489的測試樣本進行測試,測試結果如表1所示。
上述結果表示在844個正常郵件測試樣本中,使用本文的郵件檢測系統分類正確的郵件數為834,在2489個垃圾郵件測試樣本中,使用本文的郵件檢測系統分類正確的郵件數為2291。由此可得到本系統的平均準確率為94%左右。
4 結語
本文提出一種基于自然語言處理技術的郵件檢測系統方案,相比傳統的樸素貝葉斯分類算法,引入了TF-IDF特征提取技術和PCA降維技術,提高了傳統郵件過濾的準確率。當然,由于人工搜集數據的局限性,不能獲得所有能夠區分正常郵件和垃圾郵件的特征詞。下一步工作可以適當擴充數據,或者改進特征提取算法,提高分類準確性。
參考文獻
[1] 李建林.一種基于PCA的組合特征提取文本分類方法[J].計算機應用研究,2013,30(08):2398-2401.
[2] 李夢瀟,姚仕元.基于PCA的人臉識別系統的設計與改進[J].計算機科學,2019,46(S1):577-579.
[3] 王斌.基于樸素貝葉斯算法的垃圾郵件過濾系統的研究與實現[J].電子設計工程,2018,26(17):171-174.
Mail Detection System Based on Natural Language Processing Technology
DENG Jin
(Yanbian University, Yanji Jilin? 133002)
Abstract:With the development of electronic age, communication between people is more and more convenient. Email is a very important communication tool in today's social communication. However, e-mail will bring people a lot of junk information while it brings effective communication information. This paper proposes a message detection system based on natural language processing technology for the discrimination of spam. First of all, TFIDF feature extraction technology and PCA dimension reduction technology are used to obtain the features that can recognize spam most in the training samples, and then use simple Bayesian classification algorithm to detect the mail.
Key words:spam; TF-IDF;PCA; naive Bayesian classification algorithm