999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

加權LDA模型與SVM在垃圾郵件過濾中的應用

2016-10-22 02:22:23張帆
現代計算機 2016年26期
關鍵詞:分類文本方法

張帆

(四川大學計算機學院,成都 610000)

加權LDA模型與SVM在垃圾郵件過濾中的應用

張帆

(四川大學計算機學院,成都610000)

基于機器學習的垃圾郵件過濾方法相較于傳統方法有更好的效果。文本表示方法的好壞會對分類算法產生影響。加權LDA模型在傳統LDA模型的基礎上引入詞權重機制,通過這種方法獲得的文本表示聯合SVM分類器對郵件進行過濾,獲得較好的分類效果。通過對比實驗也驗證這種方法的正確性和可靠性。

垃圾郵件;LDA;詞權重

0 引言

從互聯網誕生至今,垃圾郵件就一直是人們致力解決的問題之一。從個人角度來看,垃圾郵件或者包含大量含有商業性質的信息或者攜帶了對用戶有害的病毒,而從整個郵件系統來看,垃圾郵件不僅占用了帶寬還加重了郵件系統的負載。垃圾郵件過濾的方法是現在多數郵件系統通常使用的垃圾郵件過濾方法?;跈C器學習的算法相比較于基于啟發式規則和黑名單/白名單方法過濾時表現出了更好的效果[1]。

文本表示的方法在機器學習算法的分類器中會對分類效果造成影響。由于使用傳統的向量空間模型(Vector Space Model)的文本表示會包含數以萬計的特征,當數據量較大時,分類效果并沒有達到工業應用的要求[2]。因此,使用特征選擇技術降低數據的維數是非常重要的一個步驟。

使用LDA(Latent Dirichlet Allocation)模型選擇特征,降低了數據的維數,再結合分類器可以取得較為滿意的分類結果[3]。考慮到詞的權重對于LDA模型中主題的影響,在LDA模型中引入了特征加權機制[4]。這種方法改善了LDA模型,在文本分析等相關領域已經得到了初步應用。支持向量機是一種被大家熟知的較為成熟的分類技術[5]。支持向量機的分類效果會因為數據表示方法的不同和核函數選擇的不同而變化。支持向量機這種分類方法在垃圾郵件過濾領域已經得到了應用。

本文將結合詞權重LDA模型與SVM,提出一種垃圾郵件過濾方法。

1 背景及相關工作

1.1LDA模型

LDA模型是在PLSA模型上加上了一層貝葉斯框架而形成的一種三層貝葉斯模型[3],由Blei等在在2003年提出[3]。

LDA模型中有兩個假設,首先是文檔集中的所有文檔是相互獨立可以交換的,其次是文檔集中的所有單詞也都是相互獨立可以交換的,因此LDA模型也是一種詞袋模型(bag of words)。LDA模型將整個文檔集視為“文檔”、“主題”和“詞”三層結構。文檔集中的每篇文檔都擁有特定數量的主題,主題的組合比例由Dirichlet分布生成。而隱含的主題定義為一個在整個單詞表的詞的離散分布。因此三層結構中就包含了“文檔-主題”和“主題-詞”這兩個分布。在這其中涉及到了貝葉斯、狄利克雷分布等知識。

LDA概率圖模型如圖1所示。

在圖1中,K是每篇文檔中主題的數目,M是整個數據集中文檔的數量,Nm是文檔集中第m篇文檔中詞的數目。α是“文檔-主題”分布的Dirichlet先驗參數,Zm,n是第m篇文檔中第n個單詞所屬的主題,Wm,n是第m篇文檔中的第n個單詞,θm表示的是第m篇文檔的主題概率分布,它是一個K維的向量,而φk是第K個話題的詞分布,是個V維向量(V是整個單詞表的詞的數目)。

圖1 LDA 主題模型圖

對于一個文檔集來說,Wm,n是可以直接觀測到的已知變量,α和β則是給定的先驗值,θm和φk是模型中未知的隱含變量,也是最終需要估計的變量。

LDA模型生成每個文本dm的過程就可以表示成:

(1)從整個文檔庫中選擇一個文檔dm,從參數為α的Dirichlet分布中得到該文檔的主題概率分布θm;

(2)從參數為β的Dirichlet分布中得到多項分布φz,作為話題Z在詞上的分布;

(3)對于文本dm中的第i個單詞wd,I:

①根據多項分布Zd,i~Mult(θm),得到主題Zd,i。

②根據多項分布Wd,i~Mult(φz)得到詞Wd,i。

LDA模型中的兩個重要參數θ和φ需要通過估計來獲得其值。在當前LDA模型中通常使用Gibbs采樣來估計這兩個參數的值[7]。Gibbs采樣通過構造符合馬爾可夫鏈的細致平穩條件的轉移矩陣的方法,來使在采樣過程中獲得的”文檔-主題”,”主題-詞”分布最終收斂。經過計算后驗概率得到的Gibbs采樣的計算公式為:

公式1的右邊其實就是p(word|topic)和p(topic| doc),即θ和φ,所以θ和φ可以通過采樣公式計算出來。θ和φ的計算公式可以表示為:

1.2支持向量機

支持向量機的主要解決的是二分類問題,它有著堅實的統計學理論基礎[8]。支持向量機的主要思想就是在樣本集中找到一個最優的分割平面來使得兩類樣本的分類間隔最大,通過這種方式可以使分類錯誤率降低,因此支持向量機相對于分類方法來說有著較高的分類準確率。

為了獲得分類間隔最大的超平面H,該分類問題可以描述成一個二次規劃問題:

通過求解ω和b的值,獲得判別函數和分類函數,如公式(6)和公式(7)所示:

因為文章的重點不在于支持向量機,對于其中參數問題的求解方法在這里不再贅述,具體可以參考相關文獻[5]。

圖2 

1.3加權LDA模型

在LDA模型中引入特征加權機制的想法來自己于Wilson等在2010年發表的論文中[5]。在LDA模型中,認為每個詞的權重對于主題的影響是相同的,但是在實際情況中,這種假設并不經常成立。在文檔中,某些詞對于主題的影響相對于文檔中的其他詞來說明顯有著更加重要的作用,所以將詞的權重機制引入LDA模型中是與實際相符的。

詞的權重通過計算詞和文本間的點互信息(Pointwise Mutual Information:PMI)來獲得。詞的權重的計算公式表示如下:

公式8中(wi|d)表示在文檔d中單詞wi出現的次數,而p(wi)表示的在整個文檔集中單詞wi出現的次數。

點互信息通常用于詞對中,用來表示詞對中的詞的相關程度。Wilson將其用于詞和文本來計算詞的權重。通過上述公式計算到每個詞的權重后,再將權重引入到Gibbs采樣的過程中。

在Gibbs采樣的過程中,當每次把文檔d中的一個詞d分配給主題k后,它的值不再增加1,改為增加這個詞的權重。用公式表示為:

公式(9)中weight就是特征詞的權重。從上面的公式中也可以看出,原始的LDA模型中的參數計算公式就是把每個詞的權重都默認為1的情況,因此可以把原始的LDA當做是加權LDA模型的特例。

2 實驗與分析

2.1數據集

實驗使用了5個著名的公開的數據集Enron[9]。在Enron1、Enron2和Enron3中,正常郵件的比重大,在Enron4和Enron5中垃圾郵件占的比重大。5個數據集的具體組成如下表。

表1 Enron數據集說明

2.2數據集預處理

由于在英文文檔中詞與詞之間有空格相連,所以對于這5個數據集省去了分詞的步驟。按照下面的順序對數據集中的文檔進行處理:

(1)由于英語中存在時態、語態和詞性等多種變化形式,一個詞可能會有多種變形形式。所以利用詞根還原技術(Steming)將文檔集中的詞都還原成為原始詞根,減少了整個單詞表中的詞的數目。

(2)文檔中還會有一些例如“a,an,the,of”等類似的詞語,這些詞被稱為停用詞,在預處理的過程中將這些停用詞去掉,減少算法的時間。

(3)分別從垃圾郵件夾和合法郵件夾,按照30%的比例選取文件,然后合起來作為測試集,剩下的70%作為訓練集。

2.3實驗性能測量標準

確定加權LDA模型中的隱含主題參數k的個數是整個模型參數設置的主要工作,主題數目對于整個實驗的影響也十分重要。對于隱含主題數k的確定,常使用統計語言模型中常用的評價指標標準困惑度(Perplexity)來進行選取[3]。標準困惑度是概率圖模型中常用的一種指標,用來反映數據的不確定度。標準困惑度越小,意味著模型的性能越好。加權LDA模型中的標準困惑度的計算公式如下:

Nm表示的是文檔集中第m篇文檔的單詞的數量,wi則是這一篇文檔中的第i個詞。

在對數據集中的郵件進行分類時,將合法郵件的類標設置為1,將垃圾的類標設置為-1。在相關文獻中指出,馬修斯相關系數是對于分類問題最好的評價指標之一[10]。馬修斯指數的計算公式表示為:

公式中的各項表示的含義如下表所示:

表2 分類混合矩陣

2.4實驗結果與分析

實驗首先通過找到較低的標準困惑度確定隱藏的主題的個數,再訓練加權LDA模型,將從模型中得到的主題參數作為每篇文檔的特征表示,達到降低維度的目的。最后再運用支持向量機作為分類器進行分類。

在實驗過程中對k取不同的值,我們100為間隔,統計標準困惑度的變化,如圖2所示,為了方便表示,縱坐標取的是標準困惑度的對數。

可以看出,標準困惑度在主題數目大概在300左右時達到最低,之后隨著主題的增多而變大,因此我們設定k的值為300。

加權LDA模型中的其他參數設置為α=50/K,β為0.01,迭代次數設置為200次。然后將主題參數作為支持向量機分類算法的輸入。為了體現該分類方法的效果,在五個數據集上的分類效果分別同LDA+SVM,VSM+LDA分類方法進行對比,實驗結果如表3所示。

從上表中可以看出,加權LDA模型結合SVM作為分類器的效果在Enron1、Enron2、Enron3和Enron5上的效果要比普通的LDA模型結合SVM的分類器效果好。在Enron4上雖然分類效果稍遜,但是也沒有相差很多。總體上來看,加權LDA模型在五個數據集上的整體效果也很好,MCC值都高于了0.87,這說明了加權LDA模型結合SVM是一種相對來說合理的預測,在實際應用中可行的。

表3 分類器實驗結果

圖2 標準困惑度隨主題數目變化情況圖

3 結語

本文將加權LDA模型與支持向量機的知識相結合,提出了一種新的分類器。在5個公開的數據量較大的數據集上進行了測試,并同過去的一些傳統分類器的分類結果進行了比較。通過實驗的結果可以發現,本文提出的這種分類方法具有更好的效果,表明了將這種方法運用到垃圾郵件過濾中是可行的。

未來的工作將主要集中在以下兩個方面:(1)如何能夠更準確地計算詞的權重。加權LDA模型中提出的權重機制并不適用于所有類型的文本,如果像微博一樣的短文本中,僅僅考慮詞頻,并不能區分不同的文本。(2)在更大的數據集上進行實驗,諸如TRE05,TRE06等,并同開源的一些商用垃圾郵件過濾器進行比較。

[1]CORMACK G V.Email Spam Filtering:a Systematic Review[J].Foundations and Trends in Information Retrieval,2007,1(4):335-455.

[2]Dasgupta A,Drineas P,Harb B,et al.Feature Selection Methods for Text Classification[C]/KDD 07 Research Track Papers.ACM Press,2007:230-239.

[3]Blei DM,Ng AY,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[4]Wilson AT,Chew PA.Term Weighting Schemes for Latent Dirichlet Allocation[C].Human Language Technologies:the Conference of the North American Chapter of the Association for Computational Linguistics.Association for Computational Linguistics,2010:465-473.

[5]N.Cristianin,J.Shawe-Taylor.An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods[M].Cambridge University Press,2000.

[6]CHOUHAN S.Behavior Analysis of SVM Based Spam Filtering Using Various Kernel Functions and Data Representations[C].Proceedings of the 2013 International Journal of Engineering Research and Technology.Gandhinagar:ESRSA Publications,2013:3029-3036.

[7]Wang H,Cao L Y,Yao H L,et al.A Local Gibbs Sampling Automatic Inference Algorithm Based on Structural Analysis[J].Pattern Recognintion&Artificial Intelgience,2013,26(4):382-391.

[8]HSU W C,YU T Y,Support Vector Machines Parameter Selection Based on Combined Taguchi Method and Staelin Method for E-mail Spam Filtering[J].International Journal of Engineering and Technology Innovation,2012,2(2):113-125.

[9]KLIMT B,YANG Y.The Enron Corpus:a New Dataset for Email Classification Research[C].Proceedings of the 15th European Conference on Machine Learning.Berlin:Springer,2004:217-226.

[10]BALDI P,BRUNAKS,CHAUVIN Y,et al.Assessing the Accuracy of Prediction Algorithms for Classification:an Overview[J].Bioinformatics,2000,16(5):412-424.

Application of Term Weighted LDA Model with SVM in Spam Filtering

ZHANG Fan
(College of Computer Science,Sichuan University,Chengdu 610000)

Spam filtering method based on machine learning has a better result than the traditional filtering methods.Text representation affects the result of classification algorithm.Adopts the term weighted LDA on the basis of LDA model,uses term weighted LDA model and SVM to filter spam,so as to get a good classification result.The contrast experiment also verifies the validity and reliability of the method.

Spam;LDA;Term Weight

1007-1423(2016)26-0009-05DOI:10.3969/j.issn.1007-1423.2016.26.002

張帆(1991-),男,河南安陽人,碩士研究生,研究方向為機器學習

2016-07-07

2016-09-10

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: www.91在线播放| 色综合综合网| 亚洲AV成人一区二区三区AV| 国产免费羞羞视频| 四虎永久在线精品国产免费| 波多野结衣无码AV在线| 国产乱子精品一区二区在线观看| 国产福利一区二区在线观看| 无码精油按摩潮喷在线播放| 这里只有精品免费视频| 精品久久国产综合精麻豆| 中文字幕在线播放不卡| 国产在线观看99| 成人夜夜嗨| 99久久成人国产精品免费| 国产男女免费完整版视频| 成年片色大黄全免费网站久久| 国产人前露出系列视频| 精品福利国产| 韩日午夜在线资源一区二区| 欧美亚洲另类在线观看| 精品国产免费观看一区| 亚洲精品高清视频| 欧美.成人.综合在线| 99re在线视频观看| 久久精品嫩草研究院| 国产精品香蕉在线| 露脸一二三区国语对白| 亚洲三级成人| 久久亚洲美女精品国产精品| 波多野吉衣一区二区三区av| 精品久久久无码专区中文字幕| 99久久性生片| 亚洲欧洲日产国码无码av喷潮| 狠狠干欧美| 国产白浆在线观看| 亚洲天堂网在线视频| 91麻豆精品国产高清在线| 久久久久九九精品影院| 成人在线观看不卡| 亚洲精品国产精品乱码不卞| 先锋资源久久| 2021国产精品自产拍在线| 看av免费毛片手机播放| 国产另类视频| 亚洲第一成年人网站| 就去吻亚洲精品国产欧美| 中文字幕伦视频| 久久综合亚洲色一区二区三区| 亚洲高清无在码在线无弹窗| 狼友av永久网站免费观看| 国产成人成人一区二区| 久久天天躁狠狠躁夜夜2020一| 国产成人精品优优av| 国产一级毛片在线| 热99精品视频| 精品人妻无码中字系列| 丰满人妻中出白浆| 国产视频大全| 在线一级毛片| 亚洲成肉网| 欧美日本在线播放| 欧美精品不卡| 亚洲精品国产自在现线最新| 女人18毛片一级毛片在线 | 欧美一区中文字幕| 91成人免费观看| 亚洲男人天堂网址| 欧美精品啪啪| 国产女人爽到高潮的免费视频 | 亚洲综合片| 91精品小视频| 国产在线91在线电影| 九色视频一区| 囯产av无码片毛片一级| 国产精品视频白浆免费视频| 久久久亚洲色| 欧美日韩久久综合| 亚洲第一视频免费在线| 国产噜噜噜视频在线观看| 天堂中文在线资源| 亚洲国产天堂久久九九九|