999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新的基于最小風險的貝葉斯郵件過濾模型

2008-01-01 00:00:00裘國永何聚厚
計算機應用研究 2008年4期

摘要:分析了目前在垃圾郵件過濾中廣泛應用的基于最小風險的樸素貝葉斯模型,提出了一種新的基于直線幾何分割的樸素貝葉斯郵件過濾模型LGDNBF,定義了新的風險因子。新的風險因子對決策風險的描述更加精確,同時使得LGDNBF具有一定的可擴展性。實驗結果證明,LGDNBF的分類準確率比傳統的基于最小風險的樸素貝葉斯模型有明顯的改善。

關鍵詞:垃圾郵件過濾; 樸素貝葉斯; 最小風險; 風險因子

中圖分類號:TP393.098文獻標志碼:A

文章編號:1001-3695(2008)04-1147-02

0引言

隨著互聯網的快速發展,電子郵件已經成為人們在日常生活中信息交互的重要工具。與此同時,垃圾郵件在網絡上也逐漸呈現泛濫之勢。大量的商業郵件、政治宣傳郵件在沒有得到用戶許可的情況下發送到用戶的郵箱中,耗費了大量的網絡資源、增加了用戶的使用成本。近年來垃圾郵件發送的手段更加隱蔽和狡猾,垃圾郵件的危害性更大。病毒“網絡釣魚”等破壞性的垃圾郵件增多。垃圾郵件已經演變成全世界較為廣泛的網絡安全威脅。

反垃圾郵件過濾的主要技術有基于信件源的技術,包括IP地址黑名單、HashCash、發送者政策框架(SPF)、Domain Keys技術等;基于內容的技術主要是將數據挖掘和機器學習的理論引入到垃圾郵件內容過濾中。在基于內容的垃圾郵件過濾方法中,樸素貝葉斯是一種簡單的機器學習方法,它通過區分垃圾郵件和合法郵件的特征進行自學習。在新郵件到來時,由分類器根據訓練學習的結果預測新郵件為垃圾郵件(spam)或正常郵件(ham)的可能性,將郵件歸入可能性最大的那一類。Nave Bayes以其運算速度快、易于實現等特點在垃圾郵件過濾中得到了廣泛的應用。

本文提出了一種新的基于最小風險的樸素貝葉斯郵件過濾模型,即基于直線幾何分割的NBF模型。在這個模型中,郵件文本被看做是平面中的一點,而分類器對應一條直線,利用點和直線的幾何關系來決策新郵件的類型。實驗證明,對PU系列語料的分類,該模型比傳統的基于最小風險的NBF有較為明顯的改進。

1基于最小風險的NB過濾模型

傳統的NBF通常是將郵件文本形式化描述成向量E:{t1,t2,…,tn}[1,2]。其中:ti是特征詞。將郵件文本的類別定義為:c∈C={spam,ham}。NBF主要分為訓練子系統和分類子系統兩部分。對于訓練子系統,首先收集一定數量的郵件訓練集,將郵件訓練集分為垃圾郵件和正常郵件兩部分,由分類器自己學習不同郵件類別的特征。在新郵件到來時,郵件分類器的任務就是計算出待分類郵件是c=spam的概率。如果它超過某一個閾值則認為該郵件為垃圾郵件。

根據貝葉斯理論,未知郵件的類別概率由如下公式計算:

實驗中對于風險因子RFS和RFH的選取基于經驗和實驗結果的對比。需要指出的是,基于用戶對正常郵件被誤判的敏感,RFH可以取一個較小的值,而RFS可以取一個較大的值。如圖3所示,直線1為分類器,它與直線2的距離為RFH,與直線3的距離為RFS。直線2和3以外的區域為安全決策區域,以內的區域為高風險決策區域。因此,處于安全決策區域的郵件文本點就可以先作出決策,而處于高風險決策區域的郵件文本點可以采用分類精度更高的分類器對其進行二次分類。從這一點可以看出LGDNBF模型的可擴展性。如果考慮基于最小風險進行決策,也可以只考慮風險因子RFS,即對于新郵件,計算出其所對應的點(X,Y)到分類直線的距離d。若X+Z>Y,同時d>RFS,才認為該郵件為spam;否則均認為是ham。

表1給出了針對PU3語料NBF和LGDNBF的實驗效果對比。其中,NBF中的λ=999??梢钥闯?,LGDNBF在SR、SP和AC三個指標上效果都優于傳統的NBF,尤其是可以反復調整RFS值,使得SP穩定在100%。同時,反映了本文定義的風險因子RFS對決策風險的描述,準確度要高于傳統的基于最小風險的NBF中的λ。這說明LGDNBF是一個更有效的基于最小風險的貝葉斯郵件過濾模型。

4結束語

本文綜合分析了傳統的基于最小風險的NBF模型特點,提出基于直線幾何分割的NBF模型LGDNBF。通過實驗證明,LGDNBF的有效性。同時,LGDNBF表現出一定的擴展性,即對于處在高風險決策區域中的郵件文本,可以在不考慮速度的情況下對其進行二次分類,以進一步提高分類效果。這就體現出本文定義兩個風險因子RFS和RFH的優勢。下一步的研究重點是建立兩層或n層的LGDNBF,進一步提高其過濾能力;并比較研究在不同的垃圾郵件語料上RFS和RFH的值,尋求兩個風險因子可能存在的變化規律。

參考文獻:

[1]ANDROUTSOPOULOS I, KOUTSIAS J, CHANDR I K, et al. An evaluation of Naive Bayesian anti-spam filtering[C]//Proc of the Workshop on Machine Learning in the New Information Age, the 11th European Conference on Machine Learning (ECML’00). Barcelona:Lecture Notes in Computer Science,2000: 9-17.

[2]葉吉祥,譚冠政.一種基于AIS和Bayes網絡的垃圾郵件過濾算法[J].計算機工程,2006,32(11):26-28.

[3]GRAHAM P.A plan for spam [EB/OL].[2007-01-27].http://www.paulgraham.com/spam.html.

[4]李翔鷹,葉楓.一種基于多貝葉斯算法的垃圾郵件過濾方法[J].計算機工程與應用,2006, 3 (31):114-116.

[5]段宏斌,張健.改進的Nave Bayes技術在反垃圾郵件系統中的應用[J].西北大學學報:自然科學版,2006,36(5):737-740.

[6]METSIS V, ANDROUTSOPOULOS I, PALIOURAS G. Spam filtering with Naive Bayes-Which Naive Bayes?[C]//Proc of the 2nd Conference on E-mail and AntiSpam(CEAS). California Mountain View, 2006:27-28.

[7]WITTEN L H, FRANK E. Data mining practical machine learning tools and techniques[M].2nd ed.San Francisco:Morgan Kaufmann Publishers, 2005: 88-97.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 免费又爽又刺激高潮网址| 免费国产小视频在线观看| 韩日无码在线不卡| 四虎成人免费毛片| 亚洲美女视频一区| 日韩A级毛片一区二区三区| 精品视频福利| 久久综合婷婷| 99在线观看国产| 一级爱做片免费观看久久 | 99久久国产综合精品2020| 国产在线观看成人91| 国产日韩精品欧美一区喷| 成年人免费国产视频| 日韩欧美中文字幕在线精品| 国产一级毛片在线| 97精品久久久大香线焦| 成人亚洲天堂| 国产美女无遮挡免费视频网站| 毛片视频网址| 在线观看亚洲精品福利片| 又污又黄又无遮挡网站| 欧美成在线视频| 2022国产91精品久久久久久| 中文字幕在线不卡视频| 久久久久久尹人网香蕉| 日韩欧美中文在线| 一边摸一边做爽的视频17国产| 久久亚洲国产最新网站| 亚洲AV无码乱码在线观看裸奔| 欧美色综合久久| 亚洲国产精品国自产拍A| 国产一区二区三区精品欧美日韩| 国产青榴视频| a毛片在线播放| 欧洲一区二区三区无码| 亚洲第一成人在线| 国产免费人成视频网| 国产午夜一级淫片| 国产香蕉国产精品偷在线观看| 亚洲国产精品美女| 亚洲区欧美区| 911亚洲精品| 五月天在线网站| 国产电话自拍伊人| 91无码人妻精品一区二区蜜桃| 91高清在线视频| 国产乱子伦视频在线播放| 日韩小视频在线观看| 黄色不卡视频| 日韩av无码精品专区| 国产欧美专区在线观看| 久久精品无码国产一区二区三区| 欧美人与性动交a欧美精品| 日韩欧美国产另类| 最新国产你懂的在线网址| 91精品国产情侣高潮露脸| 免费观看男人免费桶女人视频| 蜜臀AV在线播放| 天天操天天噜| 国产69精品久久| 久久夜夜视频| jizz在线免费播放| 狠狠做深爱婷婷综合一区| 午夜电影在线观看国产1区| 女人18毛片水真多国产| 国产swag在线观看| 日本免费a视频| 午夜精品福利影院| 毛片在线看网站| 欧美亚洲欧美区| 中国国产A一级毛片| 国产精品久久久久久久伊一| 91在线丝袜| 国产91精选在线观看| 国产成人三级在线观看视频| 香蕉综合在线视频91| 九九热精品在线视频| 精品一區二區久久久久久久網站| 亚国产欧美在线人成| 亚洲IV视频免费在线光看| 亚洲av无码牛牛影视在线二区|