999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的郵件過濾技術研究

2017-01-11 14:23:23朱俚治朱梧檟侯愛蓮
計算技術與自動化 2016年4期

朱俚治 朱梧檟 侯愛蓮

摘要:為了改進已有郵件過濾算法的不足之處,提出一種新的郵件過濾算法。以往的大部分過濾算法采用的都是郵件屬性精確匹配算法,并未使用模糊匹配思想,因此郵件的漏檢率較高,并且發現未知郵件的效率較低。針對以往郵件過濾算法中漏檢率比較高的不足之處,文中提出的郵件過濾算法的改進思路是:首先使用傳統的黑白名單過濾技術對已知的郵件進行分類,那些是正常郵件,那些是垃圾郵件。在此基礎之上使用相似性算法來計算未知郵件與已知郵件的相似度,從而達到對未知郵件分類目的,最后使用MMTD算法對的郵件相似度的好壞做出衡量,并且以此為郵件過濾提供有效的依據,經過以上的三個步驟之后,最后進行郵件的過濾。

關鍵詞:垃圾郵件;MMTD;相似性

中圖分類號:TP301.6文獻標識碼:A

Abstract:The widely used mail attributes exact matching algorithm does not use fuzzy matching ideas, so the rate of missed messages is high and the efficiency of finding the unknown message is low. This paper presented the improved spam filtering idea. First, the traditional black and white list of known email filtering technology was used to classify the messages into normal email and spam. Based on this, similarity algorithm was used to calculate the unknown email message with the known similarity, so as to achieve the unknown message classification purposes. Then, MMTD mail similarity algorithm was used to measure the quality of email message, which provides the effective basis for message filter. After the above three steps, the email messages were filtered.

Key words:spam; MMTD; similarity

1引言

正常郵件與垃圾郵件是兩種性質的郵件,垃圾郵件是缺乏實際意義和沒有用處的郵件,因此為了保護有限的郵件資源,必須阻止垃圾郵件在網絡中肆意傳播。到目前為止郵件過濾研究人員已開發出了許多郵件過濾技術。但由于垃圾郵件技術發展速度較快,單一的郵件過濾技術難以勝任某些的郵件過濾任務 。

現有的郵件過濾技術主要包括:①基于黑白名單郵件過濾技術,②基于過濾規則的郵件過濾技術,③基于郵件內容的過濾技術[1-3]。這些郵件過濾技術都各自的優勢同時也有不足的地方。最早出現的黑白名單過濾技術的缺點是漏檢率較高,并且效率低于基于其它的郵件過濾技術[1-3]。基于內容過濾技術與基于貝葉斯過濾算法在當今的郵件過濾技術中有較為廣泛的應用,過濾郵件時誤判率有所降低[1-3]。現在有以下幾種技術在郵件過濾技術中進行應用:決策樹,使用SPF協議該改進SMTP協議,人工免疫,ripper算法等等各種算法[3]。根據上述原因,為了將大部分垃圾郵件進行過濾,只有將已有的過濾技術綜合應用才能夠達到過濾郵件的目的。

本文提出的郵件過濾的算法中使用了黑白名單技術,相似性計算算法和MMTD算法,該郵件過濾的思路是:①提取已知的黑白名單郵件屬性,②使用相似性算法計算未知郵件與已知郵件的相似性,③最后使用MMTD算法對相似性的計算結果做出衡量和估計。新郵件過濾算法優點在于①使用了兩種近似算法:相似性計算和MMTD算法,②將傳統的郵件過濾技術與相似性算法相互結合,③將郵件屬性之間的精確匹配改為郵件屬性之間的相似性匹配。

2現有的郵件過濾技術簡介

2.1二黑白名單過濾技術

在黑白名單過濾技術中:網絡管理人員把屬于黑名的郵件設定為垃圾郵件名單,白名單設定為正常的郵件名單。因此根據已有的新名單可以將已知的郵件進行分類。黑/白名單的建立是周期性的而非實時的,并且黑/白名單還很容易出錯,容易出現誤判的現象[1-4]。

2.2基于過濾規則的郵件過濾技術

基于過濾規則的郵件過濾技術是用戶根據已有的郵件信息來制定若干條郵件的過濾規則。一般來說,過濾規則通常從信頭分析、群發過濾、關鍵詞精確匹配和郵件內容的其他特征幾個方面來進行設置[1-4],在過濾規則中符合其中一條或多條的就認為是垃圾郵件[1-4] 。

2.3基于郵件內容的過濾技術

對于未知特征的新垃圾郵件,黑/白名單技術與過濾規則技術一般不能將垃圾郵件與正常郵件進行有效的區分,這時誤判現象較高[1-4]。然而基于郵件內容過濾技術的優勢在于能夠過濾新的垃圾郵件。郵件內容過濾技術在一定程度上能夠自動地對這些郵件進行識別,因此能夠近一步提高過濾系統的智能性,減少誤判現象。

因此針對目前垃圾郵件過濾技術發展的狀況,本文的作者在查閱有關的郵件過濾技術之后,提出了一種新的郵件過濾算法,以下是本文提出的郵件過濾算法描述。

3郵件的特征屬性

3.1區分垃圾郵件與正常郵件主要的屬性

①發件人地址和回復地址是否相同,②郵件抄送個數,③郵件主題,④X-Mailer信頭,⑤Received:字段出現次數,⑥是否含有偽造Received字段,⑦信體中關鍵詞個數,⑧郵件附件類型,⑨郵件正文大小[5]。

在郵件的特性中:屬性郵件正文內容的屬性有:①信體中關鍵詞個數,②郵件附件類型,③郵件正文大小[5]。屬于郵件結構的屬性有:①發件人地址和回復地址是否相同, ②郵件抄送個數,③郵件主題,④XMailer信頭,⑤Received字段出現次數,⑥是否含有偽造Received字段[5]。

3.2本文過濾垃圾郵件時采用的郵件屬性

郵件結構特征屬性:①發件人地址和回復地址是否相同, ②郵件抄送個數,③郵件主題,⑤Received:字段出現次數,⑥是否含有偽造Received字段[5]。

郵件的正文內容特征屬性:⑦信體中關鍵詞個數,⑧郵件附件類型,⑨郵件正文大小[5]。

4黑/白名單對已知的郵件進行分類

1)電子郵件中存在兩種屬性的郵件:①正常的郵件,②垃圾郵件。

2)黑名單的郵件是垃圾郵件,白名單的郵件是正常郵件。

5歐氏距離公式與相似性計算

5.1歐氏距離公式的簡介

在聚類算法中研究人員常常使用歐氏距離作為聚類對象屬性之間相似性計算,常用的公式有歐氏距離公式和馬氏距離公式。因此本文采用歐氏距離作為衡量對象相似性的計算公式。

歐氏距離計算公式[6-7]:

5.3區分垃圾郵件與正常郵件主要的屬性等待識別的郵件A′與已知郵件A之間的相似性計算

函數:f(x)=1-等待識別郵件的屬性已知郵件的屬性(1)

在本文中采用A′表示等待識別的郵件,用A表示已知郵件。

說明:y=f(x)的含義是等待識別的郵件偏離與已知郵件屬性的函數。

函數:g(x)=1-f(x)(2)

說明:y=g(x)的含義是等待識別郵件與已知郵件相似性的函數。

分析和討論:

1)郵件A′與郵件A的相似性計算

(1)如果郵件A′的某個屬性值十分接近于郵件A的某個屬性值時,那么XipXjp的比值將十分逼近1值。如果XipXjp的比值十分逼近1時,那么函數f(x)=1-XipXjp就十分接近于0的值,這時郵件A′的屬性值偏離郵件A的屬性值將趨向于0。根據以上的分析有此結論:如果y=f(x)的值越小,則郵件A′的屬性偏離郵件A的概率就越小。

(2)如果y=f(x)的值越小,.那么g(x)=1-f(x)的值就越大,就表示郵件A′的屬性偏離郵件A屬性的概率就越小,那么郵件A′的屬性與郵件A的相似的概率就越大。根據以上的分析有此結論:此時等待識別郵件的屬性與已知郵件屬性的相似度就越強

2)郵件A′偏離郵件A屬性的計算

(1)如果郵件A′的某個屬性值大于郵件A的某個屬性值時,那么XipXjp的比值將大于1時。當XipXjp的比值越大時,函數f(x)=1-XipXjp的值大于0的程度就越明顯,則這時郵件A′的屬性值偏離郵件A的程度就越大。

如果y=f(x)的值越大,那么g(x)=1-f(x)的值就越小,就表示郵件A′的屬性偏離郵件A的概率就越大。這時郵件A′的屬性與郵件A相似的概率就越小,則等待識別郵件的屬性與已知郵件屬性之間的相似度就越弱。

(2)如果郵件A′的某個屬性值小于郵件A的某個屬性值時,那么XipXjp的比值將小于1時。當XipXjp的比值越小時,則郵件A′的屬性偏離郵件A的概率就越大。

如果y=f(x)的值越大,那么g(x)=1-f(x)的值就越小,就表示郵件A′的屬性偏離郵件A的概率就越大。這時郵件A′的屬性與郵件A的相似的概率就越小,則等待識別郵件的屬性與已知郵件屬性之間的相似度就越弱。

3)根據以上分析和討論,以下使用第5節和第6節中的MMTD算法實現郵件A′與郵件A屬性相似度上的匹配。

6歐氏距離公式與相似性計算

6.1中介真值程度度量知識簡介

中介邏輯將事物的屬性描述成三種狀態,事物屬性的兩個對立面和對立面的中間過渡狀態。在中介真值程度度量方法中,提出了事物超態屬性概念,該方法符合中介思想事物的屬性并且被劃分為五種狀態:事物的兩個對立面,對立面的中間過渡狀態和事物超態對立面[12-13]。這里用符號表示為~P,P與P,超態+p與超態+p。現用數軸將以上的描述的概念表達如下[12-13]:

對數軸y=f(x)表示的含義有以下說明[12-13]:

數軸上用符號P與P分別表示事物對立面的兩個屬性,符號~P表示反對對立面的中間過渡狀態達事物的屬性。

1)如果數軸上數值點的位置逐步接近P,則事物A所具有P的屬性逐步增強

2)如果該數值點的位置落在真值P和 P的取范圍之間,則事物A的屬性就部分地具有P的屬性,同時又部分地具有P的屬性。

3)如果數軸上數值點的位置逐步接近P,則事物A所具有P的屬性逐步增強。

6.2距離比率函數及其定理

在中介真值程度度量的方法中,數軸上某數值點通過距離比率函數來計算事物所具有屬性的強弱。

7MMTD方法在郵件相似度計算上的應用

7.1度量函數及其討論

度量函數:y=f(x)=1-δ(1)

說明:δ表示的含義是由歐氏距離公式計算的的兩封郵件某種屬性之間的比值,如果兩封郵件屬性的相似程度較好,那么有δ≈1。

分析和討論:

1)δ=1時

如果y=f(x)=1-δ=0,那么表示這兩封郵件的屬性完全相同。這時郵件屬性的相似性強。

2)δ≈1時

如果y=f(x)=1-δ≈0,那么表示這封兩郵件屬性的相似性部分強部分弱。

3)δ>1時

如果y=f(x)=1-δ>1,y=f(x)的值越大,那么表示這兩封郵件的屬性值就相差很大,這時郵件屬性的相似性就弱,那么這兩封郵件屬于不相同郵件的幾率就越大。

4)δ<1時

如果y=f(x)=1-δ<1,y=f(x)的值越小,那么表示這兩封郵件的屬性值就相差很大,這時郵件屬性的相似性就弱,那么這兩封郵件屬于不相同郵件的幾率就越大。

7.2使用中介對郵件相似匹配的描述

1)以下用中介真值程度度量方法對郵件A′與郵件A的相似度做以下的研究:

數軸y=f(x)上有P, ~P,P三個數據區域,P代表郵件屬性的相似性強,P代表郵件屬性的相似性弱,~P代表郵件屬性的相似性部分強部分弱。

從數軸上y=f(x)可以知道,在數軸上以~P為對稱中心,左右分別為P和P。

圖2中介真值程度度量一維函數的應用

y=f(x)的值落在三個值域范圍(αr+εr,αl-εl),(αr-εr,αr+εr),(αl-εl,αl+εl)。~P的區域為 (αr+εr,αl-εl),P的區域為(αr-εr,αr+εr),P的區域為(αl-εl,αl+εl)。P的真值為1,P的真值為0。

2)通過距離比率函數hT(x)對y值的計算,如果有

(1)若函數hT(x)=1,y值落在區域(αl-εl,αl+εl),則此時郵件的屬性相似性強。

(2)若函數hT(x)=0,y值落在區域(αr-εr,αr+εr),則此時郵件的屬性相似性弱。

(3)若函數hT(x)= d(y,αr-εr)d(αl-εl,αr+εr),y值落在區域(αr+εr,αl-εl),則此時郵件屬性的相似性部分強部分弱。

8郵件的過濾算法

1)使用郵件的黑/白對郵件的屬性進行分類:①正常郵件,②垃圾郵件。

2)使用相似性計算算法對未知郵件與已知郵件相似度進行計算。

3)使用MMTD算法對相似性的計算結果進行判定,為郵件過濾提供有效的依據。

4)對垃圾郵件進行過濾。

9結束語

為了應對網絡中的垃圾郵件用戶帶來的危害性,郵件管理人員必須有效的區分垃圾郵件和正常郵件,從而將垃圾郵件從郵件中過濾除去。本文提出的郵件過濾算法采用了兩種智能性算法,相似性計算算法和MMTD算法,該算法在一定程度能夠自動識別未知屬性的郵件,能夠減少在過濾郵件時的誤判率,提高郵過濾技術的精確性。但已知郵件的特征選取時是否具有選擇性,如何選取具有代表的郵件屬性還需要進一步的研究。

最后該垃圾過濾技術與傳統垃圾過濾技術改進之處在于:①改進了黑白名單的郵件過濾技術不能發現新的垃圾郵件的缺點,②改進了基于過濾規則的郵件過濾技術,由郵件屬性的精確匹配變為郵件屬性的模糊匹配,③根據已知的郵件特征能夠發現未知的垃圾郵件。

參考文獻

[1]曾小寧.一種新的垃圾郵件過濾技術的研究與實現[J].計算機應用與軟件,2009, 26(7):98-101.

[2]范黎明.一種用于垃圾郵件過濾的中文關鍵詞匹配算法[J].河南科技大學學報,2006,27(5):35-37.

[3]陳志賢.垃圾郵件過濾技術研究綜述[J].計算機應用研究,2009,26(5):1612-1615.

[4]陳治平.基于自學習K近鄰的垃圾郵件過濾算法[J].計算機應用,2005(25):7-9.

[5]潘文鋒.基于內容的垃圾郵件過濾研究[D].中國科學院研究生院,2004.

[6]孟海東,張玉英,宋飛燕.一種基于加權歐氏距離聚類方法的研究[J].計算機應用,2006,26(12):152-153.

[7]董旭,魏振軍.一種加權歐氏距離聚類方法[J].信息工程大學學報,2005, 6(1):23-25.

[8]彭洪,張東娜,吳鐵峰.惡意程序檢測的粗糙集方法[J].計算機應用與軟件,2005,22(7):124-125.

[9]邵峰晶,于忠清,王金龍,等編著.數據挖掘原理與算法[M].科學出版社,2009.

[10]羅森林,馬駿,潘麗敏編著.數據挖掘理論與技術[M].電子工業出版時,2013.

[11]MITCHELL T著.機器學習[M].機械工業出版社,2013.

[12]洪龍,肖奚安,朱梧槚.中介真值程度的度量及其應用(I)[J].計算機學報,2006,(12):2186-2193.

[13]朱梧槚,肖奚安.數學基礎與模糊數學基礎[J].自然雜志,1980,(7):723-726.

主站蜘蛛池模板: 国产精品毛片在线直播完整版| 国产精品男人的天堂| 日韩精品无码免费一区二区三区| 亚洲精品日产精品乱码不卡| 69精品在线观看| 99热这里只有免费国产精品| 在线观看热码亚洲av每日更新| 国产不卡一级毛片视频| 2022精品国偷自产免费观看| 无码粉嫩虎白一线天在线观看| 亚洲欧美日韩中文字幕一区二区三区| 国产一区自拍视频| 国产精品久线在线观看| 成人福利一区二区视频在线| 亚洲天堂视频在线播放| 国产女人在线观看| 丁香婷婷激情网| 国产区人妖精品人妖精品视频| 国产精品免费入口视频| 成人福利在线观看| 日本一区二区三区精品国产| 国产精品成| 中文字幕久久亚洲一区| 国产一级二级在线观看| 久久精品免费看一| 免费高清自慰一区二区三区| 欧美成人午夜影院| 无码国产伊人| a免费毛片在线播放| 国产日本一线在线观看免费| 中文字幕亚洲另类天堂| 午夜视频免费一区二区在线看| 一个色综合久久| 国产三级国产精品国产普男人| 国产精品高清国产三级囯产AV| 在线免费看片a| 国产区精品高清在线观看| 人人91人人澡人人妻人人爽| 美女一级毛片无遮挡内谢| 国产视频一二三区| 亚洲男人在线天堂| 国产中文一区a级毛片视频| 精品久久777| 99手机在线视频| 欧美性久久久久| 高清不卡一区二区三区香蕉| 欧美国产日韩在线| 国产高清不卡| 国产美女一级毛片| 香蕉蕉亚亚洲aav综合| 亚洲日韩国产精品无码专区| 欧美另类一区| 精品国产中文一级毛片在线看| 久久99精品久久久久纯品| 国产91成人| 伊伊人成亚洲综合人网7777| 高潮毛片无遮挡高清视频播放| 免费大黄网站在线观看| 国产一级精品毛片基地| 国产男人的天堂| 动漫精品中文字幕无码| 亚洲午夜天堂| 中文成人在线| 一级片一区| 福利国产微拍广场一区视频在线| 国产菊爆视频在线观看| 日韩天堂在线观看| 这里只有精品在线播放| 99热这里只有精品2| 日韩无码黄色网站| 亚洲精品国产日韩无码AV永久免费网 | 国产亚洲欧美日韩在线一区| 成人伊人色一区二区三区| 一级全免费视频播放| 欧美日韩亚洲综合在线观看| 国产亚洲欧美在线专区| 久久久黄色片| 无码高潮喷水专区久久| 国产精品999在线| 2018日日摸夜夜添狠狠躁| 亚洲成a人片在线观看88| 亚洲第一综合天堂另类专|