999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于免疫Agent的垃圾郵件過(guò)濾模型

2016-09-26 07:20:36蔣亞平田月霞
關(guān)鍵詞:特征檢測(cè)信息

蔣亞平 田月霞 梅 驍

(鄭州輕工業(yè)學(xué)院計(jì)算機(jī)與通信工程學(xué)院 河南 鄭州 450001)

?

基于免疫Agent的垃圾郵件過(guò)濾模型

蔣亞平田月霞*梅驍

(鄭州輕工業(yè)學(xué)院計(jì)算機(jī)與通信工程學(xué)院河南 鄭州 450001)

針對(duì)傳統(tǒng)的垃圾郵件過(guò)濾方法不能有效識(shí)別未知特征及變異特征、終端服務(wù)器負(fù)載較大和接收郵件時(shí)延較長(zhǎng)等問(wèn)題,借鑒生物免疫學(xué)原理和多Agent技術(shù),設(shè)計(jì)一種基于免疫多Agent垃圾郵件過(guò)濾模型SF-MA。該模型通過(guò)對(duì)SMTP協(xié)議改進(jìn),可快速地判斷垃圾郵件的產(chǎn)生,并記憶特征信息;設(shè)計(jì)抗原提呈算法,擴(kuò)大自體庫(kù)的規(guī)模;將疫苗概念引入模型,保留優(yōu)良基因,實(shí)現(xiàn)各個(gè)Agent的信息交互,增強(qiáng)了整個(gè)模型“記憶”機(jī)制,有效地提取垃圾郵件的信息和變異特征。利用郵件樣本集對(duì)該模型進(jìn)行訓(xùn)練和測(cè)試,仿真結(jié)果表明,該模型與其他模型相比具有更好的性能,有效地提高了垃圾郵件模型的正確率等特性,降低了虛報(bào)率。

人工免疫SMTP協(xié)議垃圾郵件抗原提呈疫苗多Agent

0 引 言

現(xiàn)今,網(wǎng)絡(luò)技術(shù)日益發(fā)達(dá),通信方式已由原始的信件收發(fā)等方式,轉(zhuǎn)變?yōu)楝F(xiàn)在郵件發(fā)送。雖然,郵件的存在極大地方便了用戶,但存在的大量垃圾郵件嚴(yán)重影響用戶的日常生活,不僅占用大量的傳輸與存儲(chǔ)資源,而且造成網(wǎng)絡(luò)資源的浪費(fèi)[1]。因此,垃圾郵件過(guò)濾技術(shù)的研究成為了網(wǎng)絡(luò)安全技術(shù)領(lǐng)域研究的熱點(diǎn)之一。

在垃圾郵件中存在的信息一般具有不易發(fā)現(xiàn)、變異能力強(qiáng)等特點(diǎn)。現(xiàn)有的垃圾郵件過(guò)濾方法,如樸素貝葉斯[2]、k鄰近算法[3]、支持向量機(jī)(SVM)[4]和神經(jīng)網(wǎng)絡(luò)[5]等文本分類方法,可有效地實(shí)現(xiàn)垃圾郵件的檢測(cè)和過(guò)濾功能,但對(duì)于郵件中變異的特征或新出現(xiàn)的特征則往往不能及時(shí)發(fā)現(xiàn)與提取郵件特征,信息交互不及時(shí)。近年來(lái),人工免疫系統(tǒng)AIS(ArtificialImmuneSystem)以生物免疫系統(tǒng)為原型進(jìn)行模擬已被成功運(yùn)用[6]。采用人工免疫技術(shù)構(gòu)造效率高,信息交互性強(qiáng)的反垃圾郵件模型也逐漸成為研究的熱點(diǎn)。

對(duì)于單一的郵件服務(wù)器收轉(zhuǎn)發(fā)節(jié)點(diǎn),發(fā)現(xiàn)新型垃圾郵件特征信息對(duì)整個(gè)郵件系統(tǒng)并不明顯,且隨著各種應(yīng)用不斷增加,網(wǎng)絡(luò)終端負(fù)載日益加重,垃圾郵件數(shù)量越來(lái)越多。為解決終端服務(wù)器負(fù)載較大、特征不能提取或提取時(shí)延較長(zhǎng)等問(wèn)題,可將多Agent技術(shù)應(yīng)用于垃圾郵件過(guò)濾模型。在模型中將郵件過(guò)濾模型中不同的單個(gè)聯(lián)網(wǎng)轉(zhuǎn)發(fā)節(jié)點(diǎn)看作不同的進(jìn)程Agent,每個(gè)Agent都具有提取垃圾郵件特征的能力,且能單獨(dú)完成各自的任務(wù),然后將所有Agent組合起來(lái)組成一個(gè)多Agent系統(tǒng)。這既能夠?qū)蝹€(gè)Agent進(jìn)行相對(duì)獨(dú)立的檢測(cè),又可以互相交流信息,學(xué)習(xí)積累郵件特征信息,實(shí)現(xiàn)復(fù)雜環(huán)境下的問(wèn)題求解。

結(jié)合人工免疫特性及多Agent原理,提出一種基于免疫多Agent的垃圾郵件過(guò)濾模型SF-MA。該模型通過(guò)對(duì)SMTP協(xié)議該進(jìn),可以在郵件的第一道防線,快速對(duì)垃圾郵件進(jìn)行識(shí)別判斷,并歸類郵件信息特征;設(shè)計(jì)抗原提呈算法,擴(kuò)大自體庫(kù)的規(guī)模;并將疫苗概念引入模型,通過(guò)疫苗提取和疫苗接種保留優(yōu)良基因,增強(qiáng)了整個(gè)模型“記憶”能力,以有效地提取垃圾郵件的信息和變異特征。通過(guò)對(duì)該模型訓(xùn)練和測(cè)試,結(jié)果表明該模型能夠準(zhǔn)確地判斷垃圾郵件,有效地提高垃圾郵件的過(guò)濾效率。

1 免疫多Agent垃圾郵件模型

經(jīng)過(guò)分析免疫細(xì)胞和Agent之間、人工免疫系統(tǒng)和郵件過(guò)濾模型之間在性質(zhì)和行為上的相似性,建立了具有不同功能的免疫Agent組成具有垃圾郵件過(guò)濾模型 (如圖1所示)。

圖1 免疫多Agent垃圾郵件過(guò)濾模型

IA=,式中,各字母代表的意義類似文獻(xiàn)[7],除COD代表狀態(tài)信息提取單元,處理模型采集到的郵件信息有所不同外。模型中引入疫苗庫(kù)VACC可以獲取新的抗體,增強(qiáng)免疫Agent的耐受性。

SF-MA模型主要借鑒免疫系統(tǒng)的學(xué)習(xí)、記憶等機(jī)制,把過(guò)濾過(guò)程中的待檢測(cè)的郵件類比于生物免疫系統(tǒng)中的抗原;類似于免疫系統(tǒng)中抗體識(shí)別抗原并做出反應(yīng)的過(guò)程,該模型對(duì)待檢郵件進(jìn)行判斷識(shí)別、分類。定義自體為合法郵件集合(Self),非自體為垃圾郵件集合(Nonself) 。抗原(Ag)定義為自體和非自體的并集(Ag=Self∪Nonself)[8]。郵件集合為P,p為P的子集,定義正常郵件集合H,H∈P;垃圾郵件集合S,S∈P,滿足:H∩S=?,H∪S=P。

在免疫Agent中,根據(jù)免疫系統(tǒng)中抗體對(duì)抗原的記憶、防御和耐受以及抗體之間相互作用機(jī)制,實(shí)現(xiàn)自垃圾郵件的過(guò)濾和學(xué)習(xí)記憶。

1.1改進(jìn)的IMTA

在模型中,除了引入Agent外,通過(guò)對(duì)郵件傳輸協(xié)議SMTP進(jìn)行改進(jìn),類分非自體集合和自體集合,可更有效地對(duì)垃圾郵件判斷,提取郵件信息特征。在郵件傳輸系統(tǒng)中,SMTP是過(guò)濾垃圾郵件的第一道防線,也是網(wǎng)絡(luò)中傳輸電子郵件的標(biāo)準(zhǔn)協(xié)議[9]。在郵件傳輸過(guò)程中,每個(gè)節(jié)點(diǎn)間都可以看作一個(gè)代理Agent。在SMTP協(xié)議中存在接收方被動(dòng)接收郵件等缺點(diǎn),這是導(dǎo)致現(xiàn)今垃圾郵件泛濫原因之一,故在SMTP協(xié)議的基礎(chǔ)上,提出了一種改進(jìn)的IMTA(Improvedmailtransferagent)。改進(jìn)型IMTA進(jìn)一步細(xì)化了分類規(guī)則粒度,根據(jù)IMTA的IP地址和發(fā)送方的郵件地址兩個(gè)分類條件確定發(fā)送方類別,判斷是垃圾郵件還是合法郵件,如表1所示。

表1 改進(jìn)型IMTP新定義的命令以及返回碼

改進(jìn)型DMTP在DMTP基礎(chǔ)上添加1個(gè)返回碼:252,通過(guò)過(guò)濾合法的郵件被加入到自體集合,垃圾郵件加入到非自體集合,處理信息傳輸請(qǐng)求算法如下:

輸入: 未知抗原,檢測(cè)器集合

輸出: 檢測(cè)結(jié)果

1)ip=getsendmailserver’sIPaddress;

2)if(ip∈denied)then

3)判定為垃圾郵件,將抗原加到自體集合;

4)use554toresponse(refusetcpsessionopeningrequire);

5)elseif(ip∈accept)then

6)判定為正常郵件,將抗原加到非自體集合;

7) 更新自體庫(kù)和非自體庫(kù);

8)SAdd=GetSender-ADDinEnvelopeData;

9)if(SAdd∈deniedAdd)then

10)判定為垃圾郵件,將抗原加到自體集合;

11)use554torespons(refusetcpsessionopeningrequire);

12)elseif(SAdd∈ReceivedAdd)then;

13)判定為正常郵件, 將抗原加到非自體集合;

14) 更新自體庫(kù)和非自體庫(kù);

15)use220toresponse(receivetcpsessionopeningrequire);

16)proceedasifSMTPused;

17)else

18)use252toresponse(見(jiàn)表1);

19)rejectDATAcommand;

20)endif;

21)endif.

(1)

T用來(lái)表示模型判斷郵件的總時(shí)間,基于SMTP郵件過(guò)濾模型與改進(jìn)協(xié)議IMTA的SF-MA模型郵件所需處理總時(shí)間T分別為:

(2)

(3)

通過(guò)對(duì)協(xié)議進(jìn)行改進(jìn),可以減小用戶處理時(shí)間,快速地判斷垃圾郵件的產(chǎn)生。合法的郵件被加入到自體集合,垃圾郵件加入到非自體集合,以更好提取郵件特征信息。

1.2抗原提呈

要實(shí)現(xiàn)垃圾郵件過(guò)濾,需將待測(cè)郵件數(shù)據(jù)特征轉(zhuǎn)變成計(jì)算機(jī)可識(shí)別的語(yǔ)言,再經(jīng)過(guò)一定模式的過(guò)濾,實(shí)現(xiàn)郵件分類。在郵件樣本中,數(shù)據(jù)經(jīng)過(guò)抗原提呈APC(antigenpresentingcells),形成抗原集合,由特定長(zhǎng)度的抗原提呈基因庫(kù)對(duì)郵件進(jìn)行特征提取,從而得到郵件的特征,即抗原決定基,存儲(chǔ)在郵件特征向量[10]。

抗原提呈基因定義為從郵件子集中提取的IM(InformationFeatureofMail)。定義長(zhǎng)度為l的抗原提呈基因集合ag-l為:

ag-l={ag|fe(p,i,l),1≤i≤|p|-l

p∈{H∪S′},|ag|=l,l∈N}

(4)

其中:函數(shù)fe執(zhí)行從郵件中提取IM的操作,l為提取的IM的長(zhǎng)度,單位為比特,H′、S′為合法郵件和垃圾郵件的子集。即提取郵件子集中的所有長(zhǎng)度為l的、不重復(fù)的IM,并將其添加到抗原提呈基因集合ag-l中。

定義郵件(抗原)特征集合為F:

F={|xi∈{0,1},

p∈P,xi=fc(p,ag-l,l),i=1,…,n;n,l∈N}

(5)

其中:xi(i=1,2,…,n)為抗原提呈基因庫(kù)中的基因;ag-li為提取到的郵件p∈P的特征信息;n代表郵件特征向量的維數(shù),與抗原提呈基因庫(kù)大小相等;l為抗原提呈基因庫(kù)ag-l中基因片段的大小;函數(shù)fc(p,ag-l,l)為特征信息提取操作,如式(6),即從p∈P郵件類型中提取長(zhǎng)度為l的IM字符串,然后計(jì)算IM是否在對(duì)應(yīng)的抗原提呈基因庫(kù)中出現(xiàn),獲取郵件的特征信息。函數(shù)fe(p,j,l)表示從郵件中提取長(zhǎng)度為l的IM。用特定的抗原提呈基因庫(kù)對(duì)郵件進(jìn)行特征提取,從而組成了郵件特征向量如下:

(6)

在SF-MA模型中,根據(jù)郵件特征,對(duì)郵件進(jìn)行分類。對(duì)于每一類郵件p,從它的起始位置從i=1開(kāi)始,每次滑動(dòng)1比特,直至郵件結(jié)尾(i=|p|-l),依次提取長(zhǎng)度為l的IM。如果該IM不在基因長(zhǎng)度為l的基因集合ag-l中,則把郵件新特征,添加到集合。抗原提呈的過(guò)程為依次從待提取特征的郵件p∈P中提取長(zhǎng)度為l的IM字符串,然后通過(guò)計(jì)算提取的IM字符串在抗原提呈基因庫(kù)ag-l中是否出現(xiàn)來(lái)獲取。若出現(xiàn),取值為1,若沒(méi)有,取值為0。可得到郵件p∈P的郵件狀態(tài)向量(x1,x2,…,xn)中的每一維數(shù)值xi(xi∈{0,1},i=1,2,…,n)。經(jīng)抗原提呈后,在模型記憶庫(kù)中到的郵件特征是一個(gè)長(zhǎng)度與基因庫(kù)大小相同的計(jì)算機(jī)可識(shí)別的二進(jìn)制串,這樣就完成了程序的抗原提呈若的過(guò)程。滿足條件的抗原對(duì)其進(jìn)行體呈,符合條件的加入到自體庫(kù)中,否則加入到非自體庫(kù)中[11]。這樣既保證了選擇的特征向量對(duì)郵件內(nèi)容的代表意義,同時(shí)又限制了特征向量長(zhǎng)度的過(guò)度膨脹。

1.3疫苗提取與接種

在模型中,通過(guò)引入疫苗(包含疫苗提取與疫苗接種兩模塊),用以提高抗體的適應(yīng)度、穩(wěn)定性、自學(xué)習(xí)性等特性,保存郵件種類中的優(yōu)良基因。

在模型中,疫苗提取的過(guò)程即是對(duì)垃圾郵件特征信息的提取過(guò)程。檢測(cè)模型中,設(shè)計(jì)了執(zhí)行層Agent、檢測(cè)層Agent、通信層Agent、和決策層Agent。采用免疫多Agent結(jié)構(gòu), 分別完成垃圾郵件模型的檢測(cè)、通信、執(zhí)行和決策等任務(wù)將不同的檢測(cè)Agent聯(lián)合起來(lái),同時(shí)引入疫苗提取算法,可以快速地提取疫苗信息。模塊圖如圖2所示。

圖2 免疫多Agent模塊

執(zhí)行層Agent:是指在服務(wù)器中正在發(fā)送或接收郵件狀態(tài)的Agent模塊。歸類郵件信息,并實(shí)時(shí)與執(zhí)行Agent和通信Agent保持通信。

檢測(cè)層Agent:檢測(cè)層Agent在網(wǎng)絡(luò)服務(wù)器各個(gè)節(jié)點(diǎn)之間監(jiān)視檢測(cè),并與特定意圖的設(shè)備通信。在模型中,用戶層尋找異常用戶行為模式;監(jiān)視并檢測(cè)郵件的大小、數(shù)目以及所屬的類型、源地址與目的地址,信封郵件主要內(nèi)容等。若可疑,則上報(bào)給通信Agent,請(qǐng)求作出決策。

通信層Agent:通信Agent充當(dāng)其他Agent模塊的通信網(wǎng)絡(luò)的任務(wù)。

決策層Agent: 接收來(lái)自各個(gè)免疫檢測(cè)Agent的模塊檢測(cè)結(jié)果,對(duì)是否為垃圾郵件或異常異常郵件結(jié)果做出判定。

如果在檢測(cè)過(guò)程中,檢測(cè)群中Agent檢測(cè)到可疑的垃圾郵件抗原,則上報(bào)給通信Agent模塊。若通信Agent確定其包含垃圾郵件信息特征的抗原D,則從正在執(zhí)行Agent中選取若干個(gè)Agent,將D所包含的信息共享給這些進(jìn)程Agent并要求提取疫苗。當(dāng)不同Agent接收到提取疫苗的信息指令后,從檢測(cè)器中選取能與抗原D匹配的種群A(個(gè)體數(shù)量為s),然后提取疫苗v。疫苗提取算法如下:

Step1依據(jù)郵件抗原特征,Agent首先初始化一條空白的疫苗v;

Step2計(jì)算出在Agent檢測(cè)器集合中能與D匹配的所有個(gè)體(s) ,記為A;

Step3從A中的優(yōu)良個(gè)體(a1,a2,…,as)中提取一部分優(yōu)良基因,再將其優(yōu)良基因填入空白疫苗v中,當(dāng)疫苗被完全填充后,則成功提取出一條抗原D的疫苗。

各個(gè)Agent提取到抗原疫苗后,將取得的疫苗回傳至通信Agent,通信Agent接收到疫苗后,從接收到的疫苗群中選取優(yōu)良個(gè)體,然后對(duì)模型的單個(gè)Agent進(jìn)行免疫接種。

疫苗提取結(jié)束后,進(jìn)行疫苗接種。疫苗接種是指用提取的疫苗用來(lái)修改抗體的某些基因位,將優(yōu)良基因傳遞給下一代,以提高優(yōu)良個(gè)體繁殖的概率。

(7)

在模型中,采用每間隔一定時(shí)間隨機(jī)從樣本郵件中選取一定比例的抗體進(jìn)行接種的方式進(jìn)行疫苗接種,來(lái)對(duì)種群中的抗體和記憶細(xì)胞進(jìn)行更新。利用多個(gè)Agent并行提取疫苗,可以加快疫苗的生成速度以及接種速度,使抗體快速的記憶郵件特征信息,提高模型檢測(cè)效率。

2 實(shí)驗(yàn)與分析

2.1實(shí)驗(yàn)評(píng)測(cè)數(shù)據(jù)集

測(cè)試環(huán)境為:內(nèi)存2GB, 操作系統(tǒng)為WindowsXP。在模型的郵件傳輸中,因?yàn)镴AMES(Javaapachemailenterpriseserver)性能較為穩(wěn)定,可配置性強(qiáng),能實(shí)現(xiàn)SMTP、POP3和NNTP等多種郵件相關(guān)協(xié)議,選用JAMES開(kāi)源郵件服務(wù)器。在測(cè)試中使用CCERT中文郵件2005年7月份的樣本集,其中包含正常郵件(Ham)9042封,垃圾郵件(Spam)20 308封,數(shù)值實(shí)驗(yàn)環(huán)境為Matlab2014a。

通過(guò)對(duì)郵件樣本集構(gòu)建的過(guò)濾模型進(jìn)行實(shí)時(shí)監(jiān)控與檢測(cè),引入改進(jìn)的SMTP協(xié)議。選取郵件IP數(shù)據(jù)信息構(gòu)成的二進(jìn)制串模擬免疫系統(tǒng)中的抗原,對(duì)抗原進(jìn)行提呈,使其轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的語(yǔ)言,模擬郵件收發(fā)功能,對(duì)模型進(jìn)行效率測(cè)試。

將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,選擇3062封郵件(1024封正常郵件和2038垃圾郵件樣本)作為訓(xùn)練集。實(shí)驗(yàn)初期選取自體集合大小為50,每次訓(xùn)練生成10 個(gè)未成熟檢測(cè)器。郵件過(guò)濾模型每次輸入200個(gè)抗原,其中自體與非自體比例為8∶2,即郵件過(guò)濾模型所發(fā)的10個(gè)包中2個(gè)非自體包,得到初始檢測(cè)樣本,保存在免疫記憶庫(kù)中。然后將剩余的8000封正常郵件和18 000封垃圾郵件平均分為10組,組成測(cè)試集進(jìn)行測(cè)試。

實(shí)驗(yàn)結(jié)果取10次的平均值作為評(píng)判該模型的最后實(shí)驗(yàn)數(shù)據(jù),計(jì)算出來(lái)的平均值即為模型的效率結(jié)果。在仿真實(shí)驗(yàn)中,先比較SMTP和SF-MA模型的正確率與精準(zhǔn)率,用來(lái)驗(yàn)證改進(jìn)協(xié)議的有效性。然后仿真SF-MA模型與樸素貝葉斯、人工免疫模型的虛報(bào)率和召回率,驗(yàn)證模型的效率。

2.2性能評(píng)價(jià)指標(biāo)

SF-MA垃圾郵件過(guò)濾模型,主要的評(píng)價(jià)標(biāo)準(zhǔn):(1)召回率:即垃圾郵件檢出率;(2)正確率:反映過(guò)濾模型檢測(cè)出垃圾郵件的能力;(3)精確率:模型對(duì)所有郵件的判斷正確的概率;(4)虛報(bào)率:即系統(tǒng)將正常郵件判為垃圾郵件的概率。

設(shè)測(cè)試集合中共有N封郵件,先定義幾個(gè)變量,N=CH→S+CH→H+CS→S+CS→H。其中,CS→S表示垃圾郵件判斷為垃圾郵件的數(shù)目;CH→S表示正常郵件判斷為垃圾郵件的數(shù)目;CS→H表示垃圾郵件判斷為正常郵件的數(shù)目;CH→H表示正常郵件判斷為正常郵件的數(shù)目。

召回率Recall=CS→S/(CS→S+CS→L),在模型中,召回率越高,檢測(cè)出的垃圾郵件越多;正確率Precision=CS→S/(CS→S+CH→S),即判定郵件為垃圾郵件,正確的概率;精準(zhǔn)率Accuracy=(CS→S+CH→H)/N,即對(duì)所有郵件進(jìn)行判斷,并且判斷正確的概率;虛報(bào)率Fallout=CH→S/(CH→S+CH→H),即模型將正常郵件判為垃圾郵件的概率。

2.3實(shí)驗(yàn)結(jié)果及分析

圖3是模型在仿真環(huán)境下進(jìn)行垃圾郵件過(guò)濾實(shí)驗(yàn)所獲得的SF-MA模型統(tǒng)計(jì)數(shù)據(jù),主要為正確率、精確率、召回率、虛報(bào)率四個(gè)指標(biāo),橫坐標(biāo)(X軸)為實(shí)驗(yàn)次數(shù),縱坐標(biāo)為(Y軸)百分比指標(biāo)值。

圖3 郵件過(guò)濾指標(biāo)曲線圖

從圖3中可以看出,SF-MA模型的正確率比較穩(wěn)定,正確率呈先呈上升趨勢(shì),后部分基本保持穩(wěn)定,正確率都能達(dá)到90%以上,說(shuō)明SF-MA模型可以很好地判別出垃圾郵件,穩(wěn)定性較高;精準(zhǔn)率在檢測(cè)過(guò)程亦呈上升趨勢(shì),說(shuō)明隨著模型中抗體的自我學(xué)習(xí),模型能夠正確判斷垃圾郵件與合法郵件的能力在上升;在召回率方面,當(dāng)郵件出現(xiàn)新的信息特征時(shí),模型具有較好的學(xué)習(xí)和記憶識(shí)別能力,對(duì)于判斷垃圾郵件的能力有所提升;虛報(bào)率比較低較穩(wěn)定,在這種情況下,由于具有Agent機(jī)制及免疫記憶庫(kù),信息之間可以及時(shí)交互,郵件很少被誤刪,SF-MA模型具有較高的可靠性。

相同條件下,為更好地比較引入改進(jìn)協(xié)議的SF-MF模型與基于SMTP郵件過(guò)濾模型的效率,實(shí)驗(yàn)選用多組封郵件進(jìn)行測(cè)試,橫坐標(biāo)表示測(cè)試郵件數(shù)量,縱坐標(biāo)各表示召回率和虛報(bào)率的測(cè)試結(jié)果值。由圖4和圖5可知,利用改進(jìn)協(xié)議的引入改進(jìn)協(xié)議的SF-MF模型的精準(zhǔn)率和正確率方面都高于基于SMTP協(xié)議模型。通過(guò)對(duì)協(xié)議進(jìn)行改進(jìn),合法的郵件可更快地被加入到自體集合,垃圾郵件加入到非自體集合,以更好提取郵件特征信息。

圖4 改進(jìn)的IMTA與SMTP正確率比較圖

圖5 改進(jìn)的IMTA與SMTP精準(zhǔn)率比較圖

2.4算法比較

2.4.1算法的性能比較

為了更進(jìn)一步驗(yàn)證模型的效率,本文在同等條件下用SF-MA模型與基于貝葉斯的垃圾郵件過(guò)濾模型[12]和基于AIS的垃圾過(guò)濾模型[13]進(jìn)行對(duì)比試驗(yàn)。如圖6和圖7所示,橫坐標(biāo)表示測(cè)試郵件數(shù)量,縱坐標(biāo)表示正確率與精準(zhǔn)率的測(cè)試結(jié)果,模型選幾組測(cè)試郵件集,進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明SF-MA模型較基于Bayesian方法的模型和AIS模型較召回率有大幅提高,虛報(bào)率降低且波動(dòng)較小。

圖6 AIS、Bayesian、SF-MA模型召回率比較圖

圖7 AIS、Bayesian、SF-MA模型虛報(bào)率比較圖

基于Bayesian的模型采用先驗(yàn)概率的規(guī)則來(lái)測(cè)試郵件,如果在檢測(cè)階段檢測(cè)的郵件包含了很多在訓(xùn)練階段郵件沒(méi)有出現(xiàn)過(guò)的新詞,即新特征信息,則該模型需要一段較長(zhǎng)時(shí)間的學(xué)習(xí)適應(yīng),學(xué)習(xí)記憶能力較低,對(duì)郵件的召回能力不是很理想,在虛報(bào)率較高且不穩(wěn)定;基于AIS的模型則可以分布式方式識(shí)別垃圾郵件,并能學(xué)習(xí)和記憶郵件的特征,郵件召回能力有所提升,虛報(bào)率有所降低,但是存在檢測(cè)器的靈活性較差,在測(cè)試階段不能精確地對(duì)垃圾郵件進(jìn)行分類,記憶抗體特征;本文提出的模型SF-MA,能夠?qū)蝹€(gè)Agent進(jìn)行相對(duì)獨(dú)立的檢測(cè),又可以多Agent互相交流信息,檢測(cè)能力較強(qiáng),虛報(bào)率較低。除此之外,模型對(duì)SMTP協(xié)議進(jìn)行了改進(jìn),能快速地判斷垃圾郵件的產(chǎn)生,記憶并保存垃圾郵件特征,引入疫苗機(jī)制,保留優(yōu)良基因,實(shí)現(xiàn)各個(gè)Agent的信息交互,增強(qiáng)了整個(gè)模型“記憶”機(jī)制,有效地提取垃圾郵件的信息和變異特征。

通過(guò)多組樣本進(jìn)行實(shí)驗(yàn),可以表明:該模型對(duì)垃圾郵件識(shí)別Recall、Fallout等指標(biāo)均有提高,對(duì)新數(shù)據(jù)特征及原有類型特征的識(shí)別效率的可以很好地識(shí)別,反映出改進(jìn)的模型比基于貝葉斯和基于AIS的垃圾過(guò)濾模型具有更穩(wěn)定效率,且對(duì)垃圾郵件新型特征和新有數(shù)據(jù)特征均表現(xiàn)出較好的識(shí)別性。同時(shí),將疫苗提取和疫苗接種等思想引入到模型中,使各類檢測(cè)器中的抗體以疫苗作為媒介相互通信,保留優(yōu)良基因,對(duì)垃圾郵件特征的變化做出及時(shí)的反應(yīng),比Bayesian和AIS分類算法有較好的自適應(yīng)性能,提高了模型的正確檢測(cè)率的穩(wěn)定性。

2.4.2算法時(shí)間復(fù)雜度比較

通過(guò)算法復(fù)雜度的分析,將改進(jìn)的IMTA協(xié)議和Bayesian、AIS分別從兩個(gè)方面對(duì)比:訓(xùn)練時(shí)間復(fù)雜度和分類時(shí)間復(fù)雜度。

設(shè)N表示訓(xùn)練集中包含的樣本數(shù),而n為特征數(shù)量,比較改進(jìn)算法與Bayesian、AIS算法的復(fù)雜度。訓(xùn)練時(shí)間復(fù)雜度方面:Bayesian算法是時(shí)間復(fù)雜度是O(nN),AIS算法是O(n2N2),改進(jìn)算法是O(n2N2);分類時(shí)間復(fù)雜度方面:Bayesian算法是時(shí)間復(fù)雜度是O(nN),AIS算法是O(n2N),改進(jìn)算法是O(nN)。由于改進(jìn)IMTA協(xié)議設(shè)計(jì)了抗原提呈算法,擴(kuò)大了自體庫(kù)的規(guī)模,這樣就可以加速檢測(cè)器的進(jìn)化過(guò)程,同時(shí)保留了原有特征的優(yōu)勢(shì),大大減少了二次識(shí)別大量舊特征信息的時(shí)間消耗。可以看到和其他方法比起來(lái),改進(jìn)算法保證了在檢測(cè)分類的過(guò)程有穩(wěn)定的正確識(shí)別率,因而在分類環(huán)節(jié)改進(jìn)算法的時(shí)間復(fù)雜性最優(yōu)。

3 結(jié) 語(yǔ)

結(jié)合人工免疫特性的自學(xué)習(xí)能力等特性及多Agent原理使信息之間及時(shí)交互能力,本文提出了基于免疫Agent的垃圾郵件過(guò)濾模型SF-MA。在模型中,SMTP作為過(guò)濾垃圾郵件的第一道放線,通過(guò)對(duì)協(xié)議進(jìn)行改進(jìn),可以快速判斷垃圾郵件的產(chǎn)生,記憶并保存垃圾郵件特征,可以減小用戶處理時(shí)間,合法的郵件信息特征被加入到自體集合,垃圾郵件加入到非自體集合,以更好提取郵件特征信息。在此基礎(chǔ)上將疫苗提取和疫苗接種等思想引入到模型中,使各類檢測(cè)器中的抗體以疫苗作為媒介相互通信,保留優(yōu)良基因,實(shí)現(xiàn)各個(gè)Agent的信息交互,并有效提取垃圾郵件的信息和變異特征。該模型與選用貝葉斯模型、人工免疫模型對(duì)該進(jìn)行測(cè)試和對(duì)比,實(shí)驗(yàn)證明,該模型對(duì)垃圾郵件的過(guò)濾性能要高于它們的性能,具有較高的召回率和準(zhǔn)確率。該模型在性能上具有一定的提升,如何再進(jìn)一步地提升模型的效率,是下一步研究的方向。

[1]GanstererW,IlgerM,NeumayerP,etal.Anti-spammethodsstate-of-the-art[D].Vienna:FacultyofComputerScience.UniversityofVienna,2005.

[2]MarsonoMN,El-KharashMW,GebaliF.Targetingspamcontrolonmiddleboxes:Spamdetectionbasedonlayer-3e-mailcontentclassification[J].ComputerNetworks,2009,53(6):835-848.

[3]MehmetAci,CigdemInan,MutluAvci.Ahybridclassificationmethodofknearestneighbor,Bayesianmethodsandgeneticalgorithm[J].ExpertSystemsWithApplications,2010,37(7):5061-5067.

[4]YuBo,XuZongben.Acomparativestudyforcontent-baseddynamicspamclassificationusingfourmachinelearningalgorithms[J].Knowledge-BasedSystems,2008,21(4):355-362.

[5]ClarkJ,KoprinskaI,PoonJ.ANeuralNetworkBasedApproachtoAutomatedE-MailClassification[C]//WebIntelligence:Proceedingsofthe2003IEEE/WICInternationalConferenceonWebIntelligence,2003:13-17.

[6]QingJJ,MaoRL,BieRF,etal.AnAIS-basede-mailclassificationmethod[C]//The2009InternationalConferenceonIntelligentComputing,Ulsan,Korea,2009:492-499.

[7] 王軍,趙曉哲,張瑛涵,等.基于免疫多智能體的艦艇編隊(duì)協(xié)同防空體系模型[J].系統(tǒng)仿真學(xué)報(bào),2012,24(2):263-268.

[8] 李濤.基于免疫的網(wǎng)絡(luò)監(jiān)控模型[J].計(jì)算機(jī)學(xué)報(bào),2006,29(9):1515-1522.

[9] 劉海韜,陽(yáng)潔.云計(jì)算平臺(tái)下一種新型反垃圾郵件系統(tǒng)的研究[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,44(5):1869-1874.

[10] 覃仁超,劉念,黃曉芳.基于免疫和D-S證據(jù)理論的計(jì)算機(jī)病毒檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):3062-3066.

[11] 秦逸.基于行為的垃圾郵件檢測(cè)技術(shù)[J].計(jì)算機(jī)科學(xué),2012,39(11):86-89.

[12]ZhangLe,ZhuJingbo,YaoTianshun.Anevaluationofstatisticalspamfilteringtechinques[J].ACMTransactionsonAsianLanguageInformationProcessing(TALIP),2004,3(4):243-269.

[13]GuzellaTS,Mota-SantosTA,UchaJQ,etal.IdentificationofSPAMmessagesusinganapproachinspiredontheimmunesystem[J].Biosystems,2008,92(3):215-225.

ASPAMFILTERINGMODELBASEDONIMMUNE-AGENT

JiangYapingTianYuexia*MeiXiao

(School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450001,Henan,Chima)

Fortheproblemsoftraditionalspamfilteringmethodssuchascannoteffectivelyidentifyingtheunknownandvariationfeatures,heavierloadinterminalserverandlongerdelaysinreceivingmails,etc.,bymakinguseofbiologicalimmunologyprincipleandmulti-Agenttechnology,wedesignedanimmunemulti-Agent-basedspamfilteringmodelSF-MA.ThemodelisabletoquicklyjudgespamgenerationandtorememberthefeatureinformationbyimprovingtheSMTPprotocol;wealsodesignedanantigenpresentationalgorithm,andexpandedthescaleofselflibrary;weintroducedthevaccineconceptintomodeltokeepgoodgenesandtorealisetheinteractionofeachAgent’sinformation,theseenhancedthe“memory”mechanismofentiremodel,andeffectivelyextractedtheinformationandvariationfeaturesofthespam.Usingthemailsamplesettotrainandtestthemodel,simulationresultsshowedthattheproposedmodelhadbetterperformancethanothermodels,andeffectivelyimprovedthecharacteristicsofaccuracyrateofspammodel,aswellasreducedfalsealarmrate.

ArtificialimmuneSMTPprotocolSpamAntigenpresentationVaccineMulti-agent

2014-08-20。國(guó)家自然科學(xué)基金項(xiàng)目(61272038);河南省科技廳科技攻關(guān)項(xiàng)目(0624220084)。蔣亞平,副教授,主研領(lǐng)域:網(wǎng)絡(luò)安全,智能計(jì)算。田月霞,碩士生。梅驍,碩士生。

TP393.08

ADOI:10.3969/j.issn.1000-386x.2016.03.070

猜你喜歡
特征檢測(cè)信息
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产精品久久国产精麻豆99网站| 中文字幕久久精品波多野结| 久草视频精品| 亚洲欧州色色免费AV| 国产精品成人观看视频国产| 天天躁夜夜躁狠狠躁图片| 精品视频一区二区三区在线播| 一区二区三区在线不卡免费| 国产凹凸视频在线观看| 国产精品视频第一专区| 在线日韩日本国产亚洲| 日韩精品亚洲人旧成在线| 国产精品无码制服丝袜| 91精品国产自产91精品资源| a级毛片网| 亚洲妓女综合网995久久| 国产区人妖精品人妖精品视频| 国产日韩欧美精品区性色| www.亚洲一区| 久久精品女人天堂aaa| 无码专区在线观看| 青青国产视频| 成人福利在线视频免费观看| 欧美高清三区| 国产一区二区人大臿蕉香蕉| 日韩久草视频| 久久人人97超碰人人澡爱香蕉| 国产精品久久久久婷婷五月| 青青青视频91在线 | 成人午夜免费观看| 综合色区亚洲熟妇在线| 国产欧美日韩另类精彩视频| 色婷婷成人| 小说区 亚洲 自拍 另类| 亚洲成肉网| 国产欧美综合在线观看第七页| 国产一区二区三区视频| 在线精品视频成人网| 国产三级韩国三级理| 国产三级a| 亚洲欧洲国产成人综合不卡| 亚洲美女一区| 久久国产精品影院| 久久久久久久97| 99激情网| 久久99国产精品成人欧美| 亚洲人成网站18禁动漫无码| 成人福利在线视频免费观看| 久久特级毛片| 国产免费人成视频网| 色色中文字幕| 亚洲性视频网站| 久久综合AV免费观看| 狠狠色丁婷婷综合久久| 国产69精品久久久久妇女| 九九热免费在线视频| 婷婷六月激情综合一区| 免费一级毛片| 久久国产精品电影| 亚洲电影天堂在线国语对白| 国产精品va| 国产成人1024精品下载| 欧美精品成人一区二区视频一| 呦女亚洲一区精品| 欧美精品H在线播放| 凹凸精品免费精品视频| 国产乱子伦精品视频| 国产免费观看av大片的网站| 日韩乱码免费一区二区三区| 日韩无码白| 91成人在线观看| 一区二区三区高清视频国产女人| 国产丝袜丝视频在线观看| 波多野结衣一区二区三区四区| 亚洲成综合人影院在院播放| 污污网站在线观看| 国产欧美另类| 亚洲一区二区三区在线视频| 亚洲福利片无码最新在线播放| 午夜电影在线观看国产1区| 国产一级在线观看www色| 国产99视频精品免费观看9e|