999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于增量學習算法的校園網垃圾郵件檢測模型

2017-04-17 05:13:28東一舟毛明榮
計算機應用 2017年1期
關鍵詞:分類檢測

陳 斌,東一舟,毛明榮

(南京師范大學 信息化建設管理處,南京 210023)

(*通信作者電子郵箱njnuchenbin@njnu.edu.cn)

基于增量學習算法的校園網垃圾郵件檢測模型

陳 斌*,東一舟,毛明榮

(南京師范大學 信息化建設管理處,南京 210023)

(*通信作者電子郵箱njnuchenbin@njnu.edu.cn)

針對大量垃圾郵件對用戶帶來困擾的問題,提出了一種增量被動攻擊學習算法。該方法基于半年時間的對本校校園網內郵件宿主機上所發起的簡單郵件傳輸協議(SMTP)會話日志的采集,針對會話中記錄的投遞率狀態及多種類型的失敗消息進行了宿主機行為分析,最終達到有效地適應被檢測垃圾郵件源宿主機對最近郵件分類行為的目的。實驗結果表明,在執行了若干回合分類策略的調整后,該檢測的準確度可以達到94.7%。該設計可以有效地檢測內部垃圾郵件宿主機行為,繼而從根源上抑制了垃圾郵件的產生。

垃圾郵件宿主機;簡單郵件傳輸協議會話;增量學習;分類器;失敗信息

0 引言

如今,垃圾郵件越來越日常性地充斥著使用者的郵箱,這主要是由于電子郵件傳遞的零成本所致。按照Anti-Abuse消息工作組2011年度發布的調查報告顯示,互聯網電子郵件總量中超過90%的都是垃圾郵件[1],這不僅浪費了互聯網帶寬及郵件服務提供商的存儲空間,同時干擾甚至傷害了部分用戶的正當權益。雖然大多數用戶都會忽視垃圾郵件,但由于它的體量巨大,故其帶來的綜合利潤還是足以使得該不端行為存在。更有甚者,垃圾郵件的發送者通過發送嵌入了惡意軟件的垃圾郵件,或含有驅動下載攻擊類型的有害鏈接,使得缺乏免疫能力的宿主機成為被其控制的僵尸網絡中的一臺僵尸機[2],從而迫使它作為其有效垃圾郵件的分發者。有研究報告顯示,僵尸網絡產生了全球超過82%的垃圾郵件[3]。

解決該問題最通常的策略是,最大限度地為終端用戶過濾來自于外部的垃圾郵件,它的實際效果取決于郵件服務商、郵件客戶端或郵件代理所提供的過濾器能力[4]。即便終端過濾器可以精準隔離垃圾郵件,但其仍無法從源頭上遏制垃圾郵件的發出,故而大量網絡帶寬還是會被無端消耗,這無疑讓本已吃緊的校園網帶寬雪上加霜。因此,如何從源頭上制止垃圾郵件的產生,成為該領域緊急而重要的問題。如果垃圾郵件宿主機的行為可以盡早被抑制,其所造成的垃圾郵件隱患即可隨之被排除。對于如何有效檢測及認定垃圾郵件宿主機存在兩個主要問題:1)對于企圖避開檢測的垃圾郵件宿主機而言,其有什么確定的特征可以作為鑒別的依據;2)針對可能存在的海量數據集所產生的簡單郵件傳輸協議(Simple Mail Transfer Protocol, SMTP)日志,檢測模型如何建立,其又如何與最新垃圾郵件的行為相適應?

本文從外部郵件服務器和消息分類器運作細節的角度,描述了多種失敗消息相應情況下垃圾郵件的行為特征,每一個垃圾郵件宿主機檢測的重要特征都是經過了深度學習的,同時使用了一種增量被動攻擊學習算法來從大量的SMTP日志中適應性地檢測垃圾郵件宿主機。該設計可以幫助校園網絡的管理者檢測垃圾郵件宿主機,從而抑制這些宿主機的行為,當然該方法在其他機構和場景下也是適用的。

1 相關工作

之所以將垃圾郵件宿主機檢測作為研究焦點,是因為僵尸網絡類檢測與其相關性較低,下面介紹近些年對其的相關研究。垃圾郵件追蹤器是一款開發于2007年的基于行為黑名單算法的垃圾郵件宿主機識別系統,它通過具有相似模式的目標域宿主機聚類的收發郵件消息進行分析,垃圾郵件可以較容易地分發至郵件地址的接收者,這些接收者在不同的垃圾郵件宿主機消息域中,這可能使得檢測結果變得混亂難以理解[5]。自2011年起,有學者開始研究采集的垃圾郵件消息與具有相似內容的宿主機的識別工作。作者提取了業務日志對垃圾郵件宿主機進行了分組,它們作為既定相似目標的傳播源,并主動發現其他的垃圾郵件宿主機的傳播行為[6]。相比較而言,該工作并不依賴于任何必須優先建立的垃圾郵件內容或行為觀測器,檢測可以通過增量學習方式,自動適應于最近的垃圾郵件的行為。2012年有研究人員專門針對大學校園垃圾郵件過濾器接收的輸出消息進行嘗試性研究,實驗使用了時序化測試來檢測內部宿主機持續發送垃圾郵件的概率[7]。該工作不依賴于外部的垃圾郵件過濾器,這主要取決于以下兩點因素:1)一個SMTP會話可以因為協商過程存在問題而失敗,而若一個會話在交互階段持續保持失敗狀態,服務器將會發送一封垃圾郵件消息,在該情況下不會針對內容進行過濾。2)一個用戶可以向郵件服務器自動轉發配置,這也將導致轉發器收到包括垃圾郵件在內的郵件,對于一個用戶的特定外部賬戶來說,垃圾郵件過濾器將察覺到來自于郵件服務器的垃圾郵件消息,繼而這種檢測可以得到更明確的判斷結果[8]。

對于增量學習和在線學習,周期性數據分析請求出現于部分應用,其中包括了網絡交易分析、匿名檢測以及干擾檢測等,應用需要周期性地適配近期數據的分類[9]。同樣地,垃圾郵件宿主機分類檢測,對于從SMTP日志中識別最近的垃圾郵件行為來說是必須的[10]。大多數針對該目標的增量學習方法是基于決策樹、神經網絡以及向量機的,與之相關的典型設計用例有,將它用于建立靜態分類模式,該模式基于之前的實例,并可以從實例中糾錯,從而形成新的實例標簽。虛擬機已經被證實可以用來較好地分離不同標簽的實例,它通過最大化標簽實例邊緣從而產生不同的超平面,這里的邊緣是實例與分離超平面之間的距離,該方法可通過識別每一個新的實例的向量支持能力,進而調節虛擬機增量分類,它的優勢是可以保持之前有用的實例作為支持向量,并同步獲取有效的更新步驟信息作為知道依據[11]。然而,虛擬機超平面方法在分發出現錯誤的情況下,未必能進行有效的調節,換句話說,當監控實例的分發與固有的支撐向量存在明顯的差異時,監控實例可能由于支撐向量概率的減小而導致分類錯誤。出于對更新步驟效率的考慮,同樣可以用在線學習的方法來解決周期性調整分類的問題。在線學習過程中,每一個標簽實例都會在被用于分類器更新處理后被丟棄。與增量學習的設置不同,其無需維護之前的標簽實例,更新步驟只需要使用一個標簽實例就可以完成基本的執行動作,更新分類器可以彈性地適配多種實例的分發。一些類似模擬人類視神經控制系統的圖形識別感知器算法,以及基于邊界的算法已經被證實在大范圍的應用中都是非常有效的。分類器更新通常是基于各類特征表示的,相對支持向量機(Support Vector Machine, SVM)、提升方法(boosting)、最大熵方法等“淺層學習”方法而言,深度學習所學得的模型中,非線性操作的層級數更多。淺層學習依靠人工經驗抽取樣本特征,網絡模型學習后獲得的是沒有層次結構的單層特征;而深度學習通過對原始信號進行逐層特征變換,將樣本在原空間的特征表示變換到新的特征空間,自動地學習得到層次化的特征表示[12]。為了與分類器的垃圾郵件分類任務相對抗,攻擊者通常都會嘗試通過誘騙的方式使得分類器產生錯誤結果從而躲避檢測。在對抗性研究領域,已經有一些專門針對精準化分類器而建立的偽裝攻擊研究,這些研究的貢獻就在于,對惡意攻擊及正常分類實例的最小代價可以作出合理化區分及評估[13]。對于攻擊者而言,垃圾郵件制造者不能對外部服務器的回復消息進行修改,這也就限制了其對郵件的控制權,因此,使用攻擊學習的作用是微乎其微的。本文的主要工作將集中在對持續改變其行為的垃圾郵件的適應性檢測上。

2 垃圾郵件行為特征分析及檢測模型

垃圾郵件行為失敗消息特征分析及檢測分為五個階段,即:1)通過干擾檢測系統對校園網絡與互聯網之間的SMTP交互日志進行捕獲;2)從日志中提取出校園網內部宿主機與外部宿主機初始會話中的SMTP報文;3)計算來自于每臺內部宿主機個體的多種類型SMTP會話投遞成功及失敗消息的數量及類型;4)按照宿主機狀態,通過行為檢測的方式,針對訓練集中的內部宿主機打上垃圾郵件源標簽或正常宿主機標簽;5)在此基礎上,可以通過增量學習算法持續檢測校園中的垃圾郵件宿主機。特征分析和檢測常用的兩種分類方法分別為基于規則的方法和基于機器學習的方法[14]。針對分類后的特征結果集合,淘汰歷史樣本集中的非支持向量,將支持向量同新增樣本一起訓練,以達到增量學習的目的[15]。一旦通過檢測確認當前存在垃圾郵件行為,則會將發現的垃圾郵件宿主機列表發送給管理者從而對其加以限制。

圖1描述了部署于計算中心的專門用于監控SMTP會話的宿主機。該宿主機內嵌了網絡監控卡以進行網絡交互的檢測,其檢測對象是一臺位于校園網關的思科路由器。由于本文只關注于校園內的垃圾郵件宿主機,所以對來自于外部的SMTP會話進行了忽略處理。值得注意的是,垃圾郵件僵尸網絡可能會通過基于網頁的郵件服務發送垃圾郵件,同樣也可能通過SMTP服務來發送,故而很難在沒有對SMTP會話進行檢測的前提下來定義可靠的垃圾郵件特征。一種可行的解決方案是按照短會話模式來查找SMTP會話日志,該方法背后的基本原理是一個失敗會話的終結必然在失敗當下立即發生,所以該會話將比正常情況下要短。換句話說,如果一個宿主機經常在SMTP會話時發生短會話,則可以認為該會話是容易失敗的,并且其容易被外部干擾所控制,從而成為一臺垃圾郵件宿主機。真正難于被可靠檢測到的垃圾郵件發送者,是基于安全超文本傳輸協議(Hyper Text Transfer Protocol over Secure socket layer, HTTPS)的頁面郵件會話,對于該種情況,干擾檢測系統可以檢測到垃圾郵件宿主機,但發送者可以通過行為隨機化處理輕易地躲避檢測,所以其需要檢測垃圾郵件的加密通道,這不在本文的研究范圍之內。

網絡干擾檢測系統通過宿主機監控及關鍵日志信息進行總結,以此來進行對SMTP會話的分析,這其中包括了郵件接收地址和回復碼。以下是采集自192.168.92.154設備的日志消息示例,由于其主機網絡互連協議(Internet Protocol, IP)地址被垃圾郵件檢測掃描并被列入黑名單后,接收到了一條來自于SMTP服務器223.1.106.1的拒絕消息,頭兩行是消息的時間戳以及會話標識碼,對其解析后可知消息出現的時間,以及區分SMTP會話消息對[DENY,605]的意思,是SMTP響應碼605與郵件命令在請求響應中雖被拒絕但狀態是保持接續的。該日志不包含郵件體,否則日志內容的體積將會非常龐大,并且這會導致嚴重的隱私泄露,日志中的消息包括了多種類型的成功分發和失敗情況,同時還有一些關鍵域信息。通過這些檢測細節信息,已經足夠對一個宿主機是否進行了垃圾郵件的分發行為作出判斷。

圖1 計算中心宿主機SMTP會話監控架構

一個來自于服務器的SMTP響應消息,標志著一個SMTP郵件分發會話的成功與失敗狀態,如果失敗總是發生,意味著其異常等級較高。起初試圖通過SMTP響應碼對日志中的失敗消息進行分類,但事實上響應碼和真正的失敗原因是多元的關系,無法做到一一對應。表1中列出了一些實驗過程中的實例,從中可以看出有很多比響應碼更合理的鍵值選項,這些鍵值選項都是從多種失敗消息中提取的。

表1 相同SMTP響應碼情況下不同響應消息示例

另外,郵件服務器可以針對同樣的失敗原因給出不同的響應消息。例如由于黑名單而造成的郵件阻塞在表1中就給出了多種列舉,所以在實驗過程中通過人工識別鍵值的方式,根據語義分析對垃圾郵件進行了標注,并基于失敗原因的鍵值域組織了響應消息。作為一個檢測系統,在默認SMTP策略腳本中并沒有列出所謂的期望回復結果,只是在默認腳本中添加了附加鍵值信息,以幫助其進行垃圾郵件會話的識別。附加信息包括了日志是否成功轉發、郵件頭的格式、郵件回復路徑、發送者以及接收者的地址和主題等。

在記錄了SMTP會話日志后,就可以開始針對SMTP會話進行成功投遞及失敗消息的統計。按照SMTP的轉發實現規則,失敗消息存在多種不同的語義,按照實際情況可以進行分類,主要分為6大類,實驗步驟中的鍵值是通過人工設定的。表2中列出了典型的鍵值子集,這些鍵值在實驗過程中的分類處理中都有用到,并且在失敗消息中以模糊匹配加正則表達式的方式進行鍵值的查找,需要說明的是,在實驗中的鍵值是不完備的,因為針對數百GB的日志中的潛在鍵值是無法窮舉的。

表2 針對各種失敗原因的語義鍵值歸類

類似拉丁語義檢索的自然語言處理技術,可以對相似語義的上下文語句的檢索匹配有所幫助。針對郵件的不同區域,包括郵件標題和正文,可以進行概念分析、分類、標引、描述和處理,形成具有語義關聯的資源元數據集合,并使用RDF(Resource Description Framework)和OWL(Web Ontology Language)語言進行語義層面的表述和描述,通過適應于郵件類型的自然語言關系模型學習處理,結合針對郵件上下文的語義分析,形成用以與分類器預定義分揀數據集較為匹配的語義關鍵詞或語句。回復消息通常只包含一兩個短句,示意失敗的鍵值通常只在消息中出現一次。回復消息中隱含的失敗原因可以對垃圾郵件宿主機的行為產生影響,在這些原因中,由于發送域可能被篡改,所以必須針對失敗域進行核查,因為這往往是垃圾郵件的征兆所在。在接收到的失敗消息中,標識為郵件接收者未找到的類別通常有以下三種情況:目標郵件地址已經過期停用,但垃圾郵件制造源依然在持續向其發送郵件;目標郵件地址由于解析錯誤而造成拼寫問題,這種解析錯誤是由于垃圾郵件制造源的惡意探測器在網絡上掃描目標源后,對其地址試探性輪詢分析產生的過程結果;另外,垃圾郵件制造源也會隨機產生郵件地址作為目標郵件地址,對于之前已經發送過垃圾郵件的宿主機而言,對端服務器可能會將其列入IP黑名單,每次接收到郵件的檢索過程中,可能會對這些宿主機的郵件進行退信處理。

對于外部郵件服務器,由于其響應消息中的一些情況及其狀態并不確定,所以實驗中將其歸入單獨的類別。還有一類特別的不常用命令對,例如SMTP會話數據無響應,這類錯誤通常與響應碼702相關聯,所以將該響應碼作為該分類的鍵值。對于校園里的每一個IP地址,均可按照相應鍵值計算其回復消息數量,該統計結果對識別疑似垃圾郵件宿主機是有幫助的。實驗中使用了8維特征向量對內部宿主機的每一個實例的SMTP會話進行了描繪,該特征向量中的八元組其中第1元記錄的是成功投遞情況,第2至第7元記錄的是失敗消息的6種分類(如表2),第8元標識了宿主機是否是郵件服務器。需要說明的是,如表2所列舉的,域名系統(Domain Name System, DNS)過濾器或者IP黑名單的方法都只是導致失敗的一部分原因,也就是說,垃圾郵件會話的動機檢測機制對象是多樣的,并且是隨著實際情況的演變而變化的,特別在針對外部郵件服務器的情況下,更是如此。

實驗通過使用內部宿主機行為結果作為訓練集,并且手工檢測以下郵件頭區域,以建立基本的垃圾郵件宿主機判斷機制。主要郵件頭區域為:主題,通過檢查郵件消息的主題,判斷其是否疑似為垃圾郵件,例如其是否包含了攻擊性關鍵詞,該區域通常是非常有代表性的垃圾郵件識別信息源;發送者,垃圾郵件發送者通常都會對自己進行偽裝,例如使用隨機產生的郵件地址或者域名,故對此域進行檢查也是非常有必要的;接收者,該域可以在垃圾郵件中被隨機產生,所以一旦檢測到有序列化的隨機目標的行為產生,則可以斷定其來源為垃圾郵件宿主機。通過掃描傳輸控制協議(Transmission Control Protocol, TCP)綁定的25號端口,并檢查宿主機域名稱,進而判斷宿主機是否為SMTP服務器。

當一系列打著不同標簽的報文到來時,分類器需要不斷更新以保持與最新的垃圾郵件行為相適配,在此使用了被動攻擊增量學習算法,用以對當前分類器的郵件樣本分類工作進行調整。對于每一個潛在的樣本實例,都需要做如下兩步更新操作,即糾正當前分類器的預測錯誤,并且通過主動調整來更新當前分類器。最終,當前已經被最小化錯誤處理后的分類器將作為下一次數據集采集選擇的分類器而使用,進而實現優化分類的精確度提升。前述方法的具體標記需要在對其建模進行公式化之前進行定義,打上了標簽的周期化數據集Pt在周期t時被采集,|Pt|的實驗標簽都是成對的,在{(u1,v1),(u2,v2),…,(u|Pt|,v|Pt|)}實例數組中的un是宿主機在八元組周期觀測值條件下的SMTP行為,相應的類標簽vn是垃圾郵件或非垃圾郵件標識符。設置kt為周期t下分類器組成向量的權重,當每一個實例un∈Pt到達時,被更新的分類器kt+1都會修正之前kt分類器的錯誤,所以kt也只是進行最小化的修正。如果un從kt獲得了不正確的預測值,則kt的調節將被un的自身邊界值所取代。設置Q為kt的基于(un,vn)鍵值對的更新模型,分類器優化調整可以公式化描述如下:

在按照上述公式對kt對應的分類器進行更新時,{Q(kt,(uK,vK),Pt):1≤n≤|Pt|}是新分類器的備選鍵值組對。為防止新的分類器過多地被當前分類器影響,選擇策略會按照最準確的分類性能在Pt中挑選最合適的分類器,當超過一個已經更新過的分類器具有非常高的分類準確性時,則可以選擇該分類器中與kt差別最小的,因此新的分類器kt+1可以按照該策略從備選分類器中進行選擇。按照上述對基礎過程的描述,垃圾郵件過濾器的更新所使用的增量學習算法流程如下所述。

步驟1 初始化數據集Pt、分類器kt以及分類優化調整內核函數Q。

步驟2 在每一個周期t,按照所采集數據的具體不同情況對數據集Pt進行更新,以用于增量學習。

算法1 增量學習算法形式語義建模。

1)

Initialize:k1=(0,0,…,0);

2)

fort=1,2,…do

3)

Recpt_Collect_data(Pt);

4)

5)

6)

foreachun∈Ptdo

7)

8)

9)

end

10)

choose

11)

12)

end

3 實驗及分析

通過實驗證實增量學習算法對垃圾郵件分類檢測的準確性及其性能優劣的影響。實驗在核心機房搭建的信息系統平臺上實施。實驗環境基礎配置為:八核4.8GHz×4CPU、64GB內存、16TB硬盤,雙200GB/s網卡的機架型服務器。虛擬機操作系統選擇了64位的Linux,虛擬機最大并發數為256臺。實驗采用基于徑向基內核(RadialBasisFunction,RBF)的支持向量機(SupportVectorMachine,SVM)以實現分類器的設計,同時使用Matlab算法分析包對讀取參數與內核參數進行有效開采和識別。在實驗中,分類器是定期增量更新的,這里更新周期為6h,更新對象是打了標簽的數據集,分類器kt在周期t中由實例標簽鍵值對Pt進行更新。增量學習算法的性能在不同設置條件下,對分類器錯誤修正的實際效果是不同的,同時在分類器更新后這種差別又可以被最大限度地減小,在選擇潛在分類器時起到了最小化評估錯誤的作用。按照分類器性能進行評估時,需要同時強調垃圾郵件和非垃圾郵件宿主機的分類效果,所以測量平均分類準確率也是由這兩大類別共同計算得出的。表3中列出了周期為月計的實驗數據集,每行中的數字是具有郵件行為的宿主機數量,垃圾郵件宿主機數量以及非垃圾郵件宿主機數量。對于每一個實例來說,數據集中的un包含了第2章特征分析模型中介紹的八元組向量中的SMTP行為,每一個un的標簽都被打上了垃圾郵件(vn=+1)或非垃圾郵件(vn=-1)。

表3 2015-11至2016-04校園網內垃圾郵件宿主機統計

在不同E0和E(E代表E0的權衡結果,1代表校正,0表示不校正)調節系數背景下,針對混合郵件集的增量學習算法檢測結果如表4所示,實驗中嘗試了多種E0和E值情況下的調節效果,在表4中只列出了部分有代表性結果。根據調節效果顯示,大多數分類精確度都是通過t=2或t=3情況下的增量學習分類調節后提升的,增量學習算法當E=1時有著最優的檢測能力,根據結果顯示,從第2個周期開始平均分揀準確度在80%以上,并保持在穩定水平。另外,當E0=0,E=1以及E0=0.25,E=1時,較E0=0.5,E=1時準確性更穩定。對于分類器產出者來說,當一個新的分類器衍生出之后,產出者錯誤檢測修正權重將會變小以避免過擬合問題的出現,增量學習算法在本實驗中保守地采取了最小化調節效果。

表4 增量學習算法在不同參數情況下的檢測結果 %

Tab.4Detectionresultofincrementallearningalgorithmwithdifferentparameters%

增量參數(E0,E)P1P2P3P4P5P6(0,1)72.2782.2483.8783.7283.7282.37(0.25,1)72.2782.1182.7483.5182.1781.69(0.5,1)72.2782.2583.1883.4184.2878.10(0.25,0)72.2772.4276.2776.3176.3272.72(0,0)72.2772.2772.2772.2772.2772.27

表5中顯示了在不同增量學習配置類條件下的分析細節,主要為E0=0.25,E=1以及E0=0,E=1兩種情況。從表5中可以看到非垃圾郵件宿主機(NoneSpamHost,NSPH)的識別準確度普遍低于80%,一些不確定的宿主機也由于其接收到了失敗響應而被認定為垃圾郵件宿主機。非垃圾郵件宿主機可以誤導預測結果并降低綜合檢測準確度。在實踐中,類似錯誤識別的情況已經通過白名單的方式給予了糾正,所以綜合準確度顯著提高,對垃圾郵件宿主機(SpamHost,SPH)的3到4個周期的平均檢測識別準確度達到了90%以上。垃圾郵件宿主機與非垃圾郵件宿主機基于不同增量學習配置條件下的調節預測準確度結果如圖2所示。

表5 垃圾郵件宿主機與非垃圾郵件宿主機的檢測結果

圖2 SPH與NSPH基于不同增量學習配置調節的預測準確度

除了討論特征權重的重要性,實驗通過手工檢測SMTP日志的研究方法,對可能誤導檢測結果的因素進行了分析,主要有以下幾類情況:1)“接收者未響應”應答,通常是由于接收者Email地址錯誤或郵件格式出現了問題,特別是當已經超期停用的郵件地址添加在了接收列表中的情況下,很容易出現這種問題。出現類似錯誤通常的主要原因是宿主機向郵件列表進行了宣告,稱其可以持續接收響應,這種情況一般可以通過郵件列表或白名單列表更新并修正。在該情況中,還發現部分郵件地址為假造的情形,由于連續出現了多次雷同的郵件地址,其均投遞失敗,故確定歸類為該情況。2)郵件服務器“黑名單”應答,該應答意味著某些用戶賬號可能曾經被盜取后用來發送垃圾郵件,這種情況下郵件服務器管理員可以通過解析郵件日志的方式對該賬號進行確認分析。3)垃圾郵件宿主機接收到新的失敗響應,通常這種情況并不多見,但在實驗中仍然對其原因進行了分析。當一個實例看起來和過去的郵件賬戶中的命令相類似的話,其成功率相對較高。另外,一個新的宿主機在觀測周期內,只會初始化少量的SMTP會話,其觀測行為的缺乏可能是錯分類中偶然的結果。

垃圾郵件發送者往往都會企圖躲避檢測,但躲避畢竟不可能總是成功的,因為其無法控制外部郵件服務器,根據表2中的失敗原因鍵值歸類情況,垃圾郵件發送者需要通過域認證,在垃圾郵件會話中避開非正常的命令,并且頻繁地拒絕傳遞垃圾郵件。郵件接收者地址列表需要很仔細地采集以確保列表中的每一項都是有效的,因為郵件地址可能是非正確的,或者已經過期。然而在網頁或磁盤組中檢索郵件地址往往是不精確的,垃圾郵件發送者也不可能在海量數據中手工認證郵件地址的有效性,但任何非正確的轉發或向過期地址的轉發都將導致失敗的結果。另外,郵件服務器列出了一個黑名單以阻止垃圾郵件的進入企圖,宿主機在控制了垃圾郵件轉發的同時,也會不斷補充更新其黑名單內容。

本實驗與同類垃圾郵件分揀實驗相比,最本質的不同是,本實驗使用的是增量學習算法為基礎的分類器,而其他實驗主要以堆疊器編碼機為主。相比較而言,使用堆疊器編碼機的分類器其優點是分揀穩定速度快,準確度在有條件背景下能快速達到較高值;但其缺點在于通常與分揀對象數據集屬性強關聯,針對著名的Enron數據集則效率很高(主要體現在1,2,3,5版本,4版本并不穩定),但關聯其他類型數據集則效果并不明顯。而使用增量學習算法為基礎的分類器,則與數據集屬性沒有強關聯關系,對各種數據集效果差異并不明顯,但分揀準確度提升和穩定需要一定周期,且準確度最高值低于堆疊編碼機方式。

本實驗的檢測工作依賴于對獨立宿主機的統計,這些獨立宿主機以IP地址為識別符號,所以對主機地址做過網絡地址轉換(NetworkAddressTranslation,NAT)映射的內網地址,或者對使用了動態主機配置協議(DynamicHostConfigurationProtocol,DHCP)獲取的地址而言,可能會存在不確定性。對于前者來說,網絡管理員仍可以識別近似源地址繼而分析其垃圾郵件行為,但需要對NAT所對應的真實設備進行處理;對于后者而言,垃圾郵件宿主機可能被認為來自于多個源,同樣地,網絡管理員可以對實際分配IP地址的DHCP服務器進行分析,以查找到真實的地址源。最難處理的情況是由移動終端獲取到一個動態IP地址,并且該地址又是做過NAT映射的。當一個移動終端在某一個點稍作停留,其垃圾郵件發送行為可能就會演變得非常嚴重,除非當前垃圾郵件已經造成了擁堵。因此,一個可能的解決方案是,通過灰名單的方式僅僅阻塞該IP地址接收擁堵失敗消息,如果該源是一個正常的郵件服務器,一段時間后它將會再次發起請求。該途徑至少阻止了垃圾郵件移動終端對其停留區域其他終端的垃圾郵件的轉發。

4 結語

本文使用了增量學習算法用于垃圾郵件宿主機的檢測工作,該工作基于大量的SMTP會話中嵌套的成功及失敗轉發消息,以及其中嵌入的郵件服務器信息。增量學習算法可以有效地根據待檢測者情況調節分類器,以適配垃圾郵件宿主機的多變行為,故而垃圾郵件發送行為可以被識別甚至被弱化。實驗結果顯示,增量學習算法可以對檢測者在很短的周期內進行調節,并且檢測成功率可以大幅度提升。特征分析結果說明對于垃圾郵件宿主機檢測來說,IP黑名單是其中最重要的特征。對垃圾郵件行為的觀測是通過SMTP綁定的,然而研究中也發現有些宿主機可能通過基于SSL(SecureSocketLayer)安全協議之上的簡單郵件傳輸協議(SimpleMailTransferProtocolOverSSL,SMTPS)或者純網頁郵件服務發送垃圾郵件,由于從加密會話中觀測純文本信息是不可能的,宿主機可以通過模仿正常郵件網絡行為,從而輕易躲避檢測,所以找到一種健壯而徹底的解決方法是接下來的研究方向。

)

[1] 楊峰,曹麒麟,段海新,等.基于DNSBlocklist的反垃圾郵件系統的設計與實現[J].計算機工程與應用,2003,39(7):11-12.(YANGF,CAOQL,DUANHX,etal.Designandimplementationofananti-spamsystembasedonDNSBlocklist[J].ComputerEngineeringandApplications, 2003, 39(7): 11-12.)

[2]LIUWY,WANGT.Onlineactivemulti-fieldlearningforefficientemailspamfiltering[J].KnowledgeandInformationSystems, 2012, 33(1): 117-136.

[3]BERTINIJR,ZHAOL,LOPESAA.AnincrementallearningalgorithmbasedontheK-associated graph for non-stationary data classification [J].Information Sciences, 2013, 246: 52-68.

[4] COSTA J, SILVA C, ANTUNES M, et al.Customized crowds and active learning to improve classification [J].Expert System with Application, 2013, 40(18): 7212-7219.

[5] HU L S, LU S X, WANG X Z.A new and informative active learning approach for support vector machine [J].Information Sciences, 2013, 244: 142-160.

[6] 王學軍,趙琳琳,王爽.基于主動學習的視頻對象提取方法[J].吉林大學學報:工學版,2013,43(S1):51-54.(WANG X J, ZHAO L L, WANG S.Video object extraction method based on active learning SVM [J].Journal of Jilin University (Engineering and Technology Edition), 2013, 43(S1): 51-54.)

[7] 丁文軍,薛安榮.基于SVM的Web文本快速增量分類算法[J].計算機應用研究,2012,29(4):1275-1278.(DING W J, XUE A R.Fast incremental learning SVM for Web text classification[J].Application Research of Computers, 2012, 29(4): 1275-1278.)

[8] LENG Y, XU X Y, QI G H.Combining active learning and semi-supervised learning to construct SVM classifier [J].Knowledge Based Systems, 2013, 44(5): 121-131.

[9] 劉伍穎,王挺.集成學習和主動學習相結合的個性化垃圾郵件過濾[J].計算機工程與科學,2011,33(9):34-41.(LIU W Y, WANG T.Ensemble Learning and active learning based personal spam email filtering [J].Computer Engineering & Science, 2011, 33(9): 34-41.)

[10] ALI HAJI N, IBRAHIM N S.Porter stemming algorithm for semantic checking [EB/OL].[2016-07-16].https://www.researchgate.net/profile/Noraida_Haji_Ali/publication/260385215_Porter_Stemming_Algorithm_for_Semantic_Checking/links/5584e9d708ae7bc2f448474f.pdf.

[11] 吳偉寧,劉揚,郭茂祖.基于采樣策略的主動學習算法研究進展[J].計算機研究與發展,2012,49(6):1162-1173.(WU W N, LIU Y, GUO M Z.Advances in active learning algorithms based on sampling strategy [J].Journal of Computer Research and Development, 2012,49(6): 1162-1173.)

[12] 李艷濤,馮偉森.堆疊去噪自編碼器在垃圾郵件過濾中的應用[J].計算機應用,2015,35(11):3256-3260.(LI Y T, FENG W S.Application of stacked denoising autoencoder in spamming filtering [J].Journal of Computer Applications, 2015, 35(11): 3256-3260.)

[13] YANG J M, LIU Y N, ZHU X D, et al.A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization [J].Information Processing & Management, 2012, 48(4): 741-754.

[14] 沈承恩,何軍,鄧揚.基于改進堆疊自動編碼機的垃圾郵件分類[J].計算機應用,2016,36(1):159-162.(SHEN C E, HE J, DENG Y.Spam filtering based on modified stack auto-encoder [J].Journal of Computer Applications, 2016, 36(1): 158-162.)[15] 張文興,樊捷杰.基于KKT和超球結構的增量SVM算法的云架構入侵檢測系統[J].計算機應用,2015,35(10):2886-2890.(ZHANG W X, FAN J J.Cloud architecture intrusion detection system based on KKT condition and hyper-sphere incremental SVM algorithm [J].Journal of Computer Applications, 2015, 35(10): 2886-2890.)

This work is supported by the Digital Campus Construction Project of Nanjing Normal University (2013JSJG069).

CHEN Bin, born in 1978, Ph.D., engineer.His research interests include distributed computing, cloud computing.

DONG Yizhou, born in 1978, experimentalist.His research interests include Internet of things application.

MAO Mingrong, born in 1958, senior experimentalist.His research interests include network application.

Spam detection model of campus network based on incremental learning algorithm

CHEN Bin*, DONG Yizhou, MAO Mingrong

(InformatizationOffice,NanjingNormalUniversity,NanjingJiangsu210023,China)

Concerning the problem brought by a large number of spam, an incremental passive attack learning algorithm was proposed.The passive attack learning method was based on the Simple Mail Transfer Protocol (SMTP) session log initiated by the email host in the campus during half a year.Analysis on the status of delivery rate and many types of failure message of the host behavior in the session record was conducted, and the effective adaptation was ultimately achieved by detecting spam source host behavior on the recent email classification.The experimental results show that after implementing several rounds of classification strategy adjustment, the detection accuracy of the proposed model can reach 94.7%.The design is very useful to effectively detect internal spam host and control the spam from the source.

spam host; Simple Mail Transfer Protocol (SMTP) session; incremental learning; classifier; failure information

2016-08-04;

2016-09-13。 基金項目:南京師范大學數字校園建設研究項目(2013JSJG069)。

陳斌(1978—),男,江蘇南京人,工程師,博士,CCF會員,主要研究方向:分布式計算、云計算; 東一舟(1978—),男,江蘇海門人,實驗師,主要研究方向:物聯網應用; 毛明榮(1958—),男,江蘇靖江人,高級實驗師,主要研究方向:網絡應用。

1001-9081(2017)01-0206-06

10.11772/j.issn.1001-9081.2017.01.0206

TP393.08

A

猜你喜歡
分類檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
“幾何圖形”檢測題
“角”檢測題
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产成年女人特黄特色大片免费| 国国产a国产片免费麻豆| 亚洲综合亚洲国产尤物| 欧美激情伊人| 91在线丝袜| 伊人婷婷色香五月综合缴缴情 | 日本黄网在线观看| 日韩午夜片| 日本高清在线看免费观看| 色婷婷在线影院| 欧美国产综合色视频| 第九色区aⅴ天堂久久香| 亚洲系列中文字幕一区二区| 亚洲视频无码| 欧美精品黑人粗大| 色一情一乱一伦一区二区三区小说| 91成人在线观看| 中国一级特黄大片在线观看| 亚洲无码A视频在线| 欧美精品伊人久久| 青青操国产| 少妇高潮惨叫久久久久久| 99久久婷婷国产综合精| 亚洲欧洲日本在线| 成人a免费α片在线视频网站| 色爽网免费视频| 欧美国产日本高清不卡| a免费毛片在线播放| 91精品啪在线观看国产91九色| 国禁国产you女视频网站| 亚洲精品动漫| 久久久久青草大香线综合精品 | 国产免费黄| 2021国产精品自拍| 国产91色在线| 国产精品嫩草影院视频| 国产av一码二码三码无码| 国国产a国产片免费麻豆| 国产精品hd在线播放| 亚洲中文字幕久久无码精品A| 91精品免费久久久| 99re在线视频观看| 色婷婷在线影院| 日本91视频| 中文无码精品A∨在线观看不卡| 黄色网站不卡无码| 欧美综合在线观看| 日本三级精品| 国产99视频在线| 亚洲天堂久久| 久久久久88色偷偷| 找国产毛片看| 免费一看一级毛片| 国产美女久久久久不卡| 孕妇高潮太爽了在线观看免费| 国产成人精品一区二区免费看京| 亚洲精品视频在线观看视频| 亚洲第一区欧美国产综合| 成人午夜网址| 亚洲欧美另类日本| 欧美日韩一区二区三区四区在线观看| 综合久久五月天| 18禁不卡免费网站| 久久精品国产国语对白| 久久毛片基地| 一级毛片在线播放免费观看| 欧美翘臀一区二区三区| www.亚洲国产| 欧美色亚洲| 亚洲国产91人成在线| 国产经典免费播放视频| 亚洲天堂精品在线| 精品国产三级在线观看| 国产综合精品一区二区| 亚洲第一香蕉视频| 日本成人一区| 亚洲精品色AV无码看| 精品国产一二三区| 久久鸭综合久久国产| 国产成人a在线观看视频| 波多野结衣AV无码久久一区| 国产综合欧美|