馮軍軍 李力
摘要:隨著互聯網技術的發展,郵件作為通信和傳輸文件的方式越來越普遍,伴隨著垃圾郵件也出現在工作中。垃圾郵件對企業和用戶的危害極大,該文主要討論垃圾郵件的檢測技術和繞過技術。
關鍵詞:垃圾郵件;檢測;繞過
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)07-0036-02
Abstract:With the development of Internet technology, mail is becoming more and more popular as a means of communication and file transfer, along with spam also appears in the work.Spam is harmful to enterprises and users. This paper mainly discusses the detection technology and bypass technology of spam.
Key words: spam; detection; bypass
1引言
垃圾郵件是指收件人拒絕接收或者不同意接收但是仍然收到的郵件[1],主要包含商業類、廣告類、培訓類、推廣類、報價類等郵件。這些郵件的關鍵特征是強制性和批量發送。如2020年護網爆出的案例,就是攻擊方通過信息收集獲取防守方用戶的郵箱,通過群發郵件,引誘用戶更新釣魚flash,從而實現權限獲取進而內網滲透獲取關鍵信息。垃圾郵件對企業、用戶的危害極大,對其檢測進行研究是非常有必要的。
2垃圾電子郵件檢測過濾技術
垃圾郵件的檢測技術一般分為內容過濾技術、驗證校驗技術和規則過濾技術。
2.1內容過濾技術
基于內容的垃圾郵件過濾技術,是根據郵件中的內容進行過濾的[2]。通常來說,利用關鍵字技術或者郵件特征統計技術,與已知的垃圾郵件內容進行匹配,從而判斷是否是垃圾郵件。同樣,也可以根據檢測的垃圾郵件進行特征提取,更新垃圾郵件檢索庫,從而進行新的研究。常見的基于內容過濾的方法有決策樹過濾技術、關鍵詞過濾技術等,近幾年來,隨著機器學習的發展,樸素貝葉斯過算法、支持向量機算法、多層感知機算法、卷積神經網絡算法等也在垃圾郵件識別中應用[3-4]。
2.1.1樸素貝葉斯過濾技術
隨著機器學習在大數據技術中的應用,樸素貝葉斯算法廣泛應用于智能應用中[5]。在垃圾郵件檢測過濾中,通過樸素貝葉斯算法,在不設置任何過濾規則和不分析郵件的含義與內容的前提下,通過可以學習單詞、漢字和特殊符號的頻率和模式進行學習。學習后,智能化的對用戶接收的郵件,進行垃圾郵件和正常郵件識別,判斷是否為垃圾郵件。相對于傳統的關鍵字過濾技術,該方法更加方便快捷智能化[6]。并且也會使垃圾郵件的發送者,無法根據何種關鍵字過濾的,從而進行攔截,提高垃圾郵件的識別率。
2.1.2支持向量機過濾技術
基于支持向量機過濾技術,支持向量機是一種面向二分類任務的機器學習模型,模型結構能夠在特征空間上產生最大間隔的超平面。在垃圾郵件過濾中,可以采用支持向量機分類技術,實現垃圾郵件和正常郵件的分類。在垃圾郵件過濾中,通過詞袋模型,即如果一個詞在文檔中出現不止一次,并統計其出現的次數的方法,實現內容學習。利用支持向量機過濾技術,從而實現智能化的垃圾郵件識別,提高識別效率。
2.1.3多層感知機過濾技術
基于多層感知的過濾技術,利用多層感知機模型,在輸入層和輸出層之間增加隱含層,通過輸入郵件的特征,選擇合適的權重值,實現郵件的線性分類,從而區分垃圾郵件和正常郵件[7]。垃圾郵件識別中,在輸入層輸入過濾的關鍵字,通過多層感知機過濾技術,從而實現牢記郵件識別,提高垃圾郵件攔截率。
2.1.4卷積神經網絡過濾技術
基于卷積神經網絡過濾技術,根據生物神經系統的特性而提出的一種神經網絡模型。在垃圾郵件過濾中,根據輸入的郵件數據的特征提取,通過神經網絡模型,獲得并輸出相應的特征圖。然后根據輸出的特征圖,進行適當抽象的方式去除特征圖中不重要的信息,突出有效特征信息的效果,從而實現郵件的分類。
2.2驗證查詢技術
基于驗證查詢技術,就是在不侵犯個人隱私的前提下,發現垃圾郵件,從而阻斷其發送。該模式下,企業郵箱可以根據其工作方式改變電子郵件系統,個人郵件可以根據現存的郵件缺點進行過濾,從而提高郵件系統的安全性。
2.2.1郵箱地址驗證技術
基于郵箱地址驗證技術,通過將寄來電子郵件的地址,與系統的黑白名單對比,凡是黑名單中列出垃圾郵件的郵箱,收到的郵件都直接過濾掉,凡是白名單的地址都是合法郵件。通過黑白名單內的郵件地址比對,提高垃圾郵件驗證的可靠性,且杜絕大部分垃圾郵件入侵的反垃圾郵件技術。
2.2.2 IP地址驗證技術
基于IP地址驗證技術,是在建立IP連接后,對郵件的發送地址進行黑名單驗證,如果在黑名單中就拒絕接收。如果某IP發送垃圾郵件,可以對其進行標記,如標記的次數多了,就自動加入黑名單中,實現實時更新。同理,如果可以采用白名單技術,對于自己的好友或者企業經常用的IP地址設置白名單,減少檢測的次數。但是如果好友或者企業的IP地址被掛馬,而進行郵件發送,就無法實現垃圾郵件的過濾。
2.3規則過濾技術
基于規則的垃圾郵件過濾技術,對垃圾郵件的樣本進行統計和分析,進行數據建模。該模型中利用垃圾郵件的發送的時間、發送的IP、發送的地址和發送的頻率等特征,進行郵件類型和特點的分析,根據分析的情況,制定垃圾郵件的過濾規則,從而根據這些規則構建過濾的評分系統。在垃圾郵件識別過程中,當達到相應的規則庫的時候就會有相應的評分顯示,根據評分標準,超過臨界值,判斷為垃圾郵件。該技術對垃圾郵件的過濾具有良好的效率,但是隨著垃圾郵件的特征變化,從而也會存在一定的缺陷。
3垃圾電子郵件反檢測繞過技術
隨著垃圾郵件的檢測技術發展,很多垃圾郵件經常采用偽裝發送內容、內容加噪、利用圖片代替文字、動態IP等方式,從而避免被過濾。
1)郵件內容偽裝技術。該偽裝技術指郵件發送的內容和郵件發送的標題等進行偽裝。利用計算機技術生成偽裝的內容,比如說偽裝標題、附件發件人等,來偽裝正常的郵件,使收件人無法區分而查看。正文偽裝技術利用明顯的錯別字、多余的回車、換行符和制表符等不影響人的閱讀,但是對于機器學習來說卻可以破壞基于單詞、詞組的識別機制,通過隨機增加TAB、隨機增加回車、大小寫混淆、隨機增加換行符、隨機增加連字符、使用錯別字等繞過垃圾郵件檢測。
2)利用視覺效果繞過郵件檢測[8]。該技術利用視覺效果,通過顏色的反差,將要顯示的內容與背景色相反,不顯示的內容與背景色一致,從而實現發送垃圾內容。該技術通過一些特殊處理,利用網頁代碼的設置,從而實現收件人看到垃圾郵件的內容,但是又無法準確識別垃圾郵件,從而實現繞過。
3)利用圖片繞過郵件檢測。該技術利用圖片的方式代替文字,將要發送的內容制作成圖片,以附件的形式,發送給收件人,從而避免發垃圾郵件技術的繞過。
4)利用動態的IP地址和發送人地址,繞過垃圾郵件黑名單檢測。利用肉雞、后門的軟件等方式,在用戶不知道情況下,向目標方發送郵件。通過這種方式,在感染者不知情況下,向其過往的郵件聯系地址或者好友地址發送垃圾郵件,從而繞過黑名單檢測,實現垃圾郵件繞過。
4結束語
隨著互聯網的不斷發展,垃圾郵件一直是廣泛關注的問題。由于其成本比較低,特別是受到商業利益的驅動,其越來越頻繁。特別是隨意垃圾郵件檢測繞過技術的發展,利用郵件內容偽裝、利用視覺效果、利用圖片和利用動態的IP和地址等方式實現垃圾郵件的繞過技術也在不斷發展。同樣,在垃圾郵件檢測中也隨著機器學習的發展,智能化的檢測技術也在不斷發展。總之,垃圾郵件的發送方式多種多樣,形式層出不窮,檢測技術不斷更新,繞過技術也不斷更新,所謂的“道高一尺,魔高一丈”,兩種技術是相互促進、相互發展。
參考文獻:
[1] 羅婧雯.垃圾郵件過濾技術綜述[J].電腦知識與技術,2016,12(14):13-14.
[2] 李敬瑤.反垃圾郵件過濾技術方法的研究[J].福建電腦,2016,32(10):61-62.
[3] 徐丹丹.個性化垃圾郵件過濾的擴展研究[D].南京:南京航空航天大學,2019.
[4] 黃鶴.基于深度學習的垃圾郵件過濾方法研究[D].南京:南京郵電大學,2019.
[5] 袁連海,李湘文,徐晶.基于改進貝葉斯原理的垃圾郵件過濾算法研究[J].計算機與數字工程,2020,48(3):513-516,712.
[6] 彭革.基于樸素貝葉斯算法在垃圾郵件過濾中的研究綜述[J].電腦知識與技術,2020,16(14):244-245,247.
[7] 徐娟,卞良.基于SVM的中文垃圾郵件預測系統研究[J].數字技術與應用,2020,38(1):38-39.
[8] 趙俊生,候圣,王鑫宇,等.基于集成學習的圖像垃圾郵件過濾方法[J].計算機工程與科學,2020,42(6):1049-1059.
【通聯編輯:代影】