王 雪
(國家新聞出版廣電總局202臺,西藏拉薩 850030)
互聯網發展迅猛,已經滲透到人們工作和生活中。伴隨著互聯網的普及,電子郵件已經成為人們日常工作和生活的重要的通信手段,而且已經成為人們日常交流的一種重要途徑。然而,除了包含有用信息的電子郵件外,互聯網中還充斥著大量的垃圾郵件(spare mail)。當前,大量垃圾郵件的出現已經成為互聯網的一個相當嚴重的問題。數量巨大的、無用的,甚至包含有害信息的電子郵件在互聯網中傳播。這不僅消耗了大量的網絡資源,而且威脅到郵件系統中用戶的信息安全,對郵件服務商也造成了嚴峻的挑戰。人們研究、開發各種有效技術措施來阻止垃圾郵件的傳播,建設健康、和諧的互聯網環境,已經成為當前網絡安全研究的重要內容之一。
垃圾郵件種類非常多,而且形式變化多端。可以按照內容分類,也可按照發送及傳播方式分類。
按照電子郵件內容主要可分為以下6類:
(1)用于商品廣告、促銷的商業垃圾郵件;
(2)包含非法、反動宣傳內容的垃圾郵件;
(3)包含暴力、色情等不良信息的垃圾郵件;
(4)包含病毒信息的垃圾郵件;
(5)包含詐騙、恐嚇內容的垃圾郵件;
(6)包含其他內容的垃圾垃圾。
按照發送及傳播方式主要可分為以下4類:
(1)通過傳播方自己購買或租用的郵件服務器,直接利用端口25,直接發送到用戶郵箱的垃圾郵件;
(2)利用非法手段,通過合法的郵件服務器,間接發送到用戶郵箱的垃圾郵件;
(3)利用偽造手段,向服務器發送不可能投遞成功的郵件,造成郵件服務器自動產生“投遞失敗信件”,從而將郵件返回發送給用戶的垃圾郵件;
(4)利用垃圾郵件傳播前指定中繼服務器等發送路徑的手段,造成垃圾郵件在發送路徑的每一個中繼服務器都會耗費巨大的網絡資源,從而將以消耗網絡資源為目的的鏈式中繼垃圾郵件發送給用戶。
隨著互聯網和電子郵件技術的發展,垃圾郵件傳播技術也在同步發展,如果想徹底解決垃圾郵件問題,就必須首先了解垃圾郵件的傳播機理。一般的電子郵件傳輸協議均采用簡單郵件傳輸協議,即SMTP。因為SMTP不需要任何認證步驟,所以無論電子郵件從哪里發出和發送目的地,都會順利地接收并發送。垃圾郵件傳播可分為以下4個主要步驟:
(1)垃圾郵件制作者利用SMTP協議將垃圾郵件發送至郵件服務器;
(2)郵件服務器根據接收到的電子郵件接收地址,采用SMTP協議把郵件轉發給郵件接收服務器;
(3)郵件接收服務器將收到的垃圾郵件放到接收者的郵箱;
(4)垃圾郵件接收者通過自己的郵箱接收郵件。
垃圾郵件發送和接收的整個過程均不需進行認證,所以垃圾郵件制作者就可以選擇互聯網上每一臺SMTP服務器發送垃圾郵件,以達到傳播垃圾郵件的目的。
垃圾郵件的出現和泛濫對人們的工作和生活造成了極大的不便和威脅,因此,部分郵件服務提供商為了驗證郵件發送者的身份,會要求對郵件發送者或郵件服務器進行認證。于是,一種新的郵件傳輸協議,即ESMTP協議就被提出來了,它是在SMTP的基礎上,對其功能進行了一些改進。然而,ESMTP協議對郵件接收與發送郵件服務器間的合法性不進行確認,漏洞仍然存在。
當前,國內外的反垃圾郵件技術和產品多種多樣,其中涉及的垃圾郵件過濾技術也不盡相同。通過總結市場上的反垃圾郵件技術和產品,垃圾郵件過濾技術可大致分為3種:IP地址過濾技術、SMTP協議過濾技術、內容過濾技術。其中,內容過濾技術是當前和未來垃圾郵件過濾技術的主要研究方向。
正常的電子郵件一般由3部分構成:郵件地址、郵件主題、郵件內容。這3部分內容所包含的信息正是垃圾郵件過濾技術分析、判斷的依據。因為這3部分內容均是以文本形式,所以垃圾郵件的分析與判斷,其本質上是文本分類技術,而文本分類技術的核心就是關鍵詞的統計與提取。因此,從理論上說,內容過濾技術的核心是電子郵件中文本包含的關鍵詞的統計與提取。
因為垃圾郵件的數量、種類越來越多,過濾技術需要的計算量越來越大,所以人們將機器學習方法應用到垃圾郵件內容過濾技術中,主要包括2種方法:基于規則方法;基于統計方法。基于規則方法:首先分析郵件內容中包含的特征,然后將分析得到的特征與垃圾郵件的特征進行比較,從而發現并判斷出垃圾郵件。基于統計方法:分析得到電子郵件中某種信息的概率,然后統計待判斷電子郵件中該類信息的概率,從而得出結論。下面將詳細介紹以上2種方法。
基于規則方法首先分析電子郵件的標題、內容等信息,然后將分析得到的特征與待判斷的電子郵件中相關特征間的關聯關系,就可以得出郵件是否是垃圾郵件的判斷。當新的電子郵件到達的時候,通過計算、判斷關聯關系來判定它是否是垃圾郵件。基于規則方法中最具有代表性的是IBM公司的C-K系統,通過模式匹配方法,總結出相關特征,從而用來判斷、確定新郵件是否是垃圾郵件。
因為需要通過分析已有的垃圾郵件,才能得到需要的關聯關系,而這些關聯關系僅能反映出以前的垃圾郵件的相關特征。所以,當新的垃圾郵件產生以后,需要獲取這些新的垃圾郵件,再次分析、總結,得到更新的關聯關系。因此,基于規則方法在實際使用中,必須保證關聯關系的實時、準確。隨著垃圾郵件種類和數量的不斷增長,必然造成關聯關系越來越多、越來越復雜,最終影響垃圾郵件分析、判斷的效率。當前,基于規則方法主要有 4 種:(1)Boosting法;(2)SA 評分系統;(3)粗糙集法;(4)決策樹法。
基于統計方法主要有5種。
k-NN法,即k鄰近法,該方法利用與待判斷樣本相近的幾個樣本,判定新樣本的類別。k鄰近法的基本思想是:如果新樣本與k個最相近樣本中大多數樣本屬于相同的類別,那么新樣本也應該歸類于這個類別。
Winnow法,即線性分類器,該方法利用樣本訓練,找出某個類別中包含的特征權重向量 w=(w1,w2,…,wn),然后設定閾值 θ。設新樣本為 x=(x1,x2,…,xn),如果 wT·x>θ,則判斷新樣本屬于該類別;否則,判斷新樣本不屬于該類別。
SVM法,即支持向量機法,該方法利用構造出來的最優線性分類面來進行分類。首先把樣本空間線性映射到另一個空間,然后在新空間中構造出最優線性分類面。
Rocchio法,即相關反饋法,該方法利用訓練集給各類別構造一個自己的原始向量,然后將所有新樣本向量化,最后計算正例向量和反例向量的加權差作為類別向量。
Bayes法,即貝葉斯法,該方法利用對大量已知類別的郵件的分析,統計、提取出最具代表性的關鍵詞作為特征,得到統計分布模型。當新郵件到來時,分析它的特征,從而推算出新郵件是垃圾郵件的概率。因為貝葉斯法過濾垃圾郵件所依賴的訓練集中的垃圾郵件和非垃圾郵件是由垃圾郵件過濾者自己設定的,所以垃圾郵件制造者無法判斷出訓練結果。而且貝葉斯法過濾垃圾郵件某種程度上具有自主學習能力,所以目前貝葉斯法過濾垃圾郵件使用最為廣泛。

[1]羅倩,秦玉平,王春立.反垃圾郵件技術綜述[J].渤海大學學報,2008(4):385-389.
[2]潘文峰.基于內容的垃圾郵件過濾研究[D].北京:中國科學院計算技術研究所,2004.
[3]王濤,裘國永,何聚厚.基于改進Naive Bayes的垃圾郵件過濾模型研究[J].計算機工程與應用,2007(13):186-190.