摘要:針對目前垃圾郵件制造者不斷利用新技術和新方法,使垃圾郵件的內容和發送手段等都發生了明顯的變化,對傳統基于內容的反垃圾郵件技術提出了嚴峻挑戰的問題,提出了一種主動式的垃圾郵件行為識別技術。通過分析當前垃圾郵件的通信行為和MTA通信原理,提出了追蹤源頭認證、信譽驗證和質詢驗證行為識別技術,詳細闡述了它們在MTA通信連接的不同階段對垃圾郵件進行識別與攔截的方法,并給出了整個行為識別算法。最后設計了一個可擴展性良好的垃圾郵件過濾網關并進行了實驗。實驗結果表明,提出的識別技術真正實現了與內容無關、語言類型無關的郵件實時過濾,并具有良好的效率和準確率。
關鍵詞:垃圾郵件; 行為識別; 郵件傳輸代理; 網關
中圖分類號:TP393.08文獻標志碼:A
文章編號:1001-3695(2007)11-0228-04
0引言
伴隨著我國互聯網的快速發展與普及,垃圾郵件的傳播也越來越猖獗,嚴重侵害了電子郵件用戶的合法權益和企業的利益,影響了電子郵件服務的正常運營秩序和網絡的正常運行,直接威脅著互聯網信息安全,每年給國民經濟也造成數十億元的巨大損失。互聯網協會2006年第一次反垃圾郵件調查結果表明[1]:2005年11月~2006年3月期間,中國互聯網用戶收到的垃圾郵件比例由61.53%上升到63.97%,上升了2.44個百分點。中國互聯網用戶平均每周收到垃圾郵件數量為19.33封,較2005年10月的每周17.25封上升了2.08封,上升幅度也高于上次的調查結果。面對日益嚴峻的反垃圾郵件形勢,為了維護廣大用戶的合法權益、促進互聯網健康發展,信息產業部已公布了《互聯網電子郵件服務管理辦法》[2](后面簡稱《管理辦法》),并于2006年3月30日開始施行。《管理辦法》的公布,意味著政府主管部門對垃圾郵件治理工作越來越重視。
《管理辦法》中規定,包括運營商、電子郵件服務提供商和垃圾郵件舉報受理中心,都無權自行打開郵件和查看郵件的內容[2]。因此,以絕大多數廠商為代表的郵件內容掃描技術則不符合此項法規。2006年3月21在北京舉行的主題為“治理、規范、發展的《管理辦法》研討會暨2006年第一次中國反垃圾郵件狀況發布會”中,信息產業部政策法規司法規處副處長李長喜博士說:“《管理辦法》對垃圾郵件的管理主要是從電子郵件的標題等外在形式方面進行判斷。”[3]因此,本文提出了一種主動式的垃圾郵件行為識別技術。所謂行為識別技術就是在MTA通信階段就判斷出所接收郵件是否為垃圾郵件而不需要打開郵件檢查其內容。這種行為識別技術完全符合法律規定的保障公民通信秘密的要求,也符合《管理辦法》規定的要求,還可避免內容過濾技術不可避免的誤報率高、語言依賴性強、網絡流量大和資源消耗大等問題;同時還可提高郵件過濾速度,減少網絡延遲。
1垃圾郵件的定義及其通信行為分析
1.1垃圾郵件的定義
2002年11月1日,中國互聯網協會在《中國互聯網協會反垃圾郵件規范》中是這樣定義垃圾郵件的:“本規范所稱垃圾郵件,包括下述屬性的電子郵件:a)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件;b)收件人無法拒收的電子郵件;c)隱藏發件人身份、地址、標題等信息的電子郵件;d)含有虛假的信息源、發件人、路由等信息的電子郵件。”
國際互聯網郵件協會(Internet Mail Consortium,IMC)于1997年10月做了題名為“不請自來的大量郵件的定義及其產生的原因”的報告[4]。這份報告中就將垃圾郵件定義為不請自來的大量郵件,即UBE(unsolicited bulk e-mail)。美國弗吉尼亞2003年《反計算機犯罪法》就采用了“不請自來的大量郵件”來定義垃圾郵件[5]。
垃圾郵件之所以煩人,并不是因為內容無趣不吸引人,而在于大量濫發,任意長驅直入至收信者電子郵件箱。從法律上講,沒有取得他人同意濫發垃圾郵件,屬于濫用發信自由、侵犯他人的收信自由,實質上是強迫通信。反垃圾郵件就是反對強迫通信,維護通信自由[6]。
1.2垃圾郵件的通信行為分析
垃圾郵件發送者已經在全球形成較緊密的合作網絡,發送的手段也更加隱蔽和狡猾。垃圾郵件發送行為解析分類如下:a)郵件濫發行為。利用軟件群發帶有商業目的電子郵件。這些垃圾郵件發送者經常利用動態IP地址來發送垃圾郵件,混淆垃圾郵件的來源和路由,以逃避法律法規的追查和制裁,以及病毒郵件、蠕蟲郵件利用操作系統或應用系統的漏洞,大量轉發含帶病毒的郵件。b)郵件非法行為。垃圾郵件發送者借用各地的多個開啟了open relay郵件轉發功能的郵件服務器來發送郵件的行為。c)郵件偽造行為。發件人、收件人、發件主機或郵件傳輸信息經過刻意偽造,經查證不屬實的行為。d)郵件匿名行為。發件人、收件人、發件主機或郵件傳輸信息刻意隱匿,使得無法追溯其來源的行為。e)利用IDC(互聯網數據中心)提供的郵件服務以正常用戶的方式進行垃圾郵件發送。
從上面對垃圾郵件通信行為分析發現,垃圾郵件與正常郵件的發送行為具有極高的區分度,這對過濾垃圾郵件提供了突破點:根據這些通信行為特征可以判斷垃圾郵件通信的存在性,從而可以采取相應的手段來阻止。
2MTA通信原理
SMTP(簡單郵件傳輸協議)有一個協議狀態空間,協議會話過程中,會話雙方都將分別維護會話狀態。協議命令驅動協議會話狀態在SMTP 協議狀態空間中轉換。MTA會話連接通信過程主要包括helo、mail、rcpt和data四個核心命令。下面詳細介紹其會話連接通信過程[7]。
首先,發件方SMTP發送helo命令,表示發件方問候收件方,后面是發件人的服務器地址或標志;收件方回答OK時標志自己的身份;問候和確認過程表明兩臺機器可以進行通信。然后發件方SMTP向收件方發送mail命令,告知發件方的身份(發件方郵件地址);如果收件方接收,就會回答OK。發件方再發出rcpt命令,告知收件人的身份(收件人的郵箱即信封地址)。當有多個收件人時,需要多次使用該命令,每次只能指明一個人,收件方SMTP確認是否接收或轉發;如果同意就回答OK。接下來發件方再發出data命令就可以進行數據傳輸了。會話過程中,發件方SMTP與收件方SMTP采用對話式的交互方式;發件方提出要求,收件方進行確認,確認后才進行下一步的動作。
3垃圾郵件行為識別技術
MTA的通信會話過程中有兩個階段可以進行過濾:a)在建立通信連接時,可以在mail from指令和rcpt to指令中對會話數據進行檢查,即發送郵件數據前的檢查也叫做信封檢查;b)在發送郵件數據后,即在發送data指令后的過濾,在通過一個點的單行結束data指令后,可以對data指令接收到的數據進行檢查,包括信頭檢查和信體檢查。
本文的研究重點是根據郵件在MTA的通信會話過程中所處的不同階段來確定需要檢查的內容,即郵件信封檢查;并由此進一步驅動會話狀態的轉換,主要有追蹤源頭認證技術、信譽驗證技術和質詢驗證技術,以追蹤、驗證并判斷來信是否具有濫發、偽造、匿名等行為特征的垃圾郵件,從而迅速阻斷垃圾郵件的傳輸,提高郵件過濾的速度。
3.1追蹤源頭認證技術
在SMTP中聲明發送者郵件地址的mail from 指令所帶的參數,并沒有要求為合法的可以驗證的郵件地址。此參數可以為空缺或任意指定。目前垃圾郵件發送者正是利用SMTP這個漏洞,使用專用的垃圾郵件發送軟件,可以自動、定時變換發信用戶和連接源IP地址,如發送的病毒郵件、黑客攻擊郵件和網絡釣魚郵件等,可以輕易地躲過郵件管理員人工阻斷以及傳統的反垃圾郵件技術的控制。
針對上述情況,追蹤源頭認證技術對mail from指令所提供的郵件來源進行深度檢查。如果為空,則屬于匿名垃圾郵件;在不為空時,可以通過域名反向解析和檢查是不是符合RFC 822格式等,以判斷其是否為垃圾郵件。域名反向解析技術對發送者的IP地址進行逆向名字解析,通過DNS查詢來判斷發送者的IP與其聲稱的名字是否一致。若與其DNS記錄不符,則予以拒收。這種方法可以有效過濾掉發件人、發件主機或郵件傳輸信息行為經過刻意偽造的垃圾郵件,還能夠有效過濾掉來自動態IP的垃圾郵件;對于某些使用動態域名的發送者,也可以根據實際情況進行屏蔽。
3.2信譽驗證技術
郵件過濾系統維護一個允許發送郵件的安全通信錄,即允許發送郵件的合法郵箱名。根據rcpt to指令所提供的郵件接收者,檢查mail from指令所提供的郵件來源是否在每個郵件接收者的安全通信錄中,即信譽驗證。如果在其常聯系人通信中,則接收郵件;否則,是一封陌生人的來信,在發送數據前需要作進一步的檢查。這種驗證技術既減少了對正常郵件的干擾,又能對陌生人發來的郵件進行更深入的檢查,以便查明其身份而采取相應的響應。3.3質詢驗證技術
根據互聯網協會2006年第二次反垃圾郵件調查結果表明[8],83.83%企業用戶認為地址搜索和群發軟件依舊是垃圾郵件的首要來源。這些垃圾郵件發送者經常利用合法的動態IP地址來發送垃圾郵件,混淆垃圾郵件的來源和路由,以逃避法律法規的追查和制裁。因此,遏制群發軟件發送垃圾郵件是阻止垃圾郵件泛濫的一個極為重要的環節。
對于這些用自動群發軟件發送的陌生郵件或第一次給對方發送的郵件,質詢驗證技術在rcpt to指令之后會產生一個特殊的質詢問題給發送者,該問題必須人工回答,而非機器可以識別。該問題包含某種惟一的可以識別原始消息的代碼,如一個散列、序列標志或不規則的數字。這個質詢消息包含讓發送者答復的指示,以便將其加到安全通信錄中。幾乎所有利用自動群發垃圾郵件的軟件不可能會響應這個質詢;即使是人為在發送垃圾郵件,那么他們也會付出很大的精力來響應這個質詢,從而使其發送郵件的行為受到控制。當合法的發送者答復了這個質詢之后,就將她/他的地址添加到安全通信錄中,以便將來來自同一地址的消息會自動地通過檢查。因此,質詢驗證技術可以阻止大量不請自來的郵件。
3.4行為識別算法
基于郵件信封的垃圾郵件行為識別技術是在接收郵件之前的會話連接通信階段進行垃圾郵件識別與攔截,即邊會話邊識別邊攔截過程。如果在檢查中該會話符合過濾的條件,就可以按照規則采取相應的動作,如直接在會話階段斷開連接、發出相應的警告代碼等。郵件會話與行為識別的詳細過程如圖1所示。
4垃圾郵件過濾網關
結合上述行為識別技術,構建了一個可擴展性良好的垃圾郵件過濾網關,在郵件會話過程中代替郵件服務器維護郵件會話狀態并對外來郵件進行過濾檢查,然后再轉發;對需要發送出去的郵件只起著存儲轉發作用,而不進行檢查。其體系結構如圖2所示。主要由安全通信錄、行為識別器、MTA和隊列四部分組成。安全通信錄是允許發送郵件的合法寄信者,包括一般聯系人通信錄和常聯系人通訊錄。當第一次發送郵件給收信者時,發信者要接受質詢驗證其身份。通過驗證時,就被添加到收信者的一般聯系人通信錄中,其信譽度加1,在以后每通過一次驗證時就累計信譽度值;當他的信譽度值大于設置的常聯系人閾值時,就將其加入到常聯系人通信錄中。常聯系人通信錄中的發信者不需要質詢驗證。每個用戶的通信錄都設置成一定大小。當常聯系人通信錄已滿時,將其中最少聯系的寄信者淘汰到一般聯系人通信錄中;而當一般聯系人通信錄已滿時,則將其中最少聯系的寄信者刪掉。行為識別器監控MTA的會話連接傳輸信息,對其進行行為識別并判斷是否為垃圾郵件,從而作出相應的響應來控制MTA的會話過程。MTA代替郵件服務器中MTA的工作,在接收郵件時,與發送郵件的服務器進行會話通信。會話過程中的傳輸參數受到行為識別器的檢查與控制,從而阻斷垃圾郵件的連接通信而接收正常郵件并暫存隊列中,然后再轉發給郵件服務器。
5實驗及結果分析
5.1實驗環境及方案
5.1.1網絡架構
實驗時構建的網絡架構如圖3所示。主要由普通PC機、spam發送機、防火墻、交換機、郵件過濾網關和郵件服務器各一臺按照如圖3所示的結構連接組成。
5.1.2系統配置
1)垃圾郵件過濾網關的配置
該網關運行在RedHat Linux 8.0操作系統下,主要對來自外部寄信者的郵件進行檢查,必須符合郵件行為規范才允許進入郵件系統。郵件過濾網關如圖3所示放在原郵件服務器前端,分配一個合法的IP地址,把原來指向電子郵件服務器的MX記錄,重定向到垃圾郵件過濾網關,在垃圾郵件過濾網關配置SMTP路由,投遞到電子郵件服務器。配置好后,外界無論是正常郵件、惡意攻擊還是垃圾郵件,均會由垃圾郵件過濾網關進行智能判別和過濾,然后再從垃圾郵件過濾網關將正常郵件投遞到電子郵件系統。這樣,垃圾郵件過濾網關就成為外界電子郵件通向電子郵件系統的惟一通道,為電子郵件系統提供可靠的安全屏障。
2)Spam發送機
該發送機運行在RedHat Linux 8.0操作系統下,在其上執行筆者自行研發的郵件群發工具。該工具能夠根據用戶的要求對郵件的信封、信頭任意填寫以及對發送郵件的數量、發送速率等參數進行準確控制。由于目前大部分垃圾郵件是利用群發軟件發送的,作實驗時利用這個工具模擬目前垃圾郵件的通信行為向郵件服務器發送垃圾郵件。
5.1.3實驗方案
采用兩種方式向目標郵件服務器發送郵件:a)通過spam發送機向目標郵件服務器發送一定數量的匿名、偽造、濫發和非法等行為的英文和中文郵件;b)由普通PC機作為郵件客戶端通過其他郵件服務器向目標郵件服務器發送正常郵件。為便于實驗,把DNS服務器配置域名反向解析,把常聯系人閾值設為2,即發信者第一次給某個收信者發郵件時,經過兩次質詢驗證后就無須再驗證。
5.2實驗數據及分析
實驗數據及結果如表1所示。根據郵件的發送行為方式來識別垃圾郵件而無須全部接收下來檢查其內容,具有較高的準確率,而以正常方式發送合法郵件的誤判率也非常低。經過統計分析,對于以匿名、偽造、非法方式發送的垃圾郵件的識別準確率大于99%,以濫發方式發送的垃圾郵件的識別準確率大于90%。
實驗中兩封正常郵件的誤判,經分析可能在下列情況發生:a)如果DNS服務器未配置域名反向解析,可能會導致合法郵件服務器被認為是非法的;b)有些發送者可能出于各種原因無法響應或發送質詢消息,如發送者具有不可靠的ISP、防火墻的要求過于嚴格、不能夠理解英語(或質詢所使用的語言)。
經過研究與實驗表明,行為識別技術與目前的垃圾郵件過濾技術相比,具有如下優點:a)不依賴關鍵字檢查,能攔截任何國家語言和全圖片格式的敏感垃圾郵件;b)不會受郵件內容干擾產生誤判,并且大大提高了處理速度,網關系統穩定性極高;c)由于不需要檢查內容,可以進行邊會話邊攔截,大大節省了郵件國際流量;d)系統完全自動化工作,管理員維護工作量極小。
6結束語
垃圾郵件的日益泛濫已成為當前的研究熱點。目前垃圾郵件的內容、獲取IP技術及發送手段等特征都發生了變化,若繼續沿用傳統反垃圾郵件技術,可能收效甚微或基本無效。本文研究的垃圾郵件行為識別技術,就是通過實時檢測郵件的通信會話信息來主動阻止垃圾郵件的發送。實驗結果充分證明了該行為識別技術不需要打開郵件檢查其內容就能阻止大量垃圾郵件。此外,采用基于垃圾郵件的發送行為來識別垃圾郵件,也可以從另一方面給垃圾郵件攻擊者以壓力,迫使發送者必須按照一定的規范發送郵件。也即迫使郵件發送者只能從正常渠道、以正常方式發送郵件,從而使得郵件的發送處于受控狀態。新一代的垃圾郵件行為識別技術將得到更廣泛的應用,并取代傳統的內容過濾反垃圾郵件技術;同時通過加強法律手段和國際間的合作及防范意識,才能有效打擊垃圾郵件。
參考文獻:
[1]反垃圾郵件中心.中國互聯網協會2006年第一次反垃圾郵件調查結果發布[EB/OL].[2006-03-22].http://www.anti-spam.cn/ShowArticle.php?id=27130.
[2]信息產業部.互聯網電子郵件服務管理辦法[EB/OL].[2006-03-02].http://www.mii.gov.cn/art/2006/03/02/art_521_7342.html.
[3]碩琦(上海)信息科技.反垃圾郵件技術大對決,碩琦技術有法可依[EB/OL].[2006-03-31].http://www.box-sol.com.cn/hotnews060331.htm.
[4]HOFFMAN P.Unsolicited bulk email:definitions and problems, IMCR-004[R].[S.l.]:Internet Mail Consortium,1997.
[5]趙曉力.論反垃圾郵件法的立法原則[EB/OL].[2006-01-18].http://cyber.tsinghua.edu.cn/user1/zhaoxiaoli/archives/2006/37.html.
[6]趙曉力.反垃圾郵件法的立法原則[J].信息網絡安全,2005 (12):18-20.
[7]POSTEL J B. RFC 821,Simple mail transfer protocol[S].1982.
[8]反垃圾郵件中心.中國互聯網協會2006年第二次反垃圾郵件調查結果發布[EB/OL].[2006-06-22].http://www.anti-spam.cn/ShowArticle.php?id=3443.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”