輕量級的自學習網頁分類方法

2014-01-01 02:55:48沙泓州周舟劉慶云秦鵬

通信學報 2014年9期

沙泓州，周舟，劉慶云，秦鵬

（1. 北京郵電大學計算機學院，北京 100876；2. 中國科學院信息工程研究所，北京 100093；3. 信息內容安全技術國家工程實驗室，北京 100093)

1 引言

作為一個開放式的共享平臺，互聯(lián)網在為人們提供便利的同時也為一些不法分子收集個人隱私信息、組織犯罪活動創(chuàng)造了新的機會。在一些已知的網絡犯罪活動中，包含惡意代碼[1]和網上誘騙[2]的網頁（即惡意網頁[3]，包括釣魚網站、網頁木馬、色情網站等）常常扮演著十分重要的角色。卡巴斯基的統(tǒng)計數據顯示[4]，惡意網頁在 87.36%的網絡攻擊行為中出現并發(fā)揮作用。這類網頁或者在用戶不知情的情況下將惡意代碼自動安裝到用戶的計算機中，或者協(xié)助不法分子冒充他人騙取用戶個人信息及其他敏感信息。Google[5]的統(tǒng)計數據表明，平均每天攔截新的惡意網頁數高達9 500個。這些惡意網頁的存在，對Web的安全應用構成極大的威脅。

為了保護用戶的計算機免受惡意網站攻擊，一些主流瀏覽器（例如，IE瀏覽器的SmartScreen篩選器[6]及谷歌瀏覽器的safebrowsing[7]等）往往采用內置惡意網址列表的方法為用戶提供安全服務。具體方法為：瀏覽器首先通過自動檢測和人工舉報的方式獲得一份類似黑名單的惡意網址列表；然后，在用戶瀏覽某個網頁前，瀏覽器通過掃描內置的惡意網址列表來判斷該網頁的URL（uniform resource locator）是否為惡意網頁，如果確定為惡意網頁后，瀏覽器將向用戶發(fā)出警告，以提示用戶防止惡意代碼和網上誘騙的攻擊。這類安全服務的原理簡單且易于實現，因此在工業(yè)界被廣泛應用。然而，隨著互聯(lián)網的發(fā)展和網絡攻擊方式的層出不窮，這種方法逐漸面臨一些新的挑戰(zhàn)。

1) 大規(guī)模的網絡數據環(huán)境。作為一個開放式的共享平臺，互聯(lián)網不斷發(fā)展，網頁規(guī)模不斷擴大，新的網頁不斷涌現。由于第三方專業(yè)服務機構提供的惡意網址列表的更新速度遠遠跟不上惡意網頁的更新速度，容易出現惡意網頁漏判的情況。

2) 網頁隱匿技術的使用。隨著傳統(tǒng)方法的廣泛應用，很多攻擊者開始尋找并逐步使用網頁隱匿技術[8]來躲避檢查。例如，一些惡意站點通過偽裝網頁內容來逃避啟發(fā)式爬蟲的自動檢測，以避免被加入惡意網址列表，進而常常導致網頁錯判的情況。因此，隨著惡意網頁隱藏技術的逐步應用，發(fā)現新惡意網頁的難度也在逐步加大。

3) 不均衡的數據集特點。少量惡意網頁往往淹沒在海量的正常網頁中。例如，Google每天檢查數億的URL只能發(fā)現約9 500個不安全的站點[7]，大部分網頁的分析價值低，并且檢測需要消耗時間長。同時，由于自動分析和人工報告需要消耗大量的計算資源，如果對每個網頁都進行分析，資源利用率將十分低。

因此，如何設計一套自動化的工具快速準確地將新出現的惡意網站及其 URL和其他大量正常網頁區(qū)分開來成為一個迫切需要解決的問題。

針對此問題，本文提出了一種基于訪問關系的URL分類方法 SLW (self-learning light-weight approach)。SLW方法首次將存儲在訪問日志中的訪問關系引入網頁信譽評價問題中，以彌補惡意網頁漏判和錯判可能產生的不良影響。從文獻[8]實驗中觀察到的現象可知，對頻繁訪問惡意網站的用戶而言，他們對其他網站的訪問交集也是可疑的。因此，通過引入訪問關系的概念，可以有效地發(fā)現潛在的惡意網頁。實驗結果表明，在訪問關系的基礎上，SLW 結合黑名單的方法來區(qū)別不同的 URL，具有如下優(yōu)點。

1) 自學習。和傳統(tǒng)的基于黑名單的方法不同，系統(tǒng)可以通過用戶對黑名單列表的訪問記錄確定哪些用戶的可信度較低。然后，系統(tǒng)將利用低可信度用戶的訪問交集發(fā)現可疑 URL集合。最后，對所有可疑 URL進行逐一分析和檢查，判斷其是否屬于惡意網址集合。如果是惡意網址，則將其添加到黑名單中，以保證黑名單的完整性和可用性，進而可找到新的低可信度用戶。通過這一途徑，SLW方法可以適應于用戶訪問行為的變化以及惡意網頁的更新。

2) 輕量級。在Bando等[9,10]工作中，常常需要抓取和檢查大量的網頁或URL。但這些動作通常消耗大量的計算資源，其中絕大多數資源被浪費在良性URL的排查上。SLW通過保存訪問關系限制了URL檢查范圍，從而節(jié)省了大量的計算資源和時間開銷。

本文通過抓取高校網關中的訪問日志來驗證這一方法。實驗結果表明，和傳統(tǒng)網頁分類方法相比，SLW方法能夠有效提升檢測中惡意網頁所占比例(從 1.09%提升至 1.38%~1.94%)和識別效率（惡意網頁檢測所需的平均時間降低6.36%~33.89%），以便快速有效地識別惡意網頁。

2 相關工作

針對惡意網頁分類問題，國內外學者進行了廣泛的研究，如基于黑名單的方法[3,11]、基于深度包檢測的方法[12]和基于機器學習的方法[13,14]等。

基于黑名單的方法相對比較簡單，易于實現。它首先對惡意 URL進行標注，然后利用字符串匹配等技術實現惡意URL的識別。而惡意URL標注可以通過人工標注和自動標注[11]的方法完成。人工標注比較準確，但需要標注人員有專業(yè)的領域知識，并且耗時較長，只適合低速、小規(guī)模的網絡環(huán)境。而自動標注多利用啟發(fā)式的網絡爬蟲技術[11]進行標注，此類標注方法易于實現，可以進行并行化處理，但不夠準確。這主要是因為很多惡意網頁或者使用隱藏技術逃避檢測；或者特征不夠明顯，出現標注錯誤的情況。

為了解決基于黑名單方法存在的網站漏判問題，Pak等[12]提出基于內容檢測的分類方法。相比基于黑名單的方法，這類方法更加準確，能夠發(fā)現更多的惡意網頁，且易于并行化處理。但在執(zhí)行內容檢測時，由于分析處理的網頁內容較多，數據格式復雜，實踐這一方法需要消耗很多計算資源和時間。此外，自動化分析依賴于一套由具體領域的專業(yè)知識轉換成的識別規(guī)則。這些領域知識的主觀程度高，獲取困難。

為了降低計算資源的消耗和減少對領域知識的依賴，Ma等[11]以 URL詞匯特征和主機特征為基礎建立統(tǒng)一的分類模型（例如，SVM模型[15]等），進而根據已有標注集合識別惡意URL。此類方法通過選取有代表性的語法特征進行判斷，并不依賴特定領域的專業(yè)知識，分類速度快，資源占用少，是目前主流的 URL分類方法。但它分類的準確性主要依賴于樣本集的選取，并且部分主機特征受網絡延遲影響較大。

上述方法從不同層面對 URL分類問題進行了分析。在前人的研究基礎[16~19]上，本文提出一種新的URL分類方法SLW。該方法通過混合使用網頁黑名單以及“用戶—網站”間的訪問關系，實現了網頁的輕量級分類，并且有效提高黑名單的可擴展性，使其能夠應用于動態(tài)網絡環(huán)境中。與人工報告和啟發(fā)式爬蟲相比，SLW提供了一種更好的動態(tài)黑名單的產生方法。一方面，它通過使用訪問關系，限制了惡意 URL的檢查范圍，避免了對訪問流中所有未知URL（規(guī)模過億）的詳細檢查。另一方面，和人工報告相比，它需要更少的人為干預。

3 網頁信譽評價

3.1 基本概念

根據本文的應用環(huán)境，對一些文中即將用到的概念定義如下。

定義 1訪問集合是指訪問者所訪問的所有網頁資源所構成的集合，它包含了訪問者訪問過的所有網頁資源。如圖 1所示，訪問者A的訪問集合UA={p1,p2}。

定義2訪問交集是指2個或多個訪問集合的交集。一般地，對于給定的2個訪問集合A和B的交集，是指含有所有既屬于A又屬于B的元素，而沒有其他元素的訪問集合。

定義 3訪問關系是一種建立在訪問者和網頁資源之間的關系，是訪問者通過訪問網頁資源產生的一種對應關系。如圖1所示，訪問者A和網頁資源p1的訪問關系r=。

定義4用戶行為可信度是指惡意網頁識別系統(tǒng)對訪問用戶根據用戶此前訪問記錄而產生的信任程度。通常來說，從不訪問惡意網頁的用戶行為可信度較高，經常訪問惡意網頁的用戶行為可信度較低。因此，可以通過用戶過去一段時間內的訪問記錄來預測用戶未來行為的可信任程度。在區(qū)間t(t視具體應用而定，如3個月)內，假設用戶i的訪問次數為n，則用戶行為可信度可以通過式(1)進行計算。

其中，V(i,pk)表示用戶i第k次訪問的網頁p的評價結果，它通過式(2)進行計算。

本系統(tǒng)使用Google安全瀏覽 API[5]提供的惡意網頁列表作為判斷網頁評價結果的依據。

式(1)和式(2)表明，用戶可信度是通過對用戶的訪問次數和網頁本身的評價結果加權計算進行度量的。

如圖1所示，將2個用戶(A,B)和2個網頁資源(p1，p2)的訪問關系進行了抽象，其中，集合UA表示用戶A的訪問集合，UB表示用戶B的訪問集合，UAB表示用戶A和用戶B的訪問交集。

圖1 用戶訪問網頁資源關系示例

3.2 網頁評價

當用戶訪問一個網頁時，網頁評價結果是瀏覽器對用戶行為執(zhí)行不同操作（發(fā)出/不發(fā)出警示信息）的主要依據。瀏覽器可以依據惡意網址列表對用戶進行直接評價。為了補充和完善評價信息，根據用戶的瀏覽行為增加一種評價方式：訪問行為評價[19]。

3.2.1 瀏覽器直接評價

瀏覽器根據先驗知識（例如，惡意網址列表等）對網頁進行直接評價，這種評價方式比較簡單，使用方便，應用范圍廣泛，其不足之處在于網頁評價分級方式比較粗略。此外，由于惡意網址列表的更新速度較慢，部分新出現的惡意網頁將無法得到正確評價結果。

3.2.2 訪問行為評價

在用戶瀏覽網頁的過程中，可以利用用戶的瀏覽行為對網頁形成評價。一些行為評價方式主要使用用戶訪問網站的次數來評價網站的健康程度。這種方式沒有考慮不同用戶之間的信譽差異對網站評分結果的影響。通過在3.2節(jié)引入用戶可信度這一概念，惡意網頁識別系統(tǒng)記錄訪問某個資源的用戶可信度和訪問次數，以此作為參數獲得對該網頁資源的評價。網頁p的評價結果可以通過式(3)來計算

其中，Dk表示用戶k的可信度，T(k,p)表示用戶k對網頁p的訪問次數，m表示用戶總數。

3.2.3 訪問行為評價因素

根據用戶瀏覽行為的規(guī)律以及評價值的計算需要，為訪問行為評價增加3個影響因素：最小訪問間隔I (interval)、訪問日志保存周期LC (log cycle)和行為評價更新周期EC (evaluation cycle)，用以保證行為評價的準確性和有效性。

1) 最小訪問間隔I

行為評價隨著訪問行為的變化而變化。單個用戶對網頁的重復訪問必須達到一定的時間間隔，統(tǒng)計得到的訪問次數才有意義。如果忽視這一參數，則用戶可以通過不斷訪問某個頁面達到提升其評價值的目的。根據文獻[19]的經驗，本文將最小訪問間隔I設置為一天，以防止出現上述情況。

2) 訪問日志保存周期LC

增加一定的訪問日志對分析和識別惡意網頁是必要的，但持續(xù)增加訪問日志則會大幅增加存儲負擔，降低計算效率。因此確定合適的訪問日志保存周期，只保存一段時間內的訪問日志，能夠避免造成存儲和計算壓力。本文中訪問日志保存周期LC取 30天，該周期可根據實際存儲能力和計算資源進行相應調整。

3) 行為評價更新周期EC

根據訪問行為的變化，行為評價需要及時更新，以適應用戶的訪問需求。但是，對一些頻繁訪問的熱門網址和站點而言，大量不同用戶的連續(xù)訪問可能造成行為評價不穩(wěn)定和計算資源的浪費。為避免這種情況，本文將行為評價更新周期EC設置為6 h。該周期EC可根據實際用戶訪問特點進行調整。

此外，對于同一個網頁而言，如果瀏覽器給出了直接評價，則不再記錄訪問行為評價。否則，記錄其訪問行為評價結果。

3.3 基于訪問關系的網頁信譽評價

式(3)給出了一個網頁綜合評價值的計算方法。依據式(3)，以訪問關系為基礎，將用戶可信度作為權重，計算網頁綜合評價值。表1為網頁評價結果的示例。對比多個網頁的評價結果，可以發(fā)現一個可信度高的用戶多次訪問某一網頁，在該網頁的綜合評價中的貢獻會多一些。

4 自學習輕量級分類方法SLW

4.1 SLW方法概述

URL分類可以描述為一個二分類問題，其中陽性例子是可疑 URL，陰性例子是正常 URL。解決URL分類問題的關鍵是正確劃分可疑URL和正常URL。

SLW 方法主要依據黑名單和訪問關系來劃分URL。具體過程如下：首先，使用黑名單和收集到的訪問關系查明可疑用戶集合并收集他們的訪問日志；其次，通過對這些訪問日志中的網頁進行評價，可以發(fā)現更多的可疑URL；最后，對這些可疑URL進行詳細的分析檢查，以便準確識別惡意URL。和其他方法相比，該方法需要增加額外的存儲空間以保存部分訪問日志，但保存部分訪問日志可以有效地縮小內容檢測范圍并幫助發(fā)現潛在的惡意URL。

表1 網頁評價結果示例

4.2 SLW架構和工作流程

圖2展示了SLW方法的架構，從整體角度分析，SLW方法包含2個主要步驟。

在第 1步中，采用已有成熟的分析技術（如DPI、關鍵詞掃描等）對日志中出現的每個網頁進行深入分析。通過這一步驟，SLW可以積累一些惡意網頁作為“種子”。在第2步中，SLW方法從這些“種子”出發(fā)，對訪問過這些已知惡意網頁的用戶的可信度進行打分。對這些用戶進行分類篩選出一部分可信度較低的用戶，利用它們的訪問日志以發(fā)現潛在的惡意網頁。下面詳細敘述了 SLW 方法中使用的每個組件。

種子。本文的種子是指預先檢測出來的惡意網頁的集合。作為低可信度用戶追蹤器的輸入，種子的質量對整個追蹤過程至關重要。種子是由專業(yè)分析器產生的，當分析器分析出一個惡意網頁時，就可以將這個惡意網頁加入種子集合中，種子集合中常常包含2類網頁。第1類網頁是由攻擊者或犯罪分子直接建立的，這些網頁或者直接鏈接到一個惡意程序，或者包含一段可以在特定條件下執(zhí)行的惡意代碼。此外，這些網頁之間常常存在鏈接關系，以便提高成功入侵的幾率。第2類網頁則屬于良性網站的網頁，和正常的良性網頁不同，它們已經被攻擊者掛馬，通常會嵌套一段跳轉程序將用戶引導至惡意站點。SLW方法通過把這2類網頁加入到種子集合中，以便跟蹤這些低可信度的訪問者，從而從他們的訪問日志中發(fā)現潛在的惡意網頁。

低可信度用戶追蹤器。低可信度用戶追蹤器是 SLW 方法的核心。它的輸入是種子（包含惡意網頁的集合）以及“多對多”的訪問關系。基于對已知惡意網頁和訪問關系的分析，低可信度用戶追蹤器產生低可信度用戶的集合（如圖2所示的過程①）。用戶的可信度可以通過式(1)計算得到。低可信度用戶往往訪問過已知的惡意站點并且今后訪問這些站點或者類似網頁的可能性較大。因此，將低可信度用戶集合提交至可疑 URL收集器。通過在網絡流中標識低可信度的用戶，SLW方法就有可能發(fā)現它們的訪問歷史并識別其他惡意站點。

可疑URL收集器。可疑URL收集器基于低可信度用戶集合對他們的訪問交集進行收集（如圖 2所示的過程②），即只有多個低可信度的用戶訪問的URL才會被收集。這個部件的功能是產生一個可疑URL的集合，并將它們發(fā)送給一組專業(yè)分析器。

專業(yè)分析器。專業(yè)分析器主要由Google提供的 safebrowsing黑名單[5]組成。這個黑名單已經被Google用來實時處理數以億計的網頁,并有 API提供給外部調用者使用。此外，它不斷更新并且其誤判率很低。

預處理。預處理模塊的主要功能是對輸入的URL中的已知良性URL進行過濾，是可選的。由于沒有收集到有關良性URL的先驗知識，因此沒有具體實現預處理模塊，但這不影響實驗最終結果。

圖2 SLW方法的架構

5 實驗結果與分析

通過使用真實校園網關捕獲的數據集來驗證SLW方法的性能。首先介紹實驗的評價指標，然后對數據集和實驗環(huán)境進行分析，最后對實驗結果進行討論。

5.1 評價指標

由于真實校園網關捕獲的數據集規(guī)模較大，并且呈現嚴重的不均衡性（數據不均衡性主要是指惡意網頁資源和良性網頁資源的數量相差很大，通常在一個數量級以上），不適合用傳統(tǒng)的準確率和召回率來衡量本系統(tǒng)的好壞。因此，本文參考Invernizzi等的工作[20]，選取了另外 2個指標來驗證系統(tǒng)的效果：濃度 (density)和擴展度 (expansion)。

濃度是指新發(fā)現的可疑 URL中真正惡意的URL所占的比例。例如，如果一個可疑URL收集器提交100個可疑URL給專業(yè)分析器，并且其中10個URL最終被認定是惡意的，那么其濃度為0.1。分類結果的濃度高表明分類系統(tǒng)的資源利用率高。

擴展度是指系統(tǒng)根據一個惡意網頁 URL分析可以得到的平均惡意 URL數。擴展度高低體現了惡意網頁資源是否得到有效利用。

濃度和擴展度是此消彼長的關系，需要根據實際情況加以權衡。考慮到惡意網頁識別的實際應用環(huán)境，特別是所采用不均衡的數據集，獲得更高的濃度對系統(tǒng)更加重要。

5.2 數據集

本實驗在中國網站排名[21]上選取了10類共6 353個網址，并將它們作為良性 URL的代表。此外，以現有的URL黑名單[6]作為惡意URL標注工具。通過在高校網關中捕獲130 GB網絡流量作為數據源，數據集的統(tǒng)計信息如表2所示。其時間范圍是在2013年3月22日至2013年4月8日。其中，一個典型的訪問行為如表3所示。本實驗的實驗環(huán)境為一臺8核2.13 GHz主頻CPU，內存為16 GB內存的服務器。

表2 數據集信息統(tǒng)計

表3 用戶訪問行為的示例

5.3 實驗結果

本文設計了2個實驗來分別驗證SLW方法的濃度、擴展度和時間性能。第1個實驗通過和傳統(tǒng)檢查方法進行對比來驗證SLW方法發(fā)現惡意URL的能力。首先，對很小的一部分(實驗中取URL總數的0.2%，即6 310個URL)網址進行深入分析和檢查（如圖1所示），得到一部分惡意URL（又稱“種子”，下同，本文中為67個URL）；其次，充分使用“種子”來識別可信度低的用戶并繼續(xù)產生新的惡意URL（實驗組1~3）；最后，將SLW方法同其他傳統(tǒng)檢測方法（半數檢查是指檢查一半的訪問日志以發(fā)現惡意網址，全面檢查是指檢查全部訪問日志以發(fā)現惡意網址，如實驗組4~5）進行比較，以分析SLW方法的優(yōu)勢和劣勢。

如表4所示，初始階段，SLW從濃度為1.06%的URL庫里，分析并識別出67個惡意URL作為“種子”。在對“種子”分析的基礎上，SLW提交了18 440條URL給專業(yè)分析器，其中254條URL被最終認定為惡意。由圖3可知，其濃度由1.29%提高到1.94%。此外，與全面檢查訪問記錄相比，只對可信度低用戶的訪問日志進行分析，其惡意URL濃度分別上升6.97%~50.38%（如圖3所示）。即用戶的可信度越低，其訪問日志中包含的惡意URL濃度越高。

表4 濃度和擴展度實驗數據

表5 SLW方法時間開銷數據

擴展度實驗。如表4和圖3所示，只分析低可信度用戶的日志，其實際產生惡意 URL的數量初始惡意URL數量的3.25倍以上。

表5比較了不同方法的時間性能。如表5所示，檢查低可信度用戶訪問記錄是發(fā)現惡意 URL的一種有效方法。采用這種方法可以減少約33.89%的平均檢測時間。特別地，如果系統(tǒng)選取惡意用戶的比例比較小，其用于發(fā)現一個惡意 URL的平均時間將大大縮短。這種情況出現的可能原因是每次實驗進行前，將用戶按照可信度從低到高進行了排序。

圖3 濃度擴展度實驗對比

5.4 分析和討論

實驗結果顯示，相比于全部檢查，SLW方法可以顯著提高惡意URL的濃度（1.29% vs1.94%），從而大幅度（33.89%）降低平均檢測時間。此外，給定一定數量的惡意網頁，SLW方法有能力發(fā)現大量額外的惡意網頁。相比全面檢查、檢查同樣數量的URL，SLW可以發(fā)現3倍以上的惡意網頁。這一對比結果顯示，SLW在提高URL濃度，降低平均檢測時間方面具有較大優(yōu)勢。同時，該方法需要部分惡意網頁作為“種子”以產生更多的惡意網頁。因此，SLW方法的局限性在于，惡意網頁識別能力的好壞依賴于初始種子的選擇。為緩解這一局限性帶來的問題，可以擴大“種子”惡意網頁的選取范圍，或者提升“種子”惡意網頁質量。

6 結束語

惡意網頁（例如，釣魚網站[18]、網頁木馬[1]、色情站點等）是互聯(lián)網健康發(fā)展的一個重要威脅。識別這類站點對抵制犯罪分子網絡活動具有重要意義。然而，由于網頁規(guī)模的不斷擴大，數據集的不均衡性以及網頁隱藏技術的使用等原因，網頁分類問題變得更具挑戰(zhàn)性。為了解決這一問題，本文提出了SLW方法以構建具有反饋和自學習機制的輕量級網址分類系統(tǒng)。實驗結果表明，相比傳統(tǒng)檢測方法，SLW 方法可以顯著提高惡意網頁濃度，大幅降低平均檢測時間，并且具有反饋和自學習的特點。

在未來的工作中，將重點圍繞以下幾個方面開展研究：首先，引入 URL白名單機制以避免一些不必要的資源消耗；其次，逐步引入 URL的靜態(tài)特征和語法規(guī)則作為分類依據，以進一步提升分類效果；最后，研究如何提高分類算法在動態(tài)環(huán)境下的頑健性。

[1] 諸葛建偉, 韓心慧等. HoneyBow: 一個基于高交互式蜜罐技術的惡意代碼自動捕獲器[J]. 通信學報,2007, 12(28):8-13.ZHU GE J W, HAN X H,et al. HoneyBow: an automated malware collection tool based on the high-interaction honeypot principle[J].Journal of Communications, 2007, 12(28):8-13.

[2] PRAKASH P, KUMAR M, KOMPELLA R R,et al. Phishnet: predictive blacklisting to detect phishing attacks[A]. Proceedings of INFOCOM[C]. San Diego, CA, USA, 2010. 1-5.

[3] AKIYAMA M, YAGI T, ITOH M. Searching structural neighborhood of malicious urls to improve blacklisting[A]. Proceeding of the 11th Symposium on Applications and the Internet (SAINT)[C]. Munich,Germany, 2011.1-10.

[4] Kapaersky security bulletin. statistics 2012[EB/OL]. http://www.securelist.com/en/analysis/204792255/Kapersky, 2014.

[5] REPORT G T. Making the Web safer[EB/OL]. http://www.google.com/transparencyreport/safebrowsing/?hl=en, 2014.

[6] Smartscreen filter[EB/OL].http://windows.microsoft.com/zh-CN/ inter-net-explorer/use- smartscreen-filter#ie=ie-9, 2014.

[7] Google chrome and google safe browsing[EB/OL]. http://www.google.com/chrome/intl/zh-cn/more/security.html, 2014.

[8] KOLBITSCH C, LIVSHITS B, ZORN B,et al. Rozzle: De-cloaking internet malware[A]. IEEE Symposium on Security and Privacy(S&P)[C]. San Francisco, USA, 2012. 443-457.

[9] BANDO M, ARTAN N S, CHAO H J. Scalable look ahead regular expression detection system for deep packet inspection[J]. Transactions on Networking, IEEE/ACM, 2012, 20(3):699-714.

[10] JIANG J, SONG X, YU N,et al. Focus: learning to crawl Web forums[J]. IEEE Transactions on Knowledge and Data Engineering,2013, 25(6): 1293-1306.

[11] MA J, SAUL L K, SAVAGE S,et al. Beyond blacklists: learning to detect malicious Web sites from suspicious URL[A]. Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. Paris, France, 2009.1245-1254.

[12] PAK W, CHOI Y J. High-performance packet classification for network-device platforms[J]. Communications Letters, IEEE, 2013, 17(6):1252-1255.

[13] ZHANG F G. Preventing recommendation attack in trust-based recommender systems [J]. Journal of Computer Science and Technology,2011, 26(5): 823-828.

[14] MA J, SAUL L K, SAVAGE S,et al. Learning to detect malicious URLs[J]. Transactions on Intelligent Systems and Technology, 2011,2(3):30.

[15] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. Transactions on Intelligent Systems and Technology, ACM,2011, 2(27):1-27.

[16] LEE S, KIM J. Warningbird: a near real-time detection system for suspicious urls in twitter stream [J]. Transactions on Dependable and Secure Computing, IEEE, 2013,10(3): 183-195.

[17] TSANG P P, KAPADIA A, CORNELIUS C,et al. Nymble: blocking misbehaving users in anonymizing networks[J]. Transactions on Dependable and Secure Computing, IEEE, 2011, 8(2):256-269.

[18] LE A, MARKOPOULOU A, FALOUTSOS M. Phishdef: URL names say it all[A]. Proceeding of the 30th IEEE International Conference on Computer Communications (IEEE INFOCOM 2011)[C]. Shanghai,China, 2011.191-195.

[19] 劉昕, 賈春福, 劉國友等. 基于社會信任的惡意網頁協(xié)防機制[J].通信學報, 2013, 12(33):11-18.LIU X, JIA C F, LIU G Y,et al. Collaborative defending scheme against malicious Web pages based on social trust[J]. Journal on Communications, 2013, 12(33):11-18.

[20] INVERNIZZ I, LUC A,et al. Evilseed: a guided approach to finding malicious Web pages[A]. IEEE Symposium on Security and Privacy(S&P)[C]. San Francisco, USA, 2012. 428- 442.

[21] China Webmaster[EB/OL]. http://top.chinaz.com/, 2014.