林海倫,李焱,王偉平,岳銀亮,林政
(1.中國科學院信息工程研究所,北京 100093;2.國家計算機網絡應急技術處理協調中心,北京 100029)
基于Cookie的網盤資源在線溯源方法
林海倫1,李焱2,王偉平1,岳銀亮1,林政1
(1.中國科學院信息工程研究所,北京 100093;2.國家計算機網絡應急技術處理協調中心,北京 100029)
網盤作為一種基于互聯網的信息傳播載體,其所分享的敏感資源已經在網絡流量中占有越來越多的比例,因此,獲取網盤資源的分享鏈接對于網絡安全有著重要的意義。提出了一種高效可擴展的基于Cookie的網盤資源溯源方法—CookieTracing。該方法通過在海量的HTTP會話中建立Cookie與HTTP會話的索引表來實現網盤資源和下載網盤資源的跳轉鏈的關聯,同時通過累計散列算法加快溯源結果的驗證。實驗結果表明,所提方法具有較好的性能和可擴展性。
網盤資源;分享鏈接;URL跳轉鏈;Cookie;HTTP會話
隨著互聯網技術的飛速發展,網絡作為一個開放式的平臺,為用戶提供了眾多可以分享和下載資源的服務,如P2P注1:https://en.wikipedia.org/wiki/Peer-to-peer。:https://en.wikipedia.org/wiki/BitTorrent。、BitTorrent注2:https://en.wikipedia.org/wiki/Peer-to-peer。:https://en.wikipedia.org/wiki/BitTorrent。以及目前比較流行的網盤。由于網盤操作簡單,用戶無需安裝軟件就可以一鍵分享、下載資源;而且與BitTorrent等傳統資源分享模式相比,下載速度快。網盤具備的這些特點導致P2P和BitTorrent使用量急劇下降[1~3]。目前,統計已有很多研究對網盤的使用情況,Maier等[1]對網盤的網絡流量進行了統計分析,發現網盤流量占普通網絡流量總數的17%。Gehlen等[2]對網盤的點擊量進行了統計分析,發現網盤是排名前10的網絡應用,并且占據5%的點擊量。Allot等[3]則對網盤在移動終端上的網絡流量進行了統計分析,發現網盤流量占據移動終端網絡流量總數的19%。通過上述分析可以看出,網盤已成為重要的網絡資源分享和下載的方式。
當用戶利用網盤分享資源時,網盤會給該資源生成唯一與之對應的URL標識,用戶將該鏈接分享至網絡社交平臺,其他用戶即可點擊該鏈接下載分享資源,這些用戶點擊分享鏈接后會彈出一個帶有下載按鈕的頁面(本文將其定義為入口頁面),該頁面的URL即為資源的分享鏈接,頁面會描述該下載資源的屬性信息,如資源發布者、資源發布時間、資源下載次數等。
當用戶單擊入口頁面中的下載按鈕下載該資源時,用戶使用的瀏覽器會自動向服務器發出一系列HTTP請求(本文將其定義為資源下載的URL跳轉鏈),直至成功建立下載資源的HTTP會話。如何從海量的網絡流量中獲取網盤下載資源所對應的入口頁面對于網絡審查[4]、網絡取證[5]、網絡流量監控[6]等具有重要意義,本文將這一過程定義為網盤資源溯源。
眾所周知,Referer是HTTP表頭的一個字段,用來指定當前請求資源的來源地址。然而,在真實流量統計中,大約只有17%的HTTP會話存在Referer字段。因此,只依賴Referer字段無法獲取絕大部分下載資源的入口頁面。同時,網絡地址轉換(NAT,network address translation)[7]、多路多播技術[8]和HTTP代理[9]等技術的使用也導致公網路由節點捕獲的HTTP會話的IP地址無法作為精確追溯其URL跳轉鏈的依據。而Cookie中包含計算機和瀏覽器的信息,可以用來辨別用戶身份、進行session跟蹤。
為此,本文提出了一種高效可擴展的基于Cookie的網盤資源在線溯源方法——CookieTracing,該方法的創新之處有以下幾點。
1) 提出了一種基于Cookie的網盤資源溯源方法,基于散列技術,通過建立location字段與HTTP會話以及Cookie與HTTP會話的散列表實現網盤資源溯源。
2) 通過緩存HTTP會話的Cookie、URL和location字段,采用累計散列算法加快溯源結果驗證,從而適應在線流量的溯源。
目前,針對網盤資源溯源,與之相關的研究工作主要有2類。
一類是針對網頁木馬、惡意網頁識別[10]提出的針對URL跳轉鏈的入口URL識別方法。由于網頁木馬以及惡意網頁為了躲避檢測,通常都會經過多次URL重定向將用戶瀏覽器最終引向惡意代碼網頁[10]。這種URL多次跳轉給網頁木馬和惡意網頁的識別帶來了很大的挑戰。
為此,已有很多工作圍繞網頁木馬、惡意網頁等入口URL的識別展開研究,如Lee和Jenefa等[10,11]針對Twitter上存在的惡意URL識別提出了WarningBird方法,該方法通過收集同一惡意網頁的多條URL跳轉鏈獲取入口URL,通過入口URL的特征識別惡意網頁。Zhang等[12]針對網頁木馬識別提出了Arrow方法,該方法首先通過蜜罐技術收集同一惡意軟件的不同URL跳轉鏈;其次,對比URL跳轉鏈各個節點的IP和域名獲取惡意軟件的入口URL;最后,針對該入口URL提取URL模式,根據URL模式識別網頁木馬。
通過分析可以發現,WarningBird和Arrow方法[10~12]都是通過收集惡意網頁代碼的URL跳轉鏈,離線學習入口URL的特征,根據這些特征實現惡意網頁代碼及其入口URL(惡意網頁、掛馬網頁)的識別。這種方法雖然可用于網盤資源的溯源,但是還存在一些不足。目前,眾多的網盤對應的分享資源的URL跳轉鏈特征并不一致,而且通過調研發現即使對于同一網盤的分享資源的不同下載,其特征也會變化,所以現有的方法難以直接適用于網盤的分享資源的溯源。
另一類是針對NAT和HTTP代理導致骨干網關上數據分組的IP地址無法標識用戶而提出的在NAT主機進行識別的技術[13,14]。例如,Goldberg等[13]通過分析HTML網頁內容,以及HTTP會話中的user-agent字段,實現了對不同用戶發出的一系列HTTP請求的關聯。Maier等[14]通過對用戶瀏覽器的版本和配置等信息產生“瀏覽器指紋”的方法,識別出不同用戶瀏覽器所發出的的HTTP會話。Neasbitt等[15]提出了一種基于網絡流量跟蹤的用戶—瀏覽器交互重構方法。上述這些方法雖然能夠識別不同用戶的HTTP請求,但是存在以下缺陷:骨干網絡大部分的HTTP會話中只包含user-agent,而沒有其他的配置信息,如字體、插件、時間等,這將導致方法失效。不僅如此,這種方法需要緩存網頁內容,針對骨干網絡的巨大流量,這會極大地加劇空間開銷。
通過對相關工作的分析可以看出,雖然目前已經出現了一些針對資源溯源的方法,但是這些方法無法有效處理網盤資源的溯源。特別地,隨著網絡大數據的爆炸性增長和網盤的流行,需要研究有效的網盤資源溯源方法,提高資源溯源的準確性。
本節將詳細介紹CookieTracing方法的原理。為此,首先給出URL跳轉鏈和CookieTracing方法的形式化定義,然后介紹CookieTracing識別網盤分享源下載入口頁面的處理流程。
3.1 問題定義
定義1URL跳轉鏈。給定一個網盤資源的分享鏈接,用戶通過瀏覽器訪問該鏈接發送下載資源的HTTP會話請求,到建立下載該資源的HTTP會話完成資源下載為止,這期間發出的一系列HTTP請求對應的所有URL,稱為該資源下載對應的URL跳轉鏈。
由于時間、地點、位置的不同,對于同一個網盤資源的分享鏈接,每一次下載該資源對應的URL跳轉鏈中的各個URL節點可能都不相同。CookieTracing方法的目標就是基于不同用戶下載該網盤資源產生的URL跳轉鏈,查找URL跳轉鏈中的公共節點,從而實現網盤資源入口頁面的識別。下面通過一個例子來簡單說明基于URL跳轉鏈識別網盤資源入口頁面的思想。
以用戶A、B、C為例,他們利用同一網盤資源分享鏈接下載資源產生的URL跳轉鏈如圖1所示。

圖1 網盤下載資源入口頁面查找示例
在圖1中,A4、B3、C4分別表示用戶A、B、C下載資源時的入口頁面,如果能獲取A、B、C各自資源下載的URL跳轉鏈,提取出這3條URL跳轉鏈的公共節點,就可以找到該資源的入口點A4(即B3、C4)。
通過以上分析可以看出,網盤資源溯源需要經過以下幾個步驟:首先,從網關流量中識別下載資源并計算資源的標識ID;然后,獲取下載資源的URL跳轉鏈;最后,合并具有相同資源標識ID的不同URL跳轉鏈,獲取唯一的公共URL節點,該節點即為該下載資源對應的入口頁面。因此,本文提出的網盤溯源方法——CookieTracing,就是基于不同用戶通過瀏覽器訪問資源產生的Cookie信息,采用上述處理方式對網盤資源進行溯源。
3.2 CookieTracing方法流程
在本節,將詳細介紹CookieTracing方法進行網盤資源溯源的處理流程。
3.2.1 下載資源的標識ID計算
通過分析發現,用于網盤資源傳輸的HTTP會話具有以下幾個特點:1) 下載資源HTTP會話的content type的取值有幾種,分別為video/mp4、application/stream等;2) 在真實流量統計中顯示,93%的下載資源HTTP會話的content length都在50 MB以上。因此,可根據上述特點識別出所有包含網盤下載資源在內的下載資源。
由于下載資源在網絡上是按分組傳輸的,在大流量環境中傳統緩存整個下載資源數據計算資源MD5的方法無法適用于在線流量的計算,原因在于:一方面,這種方式極大地消耗了內存資源,另一方面,也增加了分享鏈接的獲取時間。為此,CookieTracing采用了累計散列的方法計算下載資源的標識ID,該方法對于按分組到達的數據,對每個字節累計進行散列,將下載數據映射成一個64 bit的散列值,從而獲得下載資源的標識ID。真實流量中,下載資源的部分數據即可以對資源進行區分,因此,CookieTracing方法只對下載資源的前20%~30%數據做累計散列,用來實現下載資源的標識ID的計算。
3.2.2 資源的URL跳轉鏈提取
對于網盤分享資源下載生成的URL跳轉鏈中,每個節點對應的HTTP會話的Cookie信息可能存在多個鍵—值(key-value)相同的項,本文將其定義為token。其中,某些token是網盤服務器用來追蹤用戶,標識用戶的訪問記錄。為此,本文定義了token的區分度dif,計算公式如下

其中,Ntoken-cookie為包含該token的HTTP會話數;Ncookie為總的HTTP會話數。
為了提高URL跳轉鏈計算的準確性,本文定義HTTP會話的關聯度simtoken,計算公式如下

其中,Nsimtoken為2個HTTP會話的Cookie區分度高的token的個數。如果2個HTTP會話的關聯度simtoken大于閾值sim0,則認為這2個HTTP會話屬于同一條URL跳轉鏈。因此,只要獲取與下載資源HTTP會話有著高關聯度的一系列HTTP話單就可獲取URL跳轉鏈。
根據HTTP重定向原理可知,下載資源HTTP會話的URL與重定向HTTP會話的location相同,而重定向的HTTP會話存在Cookie信息。因此,在計算網盤資源下載的URL跳轉鏈時,首先通過下載資源HTTP會話的URL獲取重定向HTTP會話;然后,通過重定向HTTP會話即可獲取完整的URL跳轉鏈。
3.2.3 資源的入口頁面計算
根據網盤資源的標識ID,對網盤資源下載的URL跳轉鏈進行分組,將具有相同標識ID對應的資源下載的URL跳轉鏈進行合并,對合并之后的URL跳轉鏈上的節點進行遍歷,查找URL跳轉鏈上的割點,若該割點是合并的URL跳轉鏈上的唯一的公共URL節點,那么該節點即為該網盤資源的入口。
基于上述CookieTracing方法的原理和處理流程,下面將詳細介紹CookieTracing方法的實現。
在本節,首先介紹CookieTracing方法的整體框架,然后介紹各個模塊的具體實現。
4.1 基本框架
CookieTracing方法主要包含4個部分:HTTP會話收集、HTTP會話索引、URL跳轉鏈計算和資源入口計算,在進行網盤資源溯源時,該方法整體的處理框架如圖2所示。

圖2 CookieTracing 實現架構
1) HTTP會話收集模塊負責對輸入的網絡流量進行解析,獲取所需的HTTP會話,并緩存HTTP會話的頭部信息,以便降低存儲空間開銷。
2) HTTP會話索引模塊負責解析HTTP會話,對海量的HTTP會話建立Cookie字段與HTTP會話的關聯。
3) 資源URL跳轉鏈計算模塊,負責根據下載資源HTTP會話獲取重定向HTTP會話,并根據重定向HTTP會話的Cookie信息提取資源下載的URL跳轉鏈。
4) 資源入口頁面計算模塊負責合并同一下載資源的多個URL跳轉鏈,獲取合并的URL跳轉的唯一公共節點,并通過比較分享鏈接下載資源的標識ID與Load Runner[16]模擬訪問收集的資源標識ID,驗證所找到的資源入口頁面的正確性。
4.2 模塊實現
本節將詳細介紹CookieTracing方法中每個模塊的具體實現細節。
4.2.1 HTTP會話收集
該模塊通過網絡流量處理平臺解析HTTP會話信息。首先,過濾出2類需要的HTTP會話。
1) 如果HTTP會話的content-type字段的值為text/html,且存在Cookie字段,則將這類HTTP會話信息的三元組:(URL,Cookie,TCP連接建立時間戳)緩存于HTTP會話隊列。
2) 如果HTTP會話的content-type字段的值為video/x-ms-wmv、video/mp4等音視頻MIME類型,且該HTTP會話的content-length大于某閾值,則該HTTP會話即為下載資源的HTTP會話。將這類HTTP會話的四元組:(URL,Cookie,TCP連接建立時間戳,下載資源標識ID)緩存于資源下載HTTP會話隊列。
其次,計算下載資源HTTP會話的下載資源標識ID,本文采用了累計散列算法,計算一個64 bit的散列值作為下載資源的標識ID,具體的計算方法如算法1所示。
算法1資源標識ID計算
輸入resourceSize,key,totalAccumulationLen
輸出resourceID

從算法1中可以看出,資源標識ID的計算的時間復雜度與下載資源的大小有關,算法的復雜度為O(N)。
4.2.2 HTTP會話索引創建
該模塊對HTTP會話隊列中的HTTP會話建立索引,規則如下。
1) 如果HTTP會話中存在location字段,則以location字段指定的URL作為key,HTTP會話作為value,存入location索引表。為了降低空間開銷,該索引對存儲的HTTP會話只做一定時間緩存(本文選取的時間間隔為5 min)。記該索引表為location-HTTP索引表,結構如圖3所示。

圖3 location-HTTP會話索引表結構
2) 若HTTP會話包含Cookie,則將Cookie分割為token,以token作為key,包含此token的HTTP會話作為value,緩存于token索引表,記為token-HTTP索引表。其中,每個token關聯的HTTP會話鏈表按照數據分組的捕獲時間進行排序。token-HTTP索引表的結構如圖4所示。
為了降低算法的時間開銷和空間開銷,在建立token索引表時會去除區分度dif不高的token,如去除存在于大多數HTTP會話的token。
空間開銷分析:考慮到互聯網訪問服務通常是由IIS或Apache服務器提供的,IIS或Apache默認的HTTP會話的大小為1 MB,如前所述本文選取緩存5 min時間間隔內的HTTP會話,通過對實際的骨干網絡某個節點的流量分析發現,流量中每秒包含約10個網盤資源訪問HTTP會話。因此,5 min內可能的網盤資源訪問HTTP會話數量約為3 000個,所需的空間開銷共計約為3 GB。
對于location-HTTP索引表,其所需的空間開銷主要由URL和HTTP會話的編號ID所需的空間開銷組成:URL的平均長度不超過1 024 byte;HTTP會話的編號ID的長度為8 byte。因此,5 byte時間間隔內索引表所需的空間開銷約為3 MB。

圖4 token-HTTP索引表結構
對于token-HTTP索引表,其所需的空間開銷也是主要由token和HTTP會話的編號ID所需的空間開銷組成:每一個token不超過8 byte;HTTP會話的編號ID的長度為8 byte。一個HTTP會話的Cookie中的token(屬性)的平均選取數量不超過5個,因此,5 min時間間隔內索引表所需的空間開銷約為0.24 MB。
通過分析可以看出,在CookieTracing方法中,HTTP會話索引總的空間開銷不超過4 GB。
4.2.3 URL跳轉鏈計算
該模塊的處理過程包括以下幾步。
1) 將從下載資源的HTTP會話隊列中出隊的HTTP會話的URL作為key,查找location-HTTP索引表,獲取重定向HTTP會話。
2) 將重定向HTTP會話的Cookie分割成token,以token為key,查找token-HTTP索引表,獲取所有包含這些token的HTTP會話,本文將這些HTTP會話鏈定義為疑似HTTP會話鏈。
3) 遍歷疑似HTTP會話鏈,統計HTTP會話在疑似HTTP會話鏈中出現的頻率。如果其頻率大于指定關聯度閾值,即認為其屬于下載資源的URL跳轉鏈。
下面通過一個例子來說明,下載資源URL跳轉鏈的計算。給定一個下載資源,其對應的重定向HTTP會話包含的Cookie可分為4個token,分別記為token1、token2、token3和token4,以這些token為key,查找cookie-HTTP索引表,獲取4個token分別對應的HTTP會話鏈,如圖5所示。
在圖5所示的例子中,規定每一個HTTP會話若其出現在HTTP會話鏈中的頻率大于1,則該HTTP會話屬于URL跳轉鏈。因此,比較token1、token2、token3和token4關聯的4條HTTP鏈,發現編號為1、2、4、8的HTTP會話在4條HTTP會話鏈中出現的頻率都大于1,所以它們屬于下載資源的URL跳轉鏈。根據token-HTTP索引表中,HTTP 會話鏈按照數據分組獲取的時間排序,因此,該下載資源的URL跳轉鏈即為1→2→4→8。
4.2.4 資源入口頁面計算
與從疑似HTTP會話中獲取URL跳轉鏈的方法類似,CookieTracing方法基于統計的方式,從下載資源的URL跳轉鏈中獲取資源的入口頁面,主要包含以下幾個步驟。
1) 將具有相同下載資源標識ID的URL跳轉鏈進行合并。
2) 遍歷合并的URL跳轉鏈,尋找割點,若該割點在該下載資源對應的所有的URL跳轉鏈中出現的頻率最高,則該節點即為該下載資源真正的入口頁面。
3) 通過Load Runner[16]模擬用戶訪問網盤資源的分享鏈接,重新下載該資源,然后通過累計散列計算該資源的標識ID值并與CookieTracing計算出的標識ID做對比,如果二者相同,則該網盤資源的入口頁面被確定。
為了驗證本文提出的基于Cookie的網盤資溯源(CookieTracing)方法的性能,本節將對CookieTracing的有效性進行實驗分析,首先測試CookieTracing方法進行網盤資源溯源的查準率和查全率;然后測試CookieTracing方法的運行效率。

圖5 URL跳轉鏈獲取過程
5.1 實驗設置
1) 評價指標
在實驗中,針對有效性測試,使用查準率和查全率進行評價。其中,查準率指查找到的正確資源入口點占查找到的網盤資源入口點的比例;查全率指查找到的正確資源入口點占所有網盤資源入口點的比例。在運行效率測試中,使用獲取時間進行評價(指獲取入口點的時間)。
2) 基準方法
為了驗證CookieTracing方法對網盤資源溯源的性能,采用最新的方法WarningBird[10,11]作為基準方法(詳見第2節)。
3) HTTP會話索引存儲
在實驗中,本文采用基于內存的key-value數據庫Redis注3:http://redis.io/。存儲HTTP會話索引。
在實驗中,首先,通過百度網盤搜索引擎獲取視頻資源的分享鏈接。然后,利用Load Runner模擬用戶請求這些分享資源鏈接,收集各自對應的URL跳轉鏈。最后,在網關上統計隨著下載資源增多,CookieTracing方法和WarningBird方法進行網盤資源溯源的查準率、查全率,以及它們的運行時間。下面分別介紹CookieTracing方法對應的有效性、運行效率實驗結果。
5.2 實驗結果
1) 有效性測試
CookieTracing方法與WarningBird方法查準率的實驗結果如圖6所示。

圖6 查準率實驗結果
從圖6中可以看出,CookieTracing方法和WarningBird方法的查準率基本一致,平均查準率分別是98.67%、97.76%,導致這一現象的原因在于:這2種方法在網盤資源的入口點查找時采用的算法基本一致,都是通過合并資源的URL跳轉鏈,計算跳轉鏈中的公共節點獲得資源的入口點。值得注意的是,在網關上由于流量捕分組采集不穩定因素,導致網盤資源溯源的查準率在一定范圍內呈現波動現象,但整體上呈穩定趨勢。
CookieTracing方法與WarningBird方法查全率的實驗結果如圖7所示。從圖7可以看出,與WarningBird方法相比,在對網盤資源進行溯源時,CookieTracing的查全率遠遠高于WarningBird方法。其中,CookieTracing方法的平均查全率為98.86%,而WarningBird方法的平均查全率為16.67%。主要原因在于:WarningBird方法采用基于HTTP Referer字段的方法,在真實流量統計中,HTTP會話存在Referer字段的比例很少,只依賴Referer字段難以獲取絕大部分下載資源的入口頁面。而Cookie在資源請求訪問中是普遍存在的,基于Cookie進行網盤資源溯源將是一種非常有力的方式。

圖7 查全率實驗結果
由此可見,雖然WarningBird方法具有和CookieTracing方法幾乎相當的查準率,但是在查全率方面,WarningBird方法僅是CookieTracing方法的,這進一步驗證了基于Cookie方式的CookieTracing方法對網盤資源溯源的有效性。
2) 運行效率測試
本節將評估CookieTracing方法與基準方法WarningBird在網盤資源入口識別上的運行效率,實驗結果如圖8所示。
從圖8中可以看出,隨下載資源的增加,CookieTracing方法資源入口的查找時間明顯快于WarningBird方法,并且隨著下載資源HTTP會話的增加,CookieTracing方法的查找時間基本保持線性增長,而WarningBird方法呈指數增長,這說明在實時性方面CookieTracing方法明顯優于WarningBird方法。主要原因在于CookieTracing方法采用累計散列算法計算資源ID標識,能夠加快資源ID的計算。

圖8 運行效率實驗結果
基于以上實驗分析可以看出,與基準方法相比,CookieTracing方法在進行網盤資源溯源時,不僅可以獲得更高的準確率,而且在實時性方面也能獲得更好的效果,這些都表明CookieTracing方法的有效性,這也說明在網盤資源溯源中,采用Cookie是一項非常有用的技術。
如何從骨干網絡節點上的海量流量中識別出網盤資源下載的HTTP會話的入口頁面對于網絡審查、網絡取證、網絡審計等具有重要意義。為此,本文提出一種基于Cookie的網盤資源在線溯源方法——CookieTracing。CookieTracing方法首先獲取下載資源的URL跳轉鏈,然后通過對比同一下載資源對應的不同URL跳轉鏈獲取唯一公共URL節點,認為該URL即為下載資源對應的入口頁面。最后通過Load Runner模擬用戶訪問該URL,驗證溯源的正確性。實驗結果表明CookieTracing方法具有很好的性能。
[1]MAIER G,FELDMANN A,PAXSON V,et al.On dominant charac-teristics of residential broadband Internet traffic[C]//9th ACM SIGCOMM Conference on Internet Measurement.ACM,2009:90-102.
[2]GEHLEN V,FINAMORE A,MELLIA M,et al.Uncovering the big players of the Web[M].Springer Berlin Heidelberg,2012.
[3]MOBILE TRENDS A.Global mobile broadband traffic report[R/OL].Allot Communications,Technical Report,http://www.allot.com/MobileTrends Report,2010.
[4]BERGHEL H.The discipline of Internet forensics[J].Communications of the ACM,2003,46(8):15-20.
[5]WATTS S,NEWBY J M,MEWTON L,et al.A clinical audit of changes in suicide ideas with internet treatment for depression[J].BMJ open,2012,2(5):e001558.
[6]PANAH A,PANAH A,PANAH O,et al.Challenges of security issues in cloud computing layers[J].Rep Opin,2012,4(10):25-29.
[7]GOKCEN Y,FOROUSHANI V A,HEYWOOD A.Can we identify NAT behavior by analyzing traffic flows[C]//IEEE Security and Privacy Workshops (SPW).2014:132-139.
[8]LIU T T,YANG W,XU C L,et al.A SNR-based multi-channel multicast scheme for popular video in wireless networks[J].Journal of Networks,2013,8(3):628-635.
[9]HAYTON S J,JONES D R,LOBO A R,et al.Using entity tags (etags) in a hierarchical HTTP proxy cache to reduce network traffic:U.S.Patent Application 13/360,891[P].2012-1-30.
[10]LEE S,KIM J.Warningbird:a near real-time detection system for suspicious URLs in twitter stream[J].IEEE Transactions on Dependable and Secure Computing,2013 (3):183-195.
[11]JENEFA A,RAVI R.Classifier:a real-time detection system for suspicious URLs in Twitter stream[J].International Journal,2014,2(2).
[12]ZHANG J,SEIFERT C,STOKES J W,et al.Arrow:generating signatures to detect drive-by downloads[C]//20th International Conference on World Wide Web.ACM,2011:187-196.
[13]GOLDBERG J,WESTERLUND M,ZENG T.A network address translator (NAT) traversal mechanism for media controlled by real-time streaming protocol (RTSP)[J/OL].http://tools.ietf.ory/html/ draft-ietf-mmusic-rtsp-nat-03.
[14]MAIER G,SCHNEIDER F,FELDMANN A.NAT usage in residential broadband networks[M].Passive and Active Measurement.Springer Berlin Heidelberg,2011.
[15]NEASBITT C,PERDISCI R,LI K,et al.Clickminer:towards forensic reconstruction of user-browser interactions from network traces[C]// The 2014 ACM SIGSAC Conference on Computer and Communications Security,2014:1244-1255.
[16]JINYUAN C.The application of load runner in software performance test[J].Computer Development &Applications,2012,5:014.

林海倫(1987-),女,山東臨沂人,博士,中國科學院信息工程研究所助理研究員,主要研究方向為數據挖掘、知識圖譜。

李焱(1984-),男,湖北隨州人,國家計算機網絡應急技術協調中心工程師,主要研究方向為分布式系統和云計算。

王偉平(1975-),男,吉林舒蘭人,博士,中國科學院信息工程研究所研究員、博士生導師,主要研究方向為大數據存儲與處理。

岳銀亮(1982-),男,河南許昌人,博士,中國科學院信息工程研究所副研究員,主要研究方向為大數據存儲與智能化處理。

林政(1984-),女,山東青島人,博士,中國科學院信息工程研究所助理研究員,主要研究方向為自然語言處理、情感分析。
Cookie based online tracing method for cyberlockers resource
LIN Hai-lun1,LI Yan2,WANG Wei-ping1,YUE Yin-liang1,LIN Zheng1
(1.Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China;2.National Computer Network Emergency Response and Coordination Center,Beijing 100029,China)
Cyberlockers have recently become an Internet-based agent of information dissemination.In light of the non-negligible fraction accounted by the traffic flows originating from cyberlocks,it is necessary to trace them for network security.An efficient and scalable cookie based online cyberlockers resource tracing method was proposed,called CookieTracing.It can achieve an efficient association between cyberlockers resource and its download redirect chain by construction of index table between cookie and HTTP sessions in massive HTTP sessions.Meanwhile,through cumulative hash algorithm,it can speed up the validation of tracing results.Experimental results show that this method performs good efficiency and scalability.
cyberlockers resource,shared links,URL chain,Cookie,HTTP session
s:The National Science and Technology Major Project of Hegaoji (No.2013ZX01039-002-001-001),The National Natural Science Foundation of China(No.61303056,No.61402464,No.61402473,No.61502478,No.61602467)
TP319
A
10.11959/j.issn.1000-436x.2016274
2015-10-25;
2016-06-30
“核高基”國家科技重大專項基金資助項目(No.2013ZX01039-002-001-001);國家自然科學基金資助項目(No.61303056,No.61402464,No.61402473,No.61502478,No.61602467)