999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的域名查詢(xún)行為向量空間嵌入

2016-07-18 11:50:50周昌令欒興龍肖建國(guó)
通信學(xué)報(bào) 2016年3期
關(guān)鍵詞:關(guān)聯(lián)方法

周昌令,欒興龍,肖建國(guó)

?

基于深度學(xué)習(xí)的域名查詢(xún)行為向量空間嵌入

周昌令1,2,欒興龍1,2,肖建國(guó)3

(1. 北京大學(xué)計(jì)算中心,北京 100871;2. 北京大學(xué)信息科學(xué)技術(shù)學(xué)院,北京 100871;3. 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所,北京 100871)

提出一種新的分析DNS查詢(xún)行為的方法,用深度學(xué)習(xí)機(jī)制將被查詢(xún)域名和請(qǐng)求查詢(xún)的主機(jī)分別映射到向量空間,域名或主機(jī)的關(guān)聯(lián)分析轉(zhuǎn)化成向量的運(yùn)算。通過(guò)對(duì)2組真實(shí)的校園網(wǎng)DNS日志數(shù)據(jù)集的處理,發(fā)現(xiàn)該方法很好地保持了關(guān)聯(lián)特性,使用降維處理以及聚類(lèi)分析,不僅可以讓人直觀地發(fā)現(xiàn)隱含的關(guān)聯(lián)關(guān)系,還有助于發(fā)現(xiàn)網(wǎng)絡(luò)中的異常問(wèn)題如botnet等。

DNS;深度學(xué)習(xí);上下文;降維;行為分析;層次聚類(lèi)

1 引言

域名服務(wù)(DNS)是互聯(lián)網(wǎng)最重要的基礎(chǔ)應(yīng)用之一,眾多互聯(lián)網(wǎng)中的業(yè)務(wù)都與它緊密關(guān)聯(lián),如Web、郵件、內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)等。同時(shí),一些惡意行為也利用或針對(duì)DNS的特性來(lái)達(dá)到攻擊的目的。例如,僵尸網(wǎng)絡(luò)(botnet)采用FastFlux手段來(lái)躲避打擊,其基本思想就是不斷變化域名與IP的對(duì)應(yīng)關(guān)系。因此,主機(jī)的DNS查詢(xún)行為與網(wǎng)絡(luò)的運(yùn)行狀況緊密相關(guān)。

主機(jī)可能在多種情況下發(fā)起DNS查詢(xún)的行為,根據(jù)發(fā)起方可以分為2大類(lèi)別:一類(lèi)是與用戶(hù)活動(dòng)相關(guān)的,包括用戶(hù)主動(dòng)發(fā)起的請(qǐng)求,如瀏覽Web網(wǎng)頁(yè)等以及由用戶(hù)觸發(fā)的請(qǐng)求,網(wǎng)頁(yè)中加載的圖片、廣告等;另一類(lèi)是用戶(hù)活動(dòng)無(wú)關(guān)的,是由軟件或系統(tǒng)自動(dòng)產(chǎn)生的,如軟件自動(dòng)更新、證書(shū)檢查、郵件黑名單查詢(xún)以及受控僵尸節(jié)點(diǎn)請(qǐng)求指令等。

第一種類(lèi)型的行為與用戶(hù)的興趣偏好相關(guān)。分析用戶(hù)經(jīng)常查詢(xún)的網(wǎng)站域名的關(guān)聯(lián)關(guān)系有助于理解用戶(hù)需求,提升服務(wù)質(zhì)量,改善用戶(hù)體驗(yàn)。由于分析結(jié)果與實(shí)際的網(wǎng)絡(luò)環(huán)境緊密相關(guān),這方面的研究并不多。Moghaddam等[1]用自組織映射(SOM)分析了無(wú)線(xiàn)用戶(hù)訪(fǎng)問(wèn)的域名之間的關(guān)聯(lián)性,他們發(fā)現(xiàn)一些邏輯上關(guān)聯(lián)的網(wǎng)站域名生成的SOM圖形狀也非常相似,如“itunes”和“netflix”、“washingtonpost”和“cnet”等。他們的工作只限于無(wú)線(xiàn),且只分析了人工標(biāo)注的100個(gè)域名。這一類(lèi)行為產(chǎn)生的DNS日志主要是A和CNAME記錄,查詢(xún)的大部分也是真實(shí)存在的域名。

第二種類(lèi)型的行為反映了主機(jī)特性。相關(guān)研究主要集中在發(fā)現(xiàn)網(wǎng)絡(luò)中的異常情況,如發(fā)送垃圾郵件[2]、惡意域名[3],botnet[4,5]等。其中botnet受關(guān)注程度最高,因?yàn)樗鼘?duì)網(wǎng)絡(luò)的影響非常大,又采用了各種手段來(lái)躲避打擊。其中域名生成算法(DGA, domaingenerationalgorithm)是botnet應(yīng)用得最多的一種手段,受控節(jié)點(diǎn)高頻地查詢(xún)不斷變化的域名,主控節(jié)點(diǎn)在需要時(shí)把即將出現(xiàn)的域名與發(fā)布指令的IP對(duì)應(yīng)關(guān)系注冊(cè)上就可以控制該僵尸網(wǎng)絡(luò)。這樣由于所查詢(xún)的變化目標(biāo)域名絕大部分都是無(wú)效的,將產(chǎn)生大量返回失敗的DNS查詢(xún)記錄(ServerFail或NxDomain)[6]。

此前對(duì)DNS域名查詢(xún)行為的相關(guān)研究工作,主要集中在特征參數(shù)的選取[3,7],以及關(guān)聯(lián)信息的描述[5]等方面,通常再結(jié)合機(jī)器學(xué)習(xí)的手段來(lái)區(qū)分不同的行為。本文提出一種新的基于深度學(xué)習(xí)的方法來(lái)研究DNS域名查詢(xún)行為:將被查詢(xún)域名和發(fā)起查詢(xún)請(qǐng)求的主機(jī)IP分別映射到維的實(shí)向量空間,對(duì)域名或主機(jī)的分析轉(zhuǎn)化成空間中的向量運(yùn)算,通過(guò)降維還可以對(duì)域名或主機(jī)的關(guān)聯(lián)特性進(jìn)行直觀的展示。

本文的主要貢獻(xiàn)如下。

1) 提出了一種將DNS查詢(xún)行為映射到向量空間的方法。通過(guò)構(gòu)造被查詢(xún)域名列表以及請(qǐng)求查詢(xún)主機(jī)列表,用這2種列表作為深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù),獲得域名和主機(jī)的向量表示,然后在向量空間中分析元素之間的關(guān)聯(lián)性。

2) 借鑒了在自然語(yǔ)言處理(NLP)領(lǐng)域取得很好效果的深度學(xué)習(xí)優(yōu)化算法[8],實(shí)現(xiàn)了對(duì)海量DNS查詢(xún)?nèi)罩緮?shù)據(jù)的高效處理。對(duì)一個(gè)典型的大中型校園網(wǎng)網(wǎng)絡(luò)的核心DNS服務(wù)每天的查詢(xún)?nèi)罩具M(jìn)行單機(jī)分析,其中深度學(xué)習(xí)算法的運(yùn)行時(shí)間僅需要30~45 min。

3) 使用真實(shí)的校園網(wǎng)運(yùn)行環(huán)境的DNS數(shù)據(jù)進(jìn)行了驗(yàn)證。本文選取了2組來(lái)自不同校園網(wǎng)的數(shù)據(jù)集,在訓(xùn)練后得到的向量空間進(jìn)行分析,發(fā)現(xiàn)映射后的向量很好地保留了域名或主機(jī)之間的關(guān)聯(lián)特性,通過(guò)降維和交互式可視化處理后可以容易地發(fā)現(xiàn)隱蔽的關(guān)聯(lián)關(guān)系。本文還通過(guò)計(jì)算向量之間的相似度對(duì)域名做層次聚類(lèi)分析,結(jié)合域名信息熵發(fā)現(xiàn)與DNS相關(guān)的攻擊行為如botnet等。

2 相關(guān)概念

為了便于后面描述,在此先定義一些相關(guān)的概念。

定義1 派生鄰近關(guān)系(derived proximity relationship)。按所描述的目標(biāo)不同,可以分為被查詢(xún)域名的派生鄰近關(guān)系和請(qǐng)求查詢(xún)主機(jī)的派生鄰近關(guān)系。以被查詢(xún)域名的派生鄰近關(guān)系為例:在一段時(shí)間內(nèi),如果有一系列的主機(jī)都共同請(qǐng)求查詢(xún)過(guò)A、B這2個(gè)域名,則認(rèn)為A和B是鄰近的。并且,發(fā)起共同請(qǐng)求的主機(jī)越多,則A與B的鄰近程度越高。類(lèi)似地,2個(gè)主機(jī)查詢(xún)的相同域名越多,它們也越鄰近。

派生鄰近關(guān)系通常反映了實(shí)際中存在的關(guān)聯(lián)關(guān)系。以域名為例,假如多個(gè)域名所承載的業(yè)務(wù)存在邏輯上的聯(lián)系,用戶(hù)往往會(huì)順序訪(fǎng)問(wèn)這些業(yè)務(wù),如提供統(tǒng)一身份認(rèn)證的系統(tǒng)與需要認(rèn)證才能訪(fǎng)問(wèn)的業(yè)務(wù)系統(tǒng),用戶(hù)經(jīng)常會(huì)先后查詢(xún)它們的域名。又如用戶(hù)點(diǎn)擊網(wǎng)頁(yè)的鏈接訪(fǎng)問(wèn)新的站點(diǎn),以及網(wǎng)頁(yè)中加載來(lái)自不同域名的圖片時(shí),起始站點(diǎn)的域名和關(guān)聯(lián)站點(diǎn)的域名會(huì)先后被查詢(xún)。這種先后查詢(xún)的域名最終形成域名關(guān)聯(lián)的上下文關(guān)系。本文通過(guò)保留這種先后順序來(lái)研究派生鄰近關(guān)系(或關(guān)聯(lián)關(guān)系)。

定義2 被域名查詢(xún)列表(QDL, queried domains list)。在一段時(shí)間內(nèi),主機(jī)產(chǎn)生的DNS查詢(xún)請(qǐng)求可以用序列表示,其中,每個(gè)主機(jī)對(duì)應(yīng)一條QDL。同一個(gè)域名可以在列表內(nèi)多次出現(xiàn)。

如圖1所示,此列表可以從DNS查詢(xún)?nèi)罩拘畔⒅挟a(chǎn)生,圖中每個(gè)方括號(hào)中的內(nèi)容都是一個(gè)被查詢(xún)域名列表。

屬于同一條QDL的域名保留了它們被查詢(xún)的先后順序,即保留了上下文的關(guān)聯(lián)性(或派生鄰近關(guān)系)。由于域名與自身的鄰近(關(guān)聯(lián))關(guān)系不需要考慮,因此同一域名在列表中連續(xù)出現(xiàn)時(shí)只保留一次,如果與其他域名交替重復(fù)出現(xiàn),則全部保留。域名按被查詢(xún)的先后順序排列。如果主機(jī)在很長(zhǎng)一段時(shí)間沒(méi)有查詢(xún)活動(dòng),或者列表的長(zhǎng)度超過(guò)預(yù)設(shè)值,則產(chǎn)生一條記錄。不同主機(jī)的長(zhǎng)度一般不同,一個(gè)主機(jī)也可以有多條。在本文中僅將日志里返回A和CNAME的記錄納入。

類(lèi)似地,研究主機(jī)的派生鄰近關(guān)系時(shí),要用到下面的定義。

定義3 請(qǐng)求查詢(xún)主機(jī)列表(QHL, querying hosts list)。在一段時(shí)間內(nèi),查詢(xún)同一域名或子域的主機(jī)用序列表示。其中,相同的可以多次出現(xiàn)在列表中。

實(shí)際中,不同主機(jī)查詢(xún)DNS的域名是比較分散的,所以有時(shí)候需要關(guān)注查詢(xún)相同域名后綴的主機(jī)。域名的多個(gè)字段由點(diǎn)分隔符“.”分開(kāi),例如, www.example.com。2個(gè)或多個(gè)域名從右往左,它們所具有的公共字段為它們的公共域名后綴。一般地,需要關(guān)注的是最長(zhǎng)的公共后綴。

本文中重點(diǎn)關(guān)注產(chǎn)生失敗查詢(xún)(返回NxDomain或ServerFail信息)的主機(jī),這是因?yàn)樗鼈兺ǔEc非正常的通信通道[6]以及惡意行為如botnet[4]相關(guān)。由于這類(lèi)失敗查詢(xún)的前綴大量變化,而后綴在一段時(shí)間是保持不變的,所以需要按最長(zhǎng)公共后綴產(chǎn)生的QHL才能把有類(lèi)似行為的主機(jī)放到同一個(gè)上下文環(huán)境中。本文在第3.4節(jié)具體描述用來(lái)提取這類(lèi)查詢(xún)的最長(zhǎng)公共后綴的算法。

定義4 向量空間嵌入(vector space embedding)。數(shù)學(xué)上嵌入是指一個(gè)數(shù)學(xué)結(jié)構(gòu)經(jīng)映射包含到另一個(gè)結(jié)構(gòu)中[9]。如果存在一個(gè)保持結(jié)構(gòu)的單射,其中目標(biāo)結(jié)構(gòu)為維的向量空間,這個(gè)映射就給出了一個(gè)向量空間嵌入。本文中向量空間嵌入特指對(duì)列表集合(由QDL組成或由QHL組成)中所有不同的元素(域名D或主機(jī)H)所組成的集合,可以映射到維的實(shí)向量空間。即對(duì)集合來(lái)說(shuō),存在如下映射關(guān)系:。

將列表中的元素進(jìn)行向量空間嵌入的基本思想最早由Hinton在1986年提出[10],該文中稱(chēng)為分布式表示(distributed representation)?,F(xiàn)在該方法主要用在自然語(yǔ)言處理(NLP)中,將單詞語(yǔ)義研究轉(zhuǎn)化成對(duì)應(yīng)的維實(shí)數(shù)向量的運(yùn)算[8],并取得了很好的效果[11]。

3 域名查詢(xún)行為向量化方法

將DNS查詢(xún)行為與自然語(yǔ)言處理進(jìn)行類(lèi)比,列表QDL或QHL對(duì)應(yīng)文檔,列表中的元素(域名或主機(jī))對(duì)應(yīng)單詞,列表的集合對(duì)應(yīng)大量文檔組成的語(yǔ)料。通過(guò)從DNS查詢(xún)?nèi)罩局袠?gòu)建QDL和QHL,保留了域名查詢(xún)行為的上下文關(guān)聯(lián)關(guān)系,從而得到用于進(jìn)行深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。

3.1 深度學(xué)習(xí)

求解向量空間嵌入模型早期的方案是采用一個(gè)多層的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。2013年Mikolov 在文獻(xiàn)[8]中指出,可以通過(guò)一系列的優(yōu)化措施,有效降低計(jì)算的復(fù)雜度。例如使用3層(輸入—隱藏—輸出)的神經(jīng)網(wǎng)絡(luò),只對(duì)滑動(dòng)窗口內(nèi)的詞計(jì)算聯(lián)合概率,采用優(yōu)化的Huffman編碼讓詞頻近似相等的單詞其隱藏層激活的值基本一致,從而減少隱藏層數(shù)目等,此外還采用了一些其他的優(yōu)化計(jì)算方法。實(shí)際上,一個(gè)優(yōu)化的單機(jī)版本word2vec[12]一天可訓(xùn)練上千億單詞。

本文借鑒文獻(xiàn)[8]的方法,并采用了文獻(xiàn)[13]中的Skip-gram模型。如圖2所示,對(duì)于被查詢(xún)域名列表QDL(請(qǐng)求查詢(xún)主機(jī)列表QHL可以類(lèi)似地處理)中的元素,以及其上下文窗口中的各元素,它們所對(duì)應(yīng)的向量空間表示分別為和。

(2)

3.2 降維

降維(dimensionreduction)是指采用映射關(guān)系,將高維度空間中的點(diǎn)映射到低維度空間中。特別地,高維向量空間,當(dāng)時(shí)人們無(wú)法直觀理解其中的數(shù)據(jù),故通常選擇將其降維到=2或= 3。

本文采用-SNE[14]來(lái)對(duì)得到的維向量空間做降維處理,以方便可視化理解。一般地,對(duì)高維空間中的元素,-SNE按下式計(jì)算它們的聯(lián)合概率p

(3)

最后,通過(guò)讓高維和低維空間中的KL距離(Kullback–Leiblerdivergence)取極小值,得到向量在低維空間中的映射。此映射保持了節(jié)點(diǎn)映射前后的相似度,因此非常適合對(duì)向量空間嵌入后的可視化處理。

(5)

3.3 層次聚類(lèi)和相似度量

層次聚類(lèi)(hierarchical clustering)[15]是一種可以根據(jù)給定的相似度閾值對(duì)節(jié)點(diǎn)聚類(lèi)的方法,它需要計(jì)算節(jié)點(diǎn)之間的相似程度。本文中用維向量的運(yùn)算來(lái)度量節(jié)點(diǎn)的派生鄰近程度或相似程度。令是列表QDL或QHL中的元素,它可用維向量來(lái)表示,則可以定義元素和元素之間的相似程度用單位長(zhǎng)度向量的內(nèi)積來(lái)計(jì)算

本文只關(guān)心那些節(jié)點(diǎn)之間相似程度很高的簇,并且要求簇內(nèi)的節(jié)點(diǎn)至少2個(gè)以上。因此選擇complete-linkage clustering方法[16],達(dá)到閾值后就停止迭代,這樣可以大大提高計(jì)算效率。

3.4 域名最長(zhǎng)公共后綴發(fā)現(xiàn)算法

本文在構(gòu)建QHL時(shí),重點(diǎn)關(guān)注返回的是查詢(xún)失敗(Server或NxDomain)的記錄。由于查詢(xún)的大多是一些并不存在的域名,它們幾乎不重復(fù),很多情況由大量變化的前綴和少數(shù)不變的后綴組合而成,因此按域名后綴構(gòu)建QHL是合理的選擇。由于DNS查詢(xún)?nèi)罩镜臄?shù)據(jù)量往往非常巨大,加上需要對(duì)從長(zhǎng)到短的后綴分別組合,直接記錄每個(gè)IP所有訪(fǎng)問(wèn)過(guò)的域名后綴效率不高且空間占用較多。本文中采用了CountingBloomFilter[17]來(lái)減少對(duì)存儲(chǔ)空間的需求。具體算法描述如下,其中LD()函數(shù)將返回從長(zhǎng)到短的各級(jí)域后綴的集合。

算法1 域名最長(zhǎng)公共后綴發(fā)現(xiàn)

輸入:cbf counting Bloom filter

: 發(fā)起查詢(xún)的主機(jī)

域名

公共后綴最少出現(xiàn)次數(shù)

: 查詢(xún)主機(jī)列表

輸出:更新后的查詢(xún)主機(jī)列表

7) break

8) end

9) end

11) end

12) return

4 實(shí)驗(yàn)方法和數(shù)據(jù)分析

4.1 數(shù)據(jù)來(lái)源

本文使用了2組來(lái)自不同校園網(wǎng)環(huán)境的數(shù)據(jù)集。數(shù)據(jù)集PKU_DNS是在北京大學(xué)校園網(wǎng)的運(yùn)行環(huán)境中對(duì)5臺(tái)核心DNS服務(wù)器的流量進(jìn)行采集得到的。此采集系統(tǒng)采用Passive DNS 方案[18],通過(guò)交換機(jī)端口鏡像把校園網(wǎng)的幾臺(tái)核心DNS服務(wù)器的流量全部送到采集系統(tǒng),從而記錄下校園網(wǎng)用戶(hù)詳細(xì)的DNS查詢(xún)?nèi)罩?。其?shù)據(jù)規(guī)模如表1所示。

表1 北京大學(xué)數(shù)據(jù)集PKU DNS的規(guī)模

數(shù)據(jù)集BIT_DNS是北京理工大學(xué)校園網(wǎng)中一臺(tái)核心DNS服務(wù)器的syslog日志,其數(shù)據(jù)規(guī)模如表2所示。由于該服務(wù)器沒(méi)有限制查詢(xún)的來(lái)源IP,而這幾天恰好有來(lái)自校外的DNS放大攻擊[19],使該數(shù)據(jù)集BIT_DNS每天請(qǐng)求查詢(xún)的不同主機(jī)數(shù)量偏大。

表2 北京理工大學(xué)數(shù)據(jù)集BIT DNS的規(guī)模

4.2 數(shù)據(jù)分析

數(shù)據(jù)分析使用的操作系統(tǒng)ubuntu 14.04.2 LTS,16 GB內(nèi)存,4CPU。使用python代碼,完成3部分工作:1)從2個(gè)不同格式的原始數(shù)據(jù)集分別生成相應(yīng)的QDL和QHL列表;2)對(duì)各自得到的列表采用深度學(xué)習(xí)算法訓(xùn)練出向量空間嵌入表達(dá),然后再調(diào)用-SNE[14]對(duì)得到維向量空間結(jié)果進(jìn)行降維處理后,生成d3.js[20]需要的數(shù)據(jù)格式,方便通過(guò)瀏覽器交互地展示;3)對(duì)向量空間中的節(jié)點(diǎn)進(jìn)行層次聚類(lèi)[15],輸出高相似度的節(jié)點(diǎn)簇。在規(guī)模較大的PKU_DNS數(shù)據(jù)集上,單機(jī)上對(duì)每天的DNS日志文件進(jìn)行列表提取過(guò)程大約需要2~3 h,向量空間嵌入的過(guò)程大約需要30~45 min,層次聚類(lèi)過(guò)程大約需要15~30 min。

本文所選用的參數(shù)情況是:被查詢(xún)域名列表QDL的超時(shí)時(shí)間為1 h,每個(gè)QDL/QHL的長(zhǎng)度限制為不超過(guò)1 000條記錄,當(dāng)超時(shí)或長(zhǎng)度超過(guò)限制時(shí),輸出對(duì)應(yīng)的列表作為訓(xùn)練數(shù)據(jù)。由于DNS查詢(xún)行為具有顯著的按天重復(fù)的周期性[21],因此訓(xùn)練數(shù)據(jù)以每天24 h為分隔。在計(jì)算最長(zhǎng)公共后綴時(shí),同一IP查詢(xún)某個(gè)后綴失敗次數(shù)不小于10會(huì)被記錄。深度學(xué)習(xí)進(jìn)行向量空間嵌入的參數(shù)[12]為:向量維度選取,元素最少出現(xiàn)次數(shù)≥5,上下文窗口,隨機(jī)梯度下降學(xué)習(xí)率。

4.2.1 域名派生鄰近關(guān)系分析

通過(guò)將域名向量空間嵌入后,可以預(yù)期關(guān)系越近的域名,在向量空間中的距離也越近。圖3中展示了幾組在向量空間中鄰近的域名。第一組是與北京大學(xué)主頁(yè)www.pku.edu.cn相鄰的域名,可以看到,幾乎全部是校園網(wǎng)的內(nèi)部域名,其中portal是北大校內(nèi)門(mén)戶(hù),pkunews是新聞網(wǎng),Web5承載著主頁(yè)的一些業(yè)務(wù),www.bjmu.edu.cn是醫(yī)學(xué)部的主頁(yè),后面幾個(gè)也是校園網(wǎng)用戶(hù)經(jīng)常訪(fǎng)問(wèn)的一些站點(diǎn),這些域名之間有直接的邏輯關(guān)系。第2組是與美國(guó)化學(xué)學(xué)會(huì)pubs.acs.org相鄰的域名,可以發(fā)現(xiàn)除了化學(xué)學(xué)會(huì)的子域網(wǎng)站外,其他幾個(gè)域名幾乎都是與學(xué)術(shù)研究有關(guān)的網(wǎng)站,唯一的例外是其中第5條后綴為rackcdn.com的域名,分析發(fā)現(xiàn)此域名是由pubs.acs.org首頁(yè)內(nèi)加載了一個(gè)LiveChat的腳本所引起的。第3組域名展示的是美國(guó)物理學(xué)會(huì)刊物統(tǒng)計(jì)counter.aps.org相近的域名,可以看到,幾乎全部是與學(xué)術(shù)及出版相關(guān)的,而且是和物理學(xué)科有關(guān)聯(lián)的。最后一組域名則全部都是和人人網(wǎng)www.renren.com相關(guān)的域名。從這幾組相近的域名關(guān)系可以看出,如果域名所承載的業(yè)務(wù)緊密關(guān)聯(lián),或者涉及的內(nèi)容對(duì)用戶(hù)具有相似性,在進(jìn)行向量空間嵌入變換后,它們?cè)谙蛄靠臻g也相鄰。類(lèi)似的方式分析在BIT_DNS數(shù)據(jù)集中的典型的鄰近域名,也發(fā)現(xiàn)有類(lèi)似的規(guī)律,如與北理工主頁(yè)www.bit.edu.cn相似度較高的域名幾乎都是北理工內(nèi)部的一些網(wǎng)站。

圖4是PKU_DNS數(shù)據(jù)集2015年3月10日的被訪(fǎng)問(wèn)域名嵌入后的向量空間進(jìn)行了降維(使用-SNE),然后在二維空間中進(jìn)行展示。為了更好地看到效果,做了如下處理。一是將部分域名按照它們的后綴進(jìn)行了簡(jiǎn)單的標(biāo)記,如*.apple.com的域名都標(biāo)識(shí)為apple,為了方便查看,本文在后期處理時(shí)在圖中增加了標(biāo)注信息。二是節(jié)點(diǎn)支持交互式查詢(xún),可以顯示每個(gè)點(diǎn)對(duì)應(yīng)的域名。可以發(fā)現(xiàn),圖中有許多明顯的節(jié)點(diǎn)簇。它們大多數(shù)是由具有相同域名后綴的網(wǎng)站組成,或由屬于同一個(gè)公司的不同域名后綴的域名組成(如renren.com和xiaonei.com)。同一后綴的域名基本在同一個(gè)區(qū)域,但*.qq.com是個(gè)例外,在圖4中左下角的位置,形成了2個(gè)有一定距離的簇,這可能和它有差別很大的業(yè)務(wù)類(lèi)型有關(guān)(即時(shí)通信和內(nèi)容展示等)。另外一些簇是由截然不同的域名后綴組成的,例如標(biāo)記為scholar學(xué)術(shù)的簇(位于左上角偏下的位置)。一些視頻類(lèi)網(wǎng)站如56、土豆、愛(ài)奇藝等各自成簇,相互之間又靠得很近。除此之外,圖4的中央偏左的位置由大量后綴各異的節(jié)點(diǎn)組成,且相互之間并不緊密。它們主要是由一些低頻訪(fǎng)問(wèn)的站點(diǎn)組成。由此發(fā)現(xiàn),不同數(shù)據(jù)集所得到的向量空間嵌入的結(jié)果并不一致,節(jié)點(diǎn)的絕對(duì)位置往往不一樣,但節(jié)點(diǎn)之間的相對(duì)位置具有前述的規(guī)律,即屬于同一公司的站點(diǎn)會(huì)被各自聚集在一起,如apple(蘋(píng)果)、taobao(淘寶)、sohu(搜狐)等。并且,不同數(shù)據(jù)集的簇的大小形狀也略有差異。一方面,這和-SNE算法有關(guān),它的降維結(jié)果可能出現(xiàn)絕對(duì)位置的變化。另一方面也反映出這2個(gè)學(xué)校的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的興趣偏好有所差異。

4.2.2 主機(jī)派生鄰近關(guān)系分析

前面提到,對(duì)失敗的DNS訪(fǎng)問(wèn),采用的是QHL列表,即最終是對(duì)訪(fǎng)問(wèn)域名的主機(jī)IP進(jìn)行向量化。如圖5所示為2015年3月11日北京大學(xué)校園網(wǎng)內(nèi)發(fā)起失敗查詢(xún)的IP經(jīng)過(guò)向量化,并采用-SNE降維后的數(shù)據(jù)(為了方便查看,本文在后期處理時(shí)在圖中增加了標(biāo)注信息)。其中明顯獨(dú)立成簇的節(jié)點(diǎn)主要有這幾種情況:一是配置了錯(cuò)誤的域名后綴,圖中標(biāo)記為pku的簇是不少用戶(hù)錯(cuò)誤設(shè)置了pku.edu.cn后綴引起的,標(biāo)記為gsm和ccer的2個(gè)簇是2個(gè)學(xué)院自己維護(hù)的機(jī)房的IP,這些主機(jī)對(duì)每個(gè)待查域名都會(huì)添加錯(cuò)誤的后綴再進(jìn)行查詢(xún),結(jié)果就產(chǎn)生了大量的NX記錄;另一種情況是自定義的軟件通信通道,如郵件服務(wù)器訪(fǎng)問(wèn)DNSBL查詢(xún)黑名單,防病毒軟件(如mcaffe查詢(xún)?cè)撇《編?kù))等;還有一些是用戶(hù)端使用BT軟件處理過(guò)期的torrent文件,大量重復(fù)查詢(xún)一些不再提供服務(wù)tracker服務(wù)器引起的;最后就是由于DNS相關(guān)的攻擊(如botnet等)形成的。

這些標(biāo)簽數(shù)據(jù)是通過(guò)圖中的聚簇信息,找到對(duì)應(yīng)的IP,然后根據(jù)前面歸并時(shí)的最長(zhǎng)后綴來(lái)確定。在處理過(guò)程中發(fā)現(xiàn)在圖中有一個(gè)明顯集中的簇由6個(gè)IP組成,它們的坐標(biāo)非常接近,幾乎重疊在一起。為了方便展示,本文在圖中把它們的標(biāo)識(shí)點(diǎn)放大顯示,在圖的中下位置。在這一天中,它們發(fā)起查詢(xún)的部分域名后綴如圖6所示。注意這只是后綴,實(shí)際查詢(xún)時(shí)其前綴是高頻地不斷變化的,具有典型的DGA域名的特征。

a.fjhsxs.comwww.hsexpress.cn b.fjhsxs.comwww.hxj8453.com ggman.weiaojia.comwww.lundaddc.cn mk.mhzjs.cnwww.weijie130.com vip.mcgift.com.cnwww.weijie131.com www.543ba.comwww.weijie132.com www.543bk.comwww.weijie133.com www.999ae.comwww.weijie666.com www.999be.comwww.zszhanyi.cn

進(jìn)一步的分析發(fā)現(xiàn),這幾個(gè)IP基本都提供了匿名DNS服務(wù),允許任意主機(jī)使用它們來(lái)進(jìn)行遞歸查詢(xún)。通過(guò)對(duì)圖6這些域名的Whois查詢(xún)以及利用當(dāng)天的出口NetFlow[22]數(shù)據(jù)對(duì)這幾個(gè)IP的進(jìn)出流量進(jìn)行分析,確認(rèn)這是一起針對(duì)目標(biāo)域名的DNS放大攻擊(DoS攻擊)[19]。

4.2.3 聚類(lèi)分析

得到域名或主機(jī)的向量空間嵌入表示后,通過(guò)計(jì)算向量之間的內(nèi)積可以得到任意2個(gè)節(jié)點(diǎn)之間的相似程度,繼而可以使用層次聚類(lèi)方法對(duì)節(jié)點(diǎn)進(jìn)行成簇分析。本文只關(guān)心那些相似程度很高的節(jié)點(diǎn)簇,選擇的聚類(lèi)閾值是0.9,并且要求簇內(nèi)節(jié)點(diǎn)至少2個(gè)以上。由于的解釋和分析往往需要結(jié)合網(wǎng)絡(luò)環(huán)境中的用戶(hù)屬性來(lái)進(jìn)行,因此本文只對(duì)得到的域名向量進(jìn)行分析。前面提到業(yè)務(wù)關(guān)聯(lián)的域名在向量空間中比較鄰近,這些域名往往具有相同或類(lèi)似的域名后綴,計(jì)算出這些域名的信息熵[23]就會(huì)比較低;而像botnet等利用DGA生成的一組域名其信息熵就會(huì)比較高。

通過(guò)層次聚類(lèi)得到節(jié)點(diǎn)簇后,按它們的信息熵從高到低排列,發(fā)現(xiàn)在BIT_DNS數(shù)據(jù)集中,排在前面的2個(gè)域名簇,每簇都有上百個(gè)域名聚集在一起。它們的部分域名如圖7和圖8所示??梢钥吹?,這2組域名在規(guī)律上類(lèi)似,但又有所差別,并且不同組域名之間的相似度較低。進(jìn)一步的分析發(fā)現(xiàn),這些域名分別屬于conficker botnet的2個(gè)變種。由于感染同種類(lèi)別botnet的節(jié)點(diǎn)會(huì)以類(lèi)似的規(guī)律定期查詢(xún)相同的域名,使這些被查詢(xún)域名之間產(chǎn)生派生鄰近關(guān)系,從而在向量空間表示的節(jié)點(diǎn)之間非常相似。

riijlnimo.bizbcdhaflh.netiqqzmokgde.net tuhfyfa.ccqqwjbhqa.netlspnzfc.net mhgdmuic.infoxolxlnxho.netlxiqeltz.net hoynorbaf.orgceisk.orgtyqqpui.net mgkrxfu.bizuqzfmfakkcw.biznvkzym.biz mwkpwowj.ccoqrksmcf.comzatvxxiczl.cc utnefbzyfy.comhelafi.infoizwcjusasmi.info

ivoljjpg.cclelexqcs.infohbdjdbu.com aittfmp.cnmeyohwrpv.infotshkd.com hrviyokg.combhvof.orgjjjgcpmxvbg.info xdnwa.orgkfzsm.orgpzqeytx.info zhbwyda.wsbltbxoirrvd.bizgklvmeulwc.info ildmidpdys.bizxvamcooo.ccolrhdrmf.biz eyeiouzf.cnuhyupqcdhg.cnqtnukhqp.cc

5 相關(guān)研究

在DNS行為分析方面,Dominik等[24]評(píng)估了1NN(1最近鄰)、多項(xiàng)式樸素貝葉斯分類(lèi)器(MNB, multinomial naive bayes classifier)和模式挖掘(PM, pattern mining)這3種算法在利用DNS日志對(duì)用戶(hù)行為模式進(jìn)行挖掘方面的效果。袁春陽(yáng)等[25]發(fā)現(xiàn)基于行為與域名查詢(xún)關(guān)聯(lián)在識(shí)別惡意域名時(shí)具有更好的效果,且可以監(jiān)測(cè)到未知的病毒。Gao等[21]提出了一種利用已知的惡意域名作為種子從DNS日志中發(fā)現(xiàn)未知的惡意域名的方法,其核心思想是利用域名解析請(qǐng)求在時(shí)間上的共現(xiàn)規(guī)律,將與惡意域名經(jīng)常相伴出現(xiàn)的域名標(biāo)記為可疑域名,再通過(guò)TF-IDF評(píng)分等方法將其可疑性量化。Choi等[5]采用關(guān)聯(lián)矩陣的方法來(lái)發(fā)現(xiàn)共同查詢(xún)現(xiàn)象,他們對(duì)每個(gè)域名形成一個(gè)二值矩陣,列向量是時(shí)間窗口,行向量是主機(jī)查詢(xún)情況,如果在時(shí)間窗口主機(jī)查詢(xún)了該域名,則矩陣對(duì)應(yīng)位置(,)設(shè)置為1,否則設(shè)置為0。之后對(duì)不同的域名進(jìn)行相似度聚類(lèi)。Choi的方法面臨構(gòu)造的矩陣維度非常大,運(yùn)算復(fù)雜度很高的問(wèn)題。

對(duì)DNS查詢(xún)失敗的記錄分析方面,Krishnan等[26]提出了利用閾值隨機(jī)游走的方法來(lái)分析日志中的NxDomain記錄,也考慮了共同查詢(xún)現(xiàn)象。他們的方法能夠用較少的失敗查詢(xún)數(shù)據(jù)就發(fā)現(xiàn)一些惡意域名,但不能區(qū)分不同類(lèi)別的失敗查詢(xún),故他們對(duì)如spamhaus之類(lèi)的DNSBL需要放入白名單,也沒(méi)有考慮主機(jī)錯(cuò)誤配置DNS后綴對(duì)結(jié)果的影響。

Mikolov提出的word2vec[8],首次發(fā)現(xiàn)了語(yǔ)義的相近關(guān)系可以直接用詞向量的運(yùn)算直接獲得,極大地推動(dòng)了詞向量方法在自然語(yǔ)言領(lǐng)域的應(yīng)用,在語(yǔ)義分析、詞性分析、情感分析以及文檔翻譯[27]等方向取得了很好的進(jìn)展。Levy等[28]證明了關(guān)于采用類(lèi)似于詞嵌入(word embedding)的方式進(jìn)行向量空間嵌入的方式可以保持元素之間的相關(guān)性,采用這種詞嵌入方式表示與互信息(PMI, pointwise mutual information)[29]表示在一定的前提下是等價(jià)的,而PMI就是用來(lái)處理元素之間關(guān)聯(lián)度的。Perozzi等[30]提出的DeepWalk方法將詞向量思想推廣到圖的處理,基于深度學(xué)習(xí)方法,把對(duì)圖中節(jié)點(diǎn)的隨機(jī)游走(random walk)當(dāng)成一個(gè)文檔進(jìn)行訓(xùn)練,在社會(huì)化網(wǎng)絡(luò)多標(biāo)簽分類(lèi)任務(wù)中取得了很好的效果。Tang等[31]提出的LINE把DeepWalk的工作推廣到一般的圖處理。后兩者的方法在應(yīng)用到DNS查詢(xún)行為時(shí)會(huì)把域名和主機(jī)同時(shí)向量空間嵌入,一是計(jì)算量大幅增加影響處理效率,二是影響了最終的相鄰效果。

6 結(jié)束語(yǔ)

本文提出了一種將網(wǎng)絡(luò)中的DNS查詢(xún)行為在向量空間嵌入的方法。通過(guò)構(gòu)造被查詢(xún)域名列表和請(qǐng)求查詢(xún)主機(jī)列表,將域名或主機(jī)的隱含關(guān)聯(lián)關(guān)系用上下文共現(xiàn)機(jī)制來(lái)表示,然后利用深度學(xué)習(xí)的方法,將列表中的元素表示成維實(shí)數(shù)向量,用隨機(jī)梯度下降方法進(jìn)行訓(xùn)練,最終得到元素在向量空間中的表示,從而將元素的關(guān)聯(lián)分析轉(zhuǎn)化成向量的運(yùn)算。使用這種方法得到的向量很好地保持了域名或主機(jī)的關(guān)聯(lián)信息。

本文使用真實(shí)校園網(wǎng)絡(luò)的運(yùn)行數(shù)據(jù)來(lái)驗(yàn)證向量空間嵌入方法。分別對(duì)北京大學(xué)和北京理工大學(xué)校園網(wǎng)核心DNS服務(wù)的查詢(xún)?nèi)罩緮?shù)據(jù)集進(jìn)行處理,作為深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù),并得到各自的域名或主機(jī)的向量表示。發(fā)現(xiàn)這2個(gè)數(shù)據(jù)集上,向量空間中相鄰的節(jié)點(diǎn)往往具有顯著的關(guān)聯(lián)關(guān)系。為了直觀地發(fā)現(xiàn)節(jié)點(diǎn)之間的關(guān)系,本文采用-SNE方法進(jìn)行降維,并采用了交互式的可視化來(lái)展示節(jié)點(diǎn)的信息,從而發(fā)現(xiàn)了在向量空間中鄰近節(jié)點(diǎn)的一些規(guī)律。在域名向量空間表示中,屬于同一公司如apple、taobao等的不同站點(diǎn)會(huì)因?yàn)槠涮峁┑臉I(yè)務(wù)具有關(guān)聯(lián)性而各自獨(dú)立成簇;不同組織或公司的域名,如果其站點(diǎn)提供的內(nèi)容對(duì)用戶(hù)具有相似性,向量空間嵌入后也可能鄰近,如一些學(xué)術(shù)類(lèi)的網(wǎng)站,這是用其他方法難于發(fā)現(xiàn)的。在主機(jī)向量空間表示中,本文通過(guò)域名最長(zhǎng)公共后綴的算法產(chǎn)生查詢(xún)主機(jī)列表,得到的不同類(lèi)別的查詢(xún)失敗記錄所關(guān)聯(lián)的節(jié)點(diǎn)各自獨(dú)立成簇,可以很好地區(qū)分各種產(chǎn)生失敗查詢(xún)的情況,并可幫助發(fā)現(xiàn)與DGA相關(guān)的域名攻擊情形。為了更好地發(fā)現(xiàn)成簇節(jié)點(diǎn)的特性,本文采用層次聚類(lèi)方法對(duì)向量空間的節(jié)點(diǎn)進(jìn)行分析。通過(guò)設(shè)置閾值只輸出那些節(jié)點(diǎn)之間相似程度很高、節(jié)點(diǎn)數(shù)量較多的簇,再結(jié)合域名的信息熵,本文在北京理工大學(xué)數(shù)據(jù)集上發(fā)現(xiàn)2組屬于不同botnet變種的查詢(xún)域名集合。由于聚類(lèi)方法屬于無(wú)監(jiān)督學(xué)習(xí),因此可以用于發(fā)現(xiàn)未知類(lèi)型的域名查詢(xún)行為相關(guān)的攻擊如域名放大攻擊和botnet等。

在本文所使用的2個(gè)數(shù)據(jù)集上,數(shù)據(jù)規(guī)模不同,取得了類(lèi)似的一些結(jié)果,因此本文的方法具有較好的適應(yīng)性。但需要指出的是,本文所采用的深度學(xué)習(xí)機(jī)制依賴(lài)于訓(xùn)練數(shù)據(jù)的量。數(shù)據(jù)量越大,結(jié)果越趨于穩(wěn)定,所展示的規(guī)律也更具有代表性。另外,本文的方法與自然語(yǔ)言處理所面臨的情況也有所不同。在自然語(yǔ)言處理中,其訓(xùn)練語(yǔ)料是基本是不變的,而且單詞的語(yǔ)義也是基本穩(wěn)定的。而在域名查詢(xún)行為中,被查詢(xún)域名列表或請(qǐng)求查詢(xún)主機(jī)列表與所處的網(wǎng)絡(luò)環(huán)境相關(guān),且是不斷增長(zhǎng)的,隨著時(shí)間的增加域名查詢(xún)行為也可能發(fā)現(xiàn)變化。因此本文的方法更適合在規(guī)模較大的網(wǎng)絡(luò)環(huán)境中使用,且訓(xùn)練數(shù)據(jù)的列表的時(shí)間跨度不宜過(guò)長(zhǎng)。

本文提出了一種新的思路來(lái)處理域名查詢(xún)行為,在實(shí)際運(yùn)行的數(shù)據(jù)中也取得了較好的效果。此方法有望在類(lèi)似領(lǐng)域中得到應(yīng)用,如網(wǎng)絡(luò)流量分析、日志分析等。同時(shí)也有一些問(wèn)題需要進(jìn)一步解決:1) 如何自動(dòng)對(duì)向量空間中的元素進(jìn)行分類(lèi)并產(chǎn)生標(biāo)簽;2) 如何更好地處理時(shí)間序列的數(shù)據(jù),做到實(shí)時(shí)在線(xiàn)運(yùn)算,及時(shí)發(fā)現(xiàn)問(wèn)題;3) 此方法目前對(duì)訓(xùn)練數(shù)據(jù)量要求非常大,需要足夠的數(shù)據(jù)結(jié)果才會(huì)穩(wěn)定,但也意味著對(duì)當(dāng)前數(shù)據(jù)的變化不敏感,如何發(fā)現(xiàn)當(dāng)前新出現(xiàn)的異常,值得進(jìn)一步探索。

[1] MOGHADDAM S, HELMY A. Spatio-temporal modeling of wireless users Internet access patterns using self-organizing maps[C]//2011 Proceedings IEEE INFOCOM. c2011: 496-500.

[2] CAGLAYAN A, TOOTHAKER M, DRAPAEAU D, et al. Behavioral analysis of fast flux service networks[C]//2010 43rd Hawaii International Conference on System Sciences. c2009: 1-9.

[3] BILGE L, KIRDA E, KRUEGEL C, et al. EXPOSURE: finding malicious domains using passive DNS analysis[C]//NDSS. c2011: 1-17.

[4] ANTONAKAKIS M, PERDISCI R. From throw-away traffic to bots: detecting the rise of DGA-based malware[C]// The 21st USENIX Security Symposium. c2012: 24.

[5] CHOI H, LEE H, LEE H, et al. Botnet detection by monitoring group activities in DNS traffic[C]//7th IEEE International Conference on Computer and Information Technology (CIT 2007). c2007: 715-720.

[6] CHEN Y, ANTONAKAKIS M. DNS noise: measuring the pervasiveness of disposable domains in modern DNS traffic[C]//Dependable Systems and Networks (DSN), 44th Annual IEEE/IFIP International Conference on. c2014: 598-609.

[7] CALLAHAN T, ALLMAN M, RABINOVICH M. On modern DNS behavior and properties[J]. ACM SIGCOMM Computer Communication Review, 2013,43 (3): 7.

[8] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. arXiv Preprint arXiv.1301. 3781.20B.

[9] WIKIPEDIA. Embedding[EB/OL]. https://en.wikipedia.org/wiki/1301. 3781.2013. Embedding, 2015.

[10] HINTON G E. Learning distributed representations of concepts[C]// The Eighth Annual Conference of the Cognitive Science Society. c1986: 1-12.

[11] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521 (7553): 436-444.

[12] REHUREK R. Word2vec in python, part two: optimizing. [EB/OL]. http://radimrehurek.com/2013/09/word2vec-in-python-part-two-ptimizing/,2015.

[13] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems. c2013:3111-3119.

[14] MAATEN L V D, HINTON G. Visualizing data using-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

[15] JAIN A, MURTY M, FLYNN P. Data clustering: a review[J]. ACM Computing Surveys (CSUR), 1999,31(3): 264-323.

[16] WIKIPEDIA. Complete-linkage clustering - wikipedia, the free encyclopedia[EB/OL]. https://en.wikipedia.org/w/index.php?title=Complete- linkage_clustering&oldid=625941679,2015.

[17] BRODER A, MITZENMACHER M. Network applications of bloom filters: a survey[J]. Internet Mathematics, 2004, 1 (4): 485-509.

[18] FJELLSKAL E B. Passive DNS tool[EB/OL]. https:// github.com/ gamelinux/passivedns,2015.

[19] 馬云龍, 姜彩萍, 張千里, 等. 基于IPFIX 的DNS異常行為檢測(cè)方法[J]. 通信學(xué)報(bào), 2014, 35(z1): 5-9.

MA Y L, JIANG C P, ZHANG Q L et al. DNS abnormal behavior detection based on IPFIX[J]. Journal on Communications. 2014, 35(z1): 5-9.

[20] BOSTOCK M. Data driven documents[EB/OL]. http: //d3js.org/.

[21] GAO H, YEGNESWARAN V, CHEN Y, et al. An empirical reexamination of global DNS behavior[J]. ACM SIGCOMM Computer Communication Review, 2013, 43 (4): 267-278.

[22] CISCO. Cisco IOS NetFlow[EB/OL]. http:// www.cisco.com/go/ netflow.

[23] WIKIPEDIA. Entropy (information theory)-wikipedia, the free encyclopedia[EB/OL]. https://en.wikipedia.org/w/index.php?title= Entropy (information˙theory)&oldid= 674556523.2015.

[24] HERRMANN D, BANSE C, FEDERRATH H. Behaviorbased tracking: exploiting characteristic patterns in DNS traffic[J]. Computers & Security, 2013, 39:17-33.

[25] 袁春陽(yáng), 李青山, 王永建. 基于行為與域名查詢(xún)關(guān)聯(lián)的僵尸網(wǎng)絡(luò)聚類(lèi)聯(lián)動(dòng)監(jiān)測(cè)[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(3):1084-1087.

YUAN C Y, LI Q S, WANG Y J. Linkage monitoring of cluster for botnet based on relevance of behavior and domain inquiry[J]. Application Research of Computers, 2012, 29(3):1084-1087.

[26] KRISHNAN S, TAYLOR T, MONROSE F, et al. Crossing the threshold: detecting network malfeasance via sequential hypothesis testing[C]//2013 43rd Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN). c2013: 1-12.

[27] ZOU W Y, SOCHER R, CER D, et al. Bilingual word embeddings for phrase-based machine translation[C]//2013 Conference on Empirical Methods in Natural Language Processing (EMNLP 2013).c2013: 1393-1398.

[28] LEVY O, GOLDBERG Y. Linguistic regularities in sparse and explicit word representations[C]//Proceedings of the 18th Conference on Computational Natural Language Learning (CoNLL 2014), c2014.

[29] WIKIPEDIA. Pointwise mutual information — Wikipedia, the free encyclopedia[EB/OL]. http://en.wikipedia.org/w/index.php? title= Pointwise˙mutual˙information&oldid= 650473510.

[30] PEROZZI B, SKIENA S. DeepWalk: online learning of social Representations[C]//The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. c2014:701-710.

[31] TANG J, QU M, WANG M, et al. LINE: Largescale Information Network Embedding[J]. arXiv preprint arXiv:1503.03578, 2015.

Vector space embedding of DNS query behaviors by deep learning

ZHOU Chang-ling1,2, LUAN Xing-long1,2, XIAO Jian-guo3

(1. Computer Center, Peking University, Beijing 100871, China; 2. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China; 3. Institute of Computer Science & Technology, Peking University, Beijing 100871, China)

A novel approach to analyze DNS query behaviors was introduced. This approach embeds queried domains or querying hosts to vector space by deep learning mechanism, then the relationship between querying of domains or hosts was mapped to vector space operations. By processing two real campus network DNS log datasets, it is found that this method maintains relationships very well. After doing dimension reduction and clustering analysis, researchers can not only easily explore hidden relationships intuitively, but also discover abnormal network events like botnet.

DNS, deep learning, context, dimension reduction, behavior analysis, hierarchical clustering

TP393.07

A

10.11959/j.issn.1000-436x.2016064

2015-03-30;

2015-09-10

國(guó)家2012年下一代互聯(lián)網(wǎng)技術(shù)研發(fā)、產(chǎn)業(yè)化和規(guī)模商用專(zhuān)項(xiàng)基金資助項(xiàng)目(No.CNGI-12-03-001);國(guó)家發(fā)展改革委2011年國(guó)家信息安全專(zhuān)項(xiàng)基金資助項(xiàng)目;國(guó)家高技術(shù)研究發(fā)展計(jì)劃(“863計(jì)劃”)基金資助項(xiàng)目(No.2015AA011403)

The Next-Generation Internet Technology Development, Industrialization and Large-scale Commercial Project, the National Development and Reform Commission 2012 (No.CNGI-12-03-001), National Information Security Special Project Funded by National Development and Reform Commission 2011, The National High Technology Research and Development Program of China(863 Program)( No.2015AA011403)

周昌令(1977-),男,重慶人,北京大學(xué)博士生,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、無(wú)線(xiàn)網(wǎng)絡(luò)、網(wǎng)絡(luò)流量分析及網(wǎng)絡(luò)管理等。

欒興龍(1989-),男,山東煙臺(tái)人,北京大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)流量分析、自然語(yǔ)言主題模型等。

肖建國(guó)(1957-),男,遼寧鞍山人,北京大學(xué)教授,主要研究方向?yàn)閳D像處理、文本挖掘和網(wǎng)絡(luò)信息處理。

猜你喜歡
關(guān)聯(lián)方法
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
“苦”的關(guān)聯(lián)
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
學(xué)習(xí)方法
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 毛片免费试看| 无码综合天天久久综合网| 亚洲成年人片| 99九九成人免费视频精品| 亚洲Aⅴ无码专区在线观看q| 欧美亚洲另类在线观看| 亚洲天堂伊人| 亚洲精品视频网| 中文字幕亚洲综久久2021| 免费a在线观看播放| 99ri精品视频在线观看播放| 国产激情国语对白普通话| 人妖无码第一页| 2021国产在线视频| 亚洲综合极品香蕉久久网| 亚洲人成人伊人成综合网无码| 亚洲国产天堂久久综合| 九九免费观看全部免费视频| 久久综合伊人77777| 久久精品亚洲中文字幕乱码| 精品免费在线视频| 亚洲水蜜桃久久综合网站| 欧美激情视频在线观看一区| 欧美激情视频二区| 欧美高清三区| 亚洲三级a| 欧美黑人欧美精品刺激| 91啦中文字幕| 久久久久久久久亚洲精品| 97精品伊人久久大香线蕉| 综合色在线| 一本色道久久88综合日韩精品| 久久五月视频| 日韩av高清无码一区二区三区| 欧美成人在线免费| 天天色综网| 国产精品视频久| 人妻无码中文字幕一区二区三区| 日本不卡免费高清视频| 在线看片中文字幕| 亚洲精品大秀视频| 国产成人AV男人的天堂| 国产在线观看高清不卡| 欧美日韩在线亚洲国产人| 色香蕉影院| 国产欧美视频一区二区三区| 久久伊人操| 久久人搡人人玩人妻精品| 国产一级二级在线观看| 新SSS无码手机在线观看| 亚洲综合色婷婷中文字幕| 欧美福利在线播放| 91精品啪在线观看国产60岁| 国产一区二区影院| 无码人中文字幕| 99这里只有精品免费视频| 亚洲精品爱草草视频在线| 国产午夜一级毛片| 亚洲精品高清视频| 日本午夜网站| 在线观看国产网址你懂的| 在线国产资源| vvvv98国产成人综合青青| 国产精品福利在线观看无码卡| 四虎免费视频网站| 91在线视频福利| 日韩123欧美字幕| 国产精品一区二区不卡的视频| 亚洲美女视频一区| 91国内视频在线观看| 夜夜拍夜夜爽| 亚洲天堂色色人体| 99视频在线观看免费| 亚洲一区波多野结衣二区三区| 日本午夜三级| 色婷婷天天综合在线| 欧美另类精品一区二区三区| 71pao成人国产永久免费视频| 亚洲一级毛片在线播放| 日韩在线观看网站| 欧美福利在线观看| 免费国产高清视频|