999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息熵的惡意域名識別技術

2017-11-17 05:04:26胡建平汪永益許成喜
網絡安全技術與應用 2017年11期
關鍵詞:實驗

◆胡建平 汪永益 許成喜 施 凡

(電子工程學院網絡工程系 安徽 210037)

基于信息熵的惡意域名識別技術

◆胡建平 汪永益 許成喜 施 凡

(電子工程學院網絡工程系 安徽 210037)

域名系統是互聯網中的重要資源,是互聯網重要的基礎設施的,惡意域名識別技術用于發現以域名系統為保護的域名。本文分析研究了現有的惡意域名識別技術,提出一種基于信息熵的惡意域名識別技術。從域名解析記錄中提取長時間周期上的動態解析變化特征,包括IP地址波動,ns解析服務器變動以及cname、SOA記錄擾動等,針對惡意域名表現出的“偽裝”和“跳變”特點,對域名進行信譽評分,最終表征域名性質,實驗結果表明,該技術達到了93.86%的識別準確率。

網絡安全;惡意域名;信息熵;信譽評分

0 引言

惡意域名是當前的互聯網重要的安全威脅之一。域名系統作為互聯網中重要的基礎建設,提供將域名轉換至IP地址的功能,將人從不便于記憶的 IP地址中解放出來,完成正常的互聯網訪問請求。但是,由于域名系統自身存在的脆弱性問題,常常被惡意人員利用,成為其惡意行為過程中的隱蔽通道,充當跳板作用。在惡意域名的直接或者間接作用下可以完成諸如分布式拒絕服務攻擊(DDoS)、網絡釣魚、垃圾郵件分發等行為,或者進一步為后續控制完成后的信息獲取、遠程控制等提供助力。

根據cncert/cc給出的《2016年中國互聯網網絡安全報告》[1]中指出,抽樣檢測中發現2016年約有9.7萬個木馬和僵尸網絡控制服務控制我國境內1699萬余臺主機,規模在10萬臺以上的僵尸網絡有52個。目前主要的分布式拒絕服務攻擊幾乎均由僵尸網絡導致,并且除了傳統的PC和服務器作為僵尸主機外,智能設備逐漸成為新的僵尸節點。Mirai惡意程序正是通過對物聯網智能設備漏洞進行入侵滲透形成的龐大僵尸網絡,該僵尸網絡直接導致了2016年底美國東海岸大規模斷網事件。此外我國境內的釣魚網站數更是達到177988個,涉及IP地址20089個,是用戶信息泄露的主要渠道。垃圾郵件所包含的各類宣傳、病毒等惡意內容,也是造成用戶主機感染的一個重要途徑。可見,由惡意域名直接或者間接對互聯網造成的危害嚴重,給互聯網以及現實社會帶來隱患。

就目前而言,惡意域名中的惡意目的多樣,惡意域名類型多樣,技術手段多樣,分布地區廣泛,是時下互聯網安全重要的威脅之一。如何有效的識別惡意域名對互聯網安全來說有著重要的意義。

1 研究現狀

目前,學術界對惡意域名并沒有明確統一的定義。一般認為,惡意域名是一種用于網絡中、帶有惡意目的的域名,就其使用場景而言,惡意域名常常被僵尸網絡、釣魚網站、垃圾郵件等利用;就其應用場景而言,惡意域名主要用作攻擊的前期誘導和后期通信,實現對用戶進行攻擊誘導和對已攻陷并且留有后面的目標進行后續控制。

為了解決域名系統在攻擊中的濫用問題,國內外安全研究工作者給出了眾多惡意域名識別和預測方案。張永斌等[2]提出基于組行為特征的惡意域名識別技術,通過對分析新域名和失效域名是否存在組特性來判斷惡意域名。張洋[3]等人提出基于多元屬性特征的惡意域名識別技術,通過對惡意域名多元屬性特征的分析進行域名性質判斷。Wei wang[4]等人提出了基于詞分片的惡意域名識別方式,通過詞分片算法分析域名字符分布特征進行惡意域名判斷。C Zhou[5],Leyla Bilge[6],Antonakakis[7]等人分別采用不同的機器學習算法,提取多種惡意域名特征和屬性,建立惡意域名識別模型進行識別。上述方法在對惡意域名特征的總結上做出了重要貢獻,并利用不同的機器學習方法達到了不錯的識別效果。

本文從長時間跨度上對域名解析記錄進行分析,根據惡意域名行為在動態特征上的“偽裝”和“跳變”的特點,提出基于信息熵的惡意域名識別技術,該技術可以作為惡意域名識別領域中的新的補充。

2 基于信息熵的惡意域名識別技術

論文引入香農提出的“信息熵”的概念,通過域名在解析記錄的基礎上建立熵,用來評估域名穩定性。在對域名發起查詢時,域名解析記錄的結果一般以“.”或者空格進行分隔。在 A記錄中,對域名的解析結果返回的是IP地址,IP地址是一個以“.”劃分的四個字段,每個字段中是一個范圍在 0-255的數值;在ns記錄中,對域名的解析結果返回的是DNS解析服務器地址,該地址一般為一個或者多個記錄,一般表現為“編號.主域”的形式;在cname記錄中,對域名的解析結果返回的也是域名,表示多個域名指向同一個服務器 IP,即表示與查詢域名共享一個 IP地址的域名,其形式符合域名的規范;在 SOA記錄中,對域名的解析結果返回的是權威 DNS解析服務器中的主服務器名,該記錄的格式一般為“DNS解析服務器名版本刷新時間重試時間輔助解析時間 TTL”。論文對上述四個記錄類型按照記錄返回的格式用“.”或者空格進行分割,并按照時間序列進行排列。引入信息熵的概念,通過對長時間序列上解析記錄的分析,針對惡意域名“偽裝”和“跳變”的特性,對惡意域名進行識別。根據記錄的不同劃分情況如圖1所示。

圖1 記錄劃分情況

選取域名解析記錄中的上述4種記錄建立信息熵,分別是A記錄信息熵,ns記錄信息熵,cname記錄信息熵以及SOA記錄信息熵。區別于傳統信息熵在使用過程中對各個字段信息變動均衡權重的設計,本文在此基礎上進行改進,對每一個信息變動對最終的惡意域名識別效果進行權重調節,以達到最好的識別效果。以A記錄信息上為例,該信息記錄域名對應的IP地址,互聯網中IP地址分為5類,并且這五類地址的分布體現出嚴重的不平衡性,因此,IP地址以“.”劃分的四個段中,每個段變動對整個A記錄熵的增加權重并不相同。根據圖中的每一個序列,論文將信息熵形式化定義如下:

然后計算每個集合中信息的概率:

其中 M表示該序列集合中所有的信息個數。最終將該序列的信息熵定義如下:

最后整個域名的信息熵表示為:

其中,每一個序列中λ的值在實際實驗中進行不斷調整,直到權重的變動達到最優的惡意域名識別效果。

3 實驗與驗證

3.1 數據來源

實驗數據來自Rapid 7進行的安全研究計劃—senor(聲吶計劃),該計劃采集所有可見的公共IPv4上的HTTPS web服務器的 ssl證書,收集所有公共 IPv4的 web服務器中的索引頁面的HTML內容以及所有的IPv4地址的反向DNS記錄,在上述數據采集的基礎上收集到的域名和 TLD區域文件來構建 DNS的“ANY”請求[8],數據以CSV格式給出,數據每周(初期更新時間較長)進行一次更新,一次數據大小為70G左右,約有5億條記錄。實驗采集2014年3月至今的數據集,在此基礎上進行時間周期上的解析記錄變動性分析。良性樣本從alexa[9]網站靠前排名域名中進行獲取,alexa公司是一家專門發布網站世界排名的網站,該公司每天在互聯網上搜集超過1000GB的信息,不僅給出多達幾十億的網址鏈接,而且為其中的每一家網站進行排名。目前,alexa是當前擁有URL數量最龐大,排名信息發布最詳盡的網站。基于互聯網中大量服務為正常服務的判斷,業內研究人員常常把alexa排名靠前的域名作為良性樣本進行處理。

3.2 實驗環境與步驟

實驗環境表1所示。基于華為服務器集群,實驗使用5個節點,單個節點能力為32核cpu,128g內存,使用ubuntu 14.04LTS操作系統,搭建hadoop 2.6.4與spark 1.6.1平臺。

表1 實驗環境

為了確保排除cdn(內容分發網絡)域名的干擾,實驗首先對良性樣本集進行篩選,匹配cdn域名列表,確保數據集中不包含cdn域名。這部分域名來自Github上存在的目前知名cdn網站列表[10],共給出178個cdn服務器域名,實驗將有這些服務器提供cdn服務的域名進行剔除。這是由于cdn域名部署的多個分發服務器導致此類域名的域名解析記錄變動頻繁,擾動過大。實驗中發現,不排除cdn域名的影響,該方法的識別效果不佳。以國內外知名cdn提供商Akamai來說,該公司在全球部署150000多臺服務器,這些服務器部署在全球90多個國家,800多個城市,1000多個運營商的2500多個節點上,規模龐大,節點眾多。因此在對使用該cdn服務的域名進行查詢時,得到的都是該cdn提供商的節點信息,并且不斷波動。

對數據進行解析記錄分類存儲,按照解析A記錄、ns記錄,cname記錄以及 SOA記錄進行分類存放,將其他的類似 TXT、MX等記錄過濾,提高數據集針對性。并根據各個記錄類型,按照“.”或者空格進行分割,按照時間序列組成各個基于時間的序列集合。

對于A記錄信息熵,實驗首先根據經驗對IP地址的四個段做如下權重安排,,這主要來源于IP地址的分布不均,此外一個域名為了保證負載平衡,常常會對域名綁定幾個IP,這些IP大多每兩個分布在同一個C段,變動相對較小。對于 ns記錄,編號的變化對于信息熵波動性來說,影響很小,這是由于一個域名常常會有多個dns服務器,導致解析記錄中編號段多出現類似ns1、ns2…等變化,這里起關鍵影響的是主域,惡意域名常常通過改變ns記錄,即改變DNS解析服務器位置來對自身進行保護,達到隱藏自己的目的,權重是,這里只取主域信息進行信息熵計算。對于 SOA記錄,多屬性中取服務器名和 TTL值兩個信息內容,其余信息進行舍棄,取權重和。對于cname記錄,該記錄的結果只有域名一項內容,取權重w別名。實驗對這8個信息熵的權重設置初始值,利用spark計算出各個樣本的信息熵值。

實驗中對malwaredomains.com網站提供的惡意域名樣本[11]進行檢測,該網站提供的長期活動的惡意域名類別共計3205個,實驗在對其檢測之前進行了域名存活性檢測,發現域名列表中只有1271個仍然存活,其余域名已經失活。實驗在多次實驗后對信息熵值的權重進行調整,并通過調整分類閾值改善識別效果。

3.3 實驗結果與分析

實驗對該1271個域名使用基于信息熵的惡意域名識別技術,共檢測出惡意域名1193個,達到93.86%的識別準確率。實驗發現,惡意域名和正常域名在 ns記錄上變動最大,即w主域的權重最大。在域名系統中,ns(Name Server)記錄是域名服務器記錄,用來指定該域名由哪個 DNS服務器進行解析的,惡意域名常常在解析的 DNS服務器上表現出很大的變動性,即解析該域名的 DNS服務器不固定,一直在變動,相比較于正常良性域名表現出極大地波動性。實驗選取了命中malicious.com提供的多個惡意域名的樣本,對比良性域名,以每半年時間為周期(樣本集一周采集一次)給出樣本域名的 ns記錄的變動次數折線圖,取樣本的平均情況,如圖2所示。

其次,w別名的權重占據第二位,惡意域名為了防止域名被屏蔽,會使用別名來充當通信地址,這樣可以通過頻繁的改變cname別名來躲避安全機制的阻斷。實驗給出典型惡意域名cname記錄的別名累計使用個數隨時間變化的情況,如圖3所示。此外,SOA記錄中的DNS服務器名稱變動的情況如圖4所示。

實驗中發現,原本作為主要識別特征的A記錄信息熵和TTL值在該惡意域名樣本中并沒有突出的表現。A記錄對應的IP地址變動在該樣本中表現并不出色,主要是由于該樣本的特殊性,文中使用的惡意域名樣本是長期存活的,此類域名生存周期有別于短時間內表現出極大惡意性的域名,在 IP地址解析上相對固定。此外域名信息中的TTL值通常被安全工作者重點關注,這是由于惡意域名在改變其域名狀態后,為了使受控制機能夠及時訪問,需要及時刷新它的域名狀態,因此需要將緩存帶來的影響降至最小,這就導致了該SOA記錄中TTL值需要設置的較小。但是實際實驗中發現,文中使用的惡意域名樣本并沒有在該特征上表現突出,深入分析原因,TTL值較小的惡意域名更多的是僵尸網絡域名,為了僵尸主機快速上線而設置,而文中惡意樣本并不是此類域名。

圖2 ns記錄的變動情況

圖3 cname記錄別名累計個數變動

圖4 SOA記錄中DNS服務器名變動情況

4 總結

惡意域名作為威脅互聯網安全的重要因素之一,已經引起產業界及學術界的高度關注,對惡意域名的準確識別有利于及時阻斷惡意行為的實施。本文引入信息熵的概念,并在此基礎上進行應用和改進,通過對待測域名的信息熵值評估,對域名性質進行判斷,達到了 93.86%的識別準確率。該技術也存在不足之處,基于信息熵的惡意域名識別技術需要依賴歷史數據,難以做到實時性檢測,對剛出現的惡意域名識別缺乏數據基礎。該方法可以有效與互聯網安全產品結合,作為惡意域名識別的重要補充,并為惡意域名識別提供了新思路。

[1] cncert/cc.2016 年中國互聯網安全報告[EB/OL],2017,http://www.cert.org.cn/publish/main/upload/File/2016_cncert_r eport.pdf.

[2] 張永斌,陸寅,張艷寧.基于組行為特征的惡意域名檢測[J].計算機科學,2013.

[3] 張洋,柳廳文,沙泓州等.基于多元屬性特征的惡意域名檢測[J].計算機應用,2016.

[4] Wang W,Shirley K.Breaking Bad:Detecting malicious domains using word segmentation[J].Computer Science,2015.

[5] Zhou C, Kai C,Gong X,et al.Detection of Fast-Flux Domains Based on Passive DNS Analysis[J].ActaScientiarumNaturaliumUniversitatisPekinensis,2016.

[6] Bilge L,Kirda E,Kruegel C,et al.EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis.[C]// Network and Distributed System Security Symposium,NDSS,2011,SanDiego,California,Usa,February,Februa ry.DBLP,2011.

[7] Antonakakis M,Perdisci R,Lee W,et al. Detecting malware domains at the upper DNS hierarchy[C]// Usenix Conference on Security,2011.

[8] Rapid7 Labs,Forward DNS[EB/OL],http://scans.io ,2014.

[9] amazon,top-1m.csv.zip,http://s3.amazonaws.com/alexa-s tatic/top-1m.csv.zip,2017.

[10] github,cdn list, https://github.com/WPO-Foundation/webpagetest/blob/master/agent/wpthook/cdn.h[EB/OL]

[11] long live malware domains,malwaredomains.com ,http://mirror1.malwaredomains.com/files/immortal_domains.txt.

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 午夜精品国产自在| 国产天天射| 亚洲va视频| 国产迷奸在线看| 噜噜噜综合亚洲| 国产人成网线在线播放va| 国内自拍久第一页| 亚洲人人视频| 狠狠色综合久久狠狠色综合| 99久久这里只精品麻豆| 精品自拍视频在线观看| 在线免费观看a视频| 亚洲区一区| 久操线在视频在线观看| 青青青国产视频手机| 日韩毛片免费| 人妻丰满熟妇AV无码区| 伊大人香蕉久久网欧美| 国产激情影院| 一级片一区| 精品久久久久久中文字幕女| 亚洲最大福利网站| 亚洲欧洲日韩久久狠狠爱| 午夜精品一区二区蜜桃| 国产欧美日韩综合一区在线播放| 538国产在线| 又大又硬又爽免费视频| 久久中文字幕av不卡一区二区| 国内精品视频区在线2021| 青青极品在线| 日韩少妇激情一区二区| 人妻中文字幕无码久久一区| 97久久精品人人| 91久久夜色精品国产网站| 男女男免费视频网站国产| 国产成人综合久久精品下载| 亚洲欧洲日韩综合色天使| 乱人伦视频中文字幕在线| 999国产精品永久免费视频精品久久| 亚洲天堂在线免费| 91九色视频网| 精品自拍视频在线观看| 国产精品福利在线观看无码卡| 有专无码视频| 九九精品在线观看| 亚洲性一区| 99re这里只有国产中文精品国产精品 | 国产伦精品一区二区三区视频优播| 久久国产热| 欧美精品亚洲二区| 黄片在线永久| 欧美日韩成人在线观看| 国产91导航| 老司机午夜精品视频你懂的| 黄色成年视频| 国产成人无码AV在线播放动漫 | 色婷婷综合在线| 日韩专区欧美| 亚洲av无码成人专区| 国产欧美亚洲精品第3页在线| 国产区免费| 国产SUV精品一区二区6| 国产精品久久久久久久久久久久| 又黄又湿又爽的视频| 性视频一区| 欧美一区二区三区香蕉视| 亚洲香蕉伊综合在人在线| 四虎精品黑人视频| 亚洲综合精品第一页| 欧美精品高清| JIZZ亚洲国产| 99视频全部免费| 亚洲天堂网在线观看视频| 亚洲第一极品精品无码| 色噜噜在线观看| 国产AV无码专区亚洲精品网站| 亚洲AV人人澡人人双人| 欧美一区二区啪啪| 天天躁夜夜躁狠狠躁躁88| 91福利片| 国产一线在线| 国产乱子精品一区二区在线观看|