陳娌礪


【摘要】 ? ?域名解析系統(tǒng)已經(jīng)發(fā)展成為了國際互聯(lián)網(wǎng)中一個完全不可能被忽視且重要的一個關(guān)鍵的基礎(chǔ)網(wǎng)絡(luò)設(shè)施和信息服務(wù),難以避免被域名利用者非法利用。在深入地分析研究了網(wǎng)絡(luò)僵尸病毒網(wǎng)絡(luò)與DGA等惡意域名的應(yīng)用之后,對當(dāng)前網(wǎng)絡(luò)市場上各種主流惡意域名安全檢測解決技術(shù)特點進行了分析比較,并初步提出了一種基于字符特征來改善網(wǎng)絡(luò)惡意域名檢測技術(shù)的理論框架。該技術(shù)基本框架以支持向量機為主要的分類器,融合了一些改進的字符串特征和其他的各種統(tǒng)計學(xué)方法特征。實驗數(shù)據(jù)表明,該技術(shù)框架在離線訓(xùn)練時長、對未知DGA惡意域名家族的檢測能力方面表現(xiàn)優(yōu)秀,可以較好地滿足運營商大網(wǎng)環(huán)境下對惡意域名的檢測分析要求。
【關(guān)鍵詞】 ? ?惡意域名 ? ?機器學(xué)習(xí) ? ?DGA域名 ? ?支持向量機
引言:
域名解析系統(tǒng)(DomainNameSystem,dns)作為目前互聯(lián)網(wǎng)最重要的信息技術(shù)和核心信息基礎(chǔ)服務(wù)設(shè)施之一,把難以被他人記憶的互聯(lián)網(wǎng)協(xié)議地址通過映射成為容易被他人記憶的域名[1-2]。許多網(wǎng)絡(luò)服務(wù)都是基于域名服務(wù)而進行。
惡意網(wǎng)站域名指的是任何濫用該網(wǎng)站域名進行任何惡意操作的網(wǎng)站域名,主要含義指的是包括網(wǎng)站內(nèi)容為包括傳播各種惡意軟件、促進惡意命令和控制(commandandcontrol,c&c)服務(wù)器[3]進行通信,發(fā)送惡意垃圾郵件、托管網(wǎng)絡(luò)詐騙和進行網(wǎng)絡(luò)安全釣魚的惡意網(wǎng)頁[4]等。
惡意域名對于人們進行網(wǎng)絡(luò)活動中的經(jīng)濟和個人信息都有很大的威脅,域名安全檢測也成為信息安全里的重要研究內(nèi)容。
一、相關(guān)工作
1.1 實現(xiàn)方法
當(dāng)前,有兩種主要的方法來實現(xiàn)惡意域名[5]:fast-flux和domain-flux。fast-flux方法是[6]將連續(xù)執(zhí)行每個域名和輸入主機IP地址的快速映射從而對輸入IP進行初始限制地址配置和其他安全技術(shù)策略丟棄或暫時丟棄,這可能導(dǎo)致安全專業(yè)人員無法在短時間內(nèi)準(zhǔn)確,快速地定位攻擊服務(wù)器的惡意黑客的網(wǎng)絡(luò)地理中心。domain-flux[7]有效保護攻擊者實際執(zhí)行的候選命令,并完全控制整個服務(wù)器(commandandcontrol,c&c),以防止惡意的候選域名在完全受控的虛擬機上被訪問。
1.2相關(guān)研究
惡意網(wǎng)址檢測方面主要有2個比較流行的做法:第一個是直接維護一個黑名單,第二個是用data-driven的方式,即設(shè)計良好的特征+機器學(xué)習(xí)分類模型來實現(xiàn)對惡意網(wǎng)址的自動分類。接下來主要為大家介紹一種基于機器學(xué)習(xí)的惡意網(wǎng)頁檢測技術(shù)。
一些現(xiàn)有的研究項目及其工作主要使用一些所謂的機器和深度學(xué)習(xí)技術(shù),這些技術(shù)主要包括決策樹,支持向量機(helper vector machine,svm),聚類等。文獻[8]使用決策樹算法基于被動DNS數(shù)據(jù)構(gòu)建分類器。文獻[9]從分析DNS流量和網(wǎng)絡(luò)數(shù)據(jù)的角度總結(jié)了周期性域名發(fā)現(xiàn)的特征,并重構(gòu)了J48決策樹進行分類。
當(dāng)前,用于檢測和處理現(xiàn)有的域名檢測的各種方法具有其自身的特性。但是,無論是公司頂級域名服務(wù)器,權(quán)威頂級域名服務(wù)器還是帶有遞歸域名解析器的域名服務(wù)器,都很難獲得域名流量數(shù)據(jù)和解析數(shù)據(jù)。
基于上述問題,本文分析了惡意Domain-Flux域名的特征,根據(jù)特征的內(nèi)在差異選擇特征,并選擇與DNS流量不同的輕量級數(shù)據(jù)和結(jié)構(gòu)。
二、域名特征選取及方案設(shè)計
2.1域名字符特性分析
由于DGA域名算法生成的惡意注冊域名經(jīng)常使用字符的一些隨機字母和數(shù)字組合,在字符的概率分布方面,這些字符通常與善意域名有顯著差異。選取字符特征有:字符長度、域名后綴、數(shù)字個數(shù)、數(shù)字比率、連續(xù)數(shù)字最大長度、連續(xù)字母最大長度、連續(xù)相同字母最大長度、最長元音距、域名字符熵值九個特征。
2.2特征改進
本文基于一個開放源代碼的分詞數(shù)據(jù)庫,對域名的字符結(jié)構(gòu)進行了全面的分析,并從英語域名字符組中提取了最長和可能最特殊的含義。例如,一個域名,名稱為google.com,通常由域名google和com的兩個單字符子字符串組成。則該字符串長度為2。將選取特征中連續(xù)字母最大長度改為拆詞后字符串長度。特征改進前后如圖1所示,對比正負樣本區(qū)分更明顯。
2.3分類算法選擇
本次實驗中,我們要使用一個目前應(yīng)用十分廣泛的算法支持向量機(supportvectormachine,svm),這個算法對正常域名和DGA域名之間的特征差異性關(guān)系進行了精確區(qū)分,svm分類算法的主要分類理論依據(jù)之一其實就是特征結(jié)構(gòu)分類風(fēng)險的全局最小化。svm分類算法結(jié)構(gòu)是一種非常嚴(yán)謹(jǐn)?shù)姆诸悢?shù)學(xué)理論推導(dǎo)和重要的分類理論數(shù)據(jù)基礎(chǔ),分類的算法正確率高、穩(wěn)定性好、泛化分類能力強,可以很好地快速得到全局最優(yōu)值的解。
三、實驗與分析
3.1數(shù)據(jù)集
本次實驗的數(shù)據(jù)集由正常域名和惡意域名兩個組成部分,共二十多萬。使用 alexa 的排名相對比較靠前的域名作為正常域名。本文主要是通過對網(wǎng)絡(luò)上所公開的域名黑名單進行列表分析,并且將去重的域名進行列表分析形成本文的域名樣本。正負樣本比例約為一比一。其中模型的訓(xùn)練數(shù)據(jù)占2/3,測試數(shù)據(jù)占1/3。
3.2實驗對比
本文與特征改進前的方法進行了對比試驗,對比結(jié)果如圖2所示。
四、結(jié)束語
本文主要提出了一種基于domain-flux惡意域名的異常檢測的系統(tǒng),結(jié)合了九個主要特征,主要實現(xiàn)了基于svm算法檢測的惡意域名的異常檢測方案。該方法的檢測準(zhǔn)確率,查全率和Fl值均達到95%,具有良好的檢測效果。另外,本文的工作也可以離線完成,不再接收DNS流量,數(shù)據(jù)收集簡單。該檢測解決方案解決了檢測大量數(shù)據(jù)中的問題,具有良好的實用價值。
未來,改進的技術(shù)方向?qū)⒅饕槍Σ缓侠硎褂糜嬎阗Y源來優(yōu)化總體狀況,并對檢測到的惡意域名進行第二次調(diào)查以提高其準(zhǔn)確性。
參考文獻
[1] MockapetrisPV.DomainNames:ConceptsandFacilities[S].RFC1034,1987.
[2] MockapetrisPV.DomainNames:ImplementationandSpecification[S].RFC1035,1987.
[3]郭曉軍.面向DGA類型Bot的命令控制通信過程研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017(8):48-49.
[4]AminRM,RyanJJCH,vanDorpJR.DetectingTargetedMaliciousEmail[J].IEEESecurityandPrivacyMagazine,2012,10(3):64-71.
[5]GhafirI,PrenosilV.DNSTrafficAnalysisforMaliciousDomainsDetection[C]//ProceedingsofConferenceonSignalProcessingandIntegratedNetworks.WashingtonD.C.,USA:IEEEPress,2015:613-618.
[6]NazarioJ,HolzT.AstheNetChurns:Fast-fluxBotnetObservations[C]//ProceedingsofMaliciousandUnwantedSoftwareMALWAREConference.WashingtonD.C.,USA:IEEEPress,2008:24-31.
[7]GueridH,MittigK,SerhrouchniA.CollaborativeApproachforInter-domainBotnetDetectioninLargescaleNetworks[C]//ProceedingsofInternationalConferenceonCollaborativeComputing:Networking,ApplicationsandWorksharing.WashingtonD.C.,USA:IEEEPress,2013:279-288.
[8]BilgeL,KirdaE,KruegelC,etal.EXPOSURE:FindingMaliciousDomainsUsingPassiveDNSAnalysis[C]//Proceedingsofthe18thAnnualNetwork&DistributedSystemSecurityConference.[S.l.]:ISOC,2011:1-17.
[9]ZouFutai,ZhangSiyu,RaoWeixiong.HybridDetectionandTrackingofFast-fluxBotnetonDomainNameSystemTraffic[J].ChinaCommunications,2013,10(11):81-94.
陳娌礪:1996.07;女;民族:漢族;籍貫:湖北省石首市;學(xué)歷:碩士;研究方向:應(yīng)用數(shù)學(xué)。