999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單詞匹配和編輯距離的釣魚貝葉斯檢測器研究

2015-05-30 10:48:04朱超群等
計算機時代 2015年5期

朱超群等

摘 要: 網絡釣魚是目前信息安全領域的一個研究熱點,基于域名信息的釣魚檢測是使用較為廣泛的一種方法。文章利用編輯距離尋找與已知正常域名相近的域名,根據域名信息提取域名單詞最大匹配特征、域名分割特征和URL分割特征,利用這些特征訓練貝葉斯分類器,根據給定特征屬于哪一類的概率來判斷此URL是否為釣魚URL,實驗結果表明該方法能有效提高判斷準確性。

關鍵詞: 釣魚檢測; 單詞匹配; 編輯距離; 貝葉斯分類器

中圖分類號:TP309 文獻標志碼:A 文章編號:1006-8228(2015)05-16-03

Abstract: Phishing is one of the research hotspot in the field of information security at present, and URL based phishing detection is a method used widely. This paper proposes a phishing detection method which searches approximate normal domain names by calculating edit distance firstly. Then domain name word maximum match features, domain name segmentation features and URL segmentation features are extracted according to the domain name information. Finally, a bayes binary classifier, which is trained by using these features, can distinguish whether a URL is phishing URL or not. The experimental results show that this method can effectively improve the judgment accuracy.

Key words: phishing detection; words matching; edit distance; bayes classifier

0 引言

目前電子商務、網絡銀行逐漸走入人們的日常生活,商務類應用呈上升趨勢,與此同時,互聯網絡安全問題十分嚴峻,其中網絡釣魚攻擊作為當今在線交易和電子商務所面臨的最危險的欺詐形式已越來越成為關注的焦點。

反釣魚技術涉及領域極廣,應用場景和問題領域多種多樣,目前并沒有統一的、權威的研究視角和方法。研究人員從多個層面出發,提出了反釣魚的方法和機制。

⑴ 基于人工判定和質量評價的黑名單技術

該類技術通過維護一個黑名單來阻止用戶對已發現的釣魚網站的訪問。黑名單的建立主要通過人工舉報和審查,或者用戶群對網站質量評價來完成,例如:Cloudmark的黑名單是由大量用戶對網站的評級來維護,IE和Firefox等瀏覽器通過用戶舉報實時更新釣魚網頁黑名單[1]。

⑵ 基于規則的啟發式檢測技術

利用釣魚網站的特征自動判斷網站真偽,如SpoofGuard分析釣魚網站啟發式特征,包括主機域名、網頁圖片、頁面鏈接等判斷真假;Zhang等人提出通過對網頁文本內容的特征定義網站身份,然后利用搜索引擎的結果來判斷網站真偽;Fu等人提出的EMS算法是通過計算兩個網頁的視覺相似性來判斷是否為釣魚網頁[2]。

⑶ 基于統計機器學習的模式分類技術

該類技術是將釣魚攻擊檢測視為一個二元分類問題,即如何判定未知網頁為正常網頁或釣魚網頁。一般采用統計學習的方法建立分類模型,如Likarish等人借鑒垃圾郵件的檢測方法,建立釣魚特征貝葉斯過濾器;Ma等人通過對 URL黑白名單的字符串特征的統計學習,形成基于URL的分類器[3]。

以上三類方法各有利弊。黑名單檢測結果準確可靠,但實時性差,并浪費大量人工資源;啟發式檢測方法可實時檢測釣魚網站,若檢測規則加入人工干預后準確性極高,但魯棒性稍差;基于機器學習的模式分類技術有很好的魯棒性,檢出率也較高,但是準確性不如啟發式檢測,且需要大量釣魚樣本訓練分類器。本文提出一種基于URL的貝葉斯二值分類方法,首先利用編輯距離尋找與已知域名相近的域名,提取域名單詞最大匹配特征、域名分割特征和URL分割特征,然后用上述特征訓練貝葉斯分類器,根據給定特征屬于哪一類的概率判斷是否為釣魚URL。

1 基于URL的釣魚檢測方法

基于URL的釣魚檢測主要分為兩種:一是根據URL檢索與之相似的域名,以發現潛在釣魚網站;二是用機器學習的方法判斷URL是否為釣魚URL。

1.1 基于域名分割的相似度判斷

許多釣魚網站采用混淆域名的方法蒙蔽用戶,如中國工商銀行(www.icbc.com.cn)的一個釣魚網站就是www.1cbc.com.cn。通過分析二者的相似度可判斷是否為釣魚網站。首先利用“.”對網站域名分割域名,如對www.icbc.com.cn分割為:“www”、“icbc”、“com”、“cn”;然后對各部分相似度匹配,匹配原則為判斷域名長度是否一致,并將各部分的相似度相加,結果若與分割后的部分越接近說明相似度越高。這種方法會造成一個域名可能產生大量相似域名,因而只能作為初步判斷之用[4]。

1.2 基于字符串編輯距離的相似度判斷

編輯距離表示一個字符串經過多少次增加、刪除及修改轉化為另一字符串,編輯距離越小,字符串越相似。如果2個字符串為空,則編輯距離為0;如果2個字符串中一個是空,則ed(ε,s)=|s|;其余情況用式⑴計算:

1.3 域名單詞最大匹配得到的單詞特征

一般地,釣魚網站的域名包含英文單詞,本方法是與中文切詞的最大匹配方法類似,其算法流程如圖1所示。其中,域名分割單元是指用“.”把一個域名分割的部分。

2 基于貝葉斯分類器的釣魚檢測方法

本文用貝葉斯分類器檢測釣魚URL。貝葉斯分類器的理論基礎是貝葉斯理論,它根據給定樣本屬于某個類的概率進行分類[6]。假設在給定類別的情況下,數據x服從一定的概率分布,如果類型為正,則x出現的概率為P(x|class=+1)。因此,后驗概率Pr(class=+1|x)可用下式計算:

其中,xj是向量x的第j個元素。

根據一個類別在訓練數據中出現的頻率計算先驗概率P(x|class=+1)和Pr(class=-1),對于x,P(x)是一個常數,樸素貝葉斯算法僅給出類型元素分布的估計,用以下兩種方式估計該分布。

⑴ 正規密度。給定一個類別,假定元素值趨于正態分布。對每個xj,P(xj|class=+1)和P(xj|class=-1)為帶均值和方差的正態分布,僅需估計均值和方差。由于已經訓練了樣本,可用訓練結果估計參數,用訓練數據的最大似然估計來獲得每個類型元素樣本的均值和方差。

⑵ 核密度。如果去除正態分布的假設,就可得到另一種估計P(xj|class=+1)和P(xj|class=-1)分布更強大的模型。

計算完P(xj|class=+1)和P(xj|class=-1)后,即可對x分類。如果Pr(class=+1|x)>Pr(class=-1|x),則x的類別為正,否則類別為負。

貝葉斯分類釣魚URL檢測流程如下:

具體步驟如下:

⑴ 獲取大量釣魚網站URL作為測試樣本;

⑵ 抽取URL特征;

⑶ 在抽取完特征值后生成訓練樣本,對貝葉斯分類器進行訓練;

⑷ 生成特征向量,用貝葉斯分類器作分類檢測,最終判斷是否為釣魚網站的URL地址。

3 實驗與結果分析

實驗所用數據中釣魚 URL數據來自安全聯盟和http://www.phishtank.com共計有19247個,而正常URL的個數是15145。通過編寫爬蟲程序,從網站下載網頁后把網頁解析為DOM樹,然后將網站中的URL信息提取出來。本文采用僅單詞匹配和單詞匹配與URL分割二者結合后,釣魚網站檢測的準確率對比圖如圖3所示,其中X坐標代表測試中URL數據所占百分數,Y坐標代表準確率,WM表示采用僅單詞匹配的實驗結果,WM+US表示單詞匹配與URL分割二者結合后的實驗結果。從圖3中可看出,采用WM+US的檢測準確率更高。

4 結束語

目前網絡釣魚檢測已是電子商務發展的需要,其科學意義和應用價值正受到世界各國學術界、工業界的普遍重視。本文介紹了當前釣魚檢測所涉及的相關技術,對基于編輯距離和單詞匹配的貝葉斯釣魚分類檢測技術進行了深入研究。該分類器根據編輯距離找出與給定域名的相似域名,從域名信息中提取域名單詞最大匹配特征、域名分割特征和URL分割特征訓練貝葉斯釣魚分類器,用來判定未知的URL是否為釣魚URL。實驗結果表明,該方法能有效提高判斷的準確性。

參考文獻:

[1] Cao Jiuxin, Dong Dan, Mao Bo, Wang Tianfeng,Phishing detection method based on URL features[J].Journal of Sourtheast University,2013.2(29):134-138

[2] Ma J, Saul L K, Savage S, et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]//Proc. of the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Paris, France: [s. n.],2009:1245-1254

[3] Bilge L, Kirda E, Kruegel C, et al. EXPOSURE: Finding

Malicious Domains Using Passive DNS Analysis[C]//Proc. of the 18th Annual Network & Distributed System Security Symposium. California,USA: [s. n.],2011:1-17

[4] 鄭禮雄,李青山,李素科,袁春陽.基于域名信息的釣魚URL探測[J].計算機工程,2012.38(10):108-110

[5] 藺亞東.基于URL特征的釣魚網站檢測方式[J].電子測試,2014.3:70-72

[6] 鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計算機應用研究,2009.26(9):3418-3421

主站蜘蛛池模板: 综合亚洲网| 亚洲成人精品| 国产成人欧美| 国产女人18毛片水真多1| 国产日本一线在线观看免费| 亚洲V日韩V无码一区二区| 永久免费av网站可以直接看的 | 亚洲浓毛av| 99久久精品无码专区免费| 国内精品视频| 成年网址网站在线观看| 伊人婷婷色香五月综合缴缴情| jizz在线观看| 亚洲日韩久久综合中文字幕| 999精品在线视频| 国产杨幂丝袜av在线播放| 国产产在线精品亚洲aavv| 啪啪免费视频一区二区| 欧亚日韩Av| AV熟女乱| 国产精品无码久久久久久| 久操中文在线| 激情综合婷婷丁香五月尤物| 成年人国产视频| 国产在线日本| 亚洲无码高清免费视频亚洲 | 91视频精品| 免费毛片a| 久久a毛片| 亚洲最大福利网站| 亚洲一区二区三区麻豆| 在线免费a视频| 夜色爽爽影院18禁妓女影院| 中文字幕欧美成人免费| 香蕉久久国产超碰青草| 国产在线精彩视频论坛| 夜夜操国产| 粗大猛烈进出高潮视频无码| 国产区91| 成人福利在线看| 国产一区二区三区在线观看视频| 992tv国产人成在线观看| 国产综合色在线视频播放线视 | 亚洲精品视频免费看| 真实国产精品vr专区| 国产青青草视频| 国产精品黄色片| 免费毛片网站在线观看| 国产97公开成人免费视频| 手机看片1024久久精品你懂的| 秘书高跟黑色丝袜国产91在线| 丰满人妻被猛烈进入无码| 国模私拍一区二区| 国产凹凸视频在线观看| 国产无码精品在线播放 | 老司机久久精品视频| 999国内精品久久免费视频| 国内毛片视频| 这里只有精品国产| 漂亮人妻被中出中文字幕久久| 五月婷婷欧美| 在线无码av一区二区三区| 国产精品极品美女自在线| 免费网站成人亚洲| 四虎精品国产永久在线观看| 日韩在线永久免费播放| 中文字幕在线视频免费| 国产午夜福利在线小视频| 婷婷五月在线视频| 国产精品男人的天堂| 国产精品青青| 国产一级毛片网站| 国产精品永久在线| 日本在线亚洲| 国产不卡一级毛片视频| 在线观看无码av免费不卡网站| 999国产精品永久免费视频精品久久| 99伊人精品| 亚洲一区毛片| 国产精品无码久久久久久| 欧美特级AAAAAA视频免费观看| 都市激情亚洲综合久久|