999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單詞匹配和編輯距離的釣魚貝葉斯檢測器研究

2015-05-30 10:48:04朱超群等
計算機時代 2015年5期

朱超群等

摘 要: 網絡釣魚是目前信息安全領域的一個研究熱點,基于域名信息的釣魚檢測是使用較為廣泛的一種方法。文章利用編輯距離尋找與已知正常域名相近的域名,根據域名信息提取域名單詞最大匹配特征、域名分割特征和URL分割特征,利用這些特征訓練貝葉斯分類器,根據給定特征屬于哪一類的概率來判斷此URL是否為釣魚URL,實驗結果表明該方法能有效提高判斷準確性。

關鍵詞: 釣魚檢測; 單詞匹配; 編輯距離; 貝葉斯分類器

中圖分類號:TP309 文獻標志碼:A 文章編號:1006-8228(2015)05-16-03

Abstract: Phishing is one of the research hotspot in the field of information security at present, and URL based phishing detection is a method used widely. This paper proposes a phishing detection method which searches approximate normal domain names by calculating edit distance firstly. Then domain name word maximum match features, domain name segmentation features and URL segmentation features are extracted according to the domain name information. Finally, a bayes binary classifier, which is trained by using these features, can distinguish whether a URL is phishing URL or not. The experimental results show that this method can effectively improve the judgment accuracy.

Key words: phishing detection; words matching; edit distance; bayes classifier

0 引言

目前電子商務、網絡銀行逐漸走入人們的日常生活,商務類應用呈上升趨勢,與此同時,互聯網絡安全問題十分嚴峻,其中網絡釣魚攻擊作為當今在線交易和電子商務所面臨的最危險的欺詐形式已越來越成為關注的焦點。

反釣魚技術涉及領域極廣,應用場景和問題領域多種多樣,目前并沒有統一的、權威的研究視角和方法。研究人員從多個層面出發,提出了反釣魚的方法和機制。

⑴ 基于人工判定和質量評價的黑名單技術

該類技術通過維護一個黑名單來阻止用戶對已發現的釣魚網站的訪問。黑名單的建立主要通過人工舉報和審查,或者用戶群對網站質量評價來完成,例如:Cloudmark的黑名單是由大量用戶對網站的評級來維護,IE和Firefox等瀏覽器通過用戶舉報實時更新釣魚網頁黑名單[1]。

⑵ 基于規則的啟發式檢測技術

利用釣魚網站的特征自動判斷網站真偽,如SpoofGuard分析釣魚網站啟發式特征,包括主機域名、網頁圖片、頁面鏈接等判斷真假;Zhang等人提出通過對網頁文本內容的特征定義網站身份,然后利用搜索引擎的結果來判斷網站真偽;Fu等人提出的EMS算法是通過計算兩個網頁的視覺相似性來判斷是否為釣魚網頁[2]。

⑶ 基于統計機器學習的模式分類技術

該類技術是將釣魚攻擊檢測視為一個二元分類問題,即如何判定未知網頁為正常網頁或釣魚網頁。一般采用統計學習的方法建立分類模型,如Likarish等人借鑒垃圾郵件的檢測方法,建立釣魚特征貝葉斯過濾器;Ma等人通過對 URL黑白名單的字符串特征的統計學習,形成基于URL的分類器[3]。

以上三類方法各有利弊。黑名單檢測結果準確可靠,但實時性差,并浪費大量人工資源;啟發式檢測方法可實時檢測釣魚網站,若檢測規則加入人工干預后準確性極高,但魯棒性稍差;基于機器學習的模式分類技術有很好的魯棒性,檢出率也較高,但是準確性不如啟發式檢測,且需要大量釣魚樣本訓練分類器。本文提出一種基于URL的貝葉斯二值分類方法,首先利用編輯距離尋找與已知域名相近的域名,提取域名單詞最大匹配特征、域名分割特征和URL分割特征,然后用上述特征訓練貝葉斯分類器,根據給定特征屬于哪一類的概率判斷是否為釣魚URL。

1 基于URL的釣魚檢測方法

基于URL的釣魚檢測主要分為兩種:一是根據URL檢索與之相似的域名,以發現潛在釣魚網站;二是用機器學習的方法判斷URL是否為釣魚URL。

1.1 基于域名分割的相似度判斷

許多釣魚網站采用混淆域名的方法蒙蔽用戶,如中國工商銀行(www.icbc.com.cn)的一個釣魚網站就是www.1cbc.com.cn。通過分析二者的相似度可判斷是否為釣魚網站。首先利用“.”對網站域名分割域名,如對www.icbc.com.cn分割為:“www”、“icbc”、“com”、“cn”;然后對各部分相似度匹配,匹配原則為判斷域名長度是否一致,并將各部分的相似度相加,結果若與分割后的部分越接近說明相似度越高。這種方法會造成一個域名可能產生大量相似域名,因而只能作為初步判斷之用[4]。

1.2 基于字符串編輯距離的相似度判斷

編輯距離表示一個字符串經過多少次增加、刪除及修改轉化為另一字符串,編輯距離越小,字符串越相似。如果2個字符串為空,則編輯距離為0;如果2個字符串中一個是空,則ed(ε,s)=|s|;其余情況用式⑴計算:

1.3 域名單詞最大匹配得到的單詞特征

一般地,釣魚網站的域名包含英文單詞,本方法是與中文切詞的最大匹配方法類似,其算法流程如圖1所示。其中,域名分割單元是指用“.”把一個域名分割的部分。

2 基于貝葉斯分類器的釣魚檢測方法

本文用貝葉斯分類器檢測釣魚URL。貝葉斯分類器的理論基礎是貝葉斯理論,它根據給定樣本屬于某個類的概率進行分類[6]。假設在給定類別的情況下,數據x服從一定的概率分布,如果類型為正,則x出現的概率為P(x|class=+1)。因此,后驗概率Pr(class=+1|x)可用下式計算:

其中,xj是向量x的第j個元素。

根據一個類別在訓練數據中出現的頻率計算先驗概率P(x|class=+1)和Pr(class=-1),對于x,P(x)是一個常數,樸素貝葉斯算法僅給出類型元素分布的估計,用以下兩種方式估計該分布。

⑴ 正規密度。給定一個類別,假定元素值趨于正態分布。對每個xj,P(xj|class=+1)和P(xj|class=-1)為帶均值和方差的正態分布,僅需估計均值和方差。由于已經訓練了樣本,可用訓練結果估計參數,用訓練數據的最大似然估計來獲得每個類型元素樣本的均值和方差。

⑵ 核密度。如果去除正態分布的假設,就可得到另一種估計P(xj|class=+1)和P(xj|class=-1)分布更強大的模型。

計算完P(xj|class=+1)和P(xj|class=-1)后,即可對x分類。如果Pr(class=+1|x)>Pr(class=-1|x),則x的類別為正,否則類別為負。

貝葉斯分類釣魚URL檢測流程如下:

具體步驟如下:

⑴ 獲取大量釣魚網站URL作為測試樣本;

⑵ 抽取URL特征;

⑶ 在抽取完特征值后生成訓練樣本,對貝葉斯分類器進行訓練;

⑷ 生成特征向量,用貝葉斯分類器作分類檢測,最終判斷是否為釣魚網站的URL地址。

3 實驗與結果分析

實驗所用數據中釣魚 URL數據來自安全聯盟和http://www.phishtank.com共計有19247個,而正常URL的個數是15145。通過編寫爬蟲程序,從網站下載網頁后把網頁解析為DOM樹,然后將網站中的URL信息提取出來。本文采用僅單詞匹配和單詞匹配與URL分割二者結合后,釣魚網站檢測的準確率對比圖如圖3所示,其中X坐標代表測試中URL數據所占百分數,Y坐標代表準確率,WM表示采用僅單詞匹配的實驗結果,WM+US表示單詞匹配與URL分割二者結合后的實驗結果。從圖3中可看出,采用WM+US的檢測準確率更高。

4 結束語

目前網絡釣魚檢測已是電子商務發展的需要,其科學意義和應用價值正受到世界各國學術界、工業界的普遍重視。本文介紹了當前釣魚檢測所涉及的相關技術,對基于編輯距離和單詞匹配的貝葉斯釣魚分類檢測技術進行了深入研究。該分類器根據編輯距離找出與給定域名的相似域名,從域名信息中提取域名單詞最大匹配特征、域名分割特征和URL分割特征訓練貝葉斯釣魚分類器,用來判定未知的URL是否為釣魚URL。實驗結果表明,該方法能有效提高判斷的準確性。

參考文獻:

[1] Cao Jiuxin, Dong Dan, Mao Bo, Wang Tianfeng,Phishing detection method based on URL features[J].Journal of Sourtheast University,2013.2(29):134-138

[2] Ma J, Saul L K, Savage S, et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]//Proc. of the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Paris, France: [s. n.],2009:1245-1254

[3] Bilge L, Kirda E, Kruegel C, et al. EXPOSURE: Finding

Malicious Domains Using Passive DNS Analysis[C]//Proc. of the 18th Annual Network & Distributed System Security Symposium. California,USA: [s. n.],2011:1-17

[4] 鄭禮雄,李青山,李素科,袁春陽.基于域名信息的釣魚URL探測[J].計算機工程,2012.38(10):108-110

[5] 藺亞東.基于URL特征的釣魚網站檢測方式[J].電子測試,2014.3:70-72

[6] 鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計算機應用研究,2009.26(9):3418-3421

主站蜘蛛池模板: 国产最新无码专区在线| 亚洲妓女综合网995久久| 免费A级毛片无码无遮挡| 欧美日韩一区二区三区四区在线观看| 一本二本三本不卡无码| 国产精品极品美女自在线| 免费中文字幕一级毛片| 国产性生大片免费观看性欧美| 欧美日本一区二区三区免费| 亚洲国产欧洲精品路线久久| 制服丝袜在线视频香蕉| 波多野结衣一二三| 婷婷久久综合九色综合88| 亚洲欧美自拍中文| 被公侵犯人妻少妇一区二区三区| 欧美a√在线| 亚洲香蕉在线| 91色在线视频| 国产在线精品美女观看| 国产网友愉拍精品视频| 国产h视频在线观看视频| 国产一区二区三区日韩精品| 国产女人综合久久精品视| 青青青国产视频手机| 国产福利一区二区在线观看| 亚洲成综合人影院在院播放| lhav亚洲精品| 亚洲视频四区| 欧美综合中文字幕久久| 亚洲一区国色天香| 国产在线视频自拍| 又爽又大又黄a级毛片在线视频 | 国产无码网站在线观看| 久热这里只有精品6| 99re热精品视频国产免费| a级毛片一区二区免费视频| 亚洲天堂视频在线观看| 日韩精品无码不卡无码| 亚洲AV无码乱码在线观看裸奔| 成人在线观看不卡| 无码综合天天久久综合网| 国产欧美在线观看精品一区污| 精品国产成人a在线观看| 色哟哟精品无码网站在线播放视频| 欧美亚洲国产精品第一页| 色偷偷综合网| 正在播放久久| 热久久综合这里只有精品电影| 亚洲精品欧美重口| 91精品专区国产盗摄| 亚洲三级网站| 亚洲成人一区在线| 永久成人无码激情视频免费| 欧美成人午夜视频免看| 亚洲精品视频免费观看| 亚洲AV免费一区二区三区| 亚洲乱伦视频| 国产欧美中文字幕| 成人福利在线观看| 毛片一区二区在线看| 91免费精品国偷自产在线在线| 91www在线观看| 国产一级精品毛片基地| 四虎成人免费毛片| 毛片手机在线看| 亚洲欧洲日本在线| 久久免费看片| 婷婷午夜影院| 波多野结衣亚洲一区| av一区二区三区在线观看| 国产精品亚洲а∨天堂免下载| 亚洲男人天堂久久| 亚洲欧美极品| 99性视频| 黄色成年视频| 国产免费黄| 成年片色大黄全免费网站久久| 99视频精品全国免费品| 在线观看无码av五月花| 国产成人一二三| 国产精品护士| 国产精品嫩草影院视频|