999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的釣魚網(wǎng)站識別研究*

2016-01-27 02:09:56何禹德,劉銘
通化師范學院學報 2015年12期

?

基于決策樹的釣魚網(wǎng)站識別研究*

何禹德,劉銘

(長春工業(yè)大學 基礎科學學院,吉林 長春 130012)

摘要:在現(xiàn)代社會中,網(wǎng)上交易變得越來越流行,但是也帶來了一些值得深思的問題,例如旨在竊取個人信息,如密碼、銀行賬戶和信用卡信息的網(wǎng)絡釣魚變得猖獗起來.面對這種境況,研究人員提出了多種網(wǎng)絡釣魚網(wǎng)站的檢測方法,例如,以黑名單為基礎的技術、啟發(fā)式的搜索技術等.然而,由于保護技術低效,受害者的數(shù)量一直在增加.該文分析了釣魚網(wǎng)站的主要特征并分別利用兩種決策樹算法對釣魚網(wǎng)站進行了識別研究.其中隨機森林算法的分類正確率達到了96.5%,達到了釣魚網(wǎng)站識別的要求.

關鍵詞:決策樹;隨機森林;釣魚網(wǎng)站;識別

互聯(lián)網(wǎng)作為當今重要的信息傳播媒介,它對于普通個人用戶和企業(yè)都極為重要.然而,互聯(lián)網(wǎng)的用戶可能會受到不同類型的網(wǎng)絡威脅,可能導致經(jīng)濟損失,身份盜竊,隱私信息丟失,企業(yè)品牌聲譽和口碑受損,使電子商務和網(wǎng)上銀行出現(xiàn)難以衡量的損失.因此,互聯(lián)網(wǎng)的商業(yè)交易開始引發(fā)人們的質(zhì)疑.網(wǎng)絡釣魚被認為是冒充其他合法、誠信的企業(yè),旨在獲取私人信息從而達到非法獲利的網(wǎng)絡威脅行為.釣魚網(wǎng)站是通過非法手段制作冒充正品網(wǎng)站的網(wǎng)頁.這類網(wǎng)站與合法網(wǎng)站有很高的視覺相似性.釣魚網(wǎng)站已經(jīng)成為一個嚴重的問題,此類網(wǎng)站設計策略的精明,即使有計算機和互聯(lián)網(wǎng)安全隱患意識的用戶也可能會被欺騙.較為傳統(tǒng)的網(wǎng)絡釣魚攻擊通過發(fā)送看似來自一個企業(yè)受害人要求確認或修改他們個人信息的電子郵件以達到目的,在此類郵件中不法分子往往添加的鏈接就是釣魚網(wǎng)址.盡管釣魚者們使用了多種技術創(chuàng)建釣魚網(wǎng)站,但他們都是使用模板來創(chuàng)建釣魚網(wǎng)站,我們還是能從中發(fā)現(xiàn)一些規(guī)律和特征,這就為釣魚網(wǎng)站識別提供了基礎.

總體上,業(yè)內(nèi)確定網(wǎng)絡釣魚站點主要有兩種方法.第一種是基于一個黑名單集的方法,該方法是將用戶所請求的URL與已經(jīng)收錄的釣魚網(wǎng)站列表進行比較.這種方法的缺點是通常黑名單不能涵蓋所有的釣魚網(wǎng)站,因為據(jù)統(tǒng)計,在世界范圍內(nèi)每幾秒鐘就有一個新的欺詐網(wǎng)站被推出.第二種方法被稱為基于啟發(fā)式的搜索方法,該方法先從網(wǎng)站收集多個特征,并建立相應的分類模型.請求的URL會被系統(tǒng)自動歸類從而判定其是否是釣魚.啟發(fā)式方法區(qū)分網(wǎng)站類型的準確性取決于使用的判別函數(shù).

本文在決策樹算法和網(wǎng)絡釣魚的相關研究背景下,提出了基于決策樹的釣魚網(wǎng)站識別技術.在實際實驗中,決策樹模型對于釣魚網(wǎng)站的分類識別率較高,為釣魚網(wǎng)站識別提供了技術和方法.

1相關算法

決策樹作為一種從數(shù)據(jù)中生成分類器的有效方法,其在機器學習和應用統(tǒng)計中得到了廣泛地應用.決策樹是有指導學習的分層模型,它通過檢驗函數(shù)的決策節(jié)點,在一系列遞歸的分支處識別出局部區(qū)間.

1.1CART算法

CART(Classification and Regression Tree)是由Breiman等人于1984提出的[1],該算法使用具有分裂標準的遞歸分區(qū)技術來創(chuàng)建節(jié)點,而樹的建立是依據(jù)已創(chuàng)建的并按照相應分裂標準及函數(shù)而分裂的節(jié)點.在了解分裂標準前,我們需要認識什么是最好的分裂點.分裂標準的好壞是由一個方差函數(shù)來衡量的,生成的函數(shù)對于每一個分裂點都能計算出最佳的分裂.不同的標準可以定義分裂為fi,例如用基尼系數(shù)來度量數(shù)據(jù)的不純度[2]:

Gini(t)=1-∑ fi2

CART算法的基本過程主要有分裂、剪枝和樹選擇等,分裂過程是一個二叉遞歸劃分過程,預測屬性和目標屬性的類型既可以是連續(xù)的也可以是離散的.數(shù)據(jù)分裂的過程是從根節(jié)點開始的,最早是根節(jié)點分裂出兩個子節(jié)點,而后每個子節(jié)點再繼續(xù)分裂出兩個子節(jié)點.此過程一直進行到?jīng)]有數(shù)據(jù)可分時結(jié)束.

對于剪枝過程,CART利用了代價復雜度剪枝的新剪枝方法,此方法從最大的樹開始,每次選擇訓練數(shù)據(jù)上對整體性能貢獻最小的那個分裂作為下一個剪枝對象,如此直到只剩下根節(jié)點.

因此,CART就會產(chǎn)生一系列嵌套的剪枝樹,需要從中選出一棵作為最優(yōu)的決策樹.故在樹選擇過程中需要用一份單獨的測試數(shù)據(jù)來評估每棵剪枝樹的預測性能.

CART方法的主要優(yōu)點是它對異常點和干擾數(shù)據(jù)的抵抗力強.分區(qū)算法通常能把異常點隔離到個別節(jié)點上.此外,CART的一個重要實用價值是其分類樹或回歸樹的結(jié)構不會隨著自變量的轉(zhuǎn)換而變化.

1.2 隨機森林算法

在模式識別領域,隨機森林成為一種比較流行的機器學習算法.隨著它在各領域的應用越來越豐富,其優(yōu)勢表現(xiàn)在對于有限的樣本大小,復雜的數(shù)據(jù)結(jié)構,以及多維特征空間問題的處理上.

隨機森林使用多個由隨機選擇的變量生成的獨立決策樹,在樹建立后,通過一些算法找到最好的類.隨機森林是集成了多個樹型分類器{K(x,αi),i=1,2,…,n}的集成分類器.采用CART算法構建的沒有剪枝的分類回歸樹作為基分類器K(x,αi);其中x是輸入向量,αi是獨立同分布的隨機向量,決定了單棵樹的生長過程;森林的輸出采用簡單多數(shù)投票法(針對分類)或單棵樹輸出結(jié)果的簡單平均(針對回歸)得到[3].

算法主要特點:

(1)隨機選擇訓練集:使用袋外法生成每棵樹的訓練集;

(2)隨機選擇分裂屬性集:假設共有Y個屬性,選定一個屬性數(shù)X≤Y,在每個內(nèi)部結(jié)點,從Y個屬性中隨機抽取X個屬性作為分裂屬性集,以這X個屬性上最好的分裂方式對結(jié)點進行分裂[4];

(3)每棵樹都不做剪枝處理.

2釣魚網(wǎng)站識別研究介紹

釣魚網(wǎng)站成為不法分子竊取用戶隱私信息、網(wǎng)絡詐騙的主要方式,已嚴重威脅到世界互聯(lián)網(wǎng)安全.在世界范圍內(nèi),網(wǎng)絡釣魚已造成大量用戶財產(chǎn)經(jīng)濟損失,也使得被釣魚網(wǎng)站遭受不可估量的損失.據(jù)中國反釣魚網(wǎng)站聯(lián)盟處理簡報顯示,截至2015年4月份,聯(lián)盟累計認定并處理釣魚網(wǎng)站230 740個[5].其中被釣魚的絕大部分是電商、銀行等與電子金融相關的行業(yè).

2.1數(shù)據(jù)來源及介紹

本文所用數(shù)據(jù)來源于UCI的Phishing Websites數(shù)據(jù)集[6],該數(shù)據(jù)集是由哈德斯菲爾德大學的研究人員R. M. A Mohammad提供的,數(shù)據(jù)主要采集自PhishTank記錄、MillerSmiles 記錄,以及Google搜索.數(shù)據(jù)集中共計2 456條有效網(wǎng)站記錄,數(shù)據(jù)屬性共計30個.

2.2疑似釣魚網(wǎng)站識別

通常地,若網(wǎng)站存在以下行為則可以列為疑似釣魚網(wǎng)站:

(1)IP地址判別:部分釣魚網(wǎng)站在URL中利用IP替換域名;

(2)URL長度判別:部分釣魚網(wǎng)站使用超長的URL來隱藏信息;

(3)短地址:部分釣魚網(wǎng)站使用短地址來隱藏信息,從而迷惑用戶;

(4)異常符號判別:

1) 部分釣魚網(wǎng)站在URL使用“@”來使瀏覽器忽略“@”符號之前的真正地址;

2) URL中存在“//”則可能被重新定向到另一個網(wǎng)站;

3) URL中存在“-”,一般“-”很少用于合法的URL.

(5)HTTPS是合法網(wǎng)站的一個非常重要的標志,但是隨著技術的發(fā)展,必須檢查HTTPS的證書可信度,年限等;

(6)注冊時間識別:一般地,釣魚網(wǎng)站由于大量反釣魚和舉報,其存在期都較短,因此這類網(wǎng)站的注冊時間都較短.

2.3主要的數(shù)據(jù)說明

表1 數(shù)據(jù)屬性說明表

表2 兩種算法性能對比

3試驗與結(jié)果分析

本文選用的數(shù)據(jù)集中共計1 094個釣魚網(wǎng)站,1 362個合法網(wǎng)站.選擇數(shù)據(jù)集中的66%為訓練集,剩下的34%為測試集.測試集中含釣魚網(wǎng)站379個,合法網(wǎng)站456個.利用兩種決策樹模型得到釣魚網(wǎng)站識別的結(jié)果.

由表2中的對比分析得到,隨機森林算法在釣魚網(wǎng)站分類中的準確率達到了96.5269%,高于CART算法的94.9701%.此外,雖然在耗時上CART少于隨機森林算法,但是隨機森林的Kappa統(tǒng)計量高于CART算法,說明隨機森林算法在釣魚網(wǎng)站識別中具有更高的一致性.

4結(jié)論

本文研究了網(wǎng)絡釣魚行為,對釣魚網(wǎng)站的特征進行了分析,利用CART算法和隨機森林算法對實際釣魚網(wǎng)站數(shù)據(jù)進行了實際驗證性研究.結(jié)果發(fā)現(xiàn)隨機森林算法在釣魚網(wǎng)站分類中具有更高的準確率,其準確率達到了96.52%.此次研究也證明了決策樹算法在釣魚網(wǎng)站識別中的有效性和準確性.

參考文獻:

[1]Kristensen P,Judge M E,Thim L,et al.Hypothalamic CART is a new anorectic peptide regulated by leptin[J].Nature,1998,393(6680):72-76.

[2]Breiman L,Friedman J,Stone C J,et al.Classification and regression trees[M].CRC press,1984.

[3]溫廷新,張波,邵良杉.煤與瓦斯突出預測的隨機森林模型[J].Computer Engineering and Applications,2014,50(10):233-237.

[4]李海生.基于證據(jù)理論的分類方法研究[D].廣州:華南理工大學,2013.

[5]APAC2015年4月釣魚網(wǎng)站處理簡報[EB/OL].http://apac.org.cn/gzdt/qwfb/

[6]UCI數(shù)據(jù)集[EB/OL].http://archive.ics.uci.edu/ml/datasets/Phishing+Websites

(責任編輯:王前)

Research on Identification of Phishing Websites Based on Decision Tree

HE Yu-de, LIU Ming

(CollegeofBasicScience,ChangchunUniversityofTechnology,ChangChun,Jilin130012,China)

Abstract:In this paper, the main characteristics of phishing websites is analyzed and two decision tree algorithms are separately used for identifying study on phishing websites. According to the studies, Random Forest algorithm, whose classification accuracy rate is 96.5%, meet all identifying requirements of phishing websites.

Keywords:Decision Tree; Random Forests; phishing Websites; Identification

中圖分類號:TP393.08

文獻標志碼:A

文章編號:1008-7974(2015)06-0060-03

作者簡介:何禹德,男,四川巴中人,碩士研究生;劉銘,男,吉林白山人,副教授,碩士生導師,博士.

基金項目:國家自然科學基金項目“面向非平穩(wěn)信號的整體經(jīng)驗模態(tài)分解研究”(11301036);吉林省教育廳“十二五”科學技術研究項目“基于混合神經(jīng)網(wǎng)絡的森林火災預測研究”(吉教科合字2015第111號)

收稿日期:*2015-06-11

DOI:10.13877/j.cnki.cn22-1284.2015.12.019

主站蜘蛛池模板: www亚洲天堂| 日韩午夜片| 青草精品视频| 国产亚洲高清视频| 国产精品亚洲五月天高清| 欧美成人免费一区在线播放| 人妻无码中文字幕一区二区三区| 亚洲天堂久久久| 午夜性爽视频男人的天堂| 在线精品自拍| av一区二区三区高清久久| 成人字幕网视频在线观看| 亚洲天堂视频在线播放| 奇米精品一区二区三区在线观看| 久久96热在精品国产高清| 欧美日本在线一区二区三区 | 国产网站一区二区三区| 久久精品人妻中文系列| 国产交换配偶在线视频| 国产激情在线视频| 精品国产网站| 久久久精品无码一区二区三区| 97无码免费人妻超级碰碰碰| 国产导航在线| 国产黄视频网站| hezyo加勒比一区二区三区| 女人18毛片水真多国产| 欧美三級片黃色三級片黃色1| 在线国产综合一区二区三区 | 特级精品毛片免费观看| 亚洲天堂网在线播放| 色综合五月婷婷| 亚洲天堂首页| 国产成人一二三| 97se综合| 国产成人亚洲日韩欧美电影| 五月激情婷婷综合| 精品在线免费播放| 国产乱子伦视频在线播放| 小说区 亚洲 自拍 另类| 久夜色精品国产噜噜| 白浆免费视频国产精品视频 | 亚洲男女在线| 精品一区二区三区自慰喷水| 亚洲伊人天堂| 九九精品在线观看| 亚洲精品va| 免费不卡视频| 欧美成人一级| 亚洲成人动漫在线观看| 国产成人艳妇AA视频在线| 91人妻在线视频| 亚洲国产成人精品无码区性色| 亚洲三级片在线看| 好吊日免费视频| 狠狠色丁香婷婷综合| 国产一级毛片yw| 国产一区亚洲一区| 亚洲成人精品在线| 99久久国产精品无码| 国产欧美日韩91| 成人一级黄色毛片| 国产亚洲欧美在线中文bt天堂 | 国产精品第5页| 午夜国产大片免费观看| 国产麻豆91网在线看| 真实国产乱子伦高清| 亚洲天堂视频网站| 免费一级大毛片a一观看不卡| 国产永久在线视频| 欧美在线中文字幕| 亚洲αv毛片| 亚洲国产成人自拍| 中文字幕亚洲电影| 精品亚洲国产成人AV| 国产亚洲精品自在久久不卡| 久久一本日韩精品中文字幕屁孩| 日韩免费视频播播| 无码AV动漫| 制服丝袜一区| 91麻豆精品国产91久久久久| a毛片免费在线观看|