999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

適用于手機取證數(shù)據(jù)的權(quán)重計算方法①

2017-09-15 07:19:34肖程望余力耕
計算機系統(tǒng)應(yīng)用 2017年9期
關(guān)鍵詞:分類特征

肖程望,盧 軍,余力耕,張 弛

(武漢郵電科學(xué)研究院,武漢 430074)

適用于手機取證數(shù)據(jù)的權(quán)重計算方法①

肖程望,盧 軍,余力耕,張 弛

(武漢郵電科學(xué)研究院,武漢 430074)

傳統(tǒng)分類系統(tǒng)往往選擇樸素貝葉斯算法作為分類算法,在研究過程中,發(fā)現(xiàn)樸素貝葉斯模型(NBC)具有以下前提條件:所有特征互不影響,并且特征屬性的權(quán)重為1.研究后發(fā)現(xiàn)并非如此,在對數(shù)據(jù)進行分類時,有的特征可能對分類結(jié)果的影響較大,有的可能對結(jié)果影響較小.為了對算法進行優(yōu)化,需要給不同的特征附上不同的權(quán)重值,才能更加客觀的獲得分類結(jié)果.本文研究了兩種傳統(tǒng)的基于屬性權(quán)重的計算方法,同時考慮到手機取證數(shù)據(jù)的特點,提出兩種適應(yīng)于手機取證數(shù)據(jù)的改進權(quán)重計算方法,并對其改進原理進行研究,比較改進后的權(quán)重計算方法與傳統(tǒng)的權(quán)重計算方法,在使用相同分類算法與相同數(shù)據(jù)的情況下,對分類結(jié)果的影響.

手機取證;權(quán)重計算;分類算法

隨著信息技術(shù)飛速發(fā)展,智能手機已然成為人們?nèi)粘I钪斜夭豢缮俚墓ぞ?由于智能手機變得越來越流行,利用其進行犯罪活動的行為也越發(fā)的頻繁.這一愈發(fā)突出的現(xiàn)象,要求我們對手機取證方面進行相關(guān)研究,從中發(fā)現(xiàn)重點信息和需要重點關(guān)注的對象.

后前,基于手機取證數(shù)據(jù)的分析算法研究主要集中在兩個方面:一方面針對手機內(nèi)信息進行親密度分析,例如分析手機使用者與通訊錄內(nèi)各聯(lián)系人的親密度關(guān)系,主要利用各種分類算法,并對現(xiàn)有的分類算法進行改進,其中改進的方向主要集中在權(quán)重計算方法的改進與優(yōu)化上[1];另一方面針對手機內(nèi)信息進行關(guān)聯(lián)規(guī)則挖掘,例如通過Apriori、FP-tree等關(guān)聯(lián)規(guī)則挖掘算法分析團伙每個人手機中的信息,分析出犯罪團伙中的主要人物或關(guān)鍵人物[2].本文提出適應(yīng)于手機取證數(shù)據(jù)的改進權(quán)重計算方法,基于屬性頻率和變異系數(shù)的權(quán)重計算方法,并對其改進原理進行研究.最后通過實驗對權(quán)重計算準(zhǔn)確性進行驗證,證明本文提出的權(quán)重計算方法的準(zhǔn)確性.

1 算法分析

1.1 傳統(tǒng)權(quán)重計算方法分析

傳統(tǒng)分類系統(tǒng)往往選擇樸素貝葉斯算法作為分類算法,在研究過程中,發(fā)現(xiàn)樸素貝葉斯模型(NBC)具有以下前提條件:所有特征互不影響,并且特征屬性的權(quán)重為1.研究后發(fā)現(xiàn)并非如此,在對數(shù)據(jù)進行分類時,有的特征可能對分類結(jié)果的影響較大,有的可能對結(jié)果影響較小[3].為了對算法進行優(yōu)化,需要給不同的特征附上不同的權(quán)重值,才能更加客觀的獲得分類結(jié)果,下面分析兩種傳統(tǒng)的權(quán)重計算方法.

1.1.1 基于屬性頻率的權(quán)重計算方法

在對測試數(shù)據(jù)進行分類時,向量C為屬性條件集,其中分類樣本有n個可能出現(xiàn)的屬性,當(dāng)有m個訓(xùn)練樣本時,可以組成 m*n 階的矩陣,記為 M=(Mn)m*n.由屬性頻率定義可知,屬性在此矩陣中出現(xiàn)的頻率越高,那么重要性就越高,對分類結(jié)果的影響也就越大[4].式(1)表示了屬性a所對應(yīng)的屬性頻率,應(yīng)用在針對手機取證數(shù)據(jù)中的屬性權(quán)重分析時,需要依靠屬性的重要性對頻率值進行重新分配,得出式(2)的基于屬性頻率的權(quán)值計算方法.

為驗證算法的有效性,基于UCI數(shù)據(jù)庫,利用屬性頻率權(quán)重計算方法對不同數(shù)據(jù)集的屬性進行加權(quán)后,將不同的權(quán)重值帶入三種不同的分類算法中進行驗證,得出了如表1所示數(shù)據(jù).

1.1.2 基于相關(guān)系數(shù)的權(quán)重計算方法

相關(guān)關(guān)系是一種非確定性關(guān)系,相關(guān)系數(shù)是研究變量之間相互關(guān)聯(lián)程度的量.應(yīng)用在分類系統(tǒng)中時,設(shè)測試樣本具有n個條件屬性與1個決策屬性,可用Mi(i=1,2,3…n)和 N 表示,則可得第 i個特征屬性所對應(yīng)的權(quán)重系數(shù)[5],如式(3)所示:

表1 基于屬性頻率的權(quán)值計算方法實驗結(jié)果

式中 Cov(Mi,N)的計算方法為 E(Mi N)-E(Mi)E(N),由此式得出的特征屬性所對應(yīng)的權(quán)重系數(shù)為一個介于0到1之間的常數(shù),當(dāng)Wi為0時,表示此特征屬性對分類結(jié)果沒有影響,當(dāng)Wi為1時,表明此特征屬性對分類結(jié)果的影響較大,呈線性關(guān)系,并且當(dāng)Wi越趨近與1,影響越大,當(dāng)Wi趨近于0,特征屬性對分類結(jié)果的影響較小[6].由此可知,Wi表示特征屬性M與決策屬性之間的相關(guān)性程度,可應(yīng)用在手機取證分析系統(tǒng)中作為加權(quán)系數(shù)優(yōu)化分類結(jié)果.應(yīng)用上一節(jié)中所用數(shù)據(jù)庫,利用相關(guān)系數(shù)權(quán)重計算方法對不同數(shù)據(jù)集的屬性進行加權(quán)后,將不同的權(quán)重值帶入三種不同的分類算法中進行驗證,結(jié)果如表2所示.

表2 基于相關(guān)系數(shù)的權(quán)值計算方法實驗結(jié)果

1.2 適用于手機取證數(shù)據(jù)的權(quán)重計算方法

考慮到手機中提取出的數(shù)據(jù)具有,樣本小、屬性多的特點,以上兩種權(quán)重計算方法主要是針對數(shù)據(jù)量較大的情況,且都是從正向考慮特征屬性對分類結(jié)果的影響,應(yīng)用在手機取證中計算結(jié)果可能會不太準(zhǔn)確.并且屬性權(quán)重計算是分類算法中十分重要的一部分,下面對兩種改進后的權(quán)重計算方法進行研究,改進的理論依據(jù)在于,考慮到的信息量的熵值越大,其攜帶的信息越多,對分類結(jié)果的影響也就越大[7].

1.2.1 基于變異系數(shù)的權(quán)重計算方法

變異系數(shù)法(Coefficient of variation method)是一種客觀賦權(quán)的方法,在很多場合都有所應(yīng)用,理論依據(jù)為利用各個特征項所包含的信息大小,來決定各個特征項的權(quán)重值[8].因為在評價一類事物時,相互間差別越大的特征項越能表達這類事物的不同之處,更能反映相互之間的差別.針對手機取證中數(shù)據(jù)的特點,入變異系數(shù)作為計算特征屬性權(quán)重的一種方法.

將各屬性視為隨機變量Mi,任意隨機變量Mi的標(biāo)準(zhǔn)差與平均數(shù)的比值稱為對應(yīng)的變異系數(shù),記為CVi,可得到各屬性對應(yīng)權(quán)重.在評價通訊錄內(nèi)聯(lián)系人的親密度時,有多種評價標(biāo)準(zhǔn),例如:通話次數(shù)、通話時長、短信次數(shù)、短信中關(guān)鍵字詞的出現(xiàn)頻率、郵件聯(lián)系次數(shù)等等.由于各個指標(biāo)的量綱不同,不能直接拿來進行比較,需進行歸一化處理.考慮到概率計算后都為大于0小于1的數(shù),需進行比例逆運算,然后得到各個指標(biāo)的權(quán)重系數(shù).計算過程如下:

(1)對訓(xùn)練數(shù)據(jù)進行分析訓(xùn)練數(shù)據(jù),分別計算特征屬性的平均數(shù)和標(biāo)準(zhǔn)差;

(2)按式(4)計算出變異系數(shù)(均值與標(biāo)準(zhǔn)差的比值);

(3)將特征屬性所對應(yīng)的變異系數(shù)相加求和,然后進行歸一化處理;

(4)通過比例逆運算計算特征屬性所對應(yīng)的權(quán)重系數(shù).

通過變異系數(shù)法得出權(quán)重系數(shù),量化了不同特征屬性對分類結(jié)果的影響,可應(yīng)用在加權(quán)貝葉斯分類模型中,對分類算法進行優(yōu)化.

1.2.2 基于屬性頻率和變異系數(shù)的權(quán)重計算方法

基于屬性頻率的權(quán)重計算方法考慮到正向類別對分類結(jié)果的影響,例如某屬性出現(xiàn)頻率較高時,對分類類別的影響較大,然而,未能考慮到信息量的熵對分類結(jié)果的影響,比如某個屬性雖然出現(xiàn)頻率較低,但對分類結(jié)果具有決定性的影響.同時,基于變異系數(shù)的權(quán)重計算方法考慮到,相互間差別越大的特征項越能表達事物之間的不同之處,更能反映屬性之間的差距.舉例說明上述問題:從數(shù)據(jù)庫中隨機選取兩個特征項,利用兩種權(quán)重計算方法進行測試,結(jié)果如表3所示.

從上表可知,特征項1和特征項2有相同的屬性頻率,但所包含的信息量有區(qū)別,單從屬性頻率方面考慮不能得到準(zhǔn)確的屬性權(quán)重,賦予特征項1和特征項2相同的權(quán)重是不合適的.只有同時考慮到屬性頻率與變異系數(shù),得出的屬性權(quán)重才符合實際情況.因此,綜合考慮兩種算法的優(yōu)點與缺陷,入基于屬性頻率和變異系數(shù)的權(quán)重計算方法,計算公式如式(5)所示:

該方法理論依據(jù)為:在使用變異系數(shù)計算方法進行分析前,先從全局的角度使用基于屬性頻率的權(quán)重計算方法對各屬性的進行權(quán)重評估,然后通過變異系數(shù)計算方法對其進行改進,這樣便可以削弱特征屬性的頻率對各類別的代表性.這樣,在表 3 的例子中,特征項1比特征項2的權(quán)重要高,是因為特征項1所攜帶的信息量更多,增強了其類別的代表性.

2 算法設(shè)計與實現(xiàn)

本節(jié)主要實現(xiàn)在上一節(jié)中提出的四種權(quán)重計算方法,包括基于屬性頻率的權(quán)重計算、基于相關(guān)系數(shù)的權(quán)重計算和新提出的兩種更適用于手機取證數(shù)據(jù)的基于變異系數(shù)的權(quán)重計算和基于屬性頻率和變異系數(shù)的權(quán)重計算方法,并通過實驗進行比較,在得出各個算法的權(quán)重計算結(jié)果后,進行歸一化的處理.圖1展示特征屬性權(quán)重計算模塊的具體流程圖.

由于四種特征屬性權(quán)重計算方法的流程幾乎一樣,區(qū)別僅僅是計算公式不同,以下以基于屬性頻率的權(quán)重計算方法為例,圖2為此方法的偽代碼實現(xiàn).

3 實驗結(jié)果分析

本節(jié)主要對上一節(jié)中設(shè)計的分類器進行測試,通過使用四種特征屬性權(quán)重計算方法對10部真實手機內(nèi)數(shù)據(jù)的各個特征屬性進行加權(quán),包括通話時長/通話次數(shù)、短信聯(lián)系頻率、微信聊天頻率與短信關(guān)鍵詞出現(xiàn)頻率等,然后帶入三種分類算法中進行分析,同時利用經(jīng)典的F1評價方法對分類性能進行評估,如式(6)所示.

圖1 特征屬性的權(quán)重計算流程圖

圖2 特征權(quán)重計算偽代碼實現(xiàn)

從公式中可發(fā)現(xiàn),F1評價方法綜合考慮了正確率與召回率兩個參數(shù),當(dāng) F1 值較高時,分類效果較好,實驗結(jié)果如表4所示.

從實驗數(shù)據(jù)中可知:

(1)在基于屬性頻率權(quán)重計算方法、相關(guān)系數(shù)權(quán)重計算方法、基于變異系數(shù)權(quán)重計算方法與基于屬性頻率和變異系數(shù)權(quán)重計算方法中,基于屬性頻率和變異系數(shù)的權(quán)重計算方法準(zhǔn)確性最高;

(2)根據(jù)手機取證的數(shù)據(jù)具有小樣本、多屬性的特點,選擇基于變異系數(shù)的權(quán)重計算方法和改進后的基于屬性頻率和變異系數(shù)權(quán)重計算方法應(yīng)用在手機取證中,比傳統(tǒng)的權(quán)重計算方法表現(xiàn)得更好;

(3)在傳統(tǒng)計算機取證中應(yīng)用較好的基于相關(guān)系數(shù)和基于屬性頻率的權(quán)重計算方法F1值在0.8左右,然而對于手機取證的數(shù)據(jù)來說,更加關(guān)注召回率,在這方面,這兩種方法均沒有基于變異系數(shù)和改進的基于屬性頻率和變異系數(shù)的方法效果好;

(4)在傳統(tǒng)取證過程中運用較好的SVM和KNN分類算法,在手機取證中分類效果雖然整體來看效果較好,但是優(yōu)勢有限,在某些特征權(quán)重計算的優(yōu)化下,甚至不如NB分類算法.

表4 實驗結(jié)果

4 結(jié)語

本文著重對應(yīng)用在分類系統(tǒng)中的幾種不同權(quán)重計算方法進行了研究,并且基于手機取證中的數(shù)據(jù)特征,提出了更適用于手機取證數(shù)據(jù)的基于屬性頻率和變異系數(shù)的權(quán)重計算方法,使用測試數(shù)據(jù)對不同的方法進行了測試比較,分析算法的優(yōu)化原理,并且設(shè)計算法的實現(xiàn)步驟.通過對實驗結(jié)果的分析,證明本文提出的權(quán)重計算方法較為優(yōu)秀和穩(wěn)定.

同時,存在以下不足之處,需要進一步的研究:

(1)本文對各種不同分析方法的測試主要通過分類精度進行比較,而測試數(shù)據(jù)的親密度是人為評定的,有一定的誤差,后續(xù)需要收集更多的數(shù)據(jù)進行分析,以便得到更精確的數(shù)據(jù);

(2)還可對本文提出的算法繼續(xù)進行優(yōu)化,例如利用本文提出的方法和更多權(quán)重計算方法進行組合.

下一步的研究方向主要是考慮新的變異系數(shù)度量方法以便更進一步的提高分類性能,以及考慮各屬性的其他特征以及各屬性間的相關(guān)性.

1 周喜.基于粗糙集的加權(quán)樸素貝葉斯分類算法研究[碩士學(xué)位論文].長沙:長沙理工大學(xué),2013.

2 賈嫻,劉培玉,公偉.基于改進屬性加權(quán)的樸素貝葉斯入侵取證研究.計算機工程與應(yīng)用,2013,49(7):81–84.

3 劉磊,陳興蜀,尹學(xué)淵,等.基于特征加權(quán)樸素貝葉斯分類算法的網(wǎng)絡(luò)用戶識別.計算機應(yīng)用,2011,31(12):3268–3270.

4 徐光美,劉宏哲,張敬尊.基于特征加權(quán)的多關(guān)系樸素貝葉斯分類模型.計算機科學(xué),2014,41(10):283–285.[doi:10.11896/j.issn.1002-137X.2014.10.059]

5 饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進加權(quán)樸素貝葉斯分類算法.廈門大學(xué)學(xué)報(自然科學(xué)版),2012,51(4):682–685.

6 Huang LS,Moshchuk A,Wang HJ,et al.Clickjacking:Attacks and defenses.Proc.the 21st Usenix Conference on Security Symposium.Bellevue,WA,USA.2012.22.

7 Yao YY,Zhao Y.Attribute reduction in decision-theoretic rough set models.Information Sciences,2008,178(17):3356–3373.[doi:10.1016/j.ins.2008.05.010]

8 楊敏,賀興時.基于改進的加權(quán)貝葉斯分類算法在空間數(shù)據(jù)中的應(yīng)用.價值工程,2012,31(36):201–203.[doi:10.3969/j.issn.1006-4311.2012.36.101]

9 李衛(wèi)平,楊杰,王鋼.比例逆權(quán)重kNN算法及其流處理應(yīng)用.計算機工程與設(shè)計,2015,36(12):3355–3358.

10 秦鋒,任詩流,程澤凱,等.基于屬性加權(quán)的樸素貝葉斯分類算法.計算機工程與應(yīng)用,2008,44(6):107–109.

11 程克非,張聰.基于特征加權(quán)的樸素貝葉斯分類器.計算機仿真,2006,23(10):92–94,150.[doi:10.3969/j.issn.1006-9348.2006.10.024]

12 張明衛(wèi),王波,張斌,等.基于相關(guān)系數(shù)的加權(quán)樸素貝葉斯分類算法.東北大學(xué)學(xué)報(自然科學(xué)版),2008,29(7):952–955.

13 魯明羽,李凡,龐淑英,等.基于權(quán)值調(diào)整的文本分類改進方法.清華大學(xué)學(xué)報(自然科學(xué)版),2003,43(4):513–515.

14 陳曉琳,姬波,葉陽東.一種基于 ReliefF 特征加權(quán)的 R-NIC算法.計算機工程,2015,41(4):161–165.

15 王小麗,遠俊紅.基于加權(quán)樸素貝葉斯分類法的成績預(yù)測模型.電子技術(shù)與軟件工程,2013,(19):225–226.

Weight Calculation Method for Mobile Phone Forensics Data

XIAO Cheng-Wang,LU Jun,YU Li-Geng,ZHANG Chi
(Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China)

The traditional classification system often chooses the Naive Bayesian algorithm as the classification algorithm.In the course of the study,we find that the Naive Bayesian model(NBC)has the following conditions:all the characteristics do not mutually influence each other,and the feature attribute weights is 1.But we find that is not the case after a study.In the classification of data,some features may have a greater impact on the classification results,while some may have little impact.In order to optimize the algorithm,we need to attach different weights to different features,so as to obtain the classification results more objectively.This paper studies two kinds of calculation methods of attributing weight based on the traditional algorithm.At the same time,considering the characteristics of mobile phone forensic data,it proposes the calculation method of two kinds of improved weight suitable for mobile phone forensic data.This paper researches the improvement principle of research,compares the improved calculation method of weight with the traditional calculation method in their impacts on the classification results using the same classification algorithm with the same data.

mobile phone forensics;term weighting;method of forensics

肖程望,盧軍,余力耕,張弛.適用于手機取證數(shù)據(jù)的權(quán)重計算方法.計算機系統(tǒng)應(yīng)用,2017,26(9):200–204.http://www.c-s-a.org.cn/1003-3254/5995.html

2017-01-03;采用時間:2017-02-17

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學(xué)特征認識
如何表達“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产一级视频久久| 黄色污网站在线观看| 亚洲国产无码有码| 久久毛片网| 免费aa毛片| 欧美高清日韩| 午夜日b视频| 日韩视频福利| 国产精品久久久久鬼色| 亚洲精品手机在线| 日韩中文精品亚洲第三区| 国产视频大全| 一本无码在线观看| 高清久久精品亚洲日韩Av| 国产91小视频在线观看| 国产精品亚洲精品爽爽| 欧美亚洲网| 国产精品香蕉在线| 国产精品林美惠子在线播放| 亚洲成网777777国产精品| 狠狠干欧美| 国产人人干| 欧美日韩国产成人在线观看| 少妇极品熟妇人妻专区视频| 五月天综合婷婷| 成人第一页| 国产超薄肉色丝袜网站| 青青国产视频| 国产欧美精品一区二区| 波多野结衣在线se| 欧美日本激情| 午夜精品久久久久久久无码软件 | 东京热一区二区三区无码视频| 91日本在线观看亚洲精品| 亚洲欧美精品日韩欧美| 91久久夜色精品国产网站| 亚洲综合色区在线播放2019 | 色婷婷视频在线| 一本色道久久88综合日韩精品| 视频一区视频二区日韩专区| 欧美高清日韩| 久久亚洲国产视频| 女人av社区男人的天堂| 欧美一级特黄aaaaaa在线看片| 国产又色又爽又黄| 国内黄色精品| 久久网欧美| h网址在线观看| 青青久视频| 国产幂在线无码精品| 国产尤物视频在线| 广东一级毛片| 亚洲美女高潮久久久久久久| 婷五月综合| 伊人AV天堂| 亚洲精品少妇熟女| 国产乱人乱偷精品视频a人人澡| 国产精品lululu在线观看| 伊人丁香五月天久久综合| 亚洲国产日韩欧美在线| 亚洲国产天堂在线观看| 91成人试看福利体验区| 亚洲三级影院| 欧美成人综合在线| 精品无码人妻一区二区| 色偷偷综合网| 亚洲av日韩综合一区尤物| 国产内射在线观看| 亚洲三级a| 99无码熟妇丰满人妻啪啪| 欧美日韩国产在线观看一区二区三区 | 白丝美女办公室高潮喷水视频| 911亚洲精品| 国产精品久久久久久久伊一| 亚洲天堂日韩在线| 狠狠亚洲五月天| 视频一本大道香蕉久在线播放 | 欧美中文一区| 女人一级毛片| 国产精品爽爽va在线无码观看| 久久九九热视频| 欧美精品在线视频观看 |