999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本分類的維吾爾文數(shù)字取證研究

2016-04-12 00:00:00如先姑力·阿布都熱西提賀一峰亞森·艾則孜
現(xiàn)代電子技術(shù) 2016年10期

摘 要: 針對維吾爾文書寫的數(shù)字文本的犯罪取證,提出一種基于文本分類的維吾爾文數(shù)字取證方案。首先,對維吾爾文文本進(jìn)行預(yù)處理,濾除文本中非維吾爾文字符和停用詞;然后,提出一種多特征空間正則化互信息(M?FNMI)算法,使用輸入特征組合與類之間的互信息(MI)來代替單個特征與類之間的MI,從而提取出更準(zhǔn)確的特征詞;最后,利用支持向量機(jī)(SVM)算法來對特征進(jìn)行分類。實驗結(jié)果表明,該方案具有較高的分類精度,能夠為犯罪取證提供判斷依據(jù)。

關(guān)鍵詞: 數(shù)字取證; 文本分類; 維吾爾文; 互信息; 支持向量機(jī)

中圖分類號: TN911?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)10?0009?05

Research on Uyghur digital forensics based on text categorization

RUXIANGULI Abudurexiti, HE Yifeng, YASEN Aizezi

(Department of Information Security Engineering, Xinjiang Police College, Urumqi 830013, China)

Abstract: For the crime forensics of digital texts written in Uighur, a Uyghur digital forensic scheme based on text categorization is proposed. The Uyghur texts are preprocessed to filter the non Uyghur characters and stop words. A multi?feature space normalized mutual information (M?FNMI) algorithm is proposed. The mutual information (MI) between input feature combination and class is used to replace the MI between the single feature and class, so as to extract more accurate feature words. The support vector machine (SVM) algorithm is used to classify those features. Experimental results show that the proposed scheme has higher classification accuracy, and can provide a basis for criminal evidence collection.

Keywords: digital forensic; text categorization; Uyghur; mutual information; support vector machine

0 引 言

由于信息和存儲技術(shù)的飛速發(fā)展,公安信息系統(tǒng)中存儲了大量的案件信息。為了能夠更好地預(yù)防、打擊和控制犯罪,則需要應(yīng)用數(shù)字取證技術(shù),對存儲數(shù)據(jù)進(jìn)行深度分析,發(fā)現(xiàn)各類案例信息的規(guī)律和關(guān)系[1]。在數(shù)字取證過程中,面對大量的電子文檔,如何快速地將電子文檔進(jìn)行分類,準(zhǔn)確地辨析案件類型,以及從中提取出有用的信息是取證人員需要解決的一個主要問題,而數(shù)據(jù)挖掘中的文本分類技術(shù)是解決這種問題的一種有效方法[2]。

隨著國家對新疆地區(qū)的大力投入,使其信息化建設(shè)得到快速發(fā)展,維吾爾文等少數(shù)民族語種的大量文字信息開始以數(shù)字化形式呈現(xiàn)。對維吾爾文書寫的大量文本數(shù)據(jù)進(jìn)行文本分類,從而進(jìn)行電子取證,能夠為新疆地區(qū)的計算機(jī)犯罪提供有力證據(jù),具有重要的意義[3]。

目前,對于英文和中文等大語種的文本分類技術(shù)已經(jīng)得到大量研究,并趨于成熟。然而,對于維吾爾文表述的數(shù)字文本的文本分類,相關(guān)方面的研究還處于起步階段。維吾爾語是一種黏著性語言,具有比較復(fù)雜的時態(tài)變化和豐富的形態(tài)結(jié)構(gòu)[4]。為此,文獻(xiàn)[4]提出一種基于語義詞特征提取的維吾爾文文本的分類方法,用一種組合統(tǒng)計量(DME)來度量文本中相鄰單詞之間的關(guān)聯(lián)程度,以此來提取特征詞。文獻(xiàn)[5]利用[χ2]統(tǒng)計量來提取詞干,并利用支持向量機(jī)(Support Vector Machine,SVM)算法來構(gòu)造了維吾爾文文本分類器。文獻(xiàn)[6]提出一種新的統(tǒng)計量(CHIMI),將[χ2]統(tǒng)計量和互信息(Mutual Information,MI)進(jìn)行結(jié)合組成CHIMI,抽取Bigram作為文本特征,并采用SVM算法對維吾爾文文本進(jìn)行分類。

本文在改進(jìn)傳統(tǒng)MI提取特征的基礎(chǔ)上,提出一種基于文本分類的維吾爾文數(shù)字取證方案,用于犯罪文本取證。利用改進(jìn)型正則化互信息算法對維吾爾文進(jìn)行特征提取,利用SVM進(jìn)行文本分類,從而取證出與犯罪相關(guān)的文本信息。

1 本文方案

本文提出一種基于文本分類的維吾爾文數(shù)字取證方案,其主要包括3個部分:維吾爾文文本預(yù)處理;特征提取;文本分類。

其中,在特征提取階段,本文針對傳統(tǒng)MI特征提取中只考慮單個特征和類別的MI,而沒有考慮上下文特征關(guān)聯(lián)性的缺陷,對其進(jìn)行改進(jìn),將輸入特征的組合與類別之間的MI代替單一特征與類別的MI。

1.1 文本預(yù)處理

維吾爾文文本預(yù)處理主要包括兩個部分:文本過濾和詞干提取。其中,文本過濾用于過濾掉文本中非維吾爾文文字和停用詞;詞干提取是用來提取文本中具有真正含義的詞匯。經(jīng)過文本預(yù)處理,可將文本原始特征維度降低約一半。文本去噪過程中,首先對文本進(jìn)行過濾,獲得維吾爾文單詞集。然后,通過和事先準(zhǔn)備好的停用詞表進(jìn)行比對,過濾掉停用詞。停用詞為對文本主題沒有貢獻(xiàn),不包含文章類別信息的詞,例如介詞、副詞、代詞等。去掉停留詞能夠?qū)崿F(xiàn)特征降維,提高分類精度[7]。詞干提取過程中,首先,根據(jù)維吾爾文單詞與單詞之間的空格符來進(jìn)行分詞。由于維吾爾文單詞是由字母拼寫而成的,通過將不同的詞綴粘貼到單詞的頭部來實現(xiàn)語法功能,所以,提取文本中能夠代表真實含義的詞匯是困難的。維吾爾文中,同一詞干可以演變?yōu)楹芏嗖煌x的詞語,雖然這些詞語的詞形不同,但詞義卻不會有很大區(qū)別[8]。其中一個典型例子如表1所示。為了提取單詞的詞義,并考慮特征的數(shù)量,本文以詞干(學(xué)校)作為特征項,以此從文本中提取出詞干集。

2 實驗及分析

2.1 實驗環(huán)境

為了評估本文方案的性能,構(gòu)建一個計算平臺,以Intel酷睿i5作為CPU,主頻為2.4 GHz,應(yīng)用Windows 7系統(tǒng)環(huán)境,利用Matlab 2011進(jìn)行實驗。

對于維吾爾文的文本分類應(yīng)用,目前還沒有可使用的標(biāo)準(zhǔn)文本集。由于本文方案是應(yīng)用于犯罪數(shù)字取證領(lǐng)域,所以本文從新疆公安犯罪數(shù)據(jù)庫中的案情、新疆公安網(wǎng)公布的治安新聞以及人民網(wǎng)維吾爾文版的新聞上收集了2 500篇文本,通過人工方式將其分為7類犯罪: 危害國家安全;危害公共安全;侵犯公民人身權(quán)利;破壞市場經(jīng)濟(jì)秩序;妨害社會管理秩序;侵犯財產(chǎn);貪污賄賂。其中,1 600篇文本作為訓(xùn)練集,900篇作為測試集。各類的訓(xùn)練和測試樣本數(shù)如表2所示。

表2 分類文本庫

2.2 性能指標(biāo)

本文采用分類中常用的性能指標(biāo)[F1]值來評估方案性能,其由準(zhǔn)確率(P)和召回率(R)計算獲得:

[P=aa+b,R=aa+c]

式中:[a]表示正確分類的文本數(shù);[b]表示分類為該類,但不屬于該類的文本數(shù);[c]表示屬于該類,但未被分類到該類的文本數(shù)。通常將準(zhǔn)確率和召回率進(jìn)行綜合,得到評估文本分類質(zhì)量的[F1]值,表達(dá)式如下:

[F1=2RPR+P] (15)

通常情況下,方案的[F1]值越高,則分類效果越好。實驗中,本文將各個類別的[F1]值求平均,得到最終性能指標(biāo),即[F1]平均值。

2.3 分類實驗

實驗中,首先對維吾爾文文本集進(jìn)行預(yù)處理,為了方便后續(xù)處理,把文本轉(zhuǎn)換成UTF?8二進(jìn)制編碼格式。然后,過濾掉文本中的非維吾爾文字符和停用詞。預(yù)處理結(jié)束后,獲得一個具有24 420個特征的初始特征集。然后進(jìn)行詞干提取,將同一詞根演變而來的特征進(jìn)行聚合,使初始特征項降維到13 826個。然后通過本文提出的M?FNMI特征提取算法,提取出和類別具有高互信息(高區(qū)分度)的詞干作為最終特征。設(shè)定每個類別提取500~2 500個特征詞。表3描述了危害國家安全類別和侵犯公民人身權(quán)利類別中前5名的特征詞,這些特征詞具有最強(qiáng)的區(qū)別能力。

3 結(jié) 語

本文針對維吾爾文表述的數(shù)字文本取證應(yīng)用,提出一種基于文本分類的取證方案,利用提出的多特征空間正則化互信息(M?FNMI)對維吾爾文文本進(jìn)行特征提取,利用SVM算法對特征進(jìn)行分類。實驗中,設(shè)定7類犯罪類型,將本文方案與現(xiàn)有方案進(jìn)行比較,結(jié)果表明,本文方案具有較高的分類性能,能夠為新疆公安部門進(jìn)行數(shù)字取證提供有力依據(jù)。

注:本文通訊作者為亞森·艾則孜。

參考文獻(xiàn)

[1] 程春惠,何欽銘.面向不均衡類別樸素貝葉斯犯罪案件文本分類[J].計算機(jī)工程與應(yīng)用,2009,45(35):126?128.

[2] 劉露,彭濤,左萬利,等.一種基于聚類的PU主動文本分類方法[J].軟件學(xué)報,2013,24(11):2571?2583.

[3] 熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計算機(jī)工程,2014, 40(10):132?136.

[4] 吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J].中文信息學(xué)報,2014,28(4):140?144.

[5] 阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力.基于SVM的維吾爾文文本分類研究[J].計算機(jī)工程與科學(xué),2012,34(12):150?154.

[6] 阿力木江·艾沙,庫爾班·吾布力,吐爾根·依布拉音.維吾爾文Bigram文本特征提取[J].計算機(jī)工程與應(yīng)用,2015,51(3):216?221.

[7] UYSAL A K, GUNAL S. The impact of preprocessing on text classification [J]. Information processing management, 2014, 50(7): 104?112.

[8] 陳卿,袁保社,李曉,等.基于模板匹配的印刷維吾爾文字符識別研究[J].計算機(jī)技術(shù)與發(fā)展,2012,22(4):119?122.

[9] DENG H, RUNGER G, TUV E, et al. A time series forest for classification and feature extraction [J]. Information sciences, 2013, 239(4): 142?153.

[10] OVEISI F, OVEISI S, ERFANIAN A, et al. Tree?structured feature extraction using mutual information [J]. IEEE transactions on neural networks learning systems, 2012, 23(1): 127?137.

[11] 劉露,彭濤,左萬利,等.一種基于聚類的PU主動文本分類方法[J].軟件學(xué)報,2013,24(11):2571?2583.

[12] 趙輝,劉懷亮,張倩.一種基于復(fù)雜網(wǎng)絡(luò)的中文文本分類算法[J].情報學(xué)報,2012,31(11):1179?1186.

[13] LIU Zhijie, LYU Xueqiang, LIU Kun, et al. Study on SVM compared with the other text classification methods[C]// International Workshop on Education Technology Computer Science. Wuhan, Hubei, China: [s.n.], 2010: 219?222.

[14] CAO J F, CHEN J J. An improved web text classification algorithm based on SVM?KNN [J]. Applied mechanics materials, 2013, 27(8): 1305?1308.

[15] 胡文軍,王士同.隱私保護(hù)的SVM快速分類方法[J].電子學(xué)報,2012,40(2):280?286.

主站蜘蛛池模板: 亚洲成综合人影院在院播放| 怡春院欧美一区二区三区免费| 亚洲欧美综合另类图片小说区| 欲色天天综合网| 成人免费视频一区二区三区| 丁香婷婷久久| 成人日韩视频| 亚洲福利网址| 久久久久久午夜精品| 性欧美精品xxxx| 亚洲国产精品日韩欧美一区| 91国内在线观看| 国产男人天堂| 亚洲欧洲综合| 成人在线观看一区| 中文纯内无码H| 日韩天堂在线观看| 成人精品免费视频| 婷婷亚洲视频| 久久久久亚洲AV成人人电影软件 | 国产精品毛片一区| 不卡无码网| 日本在线亚洲| 99热这里只有免费国产精品| 亚洲,国产,日韩,综合一区| 国产精品第页| 国产拍揄自揄精品视频网站| 真实国产乱子伦视频| 国产成人亚洲欧美激情| 亚洲欧美成人综合| 欧美一区二区福利视频| 人妻21p大胆| 亚洲欧洲综合| 九九视频免费在线观看| 国产午夜精品一区二区三区软件| 在线另类稀缺国产呦| AV不卡在线永久免费观看| 在线亚洲精品福利网址导航| 影音先锋亚洲无码| 香蕉99国内自产自拍视频| 欧美一级夜夜爽| 国产成人精品一区二区不卡| 亚洲精选无码久久久| 欧美成人h精品网站| 亚洲精品欧美重口| 欧美精品亚洲精品日韩专区| 日韩毛片免费视频| 国产无码高清视频不卡| 人与鲁专区| 影音先锋丝袜制服| 一区二区三区在线不卡免费| 亚洲开心婷婷中文字幕| 亚洲欧美精品在线| 国产玖玖视频| 精品无码日韩国产不卡av| 潮喷在线无码白浆| 国产十八禁在线观看免费| 五月婷婷伊人网| 女同国产精品一区二区| 久久久久久久97| 亚洲欧洲自拍拍偷午夜色| 国产女人18毛片水真多1| 手机精品视频在线观看免费| 国产成人综合日韩精品无码不卡| 一个色综合久久| 久久毛片网| 欧美另类精品一区二区三区| 亚洲国产成人久久精品软件| 国产精品护士| 无码免费视频| 亚洲人成网线在线播放va| 黄色网址免费在线| 香蕉综合在线视频91| 免费亚洲成人| 99热这里只有精品5| 免费亚洲成人| 成人综合在线观看| 青青草国产在线视频| 真实国产乱子伦视频| 最新国产你懂的在线网址| 国产色伊人| 久久96热在精品国产高清|