999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)于電子郵件語言特征識別作者的研究

2019-03-20 05:18:04韓樂慷周鈺晗樊昊東郭鵬王賢麟
西部論叢 2019年9期

韓樂慷 周鈺晗 樊昊東 郭鵬 王賢麟

摘 要:電子郵件中的手寫分析是一種非常具體的調(diào)查形式,可通過電子郵件的語言特征來識別作者。電子郵件的內(nèi)容往往比較短,作者的語言風(fēng)格比較明顯。所以通過電子郵件的語言特征來識別作者具有一定的科學(xué)可行性,并且通過電子郵件語言特征識別身份的研究具有重要意義。本文建立了以邏輯條件順序?yàn)榛A(chǔ)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。

關(guān)鍵詞:語言特征規(guī)劃 作者識別 bp算法 誤差反向傳播 預(yù)測檢驗(yàn)

1.電子郵件的語言特征的用途

在電子郵件中蘊(yùn)藏了豐富的各類有用信息,是進(jìn)行計(jì)算機(jī)分析取證的重要內(nèi)容之一,它能為案件偵破提供一些有力的線索。為提高使用效率,人們經(jīng)常使用各類電子郵件客戶端(如Foxmail、Outlook Express、Microsoft Office Outlook等)來處理郵件。因此,分析各類郵件客戶端所保存的郵件數(shù)據(jù)文件也是計(jì)算機(jī)分析取證的重要手段之一。

此外,由于電子郵件的作者所運(yùn)用的語言特征不同,通過電子郵件識別作者是十分科學(xué)可行的。電子郵件證據(jù)在涉網(wǎng)案件偵辦中的作用越來越重要。通過解讀大數(shù)據(jù)時(shí)代海量電子郵件分析的挑戰(zhàn)與機(jī)遇,提出了通過郵件各元數(shù)據(jù)信息的分析與挖掘、郵件關(guān)系分析和郵件行為分析,從而準(zhǔn)確研判郵件聯(lián)系人的關(guān)系、涉案人員及涉案人員生活規(guī)律的分析思路。

2.研究電子郵件的作者身份識別問題的背景

目前,國內(nèi)外的研究人員主要從兩個(gè)方面來研究電子郵件的作者身份識別問題。一方面是從物理信息(如電子郵件的頭信息、IP地址等)來研究獲取作者身份,但效果不盡人意。另一方面是試圖通過研究郵件內(nèi)容來識別作者身份。

3.關(guān)于電子郵件語言特征識別的分析

3.1文本處理

本文電子郵件語言特征的識別從表層上分析可以作為一類特殊的文本處理。作者識別需要利用實(shí)現(xiàn)作者識別。當(dāng)然收集的有效文本越多,越具有典型性,就越有利于得到更準(zhǔn)確的結(jié)果。按照一定的方法和原則排除無關(guān)因素,將作者的可能范圍縮小到個(gè)人。關(guān)于作者的語言特征,主要通過詞匯頻率、特定詞匯頻率、標(biāo)點(diǎn)、n-Gram字符串、特定語法特征、平均句長、作者的已有文檔作為參考,由于作者的寫作風(fēng)格在一定時(shí)間內(nèi)相對穩(wěn)定,因此只要能挖掘出作者的語言特征就可以段落長度等特征的統(tǒng)計(jì)分析和經(jīng)驗(yàn)評價(jià)來確定電子郵件的作者。

3.2 SVM算法

基于SVM的中文郵件作者識別算法研究:支持向量機(jī)(support vector machine,SVM)是一種建立在由統(tǒng)計(jì)學(xué)習(xí)理論導(dǎo)出的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則基礎(chǔ)上的機(jī)器學(xué)習(xí)算法。其主要思想是針對兩類分類問題,在高維空間中尋找一個(gè)超平面作為兩類的分割,以保證最小的分類錯(cuò)誤率,而且SVM的一個(gè)重要的優(yōu)點(diǎn)是可以處理線性不可分的情況。

3.3郵件特征

格式特征:郵件的格式特征包括稱呼語、問候語、敬語、簽名、日期、電子簽名、空行、空格、縮進(jìn)等內(nèi)外模式,格式特征的提取是通過提前識別標(biāo)注和之后的統(tǒng)計(jì)計(jì)算得來的,在有這些格式特征出現(xiàn)的地方做好標(biāo)注,就可以進(jìn)行自動(dòng)化統(tǒng)計(jì),之后將對應(yīng)的格式特征出現(xiàn)的權(quán)值標(biāo)記為1,未出現(xiàn)的標(biāo)志為0即可。

結(jié)構(gòu)特征:中文郵件結(jié)構(gòu)特征選取的是平均句長度、平均段長度、空行比率、空格比率、英文比率、數(shù)字比率、7種連續(xù)點(diǎn)號和7種點(diǎn)號與9種標(biāo)號的比率。所有這些結(jié)構(gòu)特征都是通過字符識別與統(tǒng)計(jì)計(jì)算得出的,很容易通過匹配統(tǒng)計(jì)的方法得到各種結(jié)構(gòu)特征。

4.模型建立與求解

4.1模型一的建立。為了簡化模型,我們首先考慮選取單個(gè)郵件作為樣本

4.2模型一求解

第一步:網(wǎng)絡(luò)初始化

給各連接權(quán)值分別賦一個(gè)區(qū)間(?1,1) 內(nèi)的隨機(jī)數(shù),設(shè)定誤差函數(shù)e ,給定計(jì)算精度值ε 和最大學(xué)習(xí)次數(shù)M 。

第二步:隨機(jī)選取

隨機(jī)選取第k 個(gè)輸入樣本以及對應(yīng)的期望輸出

第三步:隱含層計(jì)算

計(jì)算隱含層各神經(jīng)元的輸入和輸出

4.3模型一檢驗(yàn)

判斷網(wǎng)絡(luò)誤差是否滿足要求。 當(dāng)誤差達(dá)到預(yù)設(shè)精度或者學(xué)習(xí)次數(shù)大于設(shè)計(jì)的最大次數(shù),則結(jié)束算法。 否則,選取下一個(gè)學(xué)習(xí)樣本以及對應(yīng)的輸出期望,返回第三部,進(jìn)入下一輪學(xué)習(xí)。

5.結(jié)束語

人類都有本能習(xí)慣性,總想保持某些個(gè)人的特性,每個(gè)人都有獨(dú)特的行為方式,生物統(tǒng)計(jì)學(xué)特點(diǎn)等,而且都是潛意識的。我們可以通過提取電子郵件的各種特征,包括語言特征、頭信息、結(jié)構(gòu)特征和格式特征,自動(dòng)地把郵件分類到預(yù)定的作者類別中,所以通過電子郵件的語言特征識別作者將成為計(jì)算機(jī)取證的科學(xué)而可靠的技術(shù)理論依據(jù)。

參考文獻(xiàn)

[1] 滕桂法.中文電子郵件作者身份識別技術(shù)研究[D].北京師范大學(xué),2005.

[2] 馬建斌.中文Web信息作者同一認(rèn)定技術(shù)研究[D].河北農(nóng)業(yè)大學(xué),2010.

主站蜘蛛池模板: 欧美中文字幕在线二区| 亚洲另类国产欧美一区二区| www.日韩三级| 国产日韩欧美成人| 精品国产电影久久九九| 亚洲成在线观看| 日本道中文字幕久久一区| 亚洲欧美色中文字幕| 成人福利在线观看| www.91在线播放| 国产日韩久久久久无码精品| 亚洲手机在线| 三区在线视频| 久久香蕉国产线看观看亚洲片| 99热最新网址| 在线另类稀缺国产呦| 亚洲视频a| 久久精品电影| 欧美中文字幕在线播放| 国产在线精彩视频二区| 在线观看免费AV网| 澳门av无码| 91精品国产综合久久不国产大片| 日本91在线| 国产尤物视频网址导航| 区国产精品搜索视频| 国产免费久久精品99re丫丫一| 色有码无码视频| 2018日日摸夜夜添狠狠躁| 精品无码一区二区在线观看| 欧美亚洲激情| 久久久久久高潮白浆| 她的性爱视频| 国产亚卅精品无码| 国产三级视频网站| 国产v精品成人免费视频71pao| 国产欧美自拍视频| 久久网欧美| 凹凸精品免费精品视频| 久久这里只有精品23| 欧美日本在线观看| 91精品综合| 在线观看国产网址你懂的| 国产91精品久久| 国产一区二区三区在线观看免费| 二级毛片免费观看全程| 国产高清色视频免费看的网址| 国模私拍一区二区三区| 久久综合伊人77777| 91网红精品在线观看| 国产国拍精品视频免费看 | 中文字幕av无码不卡免费| 三级毛片在线播放| 无码中文字幕精品推荐| 好吊色国产欧美日韩免费观看| 国产无码制服丝袜| 性激烈欧美三级在线播放| 四虎永久在线| 国产黄色片在线看| 综合网久久| 久久精品这里只有精99品| 中文字幕久久精品波多野结| 国产综合精品一区二区| 日韩精品一区二区三区大桥未久| 色婷婷成人| 国产在线高清一级毛片| 成人亚洲天堂| 精品无码国产一区二区三区AV| 国产精品黄色片| 国产欧美高清| 日韩不卡高清视频| 综合五月天网| 久久99热这里只有精品免费看 | 亚洲黄网在线| 日本一区中文字幕最新在线| 国产精品区视频中文字幕| 亚洲美女高潮久久久久久久| 日韩精品成人网页视频在线| 五月婷婷欧美| 亚洲黄色网站视频| 婷婷中文在线| 国产视频你懂得|