999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環神經網絡(RNN)和卷積神經網絡(CNN)對電子郵件的作者識別

2018-04-21 08:10:12米碩孫瑞彬李欣明曉
科技創新與應用 2018年10期

米碩 孫瑞彬 李欣 明曉

摘 要:文章針對如何捕獲電子郵件的語言特征來識別作者的問題進行了研究建模,首先使用NLTK自然語言處理工具對文本進行了預處理,然后使用Word2Vec和GloVe模型對文本內容進行了嵌入化處理得到了詞向量,接著文章使用改進的基于TextCNN的網絡架構,使用改進的基于CLSTM的網絡架構和提出了一種新的基于循環神經網絡(RNN)和卷積神經網絡(CNN)的網絡架構來解決文章的問題,并且采用集成學習的方法對上述三種單一模型進行模型融合作為最終的模型來識別作者,最終的效果較好。

關鍵詞:循環神經網絡;卷積神經網絡;詞向量;Python

中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2018)10-0024-02

Abstract: In this paper, we study and model in view of how to capture the language features of email to identify the author. Firstly, we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM, and a new network architecture based on recurrent neural network (RNN) and convolutional neural network (CNN) is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model, with a good final effect.

Keywords: recurrent neural network (RNN); convolutional neural network (CNN); word vector; Python

1 模型的建立

筆跡分析是一種非常特殊的調查形式,用于將人們與書面證據聯系起來。筆跡調查人員通常被要求在法庭或刑事調查中,以確定書面樣本是否來自某個特定的人。由于許多語言證據現在都出現在電子郵件中,從廣義上說,筆跡分析也包括了如何通過電子郵件的語言特征來識別作者的問題。本文基于此使用深度學習的方法建立了相應的模型。其為改進的基于TextCNN的分類模型,改進的基于CLSTM的分類模型和一種新的基于循環神經網絡和卷積神經網絡的分類模型,并且使用集成學習的方法對上述三種單一模型進行融合作為最終的分類結果。(見圖1、圖2、圖3)

2 模型的求解

對于每個單一模型的輸入都為用詞向量替換的郵件原始正文文本數據的詞向量矩陣,模型最終的輸出為133維的向量,代表這封郵件屬于這133個人的概率本文在訓練中使用Ten-folder cross-validation(十折交叉驗證)的方法來做數據進行訓練和驗證。本文所用的數據集大小為255636,首先留出5636個樣本作為測試集,剩余的250000個樣本分成十份,輪流的將其中九份作為訓練數據,1份作為測試數據,進行試驗,每次訓練都會得出相應的準確率。10次的結果的準確率的平均值作為最終的準確率,最終來對算法準確性進行估計。

本文在進行模型訓練時根據算法的準確性不斷的進行參數的調節,并且使用GTX 1080Ti顯卡進行足夠時間的學習訓練,力求使每個模型的準確率達到最高。

由訓練集和測試集的準確率變化可知,該模型對于電子郵件作者的識別取得了不錯的效果。較單一的傳統模型效果更佳,故采用本文的方法能較好的解決該電子郵件識別問題。

3 模型的優缺點

3.1 模型的優點

(1)同時使用了Word2Vec模型和GloVe模型對文本進行了處理得到了原始文本的特征表示,使得模型能夠從文本中提取到更加有效的特征來進行文本分類識別。

(2)使用了集成學習的方法來進行模型融合,這種方法相比使用單一的分類模型效果更好。

(3)在驗證單一模型的使用的算法的有效性和正確性方面,使用十折交叉驗證方法,證實了模型的準確率相對來說較好。

(4)本文創新性的提出了一種新的文本分類識別模型,并且在此文本分類識別問題上取得了不錯的效果。

3.2 模型的缺點

(1)在模型過程中,可能未找到最優的模型參數值使得模型表現出最好的效果。

(2)因為單一模型的最后是全連接層,需要訓練的參數較多,容易出現過擬合,深度模型容易出現梯度消散問題。

3.3 模型的改進

(1)通過迭代法找到模型表現出最好的效果時的模型參數值。

(2)對通過Word2Vec模型和GloVe模型得到詞向量進行L1,L2正則化處理,以提高單一模型的泛化能力,也會使得最終的模型融合的效果更優。

參考文獻:

[1]lan Goodfellow,Deep learning[M].Beijing:People's post and Tele

communications Press,2017.

[2]Shalini Ghosh,Orilo Vinyals, Contextual LSTM(CLSTM)models for large scale NLP tasks, arxiv.org,2016.

[3]楊靜.基于SVM的中文電子郵件作者性別識別技術研究[D].河北農業大學,2007.

[4]聶小塵.電子郵件取證模型及關鍵技術研究[D].上海交通大學,2011.

[5]馬建斌.基于SVM的中文電子郵件作者身份挖掘技術研究[D].河北農業大學,2004.

主站蜘蛛池模板: 在线网站18禁| 国产福利观看| 日韩在线永久免费播放| 黄色网页在线观看| аv天堂最新中文在线| 国产在线98福利播放视频免费 | 欧美一级在线| 日本人又色又爽的视频| 亚洲成a人片77777在线播放| 亚洲av色吊丝无码| 红杏AV在线无码| 香蕉蕉亚亚洲aav综合| 亚洲系列中文字幕一区二区| 潮喷在线无码白浆| 国产情侣一区| 四虎精品黑人视频| 亚洲一区二区黄色| 丝袜高跟美脚国产1区| 2021国产在线视频| 五月婷婷精品| 国产高清自拍视频| 丁香综合在线| 在线亚洲天堂| 丁香六月激情婷婷| 日韩av电影一区二区三区四区 | 国产成人免费手机在线观看视频| 中国特黄美女一级视频| 久久特级毛片| 亚洲精品天堂在线观看| 又大又硬又爽免费视频| 狠狠操夜夜爽| 不卡的在线视频免费观看| 狠狠综合久久| 日韩成人在线一区二区| 伊人成人在线视频| 日本人妻一区二区三区不卡影院 | 国产在线高清一级毛片| 18禁色诱爆乳网站| 亚洲精品国产自在现线最新| 欧美国产另类| 久久婷婷色综合老司机| 凹凸精品免费精品视频| 毛片免费在线视频| 午夜国产精品视频| 精品夜恋影院亚洲欧洲| 免费啪啪网址| 成人日韩精品| 奇米影视狠狠精品7777| 人妻无码一区二区视频| 国产成人精品无码一区二| yjizz视频最新网站在线| 免费福利视频网站| 中文国产成人精品久久| 中国精品久久| 熟女日韩精品2区| 国产农村1级毛片| 伊人色在线视频| 欧美区一区二区三| 久久久久人妻一区精品| 亚洲日韩日本中文在线| 欧美v在线| 四虎影院国产| 国产一国产一有一级毛片视频| 99在线国产| 国产精品专区第1页| 五月天香蕉视频国产亚| 亚洲色图欧美| 尤物视频一区| 一级黄色欧美| 无码专区第一页| 国产欧美亚洲精品第3页在线| 99热6这里只有精品| 91久久国产综合精品女同我| 国产成人久久777777| 午夜福利视频一区| 欧美不卡视频在线观看| 免费观看三级毛片| 伊人久久久久久久久久| 美女扒开下面流白浆在线试听 | 亚洲国产天堂久久综合| 色婷婷丁香| 国产亚洲精品资源在线26u|