999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環神經網絡(RNN)和卷積神經網絡(CNN)對電子郵件的作者識別

2018-04-21 08:10:12米碩孫瑞彬李欣明曉
科技創新與應用 2018年10期

米碩 孫瑞彬 李欣 明曉

摘 要:文章針對如何捕獲電子郵件的語言特征來識別作者的問題進行了研究建模,首先使用NLTK自然語言處理工具對文本進行了預處理,然后使用Word2Vec和GloVe模型對文本內容進行了嵌入化處理得到了詞向量,接著文章使用改進的基于TextCNN的網絡架構,使用改進的基于CLSTM的網絡架構和提出了一種新的基于循環神經網絡(RNN)和卷積神經網絡(CNN)的網絡架構來解決文章的問題,并且采用集成學習的方法對上述三種單一模型進行模型融合作為最終的模型來識別作者,最終的效果較好。

關鍵詞:循環神經網絡;卷積神經網絡;詞向量;Python

中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2018)10-0024-02

Abstract: In this paper, we study and model in view of how to capture the language features of email to identify the author. Firstly, we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM, and a new network architecture based on recurrent neural network (RNN) and convolutional neural network (CNN) is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model, with a good final effect.

Keywords: recurrent neural network (RNN); convolutional neural network (CNN); word vector; Python

1 模型的建立

筆跡分析是一種非常特殊的調查形式,用于將人們與書面證據聯系起來。筆跡調查人員通常被要求在法庭或刑事調查中,以確定書面樣本是否來自某個特定的人。由于許多語言證據現在都出現在電子郵件中,從廣義上說,筆跡分析也包括了如何通過電子郵件的語言特征來識別作者的問題。本文基于此使用深度學習的方法建立了相應的模型。其為改進的基于TextCNN的分類模型,改進的基于CLSTM的分類模型和一種新的基于循環神經網絡和卷積神經網絡的分類模型,并且使用集成學習的方法對上述三種單一模型進行融合作為最終的分類結果。(見圖1、圖2、圖3)

2 模型的求解

對于每個單一模型的輸入都為用詞向量替換的郵件原始正文文本數據的詞向量矩陣,模型最終的輸出為133維的向量,代表這封郵件屬于這133個人的概率本文在訓練中使用Ten-folder cross-validation(十折交叉驗證)的方法來做數據進行訓練和驗證。本文所用的數據集大小為255636,首先留出5636個樣本作為測試集,剩余的250000個樣本分成十份,輪流的將其中九份作為訓練數據,1份作為測試數據,進行試驗,每次訓練都會得出相應的準確率。10次的結果的準確率的平均值作為最終的準確率,最終來對算法準確性進行估計。

本文在進行模型訓練時根據算法的準確性不斷的進行參數的調節,并且使用GTX 1080Ti顯卡進行足夠時間的學習訓練,力求使每個模型的準確率達到最高。

由訓練集和測試集的準確率變化可知,該模型對于電子郵件作者的識別取得了不錯的效果。較單一的傳統模型效果更佳,故采用本文的方法能較好的解決該電子郵件識別問題。

3 模型的優缺點

3.1 模型的優點

(1)同時使用了Word2Vec模型和GloVe模型對文本進行了處理得到了原始文本的特征表示,使得模型能夠從文本中提取到更加有效的特征來進行文本分類識別。

(2)使用了集成學習的方法來進行模型融合,這種方法相比使用單一的分類模型效果更好。

(3)在驗證單一模型的使用的算法的有效性和正確性方面,使用十折交叉驗證方法,證實了模型的準確率相對來說較好。

(4)本文創新性的提出了一種新的文本分類識別模型,并且在此文本分類識別問題上取得了不錯的效果。

3.2 模型的缺點

(1)在模型過程中,可能未找到最優的模型參數值使得模型表現出最好的效果。

(2)因為單一模型的最后是全連接層,需要訓練的參數較多,容易出現過擬合,深度模型容易出現梯度消散問題。

3.3 模型的改進

(1)通過迭代法找到模型表現出最好的效果時的模型參數值。

(2)對通過Word2Vec模型和GloVe模型得到詞向量進行L1,L2正則化處理,以提高單一模型的泛化能力,也會使得最終的模型融合的效果更優。

參考文獻:

[1]lan Goodfellow,Deep learning[M].Beijing:People's post and Tele

communications Press,2017.

[2]Shalini Ghosh,Orilo Vinyals, Contextual LSTM(CLSTM)models for large scale NLP tasks, arxiv.org,2016.

[3]楊靜.基于SVM的中文電子郵件作者性別識別技術研究[D].河北農業大學,2007.

[4]聶小塵.電子郵件取證模型及關鍵技術研究[D].上海交通大學,2011.

[5]馬建斌.基于SVM的中文電子郵件作者身份挖掘技術研究[D].河北農業大學,2004.

主站蜘蛛池模板: 日韩第八页| a级毛片免费看| 青青操视频免费观看| 国产视频自拍一区| 国产在线拍偷自揄拍精品| 中国丰满人妻无码束缚啪啪| 欧美午夜视频| 国产成人精品免费视频大全五级| 国产成人av一区二区三区| 国产jizz| 免费人成网站在线观看欧美| av无码一区二区三区在线| 2018日日摸夜夜添狠狠躁| 国产chinese男男gay视频网| 日韩午夜伦| 国产成人综合日韩精品无码首页 | 精品无码国产一区二区三区AV| 97在线免费视频| www精品久久| 99re在线免费视频| 香蕉eeww99国产精选播放| 亚洲精品天堂自在久久77| 国产亚洲男人的天堂在线观看| 专干老肥熟女视频网站| 国产亚洲精品无码专| 人妻丰满熟妇av五码区| 找国产毛片看| 欧美日韩在线亚洲国产人| 456亚洲人成高清在线| 91久草视频| 日韩123欧美字幕| 久久精品无码专区免费| 强奷白丝美女在线观看| 欧美一级色视频| 国产精品成人不卡在线观看| 欧美日韩国产成人在线观看| 久久五月天国产自| 国产喷水视频| 国产JIZzJIzz视频全部免费| 在线观看视频一区二区| 国产一级在线观看www色| 国产日产欧美精品| 国产精品污视频| 日韩美女福利视频| 色综合热无码热国产| 国产精品一区二区在线播放| 日本精品中文字幕在线不卡| 国产女人18毛片水真多1| 午夜成人在线视频| 玖玖精品视频在线观看| 粉嫩国产白浆在线观看| 毛片在线看网站| 日本午夜精品一本在线观看| 久久黄色一级视频| 91系列在线观看| 91外围女在线观看| 久久这里只有精品23| 亚洲欧美色中文字幕| 青草午夜精品视频在线观看| 久久国产V一级毛多内射| 亚洲国产成人超福利久久精品| 91免费国产在线观看尤物| 99视频在线免费看| 波多野结衣二区| 国产综合无码一区二区色蜜蜜| 最新国语自产精品视频在| 一级香蕉人体视频| 亚洲精品男人天堂| 久久夜色撩人精品国产| 亚洲三级片在线看| 亚洲最新网址| 国产欧美性爱网| 成人免费午夜视频| 欧美区一区| 国产麻豆精品在线观看| 亚洲aaa视频| 人人澡人人爽欧美一区| 91在线激情在线观看| 女人18毛片水真多国产| 国产在线观看精品| 无码国内精品人妻少妇蜜桃视频 | 精品国产91爱|