基于循環神經網絡（RNN）和卷積神經網絡（CNN）對電子郵件的作者識別

2018-04-21 08:10:12米碩孫瑞彬李欣明曉

科技創新與應用 2018年10期

米碩孫瑞彬李欣明曉

摘要：文章針對如何捕獲電子郵件的語言特征來識別作者的問題進行了研究建模，首先使用NLTK自然語言處理工具對文本進行了預處理，然后使用Word2Vec和GloVe模型對文本內容進行了嵌入化處理得到了詞向量，接著文章使用改進的基于TextCNN的網絡架構，使用改進的基于CLSTM的網絡架構和提出了一種新的基于循環神經網絡（RNN）和卷積神經網絡（CNN）的網絡架構來解決文章的問題，并且采用集成學習的方法對上述三種單一模型進行模型融合作為最終的模型來識別作者，最終的效果較好。

關鍵詞：循環神經網絡；卷積神經網絡；詞向量；Python

中圖分類號：TP391 文獻標志碼：A 文章編號：2095-2945（2018）10-0024-02

Abstract： In this paper， we study and model in view of how to capture the language features of email to identify the author. Firstly， we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM， and a new network architecture based on recurrent neural network （RNN） and convolutional neural network （CNN） is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model， with a good final effect.

Keywords： recurrent neural network （RNN）； convolutional neural network （CNN）； word vector； Python

1 模型的建立

筆跡分析是一種非常特殊的調查形式，用于將人們與書面證據聯系起來。筆跡調查人員通常被要求在法庭或刑事調查中，以確定書面樣本是否來自某個特定的人。由于許多語言證據現在都出現在電子郵件中，從廣義上說，筆跡分析也包括了如何通過電子郵件的語言特征來識別作者的問題。本文基于此使用深度學習的方法建立了相應的模型。其為改進的基于TextCNN的分類模型，改進的基于CLSTM的分類模型和一種新的基于循環神經網絡和卷積神經網絡的分類模型，并且使用集成學習的方法對上述三種單一模型進行融合作為最終的分類結果。（見圖1、圖2、圖3）

2 模型的求解

對于每個單一模型的輸入都為用詞向量替換的郵件原始正文文本數據的詞向量矩陣，模型最終的輸出為133維的向量，代表這封郵件屬于這133個人的概率本文在訓練中使用Ten-folder cross-validation（十折交叉驗證）的方法來做數據進行訓練和驗證。本文所用的數據集大小為255636，首先留出5636個樣本作為測試集，剩余的250000個樣本分成十份，輪流的將其中九份作為訓練數據，1份作為測試數據，進行試驗，每次訓練都會得出相應的準確率。10次的結果的準確率的平均值作為最終的準確率，最終來對算法準確性進行估計。

本文在進行模型訓練時根據算法的準確性不斷的進行參數的調節，并且使用GTX 1080Ti顯卡進行足夠時間的學習訓練，力求使每個模型的準確率達到最高。

由訓練集和測試集的準確率變化可知，該模型對于電子郵件作者的識別取得了不錯的效果。較單一的傳統模型效果更佳，故采用本文的方法能較好的解決該電子郵件識別問題。

3 模型的優缺點

3.1 模型的優點

（1）同時使用了Word2Vec模型和GloVe模型對文本進行了處理得到了原始文本的特征表示，使得模型能夠從文本中提取到更加有效的特征來進行文本分類識別。

（2）使用了集成學習的方法來進行模型融合，這種方法相比使用單一的分類模型效果更好。

（3）在驗證單一模型的使用的算法的有效性和正確性方面，使用十折交叉驗證方法，證實了模型的準確率相對來說較好。

（4）本文創新性的提出了一種新的文本分類識別模型，并且在此文本分類識別問題上取得了不錯的效果。

3.2 模型的缺點

（1）在模型過程中，可能未找到最優的模型參數值使得模型表現出最好的效果。

（2）因為單一模型的最后是全連接層，需要訓練的參數較多，容易出現過擬合，深度模型容易出現梯度消散問題。

3.3 模型的改進

（1）通過迭代法找到模型表現出最好的效果時的模型參數值。

（2）對通過Word2Vec模型和GloVe模型得到詞向量進行L1，L2正則化處理，以提高單一模型的泛化能力，也會使得最終的模型融合的效果更優。

參考文獻：

[1]lan Goodfellow，Deep learning[M].Beijing：People's post and Tele

communications Press，2017.

[2]Shalini Ghosh，Orilo Vinyals， Contextual LSTM（CLSTM）models for large scale NLP tasks， arxiv.org，2016.

[3]楊靜.基于SVM的中文電子郵件作者性別識別技術研究[D].河北農業大學，2007.

[4]聶小塵.電子郵件取證模型及關鍵技術研究[D].上海交通大學，2011.

[5]馬建斌.基于SVM的中文電子郵件作者身份挖掘技術研究[D].河北農業大學，2004.

科技創新與應用2018年10期

科技創新與應用的其它文章: 線性回歸在餐飲行業評分的影響因素分析的應用研究; 微波通信在烏魯木齊區管中心內話系統的應用; 基于ABAQUS軟件的楔形制動機構分析與優化; 鋼混凝土組合梁橋施工關鍵技術; 我國雙創平臺的發展狀況研究; 建筑工程項目現場施工管理現狀與應對措施