基于Word2vec和改進TF-IDF算法的深度學習模型研究?

2021-06-02 07:30:14徐瑞龍

計算機與數字工程 2021年5期

石琳徐瑞龍

（江蘇科技大學計算機學院鎮江 212003）

1 引言

隨著電子商務的發展，網上購物已經逐漸成為人們主要的消費方式，隨之催生了大量物流產業，而物流服務的好壞直接影響了客戶對網購的滿意度。因此對物流評論數據進行挖掘分析，不僅可以幫助商家更好地了解物流情況，選擇合適的合作廠家，還可以為物流業改進服務提供參考。因此，對物流評論進行情感分析具有重要的研究意義和實用價值。

目前用于文本情感分析的方法主要有：1）基于情感詞典的文本情感分析法；2）基于機器學習的文本情感分析方法。基于情感詞典［1］的情感分類方法是指提前建立好詞典，以情感詞典作為判斷情感傾向的依據，通過計算得分判斷最終極性。但是情感詞典的質量和覆蓋度直接影響其分類結果，同時構造情感詞典的和判斷規則又會耗費大量的人力，所以推廣能力較差。然而，基于機器學習的分類方法的性能主要取決于數據集的標注質量，但是數據的標注需要投入大量的人工成本［2］。

隨著深度學習的興起，深度神經網絡在自然語言處理領域也獲得了革命性的突破。在中文文本情感傾向方面，周詠梅等［3］提出了一種基于HowNet和SentiWordNet的漢語情感詞典構建方法，將單詞的情感強度分解為多個語義單元，自動計算出單詞的情感強度，并采用詞典校對技術優化了單詞的情感強度值。陽愛民等［4］根據Turney的思想，結合種子詞和其他詞語在搜索引擎中的回饋值，并通過計算詞語SO-PMI值，判斷詞語情感極性。楊力月等［5］在傳統情感詞典的基礎上通過優化語氣詞權重計算方法和詞典的構造方法，改進了情感詞典中的微博情感詞典。首先利用開源情感詞典、網絡情感詞典等構造出基礎情感詞典，然后在此詞典的基礎上結合中文語法規則，利用句間和句型關系計算句子的情感傾向，以此提高微博文本情感分類的準確性。張成功等［6］提出了一種以極性詞典為基礎改進的情感分析算法。主要做法是構建一個相對完備、高效的詞典，其中包含了基礎情感詞典、領域詞典、修飾詞典和網格詞典等，把情感傾向詞和情感修飾詞放在一起構建成極性短語，利用構建好的詞典進行情感傾向分析。楊超等［7］基于現有的詞典，提出了一種新的情感詞典并開發了一個自動輿情分析系統。

2003年，Ducharme等［8］利用神經網絡訓練詞向量來表示文本。詞向量不僅能夠有效地得到語義信息［9］，而且還解決了數據稀疏性問題。利用詞向量描述文本，并且結合深度學習模型如卷積神經網絡（CNN）、循環神經網絡（RNN）等進行分類可以得到比傳統機器學習方法更好的效果。Sahar Sohan?gir［10］認為大數據對于研究至關重要，而使用深度學習最大的優勢就是分析大數據，這也使得深度學習成為研究大數據的工具。深度學習可以提取其中隱藏的信息，所以該文通過應用多種神經網絡模型例如長短期記憶網絡（Long Short-Term Memory，LSTM）、Doc2vec和CNN模型對股票市場觀點進行情感分析，結果表明深度學習方法可以有效地應用于金融情感分析。Kim等［11］通過改進的一維卷積神經網絡得到句子的特征，并在進行情感分析研究中，不斷調整參數和加入詞向量，在不同數據集上測試分類性能。文獻［12］利用LSTM把評論語句轉化成詞語序列進行情感分析。

論文利用Word2vec模型進行詞向量轉換，結合物流關鍵詞庫進行改進TF-IDF優化加權，最后把加權后的詞向量輸入LSTM進行訓練，自動提取評價中隱含的特征，完成對物流評價的準確預測。

2 相關模型介紹

2.1 TF-IDF模型

TF-IDF是一種加權技術。它主要采用一種統計的方法，根據關鍵的詞語在某個文檔中出現的頻率和在所有語料庫中出現的頻率來計算該詞語在整個語料中的重要程度。詞語的重要性會因為在文本中出現次數多而變高，同時也會因為在整個語料庫中出現次數過多而降低［13］。

TF意思是詞頻（Term Frequency），IDF意思是逆向文件頻率（Inverse Document Frequency）。所以在一篇文章中如果某個詞出現的頻率（TF）很高，并且在其他文章中（IDF）很少出現，則說明這個詞具有較好的類別能力。［14］

計算公式：

2.2 Word2vec模型

Word2vec是Google在2013年開源的一款將文本表示為數值向量的工具，主要的模型有CBOW和Skip-Gram兩種［15］。Word2vec通過訓練，把一些文本內容轉換為機器能夠理解地K維向量進行空間向量運算，而且向量空間上的相似度恰好可以表示文本語義上的相似度。［16］

本文采用的是Skip-Gram模型，Skip-Gram是依據已有的內容來預測上下文的，本模型有輸入層、投影層、輸出層三層，如圖1所示。

圖1 Skip-Gram模型

Skip-Gram模型的訓練目的就是如何讓式（2）中的值盡可能地變大：

式中，c＞0表示的是窗口的大小，T是訓練文本的大小。基本的Skip-gram模型計算條件概率如式（3）。

其中，vw和分別是詞w的輸入和輸出向量。

2.3 LSTM模型

長短期記憶（LSTM）網絡是由RNN擴展而來，主要是在RNN中添加了一個可以判別信息是否有用的cell，通過設計其結構來刪除或者增加信息。

LSTM實際上也是一種特殊的循環神經網絡，所以它也包含鏈狀結構。然而與循環神經網絡重復模塊不同的是，它包含四層神經網絡層，每個網絡層之間用著特殊的方式相互作用，并不是單個簡單的神經網絡層［17］。網絡示意圖如圖2所示。

圖2 LSTM網絡結構

首先，LSTM要確定我們從細胞狀態中拋棄什么信息。這個是由一個稱為“遺忘門”的Sigmoid層控制的［18］。第一步是先獲取上一層輸出的ht-1和當層的xt，使用Sigmoid函數計算得到一個0-1的數［19］。其中，0代表“完全舍棄”，1代表“完全保留”。其計算公式為

其中，代表的是Sigmoid函數，wf代表的是遺忘門的權重，bf代表的是遺忘門的偏置。

輸入門主要是決定記憶單元中要存放哪些信息。它包括兩部分，第一部分是輸入門的Sigmoid層斷定需要變更的信息［20］；第二部分是經過Tanh層構造一個新候選向量，計算公式如下：

其中，σ為Sigmoid函數，wi表示的是更新門權重，bi表示的是更新門偏置，tanh雙曲正切函數，wc更新候選值，bc更新候選值偏置，Ct候選值。

最終用舊狀態乘以ft，決定要丟掉的部分，和新的候選信息相加合成了細胞狀態的更新，計算公式如下：

其中，Ct表示新狀態。最后，將該輸出結果與Sigmoid函數的輸出值做乘積處理，以此獲取最后的分類結果。具體計算公式如下：

其中，wo更新輸出值的權重，bc更新輸出值偏置，ht最終確定輸出的那部分［21］。

3 物流模型構建

3.1 改進TFIDF模型

由于傳統的TFIDF方法單純以“詞頻”衡量一個詞的重要性，不夠全面，有時重要的詞可能出現次數并不多。于是我們調整TFIDF對特征項的權重計算，結合物流關鍵詞庫進行優化權重計算。

首先，利用正則表達式進行特征匹配，對于匹配的詞加入特征權值的計算。改進后的計算公式如下：

其中，Wk是結合物流關鍵詞庫匹配到的關鍵詞的權重。

3.2 物流模型的構建

1）Word2vec詞向量庫的構建

首先使用天貓某品牌服裝有關物流評價數據作為基礎語料進行模型訓練。其中包含了訓練樣本和測試樣本，神經網絡隱藏層的神經元個數即詞向量維數設置為200，利用negative sampling負采樣提高訓練速度改善詞向量的質量。

2）文本的向量表示

上文通過Word2vec把分詞后的評論已經變成低維的數值向量，這讓原本難以處理的高緯度高稀疏的數據變成容易讀取的矩陣數據表示。同時也節省了人工進行特征選取的巨大工作量。但是因為Word2vec無法量化關鍵詞語對評論的重要性，所以我們采用改進后的TF-IDF進行權重計算。

3）物流評價模型的構造

由于購物評價大部分是短文本，并且文本中會有數字、語氣詞等，所以在進行文本分類前首先進行文本預處理，去除一些沒有實際意義的詞語。然后將預處理后的文本作為輸入，通過Word2vec把文本轉換成詞向量，再通過改進的TF-IDF將優化權重，最后經過LSTM網絡進行分類預測。具體流程如圖3所示。

圖3 物流模型構造流程

4 實驗

論文實驗環境為Windows10操作系統，采用Python編程語言，利用Python中的Keras庫進行搭建LSTM。實驗中使用的硬件環境是聯想筆記本，具體配置為Intel（R）Core（TM）i5-6200U@2.30GHz，8G內存。

4.1 實驗參數設置

論文研究實驗軟件環境主要是基于Keras與Theano搭建的深度學習平臺，具體實驗參數如表1所示。

表1 實驗參數

4.2 實驗對比

論文采用Word2vec將評論進行詞向量訓練，接著利用改進的TF-IDF進行加權優化，最后通過LSTM進行預測得到結果并和其他單個模型及結合進行比較。

表2 不同模型實驗結果對比

從表2中可以看出，對權值進行優化后的TF-IDF要比一般TF-IDF預測效果好。因為Word2vec無法量化權重，所以把TF-IDF與Word2vec結合進行預測，要比兩個模型獨立預測效果要好。LSTM作為深度神經網絡，通過Word2vec生成詞向量并且用TF-IDF量化權重最后利用LSTM進行預測，準確度在原有的基礎上得到了6%的提高。

5 結語

本文的工作是利用Word2vec表示了高維的詞向量，克服了傳統情感詞典方法的局限性。利用改進的TF-IDF對物流好差評關鍵詞進行了加權。和傳統的機器學習方法不同的是，基于LSTM模型可以不用人為的特征提取，減少了訓練的時間。為商家對店鋪進行及時的物流分析和改進服務提供了有效的幫助。