融合CNN和LDA的短文本分類研究

2018-09-26 10:21:04張小川余林峰桑瑞婷張宜浩

軟件工程 2018年6期

張小川　余林峰　桑瑞婷　張宜浩

摘要：應用卷積神經網絡分類文本是自然語言處理領域的研究熱點，針對神經網絡輸入矩陣只提取詞粒度層面的詞向量矩陣，忽略了文本粒度層面整體語義特征的表達，導致文本特征表示不充分，影響分類準確度的問題。本文提出一種結合word2vec和LDA主題模型的文本表示矩陣，結合詞義特征和語義特征，輸入卷積神經網絡進行文本分類，以豐富池化層特征，達到精確分類的效果。對本文提出模型進行文本分類實驗，結果表明，本文算法相比傳統特征輸入的卷積神經網絡文本分類，在F度量值上取得一定程度的提升。

關鍵詞：卷積神經網絡；主題模型；LDA；word2vec

中圖分類號：TP391 文獻標識碼：A

1 引言（Introduction）

在網絡普及信息爆炸的現代社會，主流信息平臺累計的信息量都以指數形式增長；其中占據絕大比重的是短文本數據。研究應用新的文本處理技術，對短文本數據進行分析挖掘有著廣闊的前景和意義。

短文本分類是自然語言處理領域的基礎工作，廣泛應用于信息檢索、網絡知識挖掘和情感分析等領域。目前針對分類算法的研究方興未艾，現有方法中，基于CNN卷積神經網絡模型的分類算法應用廣泛，該算法或以one-hot向量，或以word2vec詞向量，為相對獨立的文本特征輸入，通過濾波矩陣將文本特征轉化為分類特征進行分類[1]。

上述方法著重短文本詞義特征進行分類，詞義和語義不屬一個概念，詞義為單個詞語的含義，詞義構成語義，但不代表語義，語義則是由多個詞語按一定順序關聯起來，表達一個整體意思，只依據詞義的分類將導致特征表示不充分的問題。因此文本分類應以豐富的特征表示為前提，輸入特征矩陣包含詞義特征和語義特征，將有助于權衡短文本分類準確度。

2 文本分類技術（Text classification）

短文本的分類研究主要解決兩類問題，短文本特征表示是第一類問題，應用于短文本特征的分類模型是第二類問題。

2.1 文本表示

文本表示主要基于兩大類方法，從文本挖掘深度的角度，第一類基于文本表層信息提取，One-Hot獨熱編碼，使用N維詞典向量來對文本進行表示，向量存在0/1兩種數值，取決于文本中詞語出現與否，出現為1，不出現為0，是目前最簡單的文本特征表示方法[2]。第二類基于深層信息提取，Mathew J等[3]利用LDA主題模型訓練短文本的潛在語義空間表示-主題分布，構建基于主題分布的特征向量表示。Bojanowski P等[4]提出word2vec將詞匯看作是原子對象，注重詞匯的上下文，通過兩層神經網絡挖掘詞語共現度對詞義進行向量表示，克服了短文本缺乏上下文聯系的問題。唐明等[5]利用TF-IDF算法計算每篇文檔中詞的權重，并結合word2vec詞向量生成文檔向量，提高了單個詞對整篇文檔的影響力。

2.2 分類模型

文本分類模型的研究主要有機器學習和深度學習的方法，Duan Y等[6]提出一個利用樸素貝葉斯學習支持向量機的文本分類方法。對文本預處理結果進行特征降維，然后訓練支持向量機SVM模型用于文本分類。張志飛等[7]利用LDA模型生成主題，一方面區分相同詞的上下文，降低權重；另一方面關聯不同詞以減少稀疏性，增加權重。采用KNN方法對自動抓取的標題短文本數據進行分類。深度學習分類模型中，CNN卷積神經網絡模型對文本分類任務適應性好，Johnson，R等[8]直接對one-hot向量進行卷積運算訓練CNN模型，不需要預訓練得到word2vec或GloVe等詞向量表征，以減少網絡需要學習的參數個數。Nguyen，T.H等[9]假設了所有文本元素的位置已知，每個輸入樣本只包含一種關系，探索了CNN在關系挖掘和關系分類任務中的應用。

上述文本表層信息提取的方法應用成熟，但易導致數據高維、特征表征性差的問題，而提取文本語義特征的LDA模型，忽略了詞義特征的相互關系，訓練詞向量的word2vec，則忽略了整體語義的表達。若分別以上述表示特征為CNN輸入矩陣，將導致低準確率的分類效果。

3 改進的短文本分類算法（Improved algorithm）

本文提出一種改進短文本特征表示的方法，結合word2vec詞向量與LDA主題向量，從詞粒度和文本粒度兩個層面表示短文本特征矩陣，特征矩陣輸入卷積神經網絡，通過卷積神經網絡加強詞與詞、文本與文本之間的聯系，進行高準確的文本分類。word2vec依據滑動窗口內的詞語共現信息，將特征提取細化到詞粒度，建模每個詞語獨立的詞向量，語義向量完全由詞向量簡單疊加組合，忽略了詞語間相互關聯的整體語義表達，弱化了詞項間差異性；LDA通過概率模型構建文本的主題分布，主題分布體現文本的整體語義信息，若結合主題語義特征，將豐富卷積神經網絡池化層特征，為分類器提供準確的分類特征。分類效果準確率不高。

3.1 算法流程

CNN的文本分類模型，主要分為三層處理，包括文本表示、神經網絡和分類評估，以及五個操作，文本預處理層、文本特征表示、卷積網絡層、最大化層、Soft分類層、分類結果、分類評測，其算法流程如圖1所示。

3.2 文本預處理

分本預處理是對文本數據的基礎操作，能清洗原始數據中不規則的數據成分，便于文本后續進行特征提取和表示，通常包括以下處理：

（1）對原始文本數據進行中文分詞處理，本文采用基于Python的結巴分詞工具，可以根據句法和語法高效切分詞語，保證詞語完整性和原子性。

（2）分詞結果包含原句中標點符號，符號本身不具有任何詞項含義，因此利用正則式去除分詞結果中的標點符號，如：“，?！丁贰钡取?/p>

（3）停用詞往往造成數據冗余，導致分類模型偏差，采用Stopword.txt停用詞表去除分詞結果中停用詞。

3.3 文本特征表示

文本特征表示是對短文本數據的向量化建模，以體現文本中表征性強、計算價值高的文本特征。Word2Vec從詞粒度層面，挖掘詞義對文本進行精細語義表達，LDA從文本粒度層面，通過概率模型構建文本的主題分布，著重文本整體語義的表達。兩者通過向量拼接的方式，構建包含詞義和語義的特征矩陣，從兩個層面保證文本特征的完整性。

3.3.1 訓練詞向量

Word2vec能快速構建詞語的詞向量形式，詞向量的每一維的值代表一個具有一定的語義和語法上解釋的特征，其核心框架包括CBOW和Skip-gram兩種訓練模式，CBOW依據上下文決定當前詞出現的概率，但短文本上下文信息缺失，此模式不適用。Skip-gram采用跳躍組合的方式學習詞項規則，更能適應短文本特征稀疏的需要。

其中，為語料庫中任意出現的詞項，即通過跳躍組合構建出現的概率。詞向量訓練時文本，輸出任意詞語的N維向量表現形式。

為語料庫中任意文本，為該文本詞項k的權重特征值。

3.3.2 訓練主題向量

LDA主題模型通過先驗概率的主題建模，分析文本隱含語義主題，語義主題體現文本隱含語義，是對文本深層特征的直接提取。利用LDA訓練短文本語料庫，輸出文本—主題、主題—詞語矩陣，兩個矩陣[10]。LDA模型初始化參數配比，見表1。

其中，反應文本中隱含主題的先驗分布，反應隱含主題下詞的先驗分布，Niters Gibbs為模型迭代次數，K為主題維數，以上參數均為多次實驗經驗值配比。模型訓練結束輸出語料庫任意文本的主題分布矩陣。

其中，為文本M對應的主題概率向量，M為語料庫大小，N為向量維度，數量與詞向量維度相同。

3.3.3 向量拼接

改進的短文本表示方法，采用向量拼接的方式，將詞向量與主題向量疊加一起，形成新的輸入矩陣，即包含詞義特征又包含整體語義特征。

其中，為向量拼接操作，輸入矩陣W表示文本對應的詞向量，z表示文本對應的主題分布向量，以此作為CNN卷積層輸入數據，有助于分類準確性。

3.4 卷積神經網絡

CNN是一種優化的前饋神經網絡，核心在于輸入矩陣與不同卷積核之間的卷積運算，池化卷積結果作為分類運算的數據特征。因此卷積神經網絡主要由卷積層、池化層、分類層組成，結構如圖2所示。

3.4.1 卷積層

卷積層目的是應用卷積運算，提取任意輸入矩陣隱含高階特征的過程[11]。通過不同高度卷積核在上滑動計算，得到不同卷積核的卷積序列，卷積序列構成特征面，其中l表示卷積核高度，a表示文本向量維度。實際是利用輸入與進行內卷積的結果集，再加上偏置得到的結果，具體過程如圖3所示?？紤]到預處理后的短文本數據包含較少數量特征詞語的特點，設置卷積窗口為5，卷積步長為1，實驗效果最好。

圖3中，f是激活函數tanh，用于對卷積結果作平滑。其目的在于為神經網絡引入非線性，確保輸入與輸出之前的曲線關系。卷積層結果是經過多個卷積核的特征面集合H。

h為不同高度詞向量序列經過不同卷積核形成的新特征面，同時作為下一層池化層輸入神經元。

3.4.2 池化層

池化層就是對高維的特征面集合進行降采樣操作，防止過度擬合，以及提高計算性能。池化過程一般將輸入特征劃分為若干個大小的子區域，每個子區域經過池化，常用的池化做法是max-pooling，對應輸出相應池化操作后的值。

對每一卷積核提取的特征面進行操作，最后每一個卷積核對應一個值，把這些值拼接起來，就得到一個表征該句子的新特征量。

3.4.3 分類層

池化層輸出M個數據的新特征量及對應的類別組合，其形式如，其中輸入特征為進過前兩層處理得到的特征向量，為文本類別。對于給定測試集文本向量x，可以通過softmax函數進行分類：

exp表示以e為底數的指數函數，Ф為估值參數，取值由最小代價函數估算，公式如下：

函數的返回值為C個分量的概率值，每個分量對應于一個輸出類別的概率，以此劃分該文本所屬類型信息，完成分類。

4 實驗分析（Experimental analysis）

為了驗證CNN和LDA主題模型的短文本分類模型的有效性，本文以搜狗實驗室新聞標題為短文本實驗數據，選擇標簽范圍內的Film、Food、Manga、Entertainment、Constellation、Military六大類新聞數據，以8：2為訓練測試比例劃分不同類別數據集，如表2所示，Dss（Data set size）表示不同類別數據集大小，[Ds]（Dictinary size）表示數據集對應詞典大小，Train表示訓練集大小，Test表示測試集大小。

詞向量維度體現文本詞義特征，主題向量維度體現文本語義特征，兩向量的有效拼接，依賴于詞向量維度與LDA主題向量維度保持一致，不同維度對分類準確率影響不同，一般在[100，200]，實驗以5為跨度值，驗證維度的具體選取過程，如圖4所示。

圖4中顯示，兩向量維度取150，分類準確度最高。

Ye Zhang等[12]通過不同數據集上網格搜索的差異性，測試了卷積神經網絡的不同參數配比對分類文本的影響，實驗顯示針對小規模數據集，卷積核數一般等同于詞向量維度，數目過大將導致池化層數據特征離散化，卷積核的窗口高度應設置為3×150、4×150、5×150，其他模型參數如表3所示，為經驗配比。

文本經過卷積層和池化層操作，由原始的輸入特征矩陣，轉化為維度為360的特征向量，便于下一步的特征分類。

驗證改進算法有效性，設置Method1為基于one-hot的卷積神經網絡分類算法，Method2為基于詞向量的卷積神經網絡分類算法，Method3為改進的卷積神經網絡分類算法，從算法的分類準確率進行比較（表4）。

實驗結果顯示，分類準確率受數據集大小和輸入數據特征的影響，改進的方法分類準確率最高達到91.2%，平均意義上，方法三比方法二準確率提高了2.8%，比方法一提高了19.8%，證明了改進的方法確實提高了文本分類的準確率。

5 結論（Conclusion）

本文改進的短文本分類方法，豐富了卷積神經網絡輸入矩陣特征，提出了結合詞粒度層面的詞向量和語義粒度層面的主題向量的具體改進方法，提高了傳統卷積神經網絡輸入矩陣，特征表示不充分，影響文本分類效果的問題，通過實驗對比分析，進一步驗證了豐富輸入矩陣改進卷積神經網絡文本分類的有效性，為基于卷積神經網絡進行文本的研究提出了新的思路。

參考文獻（References）

[1] Wang P，Xu B，Xu J，et al.Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification[J].Neurocomputing，2016，174（PB）：806-814.

[2] Mathew J，Radhakrishnan D.An FIR digital filter using one-hot coded residue representation[C].Signal Processing Conference，2000，European.IEEE，2008：1-4.

[3] Carrera-TrejoV，SidorovG，Miranda-Jiménez S，et al.Latent Dirichlet Allocation complement in the vector space model for Multi-Label Text Classification[J].Cancer Biology & Therapy，2015，7（7）：1095-1097.

[4] Bojanowski P，Grave E，Joulin A，et al.Enriching Word Vectors with Subword Information[J].EMNLP 2016，2016：26-27.

[5] 唐明，朱磊，鄒顯春.基于Word2Vec的一種文檔向量表示[J].計算機科學，2016，43（6）：214-217.

[6] Duan Y.Application of SVM in Text Categorization[J].Computer & Digital Engineering，2012，22（7）：318-321.

[7] 張志飛，苗奪謙，高燦.基于LDA主題模型的短文本分類方法[J].計算機應用，2013，33（6）：1587-1590.

[8] Johnson R，Zhang T.Effective Use of Word Order for Text Categorization with Convolutional Neural Networks[J].Computer Science，2014，51（3）：16-19.

[9] Nguyen，T.H.，Grishman，R.Relation Extraction：Perspective from ConvolutionalNeural Networks[C].The Workshop on Vector Space Modeling for Natural Language Processing，2015：39-48.

[10] BLEI D M，NG A Y，JORDAN M I.Latent Dirichlet Allocation[J].the Journal of Machine Learning Research，2003，3：993-1022.

[11] Kim Y.Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv，2014，196（6）：27-30.

[12] Zhang Y，Wallace B.A Sensitivity Analysis of（and Practitioners Guide to）Convolutional Neural Networks for Sentence Classification[J].Computer Science，2015，12（2）：134-137.

作者簡介：

張小川（1965-），男，博士，教授.研究領域：人工智能，計算機軟件.

余林峰（1992-），男，碩士生.研究領域：人工智能.本文通信作者.

桑瑞婷（1992-），女，碩士生.研究領域：自然語言處理.

張宜浩（1982-），男，博士生.研究領域：自然語言處理.

軟件工程2018年6期

軟件工程的其它文章: 基于移動泛在信息化的課程教學改革研究; 采用線上線下混合式教學模式的課程考核方案研究; Web前端課程的知識體系和教學實踐; 基于Arduino開發平臺的自習室門禁系統設計; 基于大數據分析的網絡安全系統優化算法改進研究; 基于MVC模式的高校公共教室預定系統設計