基于混合神經網絡的語言文本分類方法

2021-10-10 03:55:42谷文靜

電子設計工程 2021年19期

谷文靜

（西安航空職業技術學院，陜西西安 710089）

隨著互聯網信息技術的發展，海量數據是其最顯著的特征之一。同時，隨著互聯網媒體平臺的建設與發展，移動互聯網的日趨普及，人們逐漸喜歡通過互聯網平臺來發表自己的觀點，這也造成了網絡文本數據的激增。對這些數據進行有效的篩選和分類，有助于網絡提供商對用戶的喜好進行發掘。因此，對自然語言的文本數據分析已成為當前業界研究的熱點[1]。

單從文本分類而言，其指的是在人為規定好的分類標準下，根據文本自身含義對文本數據進行分類的過程[2]。文本分類是搜索引擎、消息過濾等功能的重要實現部分，其應用場景比較廣泛，例如消息分類、評價分類以及分析垃圾消息等。

傳統的文本分類方法使用機器學習技術，這些方法對于英文自然語言通常有文本特征不明顯、訓練周期長、詞序丟失等缺點[3]。針對以上不足，文中對Word2vec 算法與TF-IDF 算法進行融合，改進為TF-Word 算法，同時應用卷積神經網絡組成混合神經網絡模型實現文本分類，該方法可以有效提高傳統文本分類方法對于英語語言的處理精度。

1 文本分類方法

圖1 是當前文本分類的主流處理過程，分為文本預處理、文本特征提取、文本特征表示以及文本表示幾大步驟，各個步驟的研究現狀介紹如下。

圖1 文本處理流程圖

文本預處理：該步驟為文本分類前的預處理步驟，主要是對句子進行成分的分離。句子分離算法分為基于語義句法和基于統計學的方法，而隨著人工智能技術的發展，目前基于機器學習的算法，例如LSTM、CRF 等，成為當前主流的算法[4]。

文本特征提取：一般常用的算法為信息增益法與卡方檢測法，即通過檢測詞頻，對出現頻率較低的特征詞進行刪除和區分處理。而隨著技術的發展，基于Word2vec 向量的算法成為該階段熱門的選擇，較多學者均使用該方法提高特征提取的精度[5-7]。

文本特征表示：常用的算法為組網法和逆詞頻法。組網法指的是對當前已知的詞匯詞性進行分類，之后組成語義網，對文本的特征進行表示。該算法可以提升句子本身的語義性質，但計算量龐大，算法成本相對較高。而逆詞頻法通過對詞語的重要性進行排序，進而實現特征表示，也有學者使用該方法對詞語進行詞性、聚類分析，效果較優[8-9]。

文本表示：該方法包含離散表示法和獨立表示法。常見的算法為詞袋模型，該模型將分割好的詞語看作是沒有規則順序的詞語集合，通過分類器（神經網絡、向量機、KNN 等）訓練這些集合，進而達到文本表示的目的[10-11]。

2 基礎算法模型

2.1 Word2vec模型

Word2vec 模型是統計語言學模型的一種，該模型由Mikolov 提出[12]，模型可以對句子單詞與單詞中的關聯程度進行衡量。同時可以準確、高速地對詞向量模型進行訓練，該模型的目的是從大量的文本數據中對高質量的詞向量進行訓練。模型內部架構關系如圖2 所示，該模型的內部由CBOW 與Skip_gram 兩個子模型構成，該算法在特征提取方面具有突出的優勢。

圖2 CBOW模型和Skip_gram模型示意圖

2.2 TF-IDF模型

在句子中，最基本的元素就是單詞，單詞的詞頻指的是某一個特定的單詞在句子中出現的次數。統計學公式如式（1）所示。

而逆向文檔頻率(IDF)表示的是某一個單詞在句子中的特殊性與重要性，具體表示為句子總數目和包含此單詞句子數目的比值，如式（2）所示。

在使用時，若一個單詞在句子中出現的頻率較高，則該單詞可以對句子的特征進行表示，即該單詞的TF-IDF 值較高；若一個單詞在句子中出現的頻率較低，則單詞的TF-IDF 值較低，該單詞不能對句子的特征進行表示。

2.3 文本卷積神經網絡模型

文本卷積神經網絡(TextCNN)是文本分類領域中被廣泛使用的承載算法模型，下面對其結構進行介紹[13]。

神經網絡模型的主要結構有：

1）嵌入層：該層為模型的輸入層，輸入數據格式為詞語向量矩陣。

2）卷積層：該層使用卷積計算對文本的特征進行提取，是神經網絡的算法核心。詞卷積的計算，如式（3）所示。

3）池化層：該層是對卷積層的輸出結果進行簡化采樣，進而優化卷積層的運算步驟，減少模型中的參數，通常使用的池化模型為K-max，即選擇卷積層輸出的k個特征，對這些特征進行分析，使用最大的特征向量代替其他向量。

4）輸出層：輸出層為最終輸出的詞向量，輸出概率分布結果，該結果使用梯度下降公式進行計算，如式（4）所示。

3 模型構建

3.1 基于TF-IDF和Word2vec的改進算法

由上文分析可知Word2vec和TF-IDF算法的優缺點。Word2vec 算法可以對句子中單詞與單詞的關系進行表示，但是卻無法反映單詞在句子中的重要程度。而TF-IDF 算法卻恰好相反，該算法可以反映單詞在句子中的重要程度，卻無法反映單詞與單詞之間的關系。因此，文中將這兩種算法的優勢結合，如式（5）所示。

對于某個單詞數量m個的句子而言，使用TFIDF 算法的判斷，可以得到長度為m的向量，上式中tm為單詞的TF-IDF 值。而在Word2vec 模型中，句子中的詞語均可以被一個固定長度的向量進行表征。因此，可以得到如式（6）所示的矩陣。

對這兩種模型進行結合，即對每個詞語的TFIDF 值和Word2vec 值進行結合，得到如式（7）所示的矩陣。

該矩陣既可以對單詞之間的相互聯系進行表征，又可以對單詞的詞頻進行表示，將改進后的模型命名為TF-Word 算法。

3.2 基于TF-Word的混合神經網絡模型

將TF-Word 作為神經網絡的輸入層，構建混合神經網絡模型，如圖3 所示。

圖3 整體模型構建示意圖

算法的執行過程如下：

1）單詞庫構建。單詞庫包括訓練所需的樣本集合，單詞庫的獲取一般有兩種方式，包括使用開源的詞匯庫以及自行訓練詞匯庫。該文使用RCV1-V2數據集合，該數據集中的內容大多為英文的新聞文本，數據集合數量約為70 萬個，足夠算法訓練模型使用。

2）得到模型的權重公式。首先對輸入的數據進行分詞處理，處理完后計算單詞的權重數據，如式（8）所示。

3）構建卷積網絡模型。卷積網絡模型如圖4所示。

圖4 卷積神經網絡示意圖

卷積網絡模型如上文所述，由輸入層、卷積層、池化層、輸出層四部分組成。其中，輸入層數據為經過TF-Word 算法處理過后的數據，則輸入模型為一個單詞向量矩陣。卷積層使用長卷積方式，如式（9）所示。

池化層使用1/2 池化算法，這樣可以將卷積層輸出的數據長度減少一半，有效減少模型計算的工作量。

4 實驗與分析

4.1 實驗環境搭建

該次實驗數據集選擇RCV1 數據集合，實驗環境使用PyTorch 對卷積神經網絡進行編程。RCV1 數據集合為新聞文本數據集，該集合有大約70 萬條的新聞文章條數。文中測試環境如表1 所示。

表1 測試環境說明

卷積神經網絡按照3.2 節中所述進行搭建。神經網絡的參數如表2 所示。

表2 神經網絡參數說明

4.2 實驗測試

通過構建卷積神經網絡模型，使用RCV1 訓練集對該次搭建的模型進行訓練，再使用測試集合對模型進行多個方面的測試，測試指標分別為精確度、召回率以及F1測量值[14-15]。其中，精確度定義為在分類之后，樣本能被正確歸類的比率；召回率指的是分類后正確的測試樣本個數占據所有正確測試樣本的比率；F1 即為精確度和召回率的綜合加權結果。對不同領域的詞進行分類評價，評價指標如表3 所示。

由表3 可知，此次測出的精確度、召回率以及F1測量值指標平均值為96.92%、95.43%與96.22%。

表3 模型測試結果

對比的實驗方法使用傳統機器學習文本分類方法，對英文自然語言進行處理，分別采用樸素貝葉斯算法（NB）、支持向量機（SVM）、K 近鄰法（KNN）展開測試[16]。測試結果如圖5 所示。

圖5 對比測試結果

由圖5 可知，文中所構建算法模型的F1 值相比于NB 算法提升了18.5%，相比于KNN 算法提升了14.3%，相比于SVM 算法提升了12.9%。

圖6 所示為訓練的文本數量對F1 值的影響。由圖可知，訓練文本數量越多，算法準確度越高。

圖6 文本數量對F1值的影響

綜上所示，文中構建的模型準確度要優于傳統的機器學習算法。故將文中所提出的自然語言處理方法應用在機器翻譯領域時，可以有效提高英文長句的翻譯準確度。

5 結束語

傳統文本分類方法對英語語言進行智能分析處理時，存在文本特征不明顯、訓練周期長、詞序丟失等缺點，文中通過將Word2vec 算法與TF-IDF 算法進行改進融合，提出了一種TF-Word的新算法。同時應用卷積神經網絡組成混合神經網絡模型，最終實現文本分類。由實驗結果可以看出，對英文自然語言的智能化處理而言，文中所構建的算法模型相比于傳統算法模型，在性能上有顯著提高。