龔維印,韋旭勤



摘要:針對單一CNN網絡在新聞文本分類中容易忽略上下文的語義信息,分類準確率低的問題,同時結合CNN和BiLSTM的優點,提出一種基于BiLSTM-CNN模型的新聞文本方法。該模型先使用Word2Vec中的Skip-gram模型對數據中的詞進行映射處理,轉換為固定維度的向量;再利用BiLSTM捕捉雙向的語義信息;最后將BiLSTM模型提取的特征與詞嵌入的特征進行拼接作為CNN的輸入,使用大小為2,3,4的卷積核進行卷積。在THUCNews和SougouCS兩個公開的數據集上進行實驗,實驗結果表明,融合的BiLSTM-CNN模型在新聞文本分類效果上優于BiLSTM、CNN模型。
關鍵詞:文本分類;CNN;BiLSTM;Word2Vec
中圖分類號:TP391.1? ?文獻標識碼:A
文章編號:1009-3044(2021)21-0105-03
開放科學(資源服務)標識碼(OSID):
News Text Classification Method Based on BiLSTM-CNN Model
GONG Wei-yin,WEI Xu-qin
(School of Mathematics and Computer Science, Liupanshui Normal University, Liupanshui 553004, China)
Abstract: To solve the problem that a single CNN network is easy to ignore the semantic information of context in news text classification and the classification accuracy is low. At the same time, combined with the advantages of CNN and BiLSTM, a news text method based on BiLSTM-CNN model is proposed. The model uses the Skip-gram model in the Word2Vec to map the words in the data and convert them into fixed dimension vectors, and then uses the BiLSTM to capture bidirectional semantic information. Finally, the features extracted from the BiLSTM model are spliced with the embedded features as the CNN input, and the convolution kernel is used. the experiment is carried out on two open data sets of THUCNews and SougouCS. the experimental results show that the fused BiLSTM-CNN model is superior to the BiLSTM、CNN model in the classification effect of news text.
Key words: Text Classification; Convolutional Neural Network; Bi-directional Long Short-Term Memory; Word2Vec
1 引言
在互聯網及電子產品發展的同時,電子新聞也成為人們獲取信息的重要來源。面對日益呈爆炸式增長的電子新聞文本數據,造成信息過量而知識匱乏的現象。因此,如何將海量雜亂無章的數據進行高效管理,從中快速挑選出具有價值的文本信息?這就凸顯了文本分類技術的重要性。
文本分類即是指通過特定的學習機制,學習大規模分類樣本數據的潛在規則,再根據該規則將新的樣本分配到一個或多個類別里面。其主要流程有數據預處理,文本表示,特征提取和分類器的構建等。傳統的文本分類通常是將詞袋法(Bag-of-Word)與機器學習算法相結合,其詞袋法則是把每篇文檔看作由多個詞組成,詞與詞之間相互獨立,忽略其語法、語序和語義信息[1],但是基于詞袋法的文本分類存在特征維數高,數據稀疏等問題,無法準確表示上下文語義信息。文本分類中常用于分類器構造的機器學習算法有:支持向量機(SVM)[2]、K-最近鄰(KNN)[3]和樸素貝葉斯(NB)[4]等分類算法。
現今社會高速發展,大數據時代已穩步前進,其深度學習在圖像處理、語音識別等復雜對象中取得的優異成績。而眾多研究者早已將深度學習應用到自然語言處理中。面對海量的文本數據,2013年谷歌提出Word2Vec詞向量工具,能夠將高維的詞向量映射到固定維度的空間。Kim等人[5]于2014年通過Word2Vec訓練詞向量,使用詞嵌入的方法將文本中的詞轉換為固定維度的詞向量矩陣,然后將其作為卷積神經網絡的輸入,最后使用不同尺寸的卷積核進行局部特征提取,有效證明詞向量的有效性。同年,Kalchbrenner等人[6]根據MaxPooling的原理設計了K-MaxPooling池化,即設置一定大小的滑動窗口,在每次滑動過程中提取特征值排名靠前的K個特征值,此方法逐漸應用到各個領域。Zhou等人[7]于2015年考慮上下文的語義信息,彌補了CNN上下文信息缺失的問題,結合CNN和LSTM的優點,將其應用到文本情感分析中,這一研究取得了較好的效果。