999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM-CNN模型的新聞文本分類

2021-09-23 07:20:04龔維印,韋旭勤
電腦知識與技術 2021年21期

龔維印,韋旭勤

摘要:針對單一CNN網絡在新聞文本分類中容易忽略上下文的語義信息,分類準確率低的問題,同時結合CNN和BiLSTM的優點,提出一種基于BiLSTM-CNN模型的新聞文本方法。該模型先使用Word2Vec中的Skip-gram模型對數據中的詞進行映射處理,轉換為固定維度的向量;再利用BiLSTM捕捉雙向的語義信息;最后將BiLSTM模型提取的特征與詞嵌入的特征進行拼接作為CNN的輸入,使用大小為2,3,4的卷積核進行卷積。在THUCNews和SougouCS兩個公開的數據集上進行實驗,實驗結果表明,融合的BiLSTM-CNN模型在新聞文本分類效果上優于BiLSTM、CNN模型。

關鍵詞:文本分類;CNN;BiLSTM;Word2Vec

中圖分類號:TP391.1? ?文獻標識碼:A

文章編號:1009-3044(2021)21-0105-03

開放科學(資源服務)標識碼(OSID):

News Text Classification Method Based on BiLSTM-CNN Model

GONG Wei-yin,WEI Xu-qin

(School of Mathematics and Computer Science, Liupanshui Normal University, Liupanshui 553004, China)

Abstract: To solve the problem that a single CNN network is easy to ignore the semantic information of context in news text classification and the classification accuracy is low. At the same time, combined with the advantages of CNN and BiLSTM, a news text method based on BiLSTM-CNN model is proposed. The model uses the Skip-gram model in the Word2Vec to map the words in the data and convert them into fixed dimension vectors, and then uses the BiLSTM to capture bidirectional semantic information. Finally, the features extracted from the BiLSTM model are spliced with the embedded features as the CNN input, and the convolution kernel is used. the experiment is carried out on two open data sets of THUCNews and SougouCS. the experimental results show that the fused BiLSTM-CNN model is superior to the BiLSTM、CNN model in the classification effect of news text.

Key words: Text Classification; Convolutional Neural Network; Bi-directional Long Short-Term Memory; Word2Vec

1 引言

在互聯網及電子產品發展的同時,電子新聞也成為人們獲取信息的重要來源。面對日益呈爆炸式增長的電子新聞文本數據,造成信息過量而知識匱乏的現象。因此,如何將海量雜亂無章的數據進行高效管理,從中快速挑選出具有價值的文本信息?這就凸顯了文本分類技術的重要性。

文本分類即是指通過特定的學習機制,學習大規模分類樣本數據的潛在規則,再根據該規則將新的樣本分配到一個或多個類別里面。其主要流程有數據預處理,文本表示,特征提取和分類器的構建等。傳統的文本分類通常是將詞袋法(Bag-of-Word)與機器學習算法相結合,其詞袋法則是把每篇文檔看作由多個詞組成,詞與詞之間相互獨立,忽略其語法、語序和語義信息[1],但是基于詞袋法的文本分類存在特征維數高,數據稀疏等問題,無法準確表示上下文語義信息。文本分類中常用于分類器構造的機器學習算法有:支持向量機(SVM)[2]、K-最近鄰(KNN)[3]和樸素貝葉斯(NB)[4]等分類算法。

現今社會高速發展,大數據時代已穩步前進,其深度學習在圖像處理、語音識別等復雜對象中取得的優異成績。而眾多研究者早已將深度學習應用到自然語言處理中。面對海量的文本數據,2013年谷歌提出Word2Vec詞向量工具,能夠將高維的詞向量映射到固定維度的空間。Kim等人[5]于2014年通過Word2Vec訓練詞向量,使用詞嵌入的方法將文本中的詞轉換為固定維度的詞向量矩陣,然后將其作為卷積神經網絡的輸入,最后使用不同尺寸的卷積核進行局部特征提取,有效證明詞向量的有效性。同年,Kalchbrenner等人[6]根據MaxPooling的原理設計了K-MaxPooling池化,即設置一定大小的滑動窗口,在每次滑動過程中提取特征值排名靠前的K個特征值,此方法逐漸應用到各個領域。Zhou等人[7]于2015年考慮上下文的語義信息,彌補了CNN上下文信息缺失的問題,結合CNN和LSTM的優點,將其應用到文本情感分析中,這一研究取得了較好的效果。

主站蜘蛛池模板: 综合五月天网| 亚洲天堂网在线观看视频| 亚洲毛片在线看| 亚洲综合精品香蕉久久网| 亚洲一区二区在线无码 | 成人欧美日韩| 五月婷婷综合色| 性69交片免费看| 国产亚洲欧美日本一二三本道| 亚洲精品视频网| 香蕉eeww99国产在线观看| 色欲综合久久中文字幕网| 国产大片喷水在线在线视频| 久久黄色小视频| 欧美人与牲动交a欧美精品| 午夜视频www| 在线免费观看a视频| 欧美在线观看不卡| 四虎永久免费地址| 国产精品久久久精品三级| 亚洲国产清纯| 毛片免费视频| 波多野结衣视频一区二区 | jizz国产在线| 亚洲国产第一区二区香蕉| 这里只有精品在线播放| 在线免费亚洲无码视频| 香蕉久久永久视频| 四虎精品国产AV二区| 波多野结衣中文字幕久久| 精品天海翼一区二区| 看看一级毛片| 国产成人免费观看在线视频| av午夜福利一片免费看| 国产av色站网站| 欧美国产日韩在线观看| 国产好痛疼轻点好爽的视频| 国产va免费精品观看| 55夜色66夜色国产精品视频| 六月婷婷精品视频在线观看| 天天摸夜夜操| 色天天综合| 亚洲自偷自拍另类小说| 秋霞午夜国产精品成人片| 黄色一级视频欧美| 欧美国产菊爆免费观看| 被公侵犯人妻少妇一区二区三区| 国产99欧美精品久久精品久久| 在线a网站| 噜噜噜久久| 91免费精品国偷自产在线在线| 午夜啪啪福利| 99视频免费观看| 韩日无码在线不卡| 91精品国产自产91精品资源| 国产成人综合网在线观看| 亚洲AⅤ无码国产精品| 九九视频免费在线观看| 精品国产乱码久久久久久一区二区| 国产午夜福利片在线观看| 欧美在线天堂| 国内精品九九久久久精品| 中文国产成人久久精品小说| 成人免费网站在线观看| 国产免费人成视频网| 一级片免费网站| 精品无码人妻一区二区| 久久婷婷综合色一区二区| 国产精品美女免费视频大全| 中国精品自拍| 午夜爽爽视频| 亚洲欧洲免费视频| 亚洲国产成人无码AV在线影院L| 欧美日韩国产成人高清视频| 区国产精品搜索视频| 国产成人综合日韩精品无码首页 | 免费激情网址| 亚洲av无码专区久久蜜芽| 午夜福利网址| 国产超碰一区二区三区| 国产亚洲精品自在久久不卡| 精品无码视频在线观看|