999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的短文本分類研究

2019-05-22 09:26:08陸正球毛煥宇王海穎
無線互聯科技 2019年6期

陸正球 毛煥宇 王海穎

摘 要:隨著移動互聯網的發展,如何從大量的文本中挖掘出有價值的信息并提供參考成為一種新的需求,文本分類作為信息檢索和挖掘的關鍵技術,能夠實現對不同類型文本的自動分類。文章提出了基于卷積神經網絡的短文本分類方法,首先通過jieba實現文本的分詞,然后通過開源工具word2vec實現了詞向量,最后通過卷積層、最大池化層和全連接層完成新聞數據的分類。實驗結果顯示,基于卷積神經網絡的文本分類具有較高的分類效果。

關鍵詞:文本分類;卷積神經網絡;word2vec

隨著移動互聯網的飛速發展和個人移動終端功能的日益強大,人們從網絡中獲取的信息越來越多,由此產生的大量信息數據多以文本的形式出現,如何從這些文本中挖掘出有價值的信息并給用戶提供參考價值就顯得尤為重要。

1 卷積神經網絡

卷積神經網絡是一種專門用來處理具有類似網絡結構的數據的人工神經網絡,使用的是普通的神經元網絡,每層由多個二維平面組成,而每個平面由多個獨立神經元組成。卷積和池化作為一種無限強的先驗[1],在提取特征上體現了高度的置換不變性,局部感受與權值共享兩個主要特征使得卷積神經網絡可以有效地減少參數學習的數量級,從而降低了模型的復雜度,提高了模型的可用性。

通常卷積神經網絡中一般包含4層:輸入層、卷積層、池化層以及全連接層。

2 基于卷積神經網絡的文本分類

基于卷積神經網絡的短文本分類的過程一般包括數據預處理,特征提取、文本分類3個階段。

2.1 數據預處理

由于數據集來源于互聯網,因此首先需要對數據集進行一系列預處理,包括去掉文本中的所有標點符號、數字和符號,只保留下含有較多語義信息的中文文本。而后通過Jieba分詞開源庫的精確分詞模式來完成對短文本數據集的分詞步驟。

經過數據預處理后,得到的數據和格式如表1所示。

2.2 特征提取

本文采用Mikolov等提出的Skip-Gram神經網絡語言模型,在完成基礎數據集的預處理和分詞操作后,利用無監督學習方式的Skip-Gram模型訓練出每個詞的分布式特征表示,即詞向量,然后,將訓練好的詞向量進行組合得到每條短文本的分布式特征。相比傳統的人工特征提取方式,此次提取的方式既可以控制特征維度,又可以不影響詞與詞在空間中的相對位置關系。

在具體實現的過程中,使用Google在2013年開源的詞向量計算工具—Word2vec,不僅可以在百萬數量級的詞典和上億的數據集上進行高效地訓練,而且該工具實現了訓練結果—詞向量(Word Embedding),可以很好地度量詞與詞之間的相似性。

2.3 文本分類

在文本分類中,本文將采用卷積神經網絡模型完成最終的分類任務。卷積神經網絡在結構上最大的特點就是卷積層和Max-pooling層的交替累積[2]。其中,卷積層接收來自通過word2vec處理后的詞向量,在該層共設置256個卷積核,設置每個卷積核的大小是5。每類卷積核都能夠提取出不同的局部特征圖,并且對輸入數據的局部特征進行描述,Max-pooling層可對每張特征圖中表達能力最強的特征進行二次提取,全連接層部分完成了文本的分類任務,并最終通過Softmax實現歸一化操作,如圖1所示。

3 實驗

首先從互聯網上獲取并經過處理的文本數據進行訓練和測試,包括體育、財經、房產、教育、科技、體育、娛樂、時政、游戲等10個大類,其中每個分類有6 500條數據。為了便于進行數據的訓練、驗證和測試,將其中5 000條用于訓練,500條用于驗證,1 000條用于測試。

本文所使用的開發與訓練的實驗環境如表2所示。

首先進行數據訓練,在驗證集上經過5輪迭代后的最佳分類效果是96.1%。其中準確率和誤差loss如圖2—3所示。

同時,使用測試集上的數據進行測試,得到的數據集結果顯示如下,其中測試的誤差是0.13,測試的準確率是96.27%,除了時尚類別外,其他類別的預測準確率都高于95%。其中體育類的測試為100%,整體的precision、recall和F1值都是96%,如圖4所示。

最后,使用剩余的10 000條數據進行預測,系統隨機選擇其中6個類別,從實驗結果可以發現原文的標簽和預測的標簽結果都是一樣的,如圖5所示。

4 結語

通過對短文本分類問題的研究,本文提出了一種基于卷積神經網絡算法的短文本分類模型。經過大量的文本數據進行了測試,實驗結果表明,基于卷積神經網絡的文本分類方法具有較高的分類效果。

[參考文獻]

[1]高云龍.基于改進卷積神經網絡的短文本分類研究[D].長春:吉林大學,2018.

[2]蔡慧萍.基于卷積神經網絡的短文本分類方法研究[D].重慶:西南大學,2016.

主站蜘蛛池模板: 亚洲天堂在线免费| 国产高清毛片| 91精品网站| 毛片基地视频| 在线观看国产黄色| 欧美一级黄色影院| 国产亚洲欧美在线人成aaaa| 一级一级一片免费| 欧美一区精品| 国产鲁鲁视频在线观看| 亚洲天堂啪啪| 亚洲AⅤ无码日韩AV无码网站| 亚洲永久色| 国产菊爆视频在线观看| 中文字幕在线观| 国产理论最新国产精品视频| 亚洲欧美精品一中文字幕| 乱人伦99久久| 亚洲天堂区| 精品国产成人三级在线观看| 四虎精品国产永久在线观看| 亚洲av综合网| 国产青榴视频| 成人伊人色一区二区三区| 国模沟沟一区二区三区| 久久人与动人物A级毛片| 欧美国产中文| 国产成人亚洲毛片| 日韩黄色大片免费看| 亚洲精品欧美日本中文字幕| 亚洲一级毛片在线播放| 亚洲第一页在线观看| 欧亚日韩Av| 91精品国产综合久久香蕉922 | 日本不卡视频在线| 国产免费羞羞视频| 精品福利网| 999国内精品视频免费| 美女无遮挡免费网站| WWW丫丫国产成人精品| 中文字幕有乳无码| 精品久久久久久久久久久| 亚洲无卡视频| 99国产精品国产高清一区二区| 欧美精品影院| 欧洲免费精品视频在线| 日本国产在线| 欧美激情第一区| 免费一级毛片在线播放傲雪网| 97在线免费| 午夜国产在线观看| 国产精品久久久久久搜索| 日韩精品毛片人妻AV不卡| 国产国模一区二区三区四区| 欧美亚洲另类在线观看| 亚洲熟妇AV日韩熟妇在线| a级毛片在线免费| 国产精品丝袜视频| 97在线观看视频免费| 欧美视频免费一区二区三区| 99草精品视频| 67194在线午夜亚洲| 久综合日韩| 亚洲,国产,日韩,综合一区| 2021国产乱人伦在线播放 | 久久网欧美| 日韩在线影院| 99久久精品国产自免费| 国产精品久久久久鬼色| 亚洲欧美日韩高清综合678| 香蕉蕉亚亚洲aav综合| 好吊妞欧美视频免费| 激情视频综合网| 国产成+人+综合+亚洲欧美| www.99在线观看| 国产91成人| 欧美、日韩、国产综合一区| 久久久国产精品无码专区| 麻豆AV网站免费进入| WWW丫丫国产成人精品| 中国国产高清免费AV片| 日韩黄色精品|