999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義強化和特征融合的文本分類

2020-03-02 11:36:35王子牛王宏杰高建瓴
軟件 2020年1期

王子牛 王宏杰 高建瓴

摘 ?要: 文本分類是信息檢索、機器問答的基礎性任務,是自然語言理解的一項重要語義任務。本文提出了一種基于語義強化和特征融合的(LAC)分類模型。該模型首先將Word2vec嵌入的詞向量輸入LSTM進行句子語義的提取,然后將提取的語義特征輸入Attention層進行特征的強化,同時用卷積層提取文本的局部特征,其次把強化的語義特征和利用卷積層提取的局部特征進行融合,最后經池化層對特征進行降維,并將經池化后的特征向量輸入到全連接層,引入Dropout防止過擬合,得到最終的分類結果。由于CNN提取特征時存在忽略上下文信息的弊端,所以提出用LATM提取上下文信息,然后進行特征的融合的方法;另外,由于LSTM在捕獲句子信息時會因為距離過長而出現的信息遺漏現象,所以提出將Attention作用于LSTM。通過實驗表明,本文提出的模型比單獨的CNN模型、以及先用LSTM提取語義信息,在進行局部特征提取的LSTM-CNN模型的效果更好。

關鍵詞: 特征融合;神經網絡;LSTM;Attention;自然語言處理

中圖分類號: TP391 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.01.046

本文著錄格式:王子牛,王宏杰,高建瓴. 基于語義強化和特征融合的文本分類[J]. 軟件,2020,41(01):211215

【Abstract】: Text classification is a basic task of information retrieval and machine question answering and an important semantic task of natural language understanding. This paper proposes a classification model based on semantic reinforcement and feature fusion (LAC). The model will first word sentence semantic vector input LSTM are extracted, and then extract the semantic characteristics of the input characteristics of the strengthening of the Attention layer at the same time the local characteristics of convolution layer was used to extract text, secondly to reinforce the semantic characteristics and utilization of the local characteristics of convolution layer of fusion, finally the pooling layer for feature dimension reduction, and after pooling feature vector input to full connection layer, introducing the Dropout prevent fitting, get the final classification result.Due to the disadvantage of ignoring context information when CNN extracts features, a method of extracting context information by Lstm and then fusing features is proposed. In addition, since LSTM may miss information due to the long distance when capturing sentence information, it is proposed to apply attention to LSTM.Experiments show that the model proposed in this paper is better than the CNN model alone and the LSTM model used to extract semantic information first, and the lstm-cnn model used to extract local features is better.

【Key words】: Feature fusion; The neural network; LSTM; Attention; Natural language processing

0 ?引言

隨著互聯網技術和科學技術的不斷發展,人們的交流溝通方式發生了翻天覆地的變化。聊天的媒介由最原始的紙質媒介轉變為現在的電子媒介,一些新型的電子工具,例如:微博、微信、QQ等時時刻刻在影響并且改變著人們的生活。隨著海量數據的不斷產生,國家對人工智能[1]、大數據等新興技術的宣傳和投入,人們如何有效合理的利用這些信息漸漸成為了科研工作者的研究重點。因此,文本分類進行理論的研究以及具體的實踐,對于解決上述的問題,有著十分重要的現實意義。中文文本分類是自然語言處理(NLP)領域的一個重要分支,是信息檢索[2]、數字圖書館[3]等領域的基礎技術。傳統的文本表示方法存在著維數高,數據稀疏等問題,隨著深度學習在文本方面的運用,這些問題漸漸被解決。目前自然語言處理任務的兩大主流模型是卷積神經網絡(CNN)和循環神經網絡(RNN)以及他們的變體[4]。這些模型都取得了良好的效果。

文本分類技術,在它的漫長的發展過程中,可以被概括為以下三個階段:基于知識工程(KE)、基于機器學習(ML)和基于神經網絡(NN)。第一,探索階段(1960-1963):1960年,Maron發表了第一篇關于文本分類的論文,并對文本自動分類進行了初步研究[5];1963年,Gerald Salton提出了矢量空間模型(VSM)用于文本的表示[6]。第二,理論研究階段(1963-1989):侯漢清教授對中文文本分類的發展方向進行了理論性的指導同時介紹了國外計算機在自動分類系統、分類檢索等方面的運用。在此之后,國內才正式開始了對中文文本分類技術的研究。1987年,王繼成等人研究出了中文文本分類系統。第三,應用實踐階段(1990年至今):機器學習方法與知識工程方法相比具有精度高、易于實現的優點。基于知識工程的文本分類,因其可移植性差、不可跨領域操作、規則制定過程繁雜等缺點,90年代末期被機器學習的分類方法[7]所取代。

深度學習最初運用于圖像識別和語音識別領域,近些年在自然語言處理領域也取得了很大的成功[8]。特別是在2014年Kim.Y提出CNN用于句子分類之后,深度學習技術逐漸取代了傳統的機器學習方法已成為主流文本分類技術。2015年,Lai等人提出了一種無人工特征的循環卷積神經網絡分類方法RCNN[9],大大提高了文本分類的正確性;2016年,Bahdanau等將注意力機制應用到自然語言處理(NLP)領域的機器翻譯[10],在翻譯準確率上較傳統神經網絡模型有較大提高;2016年,Yang等人提出了一種用于文檔分類的層次注意力機制網絡,在構建文檔時對文檔內容賦予不同的權重,簡稱HAN[11];2017年,Joulin等人提出了一種高效的文本分類模型fastText[12],Johnson和Zhang提出了一種基于單詞粒度級別的深層CNN模型,簡稱DPCNN[13],通過增加網絡的深度提取更加優質的特征,進而提高分類的性能;2018年,黃民烈教授團隊提出了一種具有自適應注意力機制的密集型連接的卷積神經網絡,簡稱DCCNN[14],由于獲得的特征尺度比較豐富,注意力機制又能夠自行的選擇合適的特征用于文本分類,預測精度都有所提高;2019年,Shen和Yi kang等人提出ON-LSTM[15],這篇論文的想法是將樹結構集成在遞歸神經網絡中,在語言建模方面取得良好的性能。

深度學習在文本處理領域實現了重大突破,獲得比較好的成績。這跟文本向量的表示和文本特征的提取有密切的關系。文本向量空間模型表示方法與神經網絡的組合使得提取到的文本特征向量越來越精簡而具有代表性。深度學習雖然提供了一種有效的方法來減少人工提取特征的數量,但是這些方法仍然是需要詞匯資源,都依賴于獲得高級別的特征。

本文中提出一種基于語義強化和特征融合的模型。該模型利用長短時記憶網絡(LSTM)提取句子中重要的語義信息,利用自注意機制(Attention)對句子中的單詞的關聯性做進一步的強化,然后與利用CNN提取的特征進行融合。這些都沒有使用先檢的知識或者自然語言處理系統,沒有利用任何的外部的語法信息。本文基于THUCNews新聞文本分類數據集的子集,分別對CNN、LSTM-CNN、LSTM-ATT-CNN進行了相關的實驗,結果表明本文提出模型更加具有競爭性,取得了更好的效果。

1 ?LAC模型

1.1 ?模型結構圖

本文提出的LAC模型結構如圖1所示。

該模型由8部分組成:

(1)輸入層:輸入句子。

(2)嵌入層:將句子中單詞利用Word2vec映射到低維度。

(3)LSTM層:利用LSTM層獲取文本語義 ? 特征。

(4)Attention層:進一步強化LSTM提取的語義特征。

(5)卷積層:提取文本的局部特征。

(6)特征融合:利用TensorFlow框架將(4)和(5)的特征融合,獲得更加科學的表達。

(7)池化層:特征降維,減少過擬合。

(8)SoftMax層:對文本進行分類。

1.2 ?文本向量化

為了機器能夠理解自然語言,首先需要將自然語言符號數學化,即文本向量化[16]。文本向量化直觀理解為將一篇文章表示為0、1向量。

文檔用Z表示,一篇文檔用Y個句子表示,句子用向量S表示。句子S由N個單詞組成, 表示一個單詞向量。S中的每一個單詞 進一步被表示為 , 是一個需要學習的參數,v是指詞匯表的大小, 是指詞向量的嵌入維度。 是大小為 的向量,在索引為 的位置值為1,其他位置值為0。

1.3 ?LSTM網絡模型

循環神經網絡(RNN)在學習模型參數時,隨著網絡層數的增加,會出現只有靠近輸出端的參數更新而遠離輸出端的參數難以學習和更新的情況,為了解決這個問題提出了RNN的變體長短時記憶網絡(LSTM)[17]。它被用于機器翻譯[18]、圖像分析[19]、語音識別[20]等許多的領域,漸漸成為解決自然語言處理問題的主流方向。LSTM模型如圖2所示。

2 ?實驗結果分析

2.1 ?數據集

基于THUCNews新聞文本分類數據集的子集,選取金融、房地產、體育、家居、教育、科技、時尚、政治、游戲、時尚等十大類作為實驗數據,每個類別6500條數據。數據集語料庫分配:訓練集5000*10,驗證集500*10,測試集1000*10。

2.2 ?實驗參數

2.3 ?實驗結果對比

本文的實驗涉及到的開發工具跟實驗環境如下:

硬件環境:CPU:Inter(R) Core(TM) i5-7500 CPU@3.4 GHz 3.41 GHz,

主站蜘蛛池模板: 四虎影院国产| 亚洲AⅤ永久无码精品毛片| 午夜毛片免费观看视频 | 欧美日韩免费在线视频| 视频一本大道香蕉久在线播放 | 91丝袜在线观看| 无码区日韩专区免费系列| 男女男免费视频网站国产| 国产精品xxx| 国产午夜在线观看视频| 国产人碰人摸人爱免费视频| 99热这里只有精品在线播放| 亚洲动漫h| 国产无人区一区二区三区| 中文字幕人成乱码熟女免费| 亚洲中文字幕精品| 亚洲精品第一在线观看视频| 欧美午夜视频在线| 54pao国产成人免费视频| 91久久偷偷做嫩草影院电| a天堂视频| 日韩资源站| 久久中文字幕2021精品| 最新国产麻豆aⅴ精品无| 欧美翘臀一区二区三区| 日韩一二三区视频精品| 2021天堂在线亚洲精品专区| 日本高清免费不卡视频| 91网址在线播放| 亚洲综合亚洲国产尤物| 毛片视频网址| 欧美亚洲一区二区三区导航 | 欧美一道本| 精品久久高清| 72种姿势欧美久久久大黄蕉| 久久精品无码中文字幕| 伊人网址在线| 久久91精品牛牛| 亚洲精品va| v天堂中文在线| 欧美日本一区二区三区免费| 99色亚洲国产精品11p| 国产亚洲欧美在线专区| 日韩在线欧美在线| 欧美一级黄片一区2区| 欧美中文一区| 色欲综合久久中文字幕网| 久久先锋资源| 91在线高清视频| 色欲色欲久久综合网| 国产农村精品一级毛片视频| h网址在线观看| 视频二区国产精品职场同事| 成人国产小视频| 国产一区二区三区视频| 91娇喘视频| 亚洲色精品国产一区二区三区| 免费黄色国产视频| 99热国产这里只有精品无卡顿"| 国产精品一区在线麻豆| 国产精品午夜电影| 91成人免费观看| 国产爽爽视频| 青青国产在线| 国产一级片网址| 国产高潮视频在线观看| 国产99视频免费精品是看6| 久草视频一区| 亚洲日韩日本中文在线| 女同国产精品一区二区| 无码专区国产精品第一页| 性欧美久久| 激情在线网| 欧美激情综合一区二区| 日韩AV无码免费一二三区| 国产a在视频线精品视频下载| 99久久无色码中文字幕| 国产白浆在线| 在线中文字幕日韩| 精品91视频| 国产va视频| 一级毛片在线播放免费|