999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征檢索的中文短評生成

2020-04-24 08:56:20袁江林郭志剛唐永旺
計算機工程與設計 2020年4期
關鍵詞:特征文本融合

袁江林,陳 剛,郭志剛,唐永旺

(戰略支援部隊信息工程大學 信息系統工程學院,河南 鄭州 450000)

0 引 言

在大數據背景下,從海量文本數據中挖掘出需要的文本數據是一個研究的內容。針對新聞數據,從海量評論數據庫中檢索出與新聞相關且含有情感傾向性的評論成為了一個研究的問題。該問題可分為主題特征檢索問題和情感特征檢索問題。

近年來有許多文本的主題相似性算法研究。文獻[1]主要研究TF-IDF算法計算文本相似度,通過統計的方法在長文本上得到較好的結果。對于較長文本,文獻[2]研究了關鍵詞抽取算法抽取關鍵詞,較長文本可通過抽取部分關鍵詞,利用關鍵詞計算主題相似性。哈希算法可加快文本相似性的計算,對大數據背景下的檢索速度提升有研究意義。深度學習技術出現之后,在短文本上取得了較好的效果。文獻[3,4]分別研究了采用詞向量建立主題模型和實現相似度計算。隨著網絡結構越來越多,應用在自然語言處理領域的模型結構增多。長短期記憶網絡(long short term memory, LSTM)[5]和卷積神經網絡(convolutional neural network, CNN)[6]是用在自然語言處理中較為常用的結構。文獻[7]采用了卷積神經網絡實現句子特征的表示和注意力機制的表達。文獻[8]研究采用了深度學習技術實現文本相似性的計算,提升了語義相似性計算的精度。上述文獻證明,采用深度學習技術可以實現文本相似性的計算。

情感特征檢索主要通過情感按照不同分類粒度分類實現。早期主要通過情感詞典與規則相結合的方法實現情感分類,文獻[9,10]通過利用情感詞典和規則對中文語句、新聞文本、中文微博等類型的文本做情感傾向性分析。但是情感詞典標注工作復雜,對較長的文本做情感傾向性判斷有一定的困難。基于機器學習的情感分析算法是在基于詞典和規則之后研究較多的算法,文獻[11]通過樸素貝葉斯分類算法等機器學習分類算法實現了情感的分類,取得了較好的效果。基于深度學習的情感分類算法是當前情感分析研究的熱點。文獻[12]結合詞向量對中文評論實現情感分類,文獻[13]將詞序和CNN_LSTM網絡結合實現了情感的分類。采用深度學習算法較機器學習算法,分類精度有提升。目前情感分類較為依賴于語料的標注,但分類精度較早期已經有了很大的提升。

目前基于檢索的方法實現評論的生成對主題和情感結合研究的較少,文獻[14]研究了采用TF-IDF結合深度學習的方法實現評論的生成,但僅限于主題特征。為了對新聞文本檢索出帶有一定情感傾向性的評論,本文采用主題特征檢索和情感特征檢索結合的方法實現中文評論的生成。

1 算 法

基于檢索的中文評論生成研究立足于新聞及評論語料庫,對新聞按照新聞內容、新聞標題、新聞關鍵詞等3個不同的粒度提取特征,新聞的評論內容屬于短評,因此可以直接做特征提取。具體實現流程如圖1所示。如圖1所示,基于檢索的中文評論生成首先需輸入新聞及評論語料庫,提取主題特征并計算主題相似度實現一次檢索。在一次檢索結果基礎上提取情感特征,實現情感分類,檢索出含有情感傾向性的相關評論。基于主題特征融合檢索和基于情感特征融合的檢索是本文研究的重點內容。

圖1 基于檢索的中文評論生成流程

其中新聞關鍵詞的提取按照采用Text-Rank的方法計算。文獻[15]研究利用Text-Rank方法實現關鍵詞抽取。關鍵詞抽取的Text-Rank權重迭代公式如式(1)所示

(1)

其中,V表示詞匯集合,WS表示關鍵詞之間的權重,d為調節系數,In(Vi) 表示指向詞Vi的詞匯集合,outVj表示詞匯Vj指向所有詞匯的集合,wji表示詞Vj到詞Vi的邊的權重集合。

1.1 基于主題特征的一次檢索

基于主題特征的一次檢索通過計算新聞主題特征和評論主題特征之間的相似度,按照相似度檢索出相關的評論。本文研究主題特征提取方法為詞向量、CNN、雙向長短期記憶網絡(bidirectional long short term memory,BiLSTM)、基于主題特征融合的檢索算法。

1.1.1 基于詞向量的主題特征檢索

不妨設原始文本信息為w=(w1,…,wN), 其中N表示文本的長度,w表示中文文本分詞后的詞匯集合;通過詞向量轉化后的結果為v=(v1,…,vN), 詞向量的計算公式如式(2)所示

v=word2vec(w)

(2)

由于word2vec表示的詞向量具有一定的語義相關性,因此,將新聞及評論文本向量化后,利用向量和表示新聞的主題特征,具有一定的語義特征。新聞主題特征和評論主題特征計算公式分別如式(3)、式(4)所示

(3)

(4)

其中,Lk表示新聞文本k分詞后的詞匯長度,Mj表示評論文本j分詞后的詞匯長度。主題相似度的計算公式如式(5)所示

(5)

將評論語料庫中所有評論向量化表示,計算新聞與評論語料庫之間的主題相似度。按照評論相似性排序,檢索出主題相似性較高的評論。

1.1.2 基于CNN的主題特征檢索

基于CNN的主題特征檢索的實現過程圖如圖2所示。先通過式(2)將文本轉換為詞向量,轉換后的詞向量用不同尺寸的多個濾波器分別濾波,即卷積過程,卷積后的結果用maxpooling提取最大的特征值組合成為文本主題特征,計算公式如式(6)、式(7)、式(8)所示

fi,n=convi(v1,v2,v3,…,vN)

(6)

fi=coni(mpli(fi,1),…,mpli(fi,p))

(7)

Tk=con(f1,…,fq)

(8)

其中, convi(·) 表示第i個尺寸的濾波器卷積,fi,n表示第i個尺寸的第n個濾波器。mpli(·) 表示第i個尺寸的濾波器池化運算;fi表示第i個尺寸的濾波器卷積池化后的向量拼接得到的新特征向量; con(·) 表示向量拼接過程,Tk表示主題特征向量。i∈[0,p],n∈[0,q] 分別表示濾波器的數量為q個,濾波器尺寸種類為p個。同理,可計算得到評論j的主題特征向量Rj。

圖2 基于CNN的主題特征檢索

最后計算新聞主題特征向量和評論主題特征向量相似度,按照相似度高的評論檢索出對應的評論文本。

1.1.3 基于BiLSTM的主題特征檢索

BiLSTM較LSTM網絡結構能更好利用歷史和未來信息,本文利用BiLSTM網絡結構計算主題特征。BiLSTM提取主題特征的結構如圖3所示。

圖3 基于BiLSTM的主題特征檢索

如圖3所示,新聞和評論信息通過詞向量編碼后輸入到BiLSTM網絡結構中,得到結果為h=(h1,h2,…,hLk)。 其計算公式如式(9)所示

(h1,h2,h3,…,hLk)=BiLSTM(v1,v2,v3,…,vLk)

(9)

其中,Lk表示輸入的文本的長度,取最后時刻輸出向量為主題特征向量。按照此方法得到的新聞和評論的主題特征向量分別為Rj和Tk, 其中k,j分別表示第k個新聞和第j個評論。按照式(5)計算得到主題相似度,并按照主題相似度高的評論檢索出對應的評論。

1.1.4 基于主題特征融合的檢索

基于主題特征融合的檢索立足于上述3種基本算法,將上述3種算法提取的新聞主題特征與評論主題特征分別計算相似度后取均值,提升主題特征檢索的準確性,實現流程如圖4所示。

圖4 基于主題特征融合的檢索算法流程

如圖4所示,將3種主題特征檢索算法并行化處理,分別計算相似度,最終評論和新聞的主題相似度的計算公式如式(10)所示

(10)

根據式(10)計算的主題相似度排序,檢索出主題相似度高的評論。

1.2 基于情感特征融合的二次檢索

基于情感特征融合的二次檢索立足于基于主題特征的一次檢索的評論文本,通過對情感特征分類實現情感特征的二次檢索。主要采用多個算法融合對情感文本進行分類。具體的實現流程如圖5所示。

圖5 基于情感特征融合的檢索流程

如圖5所示,與基于主題特征融合的檢索流程相似,輸入新聞和一次檢索的評論后,將其分別轉換成為詞向量。然后按照基于詞向量的情感分類算法、基于BiLSTM的情感分類算法、基于CNN的情感分類算法分別計算情感類別,對情感類別結果求和,按照情感類別分別檢索出對應的評論。其模型如圖6所示。

圖6 基于情感特征融合檢索的模型

如圖6所示,基于情感特征融合檢索的子算法均可利用基于主題特征提取的特征向量,利用該向量通過全連接層網絡,再通過softmax層轉化為子算法分類結果;將3個子算法分類結果求和取最大值位置對應類別即為情感類別。其計算公式如下式(11)-式(14)所示

(11)

(12)

(13)

(14)

2 實 驗

2.1 實驗數據

本文采集部分體育新聞及其評論數據,并引用文獻[16]中的文本及評論數據作為訓練的訓練集和測試集。訓練數據和測試數據的大小見表1。

表1 新聞數據集

通過對新聞及其評論數據清理,評論詞匯的平均數量為25詞,每條新聞對應的評論數量超過20條。由于本文研究基于檢索的中文評論生成涉及到中文情感分類,因此從互聯網上采集NLPCC2014基于深度學習技術的情感分析(NPCC-SCDL)評測任務數據集,并添加新標注2000條評論語料用于訓練,標注2000條評論語料用于測試,語料集具體見表2。

表2 中文情感語料集

2.2 實驗設置

本文利用中文評論語料數據集研究,需要對新聞及評論語料分詞,由于分詞的準確性會影響模型和算法的訓練,本文從互聯網上采集常用輸入法中的詞庫并導入到jieba分詞詞庫中用于訓練。采用pytorch編程實現。并對新聞內容、新聞關鍵詞、新聞標題3種不同粒度的主題特征分別處理,用于基于主題特征的一次檢索的研究對比。

詞向量的訓練采用gensim模型訓練,維度設置為300維。CNN模型的濾波器尺寸設置為3、4、5。CNN中每種濾波器的數量設置為100,通過池化后的模型維度設置為300。BiLSTM網絡模型的隱藏層的維度設置為300,輸出層設置為600。網絡的層數設置為6層。CNN與BiLSTM的損失函數用交叉熵損失函數,誤差傳遞函數用AdaDelta。在基于情感特征融合的二次檢索中,詞向量、CNN、BiLSTM的全連接層均設置為2。

3 結果與分析

實驗通過輸入新聞,按照新聞內容、新聞內容提取的關鍵詞、新聞標題3種不同粒度分別與評論語料進行主題相似度計算。

3.1 測評指標

基于主題特征的一次檢索主要檢索出評論與新聞相關性,主要評價已有的新聞對應的評論與檢索出來的新聞評論之間的重合性。基于情感特征融合的二次檢索主要評測情感分類的準確性。其中選取準確率(Accuarcy)和F-score作為評測指標。

表3和表4為性能評估矩陣,用于評測準確率和F-score。具體的計算公式如式(15)-式(18)所示

(15)

(16)

(17)

(18)

表4 基于情感特征融合的二次檢索性能評估矩陣

其中Precision、Recall、F-score分別表示精確率、召回值和F值。

3.2 實驗結果分析

基于主題特征的一次檢索,按照新聞內容、新聞內容提取的關鍵詞、新聞標題3種不同主題粒度檢索評論,計算的F值和準確率其結果見表5。

表5 基于主題特征的一次檢索的準確性和F-score

從表5中的數據可以看出,采用不同主題粒度得到的檢索準確率不同。由于對新聞概括最全,新聞標題主題粒度下的準確率最高;新聞內容由于提取到較多無用信息,對評論主題相似性計算產生干擾,因此準確率較低;新聞關鍵詞是在新聞內容中抽取出的關鍵信息,但由于信息不完整,且與關鍵詞抽取算法有關聯,因此準確率最低。基于主題特征融合的檢索算法在檢索評論準確性上要優于其余3種算法,由于基于主題特征融合的檢索采用的3種算法求相似度取平均值,在總體上提升了判斷主題相似度的準確性。

在一次檢索的結果基礎上,利用情感特征融合的二次檢索,其計算準確率和F-score結果見表6。

表6 基于情感特征融合的二次檢索準確性和F-score

依據表6結果分析,利用基于主題特征融合的檢索算法對一次檢索的評論進行情感分類,其分類結果的準確性要高于其余3種算法。由于采用多種算法融合判定,避免了單一算法對類別判定失誤,提升了分類的準確性。

實驗在新聞標題粒度下分別與評論語料進行主題相似度計算。其結果見表7,經過基于情感融合特征的二次檢索,檢索結果見表8。

表7 基于主題特征的一次檢索結果

表8 基于情感特征融合的二次檢索結果

從表7與表8分析可得,采用基于主題特征的一次檢索和基于情感特征融合的二次檢索可以從新聞語料庫中檢索出帶有情感傾向性的相關評論。

4 結束語

本文研究了在不同新聞主題粒度下,用基于主題特征融合的檢索算法和情感特征融合的檢索算法從評論語料庫檢索出與新聞相關的情感傾向性的評論。實驗結果表明,在新聞標題粒度下,檢索出的評論準確率最高,采用基于主題特征融合和情感特征融合的結果準確性較高,但是需要付出一定的計算代價。如何高效并準確檢索出含有一定主題相關性和情感傾向性的評論是研究的一個方向,若檢索不出有關內容,自動生成有關評論將是研究熱點。

猜你喜歡
特征文本融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产成人免费观看在线视频| 亚洲色图欧美在线| 中文字幕不卡免费高清视频| 国产成人综合久久精品下载| 国产成人啪视频一区二区三区| 国产一区二区精品福利| 成人在线综合| 免费人成在线观看成人片| 2022国产91精品久久久久久| 亚洲天堂视频在线观看免费| 东京热高清无码精品| 亚洲AV成人一区国产精品| 国产成人夜色91| 精品国产乱码久久久久久一区二区| 4虎影视国产在线观看精品| AⅤ色综合久久天堂AV色综合| 久久精品波多野结衣| 成人免费网站在线观看| 中文字幕伦视频| 精品国产美女福到在线不卡f| 无码国产偷倩在线播放老年人| 亚洲精品爱草草视频在线| 日韩少妇激情一区二区| 欧美亚洲一区二区三区导航| 精品亚洲国产成人AV| 好紧太爽了视频免费无码| 免费国产高清视频| 日本久久网站| www中文字幕在线观看| 久久大香伊蕉在人线观看热2| 久久精品aⅴ无码中文字幕| 精品少妇人妻一区二区| 无码精品国产VA在线观看DVD| 国产成人高清在线精品| 国产欧美另类| 日本免费一区视频| 亚洲成综合人影院在院播放| 亚洲天堂.com| 久久综合色天堂av| 欧美精品一二三区| 久久99国产综合精品1| 呦女精品网站| 国产在线98福利播放视频免费| 亚洲欧美综合在线观看| 97在线观看视频免费| 中国精品自拍| 欧美午夜小视频| 国产成人精品在线| www精品久久| 美女扒开下面流白浆在线试听| 久久精品人人做人人爽电影蜜月 | 亚洲成肉网| 亚洲综合婷婷激情| 制服丝袜一区| 亚洲男人天堂网址| 日韩精品一区二区三区swag| 国产浮力第一页永久地址| 欧美精品1区| 国产福利拍拍拍| 国产黑丝视频在线观看| 国产18页| 三级毛片在线播放| 日本国产在线| 国产午夜小视频| 亚洲V日韩V无码一区二区| 国产在线视频导航| 91探花在线观看国产最新| 久久不卡精品| 一本久道久久综合多人| 毛片大全免费观看| 国产亚洲欧美日韩在线一区| 91福利免费| 伊人婷婷色香五月综合缴缴情| 国产第四页| 无码视频国产精品一区二区| 日本高清成本人视频一区| 亚洲日本www| 在线欧美日韩国产| 国产精品美女自慰喷水| 国产免费一级精品视频| 国产99欧美精品久久精品久久| 国产免费好大好硬视频|