999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自注意力的擴展卷積神經網絡情感分類

2020-06-12 09:17:50陸敬筠
計算機工程與設計 2020年6期
關鍵詞:文本情感模型

陸敬筠,龔 玉

(南京工業大學 經濟與管理學院,江蘇 南京 211816)

0 引 言

近些年,對文本情感分析[1,2]中,以深度學習的卷積神經網絡(convolutional neural network,CNN)和循環神經網絡(recurrent neural network,RNN)為主要方法,同時以注意力機制(Attention mechanism)對上述的模型進行優化[3]。雖然,文本情感分析取得相較于機器學習算法的準確率得到很好的信息,但是現有LSTM、GRU模型只關注局部特征,未結合未來的信息,在文本中體現為未結合上下文進行分析,同時還存在對文本訓練時間過長的問題[4]。卷積神經網絡中將詞或者字符編碼矩陣轉化為向量過程中包含位置信息較少,同時現有注意力方式缺少詞在句子整體的語義信息。

本文針對上述問題提出了一種基于自注意力-擴展卷積神經網絡模型,來豐富句子中詞或者字符的位置信息,編碼矩陣轉化為向量過程中變得更加準確,同時引入自注意力機制增加詞在句子中的語義信息,同時減少訓練時間,為了學習到未來的信息在本文模型中引入雙向GRU網絡。

1 相關研究

文本情感分析屬于自然處理一個分支,其主要目標是識別文本的情感傾向。隨著深度學習在自然語言處理中取得不錯發展,將文本情感分析推到一個新的發展高度[5]。劉秋慧等擯棄情感詞典方式,僅以少量人工標注,采用遞歸神經網絡中將句子包含詞語標簽聯系起來,從而對文本情感分類[6]。Giatsoglou等利用現有分詞Word2Vec將上下文和詞典情感分析結合,以詞嵌入方式來將情感詞與上下文相結合[7]。王業沛等以模糊匹配方式從裁判文書抽取實體,將結果通過LSTM模型進行情感傾向性判別[8]。Ruder等提出雙層雙向的LSTM網絡進行文本情感分析,以不同方向LSTM學習句子內部和句子之間的特征來進行學習,從而對文本包含的屬性進行判別[9]。張玉環等利用LSTM和變形GRU相結合構建文本情感分析的模型,在實驗階段創新性采用偽梯度下降來調整模型參數,實驗結果表明在較短時間內得到較高正確率[10]。

最近,Attention在深度學習領域流行起來,其最早是由谷歌公司應用在圖像分類中,其將RNN(循環神經網絡)和Attention相結合來構建模型。Attention機制在自然語言領域也取得長足的發展[11]。Yin等嘗試CNN和Attention機制相結合,分別進行3種實驗:CNN的輸入之前加入Attention;在CNN對特征提取之后,和池化層之前加入Attention機制;上述兩種方式相結合的Attention機制[12]。曾義夫等根據循環網絡學習序列能力得到語句編碼,利用Attention機制從中提取帶有情感表達語句編碼,構建出兩個外部記憶分別用來獲取語句編碼和詞語級別信息,設計出一個解碼器,從中選擇情感語義信息[13]。程艷等利用卷積層學習詞向量之間的關聯,再將得到的結果輸入到RNN中層次化Attention來判斷其情感傾向[14]。

2 理論與模型

2.1 擴展卷積神經網絡

CNN卷積神經網絡在文本中應用也越來越廣泛。一般CNN將詞或者字符轉化為向量形式,需要經過不同卷積核的卷積、池化、激勵函數等不同的操作來得到向量輸出[4]。一般CNN可以獲取句子中不同詞和字符之間的關系,以多個不同卷積核來達到該目標,該方法除了卷積時間和操作量,還存在內存“爆炸”的可能性。本文采用擴展CNN以兩層等長擴展卷積來表示,除了提高運行速度和降低計算參數外,還可以增加該詞在該位置上的詞義上的信息。圖1表示3*3擴展卷積核結構圖:第一層卷積核感受野為3個詞或者字符的信息,第二層卷積核感受野為6個詞或者字符的信息,邊緣以padding進行補足,保證矩陣長度和詞向量長度一致性。圖2表示擴展CNN卷積編碼結構圖,在本文中通過擴展CNN對詞和字符進行編碼,編碼前提是需要分詞后句子矩陣分詞后詞向量的維度保持一致。當前表示文本中第j句子,其中詞的位置在i上,則該詞可以表示為xij∈Rd,其中,d表示在d維空間中。句子中每個分詞結果都可以學習到Pij位置編碼。每個詞bij的編碼公式如式(1)所示

bij=xij+Pij

(1)

卷積核Cn∈Rs*d(n=1,2,3,…,d)對詞產生的編碼矩陣操作。其中,s代表卷積核大小,n代表的是卷積核數量,卷積核數量為分詞數量的2倍。

圖1 3*3擴展卷積核

圖2 擴展卷積結構

bij詞編碼在兩層擴展卷積和激勵函數后得到編碼向量表示形式為

(2)

對其中元素計算公式如式(3)所示

(3)

式(3)中表示對詞位置編碼矩陣元素進行點乘后求和。f函數表示非線性函數。文本中第j個句子經過擴展卷積的序列表示形式zjw。其中,w∈[1,W],W表示句子中分詞總數。

2.2 雙向GRU網絡

LSTM在自然語言處理中廣泛應用中,存在著梯度回傳速度過慢,訓練困難,結構過于復雜等缺點。Cho提出GRU網絡將LSTM網絡中輸入門、輸出門和遺忘門轉變成更新門、重置門,從而減少網絡中的參數,收斂速度加快,網絡結構也變更加簡單。GRU網絡的更新門作用是控制前一個時刻輸出隱藏層的狀態對當前時刻輸出神經元的狀態影響狀況。更新門的值越大,前一時刻對當前時刻神經元輸出值影響程度越大。重置門的作用是控制著前一時刻中神經元包含信息的忽略程度。GRU網絡的結構模型如圖3所示。

圖3 GRU網絡結構

GRU網絡中是由重置門r和更新門z組成,控制著網絡中神經元的讀寫操作計算公式如式(4)-式(7)所示

(4)

(5)

(6)

(7)

GRU網絡模型是從上文開始向下文讀取,導致下文產生詞比上文詞權重比更大。下文詞的信息無法傳遞,GRU網絡神經元應該是由前向傳輸值和后向傳輸值共同計算的結果。雙向GRU網絡結構模型如圖4所示。

圖4 雙向GRU網絡

2.3 自注意力機制

2014年(Bahdanau)Attention機制應用在機器翻譯中,后來廣泛使用在知識圖譜、語音識別等方向。Attention機制可以作為網絡單獨使用,可以混合到其它模型層混合?;旌掀渌P褪褂茫瑢⑽谋疽跃幋a矩陣形式輸入到其它網絡中經過訓練后,對得到的數據通過Attention機制給予不同詞和字符編碼矩陣權重。Attention機制將不同位置上詞或者字符聯系起來,同時突出重點詞,從而改變系統性能。Attention機制產生是模擬人的觀察事件的能力,其對關鍵信息在進行分配時候,增加其關鍵信息的權重。Attention 機制基本結構模型一般分為兩種模塊,分別是編碼器和解碼器。輸出值yi計算公式如式(8)所示

yi=F(Ci,y1,y2…,yi-1)

(8)

其中,Ci是對輸出語義編碼,該語義編碼器受輸入分布的影響,語義編碼器如式(9)所示

(9)

其中,E(xi)表示輸入神經元中的數據編碼,n表示輸入詞或者字符的數目。E(xi)表示輸入i對輸出yi的注意力分配率,計算公式如式(10)和式(11)所示

(10)

eij=Vtanh(Whi+Usj-1+b)

(11)

其中,eij表示在輸入的第i個詞或者字符對j個輸出的影響。hi表示輸入的第i個詞或者字符的編碼,sj-1表示上一個神經元輸出的編碼矩陣,W、U和V表示是在訓練過程中學習到的參數。b表示是函數的偏置。本文采用是的自注意力機制加入情感分析網絡。自我注意力機制通過引入權重向量A控制對詞或字符的影響。比如,在句子“我喜歡這家餐館飯菜”中,“我”和“喜歡”組合對這句話有情感幫助,需要給予前者更多的注意力,后者給予更小的注意力。自注意力結構模型實現如圖5所示。

圖5 自注意力模型

2.4 基于自注意力的擴展卷積網絡結構

j∈[1,l]本文在提出擴展卷積的基礎上引入雙向GRU和自注意力機制的文本情感分析網絡模型。該模型先采用擴展卷積網絡操作對詞或者字符初始化的模塊,模型結構如圖6所示。在圖6中將句子中通過擴展卷積網絡轉化為序列向量的形式。文本a中包含l個句子,將第j個句子轉化成n個單詞或者字符,即轉化形式為:Wj={wj1,wj2,…,wjn},其中j∈[1,l]。擴展卷積網絡對詞或者字符編碼矩陣轉化為統一向量維度。雙向GRU網絡是由前向和反向GRU兩部分組成。通過GRU網絡可以充分學習上下文之間的關系,可以充分學習上下文關系進行編碼,計算公式如式(12)所示

hjn=BiGRU(vjn)

(12)

圖6 基于自注意力的擴展卷積網絡

完成上下文關系學習后,加入自注意力制來給每個詞或者字符分配權重,進一步提取語句中關鍵的詞或者字符,尤其是長句學習(兩個子句的連接),所以需要將注意力放到不同部分進行多次注意,生成注意權重矩陣A形式如式(13)所示

A=softmax(Ws1tanh(Ws2HT))

(13)

其中,HT表示輸入的向量,Ws1和Ws2表示學習到的參數,softmax函數是對結果歸一化。式(13)將嵌入向量轉變成嵌入矩陣M。隱藏狀態層狀態HT和權重矩重相乘得到句子嵌入矩陣式(14)

M=AH

(14)

最后經過softmax層進行情感分析計算結果如式(15)所示

p=softmax(Ws3+b)

(15)

其中,Ws3表示是參數矩陣,b表示的是偏置矩陣。最小化損失函數如式(16)所示

(16)

其中,d表示句子j對應的情感標簽。

3 實驗分析

驗證自注意力-擴展卷積模型的有效性,選擇公開IMDB和SSTB數據集進行驗證。訓練集和測試集按照8∶2的標準劃分,劃分詳細情況見表1。

表1 數據集詳細情況

對自注意力-擴展卷積網絡模型訓練中設置卷積核大小為3*3,詞向量維度和卷積層輸出通道數量相同,對實驗中超參數設置見表2。

表2 模型參數情況

3.1 對比實驗

本文對自注意力-擴展卷積網絡模型的評價指標:準確率(Precision)、召回率(Recall)和迭代時間。表3表示二分類的混淆矩陣(confusion matrix),TP(true positive)表示文本情感分類為正類,模型實際預測的文本情感為正類的數量。FN(false negative)表示文本情感分類為負類,模型實際預測的文本情感為負類的數量。FP(false posositve)表示文本情感分類為負類,模型實際預測的文本情感為正類的數量。TN(true negative)表示文本情感分類為正類,模型實際預測的文本情感為負類的數量[15]。

表3 二分法混淆矩陣說明

文本的準確率計算式(17)

(17)

文本的召回率計算式(18)

(18)

迭代時間計算以10次迭代過程中每次的時間進行加權后取平均數。

自注意力-擴展卷積模型與現有模型對比情況如下:

(1)BiLSTM-CNN模型。李洋等通過CNN卷積神經網絡和BiLSTM模型相結合,分為3層:詞嵌入層,卷積層提取局部特征,最大池化操作[16]。

(2)BiGRU-Attention模型。王偉等提出BiGRU-Attention模型劃分為輸入層、隱含層和輸出層。其中,輸入層是將文本向量化,隱藏層是由BiGRU、Attention、Dense這3部分組成。BiLSTM-Attention模型是將BiGRU-Attention模型中隱藏層BiGRU變為BiLSTM[17]。

(3)ASC模型。Rozental等采用雙向的Bi-LSTM對文本特征處理和對數據降維,加入最大池化層對文本中影響情感信息進行突出,從4個維度對得到的信息處理,最后加入softmax層分類的網絡模型[18]。

(4)DB-LSTM-RNN模型。劉建興等采用分布式方法來對詞嵌入的方法表示,用DB-LSTM對文本序列學習,在池化層學習到深層次表示后,輸入到分類器中分類[19]。

3.2 實驗結果分析

本次實驗10次迭代過程,在測試集上的準確率為模型的準確率,測試集上的召回率為模型的召回率,測試集上的迭代時間為模型的迭代時間,本文自注意力-擴展卷積網絡模型(Self-Attention-KCNN)。

(1)本文將自注意力-擴展卷積網絡模型與BiLSTM-CNN模型、BiGRU-Attention模型、BiLSTM-Attention模型、ASC模型、DB-LSTM-RNN模型在訓練集上訓練后,然后在測試集上測試,得到準確率、召回率與迭代次數之間關系,如圖7和8所示。

圖7 迭代次數與準確率

圖8 迭代次數與召回率

從圖7和圖8中可以看出模型之間從下往上看準確率和召回率的值不斷提高,其中,本文自注意力-擴展卷積神經網絡準確率和召回率的值最高。本文Self-Attention-KCNN模型準確率高于BiGRU-Attention模型,突出自注意力相比注意力的優越性,詞或者字符可以獲取全局語義信息,KCNN模型相比較CNN可以擴展感受野,增加詞或者字符的位置信息,從而獲得深度的文本特征,提高準確率和召回率。Self-Attention-KCNN模型迭代次數越多,其召回率和準確率越高。從總體上看,Self-Attention-KCNN模型在準確率和召回率較高,但是值變化幅度較大。從ASC模型上來看不是迭代次數越高,訓練數據效果越好。從本模型上看,Self-Attention-KCNN模型多次迭代是可以提高準確率和召回率。

(2)迭代時間是指在完成一次迭代時間,從圖9中給出在相同時間下進行迭代所花費的時間趨勢。

圖9 代價時間和迭代次數

從圖9中可以看出,各個不同模型在不同迭代時間總體上平滑,一般經過多次迭代后,再次訓練之后,代價時間趨于穩定;BiGRU-Attention模型完成一次迭代時間最短,模型收斂速度最快,與隱藏層采用BiGRU和Attention有關。BiGRU-Attention和BiLSTM-Attention模型區別在于BiGRU和BiLSTM不同引起,二者迭代時間不同,表明BiGRU模型收斂速度更快、需要計算的參數更少。DB-LSTM-RNN模型最高是因為RNN收斂速度慢,參數較多,收斂速度較慢。本文Self-Attention-KCNN模型慢于BiGRU-Attention模型在于增加擴展卷積網絡增加訓練時間。

本文將Self-Attention-KCNN模型與BiLSTM-CNN、BiGRU-Attention、BiLSTM-Attention、ASC、DB-LSTM-RNN模型對比,將不同迭代次數相加取平均值結果見表4。

表4 不同模型對比結果

從表4中可以看出,本文所提出基于Self-Attention-KCNN模型在準確率、召回率和迭代時間值遠遠優于其余5種模型。

4 結束語

本文提出了一種基于自注意力-擴展卷積神經網絡模型,比目前廣泛使用的卷積神經網絡和注意力模型的混合模型,可以提高準確率和召回率,同時降低迭代時間。從網絡結構說明,一方面擴展卷積網絡比卷積神經網絡,通過設置并行卷積核將輸入詞和字符的編碼矩陣轉化為向量增加更多位置編碼,得到效果更佳。另外一方面說明Attention模型和Self-Attention模型效果更佳,可以取得更好詞和字符的語義編碼。本文模型在IMDB和SSTB數據集上性能評價的準確率、召回率和迭代時間優于其它模型。本文情感分析只是進行二分類,現實生活中的情感存在多樣化,采用本文的自注意力-擴展卷積神經網絡進一步研究文本多分類的情況。

猜你喜歡
文本情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲青涩在线| av在线手机播放| 熟妇丰满人妻av无码区| 亚洲成av人无码综合在线观看| 欧美另类第一页| 国产又色又刺激高潮免费看| 香蕉综合在线视频91| 又黄又湿又爽的视频| 91精品啪在线观看国产| 国产嫩草在线观看| 国产成人在线无码免费视频| 亚洲成人在线免费| 亚洲天堂免费| 99热这里只有精品在线播放| 国产在线麻豆波多野结衣| 久久女人网| 激情午夜婷婷| 99re在线观看视频| 免费观看亚洲人成网站| 亚洲三级影院| 色爽网免费视频| 中文字幕人成乱码熟女免费| 亚洲国产中文精品va在线播放| 91亚瑟视频| 精品国产成人三级在线观看| 69视频国产| 夜夜操天天摸| 女人18毛片久久| 欧美不卡二区| 免费在线视频a| 久久精品中文字幕少妇| 五月丁香伊人啪啪手机免费观看| 亚洲高清日韩heyzo| 九九九九热精品视频| 国产精品短篇二区| 亚洲欧州色色免费AV| 亚洲娇小与黑人巨大交| 欧美另类精品一区二区三区| 中文无码影院| 中文字幕乱码中文乱码51精品| 欧美日韩国产系列在线观看| 亚洲欧洲日韩综合色天使| 伊人久综合| 國產尤物AV尤物在線觀看| 久久网欧美| 国内精品手机在线观看视频| 网友自拍视频精品区| 欧美精品xx| 视频在线观看一区二区| 久操中文在线| 久草视频中文| 欧美丝袜高跟鞋一区二区| 人妻免费无码不卡视频| 国产精品片在线观看手机版| 国产成人久久综合777777麻豆| 欧美一区精品| 国产97色在线| 国产成人高清亚洲一区久久| 91无码网站| 国产喷水视频| 欧美福利在线播放| 国产精品yjizz视频网一二区| 亚洲第一av网站| 日韩精品无码免费专网站| 亚洲欧美精品一中文字幕| 成年女人a毛片免费视频| 日韩美一区二区| 亚洲国产理论片在线播放| 亚洲精品动漫| 国产精品欧美亚洲韩国日本不卡| 国产又大又粗又猛又爽的视频| 亚洲色偷偷偷鲁综合| 欧美一区二区三区欧美日韩亚洲 | 天天摸夜夜操| 麻豆精品视频在线原创| 老司机久久99久久精品播放| 亚洲欧美成人网| h网址在线观看| 午夜福利在线观看入口| 国产精品久久久久鬼色| 日韩欧美国产中文| 91精品专区|