999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞義增強和注意力機制的Twitter情感分析研究*

2021-12-01 14:17:10蔡旭勛楊進才
計算機與數字工程 2021年11期
關鍵詞:單詞機制文本

蔡旭勛 楊進才

(華中師范大學計算機學院 武漢 430070)

1 引言

文本情感分析用于分析人們對特定實體的觀點、情感、評價、態度和情感的文本分類計算方法,一直是自然語言處理的一個熱門研究問題[1~2]。

基于深度學習的文本情感分析主要是使用神經網絡對文本進行處理。情感詞典在傳統的情感分析任務中是極其重要的語料庫[3],它統計了一些具有強烈情感色彩的詞以及某些詞的正負極性或者情感強度的分數。目前最常用的表示單詞的方式是word2vec詞向量[4],在Twitter這種非常特殊的語料中,經常會有一些情感符號或者表情[5],這些都是非常具有特色的情感標簽,但詞向量并不能對其進行表示,如果能夠針對這些表情符號做相應的處理,就能更好地把握Twitter的情感走向。例如情感詞典能夠應用到情感特征顯著的文本里面。

現有的關于情感分析的工作大多基于深度學習框架,忽視了這些傳統特征對特定問題的作用。

2 相關工作

基于深度學習的文本情感分析主要方法有CNN和RNN。Yin等使用多通道多尺度對句子進行建模,此方法能夠有效提取文本內特征[6],但是CNN方法的弊端在于它無法考慮句子內部及句子間的依賴關系。Ke等在LSTM之上額外引入了外部記憶單元,對句子進行建模,提升了模型對歷史信息的處理能力[7]。韓萍等提出了多維自注意力機制對微博情感進行分析,能更高效地提取文本特征[8]。

上述工作利用深度學習進行文本分析,都沒有考慮傳統情感詞典的作用,本文提出了用情感詞典和深度學習結合的方法。本文首先收集常用的情感詞典,包括經典的表情符號詞典,然后對出現在Twitter中的具有感情色彩的詞用詞典中的情感值來向量化表示,針對CNN和LSTM模型的不足,本文在模型的選擇上,采用基于注意力機制的雙向長短期記憶網絡(BiLSTM),同時提取句子的正序信息與逆序信息,注意力機制還能夠自適應的選擇句子中情感信息豐富的部分。

3 基于詞義增強和注意力機制的情感分析模型

文本首先對Twitter文本進行預處理、分詞、構建文本單詞集;根據現有的詞典對情感詞以及表情符號進行語義增強,根據這些詞在詞典中的情感值以及情感極性對其進行向量化的表示,將此表示拼接到原有的詞向量中;最后,將詞向量化的文本表示和它對應的情感標簽(連續或離散)作為訓練樣本輸入到基于注意力機制的BiLSTM模型中。處理過程由文本預處理、訓練模型、預測等幾個模塊組成。整體框架如圖1所示。

圖1 文本情感分析整體框架

3.1 文本預處理

本文采用了SemEval 2018語義評測大賽的數據[9],三種數據集規模如表1所示。

表1 本文采用所采用數據集

三種情感分析任務及其主要區別是:(情感強度回歸任務(EI-reg)是給的一條Twitter然后判斷它在anger和joy兩種不同情感狀態下情感得分(一個介于0到1之間的實數值);情感強度分類任務(EI-oc)是給定一條Twitter然后對它進行分類是屬于anger或者joy中某一種情感,這是一個分類任務;基于Valence維度的情感回歸任務(V-oc)是給定一條Twitter然后判斷它在anger和joy兩種不同情感狀態下Valence維度的情感得分(一個介于0到1之間的實數值),這是一個回歸任務。

文本預處理的過程主要分為以下幾個步驟:1)對數據進行清洗,去除一些不正常的標點、網頁標記符號和各種其他特殊符號,比如火星文字等;2)對阿拉伯數字進行處理,統一刪除所有出現的數字,日期以及數字與字母的連寫,如“r34”等;3)刪除字母之間多余的空格,由于英文文本的特性,單詞與單詞之間只存在一個空格,因此需要把多余的空格刪除;4)對文本進行分詞處理,本文采用的分詞器為NLTK[10];5)由于所采用的詞向量是Glove[11],因此需要對文本中的大寫字母進行轉換。預處理前與預處理后的文本示例分別如圖2和3所示。

圖2 預處理前的文本

圖3 預處理之后的文本

3.2 情感詞典和詞義增強

目前,有多種情感詞典,對情感進行不同類別的 劃 分 與 表 示。NRC Affect Intensity Lexicon[12]:NRC AI詞典提供了每一個單詞的情緒標簽(正或負)和情感強度。在WASSA-2017[13]情緒強度共享任務(Shared Task on Emotion Intensity)中每種情緒都可用這個詞典表示,詞匯表中每一行是單詞及其在四種基本情緒:憤怒、恐懼、悲傷和愉快(anger,fear,joy,sadness)下的不同情感值。NRC Emotion Lexicon & NRC Hashtag Emotion Lexicon[14,17]:NRC EL是一個在十種不同情緒下單個單詞的離散情感強度值詞典。NRC HEL通過與單詞相關的主題標簽的推文自動生成,它用浮點分數范圍0~2.24的值來表示情感類別的強度。

類似的情感詞典還有NRC Emoticon Lexicon&NRC Hashtag Sentiment Lexicon[15~16,18]這些情感詞典都是針對常見的人可能出現情緒的表示,表示方式主要有離散型和連續型兩種,都從不同的側面表示出了當前單詞所具有情感傾向和情感強度值。

本文詞義增強的步驟如下所示:1)對Twitter中的單詞用詞向量進行表示,即將每一個單詞表示成一個1*D維的向量(Glove);2)對Twitter中的每個單詞如果能夠在詞典中找到,則詞典中的情感值表示為表示第k個詞典,i表示第i個單詞;3)將情感值用多項式進行表示,多項式表示就是產生一個多項式的集合。例如,輸入一個二維的樣本[m,n],那么這個樣本的二階多項式特征集合為[1,m,n,m2,n2,mn],這樣就可以將詞典中的某個值表示成一個多項式特征的集合,如果在詞典中找不到該詞,那么將此值設置為0;4)將多項式特征向量直接拼接到原有的1*D維的向量之后,但是每個詞典的情感值維度是不一樣的,因此還需要進行矩陣標準化操作,即將矩陣變成標準正太分布N(0,1)。詞義增強之后單詞之間的相似度如表2所示。

表2 詞義增強前后相似度比較

從表2中可以看出通過詞義增強之后,詞向量的維度增加了,單詞之間的余弦相似度也發生了變化,主要是因為以前的300維詞向量是一個平均意義上的詞向量,比如bad和good,它是基于大量文本訓練出來的,但是這樣平均意義上的詞向量并不能適用于所有的場景。因此,詞義增強之后的詞相似度發生了變化,主要原因在于good在joy這種語義下它表達的情感要比其他情況更為強烈,bad在fear這種語義下它也有表現更為強烈。

3.3 基于注意力機制的BiLSTM模型

雙向長短期記憶網絡BiLSTM,其中一個重要的概念就是“門”,它控制信息通過的量,實質上就是一個σ函數,σ的表示式為σ(t)=1/(1+e-t),該函數最重要的一個特征是,它可以把任意實數值映射到(0,1)區間上,而且,絕大部分的值都是非常接近0或者1的,這樣函數能夠決定讓多少信息通過這個門結構。在LSTM中,一共有三種門結構,分別是遺忘門(forget gate)、輸入門(input gate)與輸出門(output gate)。如圖4所示的是一個LSTM的神經元及其內部結構,圖中圓框部分是加法和乘法運算,方框部分是激活函數σ或者tanh,Xt是t時刻的輸入,at-1和Ct-1是上下文信息,ot是t時刻的輸出。BiLSTM的結構是一個前向循環神網絡和后向循環神經網絡組成。

圖4 LSTM神經元內部結構

注意力機制可以理解為從大量信息中有選擇地篩選出權重不同的信息,權重越大則代表對該部分的關注度越高。在情感分析任務中加入注意力機制,可以使神經網絡更多地關注文本中包含情感信息較多的部分,從而使得情感分析的效果更好。時序問題中的注意力機制大部分是基于編解碼結構,本文采用的結構也是基于此構建的,假設t時刻BiLSTM隱藏的輸出為ht,那么把ht輸入到注意力機制中去,可以得到etj,etj表示編碼器在時刻t的狀態對解碼器中j狀態輸出的影響程度,最后通過softmax函數對etj進行歸一化處理,從而獲得每一個時刻隱藏狀態對解碼輸出的影響,即在時間維度上的注意力值。注意力機制計算過程如式(1)(2)所示。

通過注意力機制的使用,在模型中不僅可以將權重進行重新分配給每一個隱藏狀態,還結合了編碼器和解碼器兩部分的狀態,這樣比單一的模型具有更好的效果。

綜上,本文采用的基于注意力機制和雙向長短期記憶網絡(BiLSTM)模型結構如圖5所示,文本序列進行向量化表示之后首先經過BiLSTM,接著計算t時刻的注意力向量,然后再輸入到BiLSTM里面,經過兩層BiLSTM處理之后,經過Flatten層再接上一個Dense層,最后輸出層進行分類或者回歸的處理。

圖5 基于注意力機制的BiLSTM情感分析模型

4 實驗結果

4.1 實驗參數設定

本文相關實驗超參數設置如下:兩層BiLSTM神經元個數分別為256,128;兩個全連接層神經元個數為128,64,Dropout大小為0.25;batch size大小為64,訓練epoch大小為10;Glove詞向量維度為

300。

4.2 實驗評價指標

本文用皮爾森相關系數作為實驗評價指標,該系數是用來反映兩個變量線性相關程度的統計量。兩個變量之間的皮爾森相關系數為兩個變量之間協方差和標準差的商。協方差的計算公式如下:

皮爾森相關系數的公式如下:

皮爾森系數r的取值總是在-1.0~1.0之間,其中n為樣本量,r描述的是兩個變量間線性相關強弱的程度,r的絕對值越大表明相關性越強,實驗的預測值和真實值之間的關聯度越強,也說明模型越好,實驗效果越好。

4.3 實驗結果分析

在多方面情感強度回歸任務(EI-reg)上,本文進行了多組對比試驗,實驗結果如表3所示。表中結果表示的模型在測試集上預測的值和實際值之間的皮爾森相關系數,其中#表示該模型進行了詞義增強。從表3可以看出,本文提出的模型BiL?STM(att)在anger和joy的強度值上的皮爾森系數最高,BiLSTM對句子進行訓練,可以更好地捕捉雙向的語義依賴信息,加入注意力機制,使隱藏層的不同權重輸出在最終的句子表達中發揮不同的作用。對比其他的深度學習模型,本文提出的BiL?STM(att)模型效果是最好的。對比CNN和CNN(#)、LSTM和LSTM(#)的結果可以看出,本文提出的詞義增強模型比沒有進行詞義增強的模型效果更好。

表3 多方面情感強度回歸任務(EI-reg)上的結果

在多方面情感強度分類任務(EI-oc)上,實驗結果如表4所示。可以發現本文提出的模型依然具有最好的效果。

表4 多方面情感強度分類任務(EI-oc)上的結果

在基于Valence維度的情感回歸任務(V-reg)上,本文實驗結果如表5所示,MAE表示損失計算是平均絕對誤差,Ensemble表示對多個模型進行融合,最后取所有的10次結果作為最好的Valence值,經過多次實驗,發現效果最好的模型是本文提出的雙層BiLSTM(att)模型。

表5 Valence維度回歸任務(V-reg)上的結果

5 結語

本文提出了一種基于詞義增強和注意力機制的Twitter文本情感分析方法。提出的詞義增強的方法,不僅能夠增強詞義和語義信息,還克服了其他文本處理方法只利用單一詞向量的缺點。通過對情感詞進行詞義增強,可以提取單詞更多的情感特征,有助于提升情感分類和情感回歸的效果。

利用詞義增強后的詞向量,和對應的情感強度標簽匹配在一起,作為訓練樣本輸入到基于注意力機制的雙向長短期記憶網絡(BiLSTM),不僅能夠提取句子的正序信息,還能夠提取其逆序信息。此外,注意力機制還能夠自適應的選擇句子中情感信息較多的部分。實驗結果表明本文提出的方法相比其他情感分析方法具有更好的效果。

猜你喜歡
單詞機制文本
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
看圖填單詞
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 婷婷伊人久久| 成人免费一级片| 国产高清无码麻豆精品| a免费毛片在线播放| 国产精品欧美亚洲韩国日本不卡| 久久国产精品娇妻素人| 综合色在线| 精品综合久久久久久97| 国产亚洲欧美另类一区二区| 中文字幕在线看视频一区二区三区| 精品视频91| 在线欧美日韩| 国产成人综合网| 国产无人区一区二区三区| h视频在线观看网站| 青青久在线视频免费观看| 国产福利拍拍拍| 色爽网免费视频| 亚洲国产精品国自产拍A| 国产喷水视频| 啪啪啪亚洲无码| 欧美全免费aaaaaa特黄在线| 制服丝袜亚洲| 久久不卡精品| 国产美女精品人人做人人爽| 青青草原偷拍视频| 黄色在线网| 免费无码AV片在线观看中文| 久久人与动人物A级毛片| 怡红院美国分院一区二区| 精品五夜婷香蕉国产线看观看| 日韩精品一区二区三区大桥未久 | 四虎影视永久在线精品| av大片在线无码免费| 国产福利影院在线观看| 日韩欧美中文在线| 国产精品微拍| 男女性色大片免费网站| 久久美女精品国产精品亚洲| 在线播放91| 久久天天躁夜夜躁狠狠| 一级毛片免费不卡在线| 久久久久无码精品国产免费| 国产一区二区人大臿蕉香蕉| 亚洲欧洲自拍拍偷午夜色| 国产成人综合日韩精品无码不卡| 国产真实乱子伦视频播放| 精品国产免费第一区二区三区日韩| 亚洲熟妇AV日韩熟妇在线| 天天综合网亚洲网站| 亚洲综合色婷婷| 亚洲VA中文字幕| 青青久久91| 青草精品视频| 国内自拍久第一页| 亚洲欧美一区二区三区麻豆| 亚洲综合香蕉| 中文字幕啪啪| 国产熟睡乱子伦视频网站| 久久熟女AV| 亚洲人成人伊人成综合网无码| 麻豆AV网站免费进入| 伊人无码视屏| 精品久久久久久久久久久| 99久久99视频| 亚洲欧美日韩中文字幕在线一区| 一级毛片无毒不卡直接观看| 国产精品欧美在线观看| 老色鬼久久亚洲AV综合| 国产哺乳奶水91在线播放| 福利片91| av在线无码浏览| 精品综合久久久久久97超人该| 性激烈欧美三级在线播放| 日韩黄色在线| 日韩一区二区在线电影| 国产在线视频欧美亚综合| 77777亚洲午夜久久多人| 亚洲午夜国产片在线观看| 亚洲AV无码精品无码久久蜜桃| 成人午夜久久| 国产在线视频二区|