999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向社交媒體的反諷識別

2020-04-29 10:55:20羅觀柱趙妍妍
智能計算機與應(yīng)用 2020年2期
關(guān)鍵詞:矛盾情感模型

羅觀柱, 趙妍妍, 秦 兵, 劉 挺

(哈爾濱工業(yè)大學 計算機科學與技術(shù)學院, 哈爾濱 150001)

0 引 言

隨著社交媒體(Social Media)的高速發(fā)展, 如Twitter、Reddit、微博等已經(jīng)是人們?nèi)粘I钪械囊徊糠郑W(wǎng)民傾向并擅長在社交媒體中使用某些修辭方法來宣泄情感,比如使用幽默、諷刺或反語等表達方式來強調(diào)個人情感。在社交網(wǎng)絡(luò)上這種發(fā)表觀點或表達情感的修辭方法豐富著人類語言,但同時修辭方法的添加,給多項自然語言處理(NLP)任務(wù)帶來了明顯的困難。比如在情感分析任務(wù)中,以往傳統(tǒng)的技術(shù)則難以正確檢測含反語諷刺文本等修辭成分的真實情感。修辭方法的廣泛運用隨之帶來的副作用會嚴重影響社交媒體文本的情感計算或觀點挖掘的檢測準確性,故而研究反語、諷刺或幽默等修辭方法,對于多項自然語言處理任務(wù),尤其是情感分析、觀點挖掘等具有重要意義。在社會媒體的常用修辭方法中,反語(可譯作Irony)或者諷刺(可譯作Sarcasm)的應(yīng)用較為普遍。具體來講,前者常使用跟作者心中原意不一致的詞來強調(diào)情感,往往隱含有否定、反對、諷刺或者自嘲等情感,是一種帶有強烈感情色彩的修辭方法,以“I just love being ignored ?”為例,作者顯然想表達一種被人忽視的負面情感,但字面上卻使用了強烈的褒義詞“l(fā)ove”。后者常用夸張或比喻等修辭對某對象進行一種揭露,或者批評嘲笑等,以“Good thing Trump is going to bring back all those low education high paying jobs.”為例,作者通過這種文字來表達對Trump的批判。反語與諷刺的關(guān)系[1],從某種意義上可以認為諷刺是包含作者個人情緒(比如包含攻擊抨擊等情緒)的反語形式的一種。為了方便表述,在本文中會將反語和諷刺統(tǒng)一表達為反諷一詞,反語和諷刺的區(qū)別在此忽略。

反諷的類別可以進一步劃分,在SemEval2018 任務(wù)3[2]中將反諷分為3類,即:前后情感矛盾(ironic by clash)、場景反諷(situation Irony)和其他反諷(other irony)。前后情感矛盾反諷比如“I justlovebeingignored?”中的{love,ignored}為極性相反的兩詞,正因為這兩個詞的使用導致了該句話為反諷修辭;場景反諷比如“Just saw anon-smokingsignin the lobby of atobaccocompany”,“non-smokingsign”在“tobaccocompany”這種場景下才是一種反諷的說法;其他反諷為不含明顯極性相反詞的類型,比如“Human brains disappear every day. Some of them have never even appeared”。經(jīng)統(tǒng)計前后情感矛盾反諷約占69.9%。本文針對反諷中的前后情感矛盾形式,設(shè)計了一種詞對注意力(word pairs attention)模型,可以捕捉{love,ignored}這種極性相反詞,從而可以推斷一句話是否是反諷修辭。

1 相關(guān)工作

反諷是一種常用的修辭方法,國內(nèi)外眾多研究者對反諷理論及其識別方法做了很多工作。國內(nèi)外學者對反諷檢測提出了若干算法,大多數(shù)的研究都將反諷識別看作一種文本分類任務(wù)。這些算法可分為3類,分別是:基于規(guī)則的反諷識別、基于傳統(tǒng)機器學習的反諷識別和基于深度學習的反諷識別。對此可做闡釋分述如下。

1.1 基于規(guī)則的反諷識別

Tsur等人[3]提出的諷刺檢測算法用到了少量標注的種子句子,但沒有使用未標注數(shù)據(jù),通過網(wǎng)頁搜索自動擴展種子集作為訓練集合(train set),然后使用拓展后的訓練集合來學習并分類,學習時使用的特征包括2類:基于模板的特征和基于標點的特征。對于前者,每個模板是一個高頻詞的有序列表,類似于數(shù)據(jù)挖掘技術(shù)中的列表模板。后者則包括嘆號、問號和引號等標點符號的數(shù)量,以及句中首字母大寫和全大寫的單詞數(shù)量,最后使用k-近鄰進行分類。

1.2 基于傳統(tǒng)機器學習的反諷識別

Gonzalez-Ibanez等人[4]用tweets數(shù)據(jù)研究了直接表達正負面觀點的諷刺和非諷刺的推文。過程中采用了基于SVM和邏輯回歸的監(jiān)督學習方法。特征為unigram和一些基于詞典的信息,包括詞類、感嘆詞和標點符號等。其中也用到了表情符號和恢復標記。

1.3 基于深度學習的反諷識別

基于深度學習的方法最近在NLP研究中的眾多領(lǐng)域引起了轟動并成果顯著。在反諷識別任務(wù)上,Bamman等人[5]使用待檢測文本的上下文信息,并進一步挖掘社交用戶的行為信息 , 設(shè)計基于深度學習的諷刺識別模型。Zhang等人[6]使用雙向遞歸神經(jīng)網(wǎng)絡(luò)捕捉目標推特文本的句法和語義信息,同時利用與目標推文相關(guān)的歷史推文自動學習特征進行諷刺識別,并取得較好的性能。Chen等人[7]和Gui等人[8]從表示學習的角度切入,提高文本分類情感分析模型的效果。Ghosh等人[9]提出的一種卷積長短時記憶網(wǎng)絡(luò)(CNN-LSTM-DNN)取得了最好的性能。

2 詞對注意力模型

針對前后情感矛盾式反諷(占比69.9%),研究提出了一種上下文無關(guān)的反諷識別模型。例如“I justlovebeingignored?”, “Shittydrivers are alwaysfun.”,對于詞對(word pairs) {love,ignored}與{Shitty,fun}在情感、狀態(tài)或行為上“相反”,從這一點出發(fā)研究可以構(gòu)造一種基于注意力機制[10](Attention Mechanism)的深度學習網(wǎng)絡(luò)模型,以此用來查找矛盾詞對。對此擬展開研究論述如下。

2.1 詞對矛盾模型

一般來說,已有的反諷識別算法往往依靠較深的序列上下文神經(jīng)網(wǎng)絡(luò)模型來對要檢測的反諷句子進行表述,較常用的序列模型有GRU[11]門控循環(huán)單元、LSTM[12]長短時間記憶網(wǎng)絡(luò)等模型提取上下文信息特征。這類網(wǎng)絡(luò)模型共同的不足是使用中常常難以準確地捕捉目標反諷句子的“詞對不一致(word pairs clash)”或者稱之為“詞對矛盾”這一鮮明特征,因為直接使用GRU、LSTM表征句子意味著忽略了目標反諷句中的明顯特征,該特征的缺失可能會影響模型的效果。針對反諷識別的模型應(yīng)該能夠關(guān)注到前后不一致(矛盾)的詞對,而且模型的準確性也會得到提高,更重要的是通過這種思路模型還會具有一定的可解釋性。本文提出的模型使用了注意力機制來實現(xiàn)上述目標。該模型的整體框架如圖1所示。

由圖1可知,為了捕捉兩詞之間的“矛盾性”,研究構(gòu)造了一種word pairs attention模型(WPA),即再將句子經(jīng)過BiLSTM層表示后,任意兩詞的隱層向量做attention,這樣對于一個長度為L的句子可得到L×L的注意力分數(shù)矩陣,然后使用某種方案利用該注意力分數(shù)矩陣得到句子的向量表示 ,最后使用softmax概率歸一化函數(shù)對句子表示向量進行二元分類可得相應(yīng)的類別。其中,de為word embedding的維度,L為句子長度,dh為隱層向量維度,ds為句子表示向量的維度。為此,研究還提出了2種利用注意力分數(shù)矩陣的方案,一種是使用max pooling[13],對應(yīng)的模型稱為WPA-P;另一種是二次attention[14],對應(yīng)的模型稱為WPA-A。前者是對矩陣的每一行進行max pooling操作得到L×1向量,在此基礎(chǔ)上進一步得到句子向量;后者是將L×L的注意力分數(shù)矩陣看作L個L×1向量,進一步得到L個以詞為基準的句子表示,再對其做self-attention得到句子向量。

2.1.1 word pairs attention計算

簡單來講,word pairs attention模型(WPA)是一種基于詞對(word pairs)關(guān)系的模型,可以引導模型訓練中刻意關(guān)注{love,ignored}這種不一致的詞對關(guān)系,WPA模型框架如圖2所示。

想要計算任意詞對的注意力分數(shù),研究使用的是線性感知機來計算注意力分數(shù),具體的計算公式為:

sij=Wa([wi;wj])+ba.

(1)

其中,wi,wj∈Rdh為句子中的任意兩個詞的BiLSTM隱層表示;符號“;”代表兩向量拼接;Wa∈R1×2dh為感知機的系數(shù)矩陣;標量ba為感知機的偏置;標量sij即為這兩個詞的注意力分數(shù)。

word pairs attention

圖2 Word pairs attention計算

顯然,一句話中任意兩個詞做attention操作可得到L×L個注意力分數(shù),這里需要注意的是,其中一詞與該詞本身的注意力分數(shù)手動設(shè)置為0,考慮到詞與自身不可能存在詞對矛盾關(guān)系,因此無需計算注意力分數(shù)。

2.1.2 注意力分數(shù)矩陣的池化處理

由2.1.1節(jié)研究得到了一個L×L的注意力分數(shù)矩陣,接下來考慮如何利用該矩陣。一種最簡單的思路是借鑒計算機視覺中的卷積神經(jīng)網(wǎng)絡(luò)(CNN or ConvNet)的池化(Pooling)技術(shù)。Pooling操作常用于CNN網(wǎng)絡(luò)中,是對卷積操作后產(chǎn)生的特征圖(feature map)的一種降維操作,常用的有最大化池化(max pooling)、平均化池化(average pooling)等。Pooling操作可以極大地減少參數(shù)數(shù)量和計算量,減小內(nèi)存消耗,保持平移不變性,增大感受視野。對于二維L×L注意力分數(shù)矩陣,可以使用Pooling技術(shù)將其降為L×1的一維向量。這里研究采用的是max pooling技術(shù),因為相對于average pooling而言,max pooling更適合捕捉矛盾詞對,比如對于“I justlovebeingignored?”來說,“I”與某個詞的注意力分數(shù)越大,可以認為“I”與該詞相對于其他詞而言更具有矛盾性。max pooling技術(shù),即對于每一行的attention值取其最大作為該行的attention。從直觀上來講,研究只關(guān)心與當前詞最相關(guān)的另一個詞,這就是使用max pooling的原因。具體見圖3。

圖3 按行取max pooling

由圖3可知,對任意的兩詞做注意力操作,從而得到了注意力分數(shù)矩陣(attention score matrix)。在該矩陣中,每一行取最大的分數(shù),這樣即可得到L×1的一維向量,接下去還要使用softmax函數(shù)做歸一化處理,如此一來就可以得到注意力分數(shù)的概率形式,具體公式如下:

a=softmax(maxrows),

(2)

其中,s為注意力分數(shù)矩陣,a∈RL。

由此,研究得到了注意力分數(shù)向量a∈RL,與原始的BiLSTM隱層向量相乘即可得到本句的向量表示,即:

(3)

其中,L為句子總長度,標量ai表示輸入句中第i(0≤i

圖4 句子表示

2.1.3 注意力分數(shù)矩陣的二次attention處理

在2.1.2節(jié)中使用了max pooling技術(shù)將L×L注意力分數(shù)矩陣降為L×1的一維向量,在本節(jié)將使用另一種方式來處理注意力分數(shù)矩陣,如圖5所示。

由圖5可知,L×L注意力分數(shù)矩陣s中的第i行(0i

vTsa=vhssoftmax(s),

(4)

其中,s∈RL×L是二維注意力分數(shù)矩陣;vhs∈Rdh×L是BiLSTM的隱層向量組成的矩陣;vsa∈RL×dh是L個句子attenion向量表示。

然后將vTsa使用self attention機制(使用感知機算法加tanh激活函數(shù)),計算出二次attention的注意力分數(shù)sa,可將其轉(zhuǎn)為dh×1的二次attention向量表示vsaa。至此,可推得vsaa計算公式為:

sa=softmax(ωTtanh(WaavTsa)),

(5)

vsaa=vhssTa.

(6)

其中,Waa∈Rdh×dh,ω∈Rdh是權(quán)重矩陣;sa∈R1×L是二次attention的注意力分數(shù);vsaa∈Rdh×1就是經(jīng)過二次attention后的句子向量表示。

圖5 注意力分數(shù)矩陣的二次attention處理

2.1.4 句子向量的分類

研究使用了2種方式(見2.1.2節(jié),2.1.3節(jié))獲得句子表示。前者使用max pooling生成句子表示va,后者使用二次attention生成句子表示vsaa,后續(xù)將分別用這兩種表示進行分類任務(wù),見圖6。

圖6 句子表示做分類

通過線性變換將va或vsaa映射為二維向量,而后使用softmax進行概率歸一化處理,得到相應(yīng)標簽的置信度。其公式為:

或者

(7)

因為該模型是端到端(End-to-End)訓練的,就使得交叉熵(Cross Entropy)損失函數(shù)或者對數(shù)似然(log-likelihood)損失函數(shù)可以用作訓練時的優(yōu)化目標(兩個函數(shù)在二分類情況下具有一致性),即:

(8)

2.2 結(jié)合LSTM的詞對矛盾模型

2.1節(jié)中基于詞對注意力得到了句子表示,該句子表示含有矛盾詞對信息,這些信息則是判斷反諷的重要特征。此外,還應(yīng)利用原始的序列信息,在這里使用了BiLSTM做句子的序列表示,并將該表示與2.1節(jié)中的句子表示組合作為新的句子表示。因此用作句子分類的句子向量由WPA-P / WPA-A和BiLSTM的句子表示組成。這樣前者可以發(fā)現(xiàn)句子內(nèi)的矛盾詞,比如例句中的love與ignored;后者可以表征句子的序列信息,如原始的上下文信息等。

BiLSTM的句子表示可以看作是普通句子序列化的一種建模表示,模型如圖7所示。

圖7 BiLSTM做句子表示

BiLSTM句子表示用最后一個隱層輸出表示該句的語義信息。該部分的輸入為word embedding,輸出為各個詞的隱層向量,這里取隱層中最后一個詞的隱層作為BiLSTM句子表示。

將BiLSTM 句子表示vhlast和WPA-P/WPA-A句子表示拼接得到最終的句子向量表示vc∈R2d×1,以此可以做分類預(yù)測,這里是二分類任務(wù),正例是反諷,負例是非反諷。研究得到的WPA-BiLSTM模型如圖8所示。

圖8 WPA-BiLSTM模型

2.3 結(jié)合CNN 的詞對矛盾模型

在2.1節(jié)中使用了BiLSTM作為原始句子的序列信息,本節(jié)將使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)捕獲句子的N-gram信息,并與2.1節(jié)中的WPA-P/A句子向量拼接作為分類器輸入。與BiLSTM的序列建模不同,CNN在NLP任務(wù)中常被認為會捕獲句子的N-gram[15]特征,而N-gram特征是自然語言處理中的一項極其重要的特征,廣泛應(yīng)用于各項文本的分類任務(wù)中。CNN與WPA-P/A結(jié)合的示意圖如圖9所示。

圖9 WPA-CNN模型

3 實驗

研究中,采用5個模型(WPA-P, WPA-A,WPA-A-BiLSTM,WPA-A-CNN,WPA-A-BiLSTM-CNN)在3個數(shù)據(jù)集上做了對比實驗,分別是Rilff、Ptacek、SemEval-2018,數(shù)據(jù)集規(guī)模見表1。

表1 數(shù)據(jù)集規(guī)模

研究中又采用了3個基線模型做對比,分別是CNN、LSTM、Attention based LSTM,實驗結(jié)果見表2。

由表2可知,無論是WPA-P模型、還是WPA-A模型都要好于3個基線模型,WPA-A效果要略好于WPA-P。再加入額外信息(BiLSTM,CNN)后,效果均有提高,尤其是同時加入BiLSTM和CNN后,P,R,F(xiàn)1提升明顯。最終,研究得到的WPA-A-BiLSTM-CNN 模型的word pairs注意力分數(shù)如圖10所示。

由圖10可以看到,WPA-A-BiLSTM-CNN中的WPA部分確實捕獲到了“矛盾詞對”,比如{love, ignored},{sore, fun}等。

表2 實驗結(jié)果

圖10 WPA-A-BiLSTM-CNN 模型的word pairs注意力分數(shù)

Fig. 10 word pairs attention score of WPA-A-BiLSTM-CNN model

4 結(jié)束語

反諷修辭方法在社交媒體中應(yīng)用廣泛,這同時給情感分析和觀點挖掘等帶來了挑戰(zhàn)。針對前后矛盾形式的反諷修辭,本文提出了一種word pairs attention模型(WPA),其主要思想為計算句中任意兩詞的注意力分數(shù),這樣可以助推模型在訓練中著重關(guān)注某重點詞對,因此該模型可以捕捉文本中的前后矛盾詞對,也正是該詞對是導致反諷的重要原因。除此之外,還使用了BiLSTM來做句子的序列表示,使用CNN提取句子N-gram特征,實驗證明,WPA與BiLSTM或CNN結(jié)合可以提升模型的整體性能。

猜你喜歡
矛盾情感模型
咯咯雞和嘎嘎鴨的矛盾
一半模型
幾類樹的無矛盾點連通數(shù)
再婚后出現(xiàn)矛盾,我該怎么辦?
中老年保健(2021年2期)2021-08-22 07:29:58
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
對矛盾說不
童話世界(2020年13期)2020-06-15 11:54:50
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
主站蜘蛛池模板: 亚洲女人在线| 久久国产精品国产自线拍| 日本尹人综合香蕉在线观看| 992tv国产人成在线观看| 欧美在线一二区| 欧美日韩免费在线视频| 亚洲无码37.| 亚洲欧美成人影院| 天堂岛国av无码免费无禁网站| 亚洲成人高清无码| 久久精品欧美一区二区| 97青草最新免费精品视频| 88av在线| 超清无码一区二区三区| 亚洲天堂久久久| 成人国产小视频| 免费无遮挡AV| 欧美日本视频在线观看| 久久久久夜色精品波多野结衣| 亚洲香蕉在线| 99热这里只有精品国产99| 丁香婷婷激情网| 欧美成人一级| 日韩精品毛片| 亚洲视频色图| 91人妻在线视频| 无码中文字幕乱码免费2| 在线欧美一区| 最新国产网站| 欧美色视频网站| 欧美成人看片一区二区三区 | 91在线激情在线观看| 思思99热精品在线| 波多野结衣无码视频在线观看| 亚洲综合色吧| 热久久这里是精品6免费观看| 看国产一级毛片| Jizz国产色系免费| 手机在线看片不卡中文字幕| 97免费在线观看视频| 中文字幕乱妇无码AV在线| 国产精品伦视频观看免费| 成人免费视频一区| 无码电影在线观看| 欧美爱爱网| 亚洲小视频网站| 凹凸精品免费精品视频| 2020精品极品国产色在线观看 | 1级黄色毛片| 国产日韩丝袜一二三区| 欧美丝袜高跟鞋一区二区| 97综合久久| 国内视频精品| 女同久久精品国产99国| 99激情网| 国产丰满大乳无码免费播放| 欧美亚洲国产精品第一页| 2020国产精品视频| 国产毛片片精品天天看视频| 国产网站一区二区三区| 亚洲第一精品福利| 精品伊人久久久香线蕉| 国产sm重味一区二区三区| 夜夜操天天摸| 国产一级做美女做受视频| 中文字幕精品一区二区三区视频| 国产av色站网站| 国产成人三级| 精品久久久久成人码免费动漫| 67194在线午夜亚洲| 亚洲色图欧美一区| 成人中文字幕在线| 亚洲天堂精品视频| 真人高潮娇喘嗯啊在线观看| A级毛片高清免费视频就| 在线国产资源| 国产美女主播一级成人毛片| 免费国产在线精品一区| 青草午夜精品视频在线观看| 久久婷婷色综合老司机| 色综合天天综合中文网| 日韩小视频在线观看|