999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙特征嵌套注意力的方面詞情感分析算法

2021-06-10 17:19:02肖宇晗林慧蘋(píng)汪權(quán)彬譚營(yíng)
智能系統(tǒng)學(xué)報(bào) 2021年1期
關(guān)鍵詞:特征提取語(yǔ)義情感

肖宇晗,林慧蘋(píng),汪權(quán)彬,譚營(yíng)

(1. 北京大學(xué) 軟件與微電子學(xué)院,北京 102600; 2. 北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)

隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們?cè)絹?lái)越傾向于 在網(wǎng)絡(luò)上發(fā)表自己對(duì)商品或服務(wù)的看法。提取評(píng)論所蘊(yùn)含的情感態(tài)度與需求,有利于商家深入分析用戶(hù)的潛在需求,判斷市場(chǎng)走向,改進(jìn)產(chǎn)品或服務(wù)設(shè)計(jì)。

值得注意的是,人們?cè)谶M(jìn)行評(píng)論時(shí),一般不會(huì)發(fā)表長(zhǎng)篇大論,而是傾向于用一兩句話(huà)概括某個(gè)事物的某個(gè)方面的好壞,甚至?xí)谕痪湓?huà)中對(duì)多個(gè)方面表達(dá)不同的情感態(tài)度。因此,方面詞情感分析任務(wù)的研究近年來(lái)頗受關(guān)注。該任務(wù)的要求是,在給定文本以及方面詞的情況下,分別對(duì)這些方面詞所承載的情感態(tài)度進(jìn)行分類(lèi)[1-2]。例如,給定“這家店的環(huán)境不錯(cuò),服務(wù)周到,但食材不新鮮”這段文本,并給出“環(huán)境”、“服務(wù)”、“食材”這3個(gè)方面詞,算法應(yīng)當(dāng)判斷出用戶(hù)對(duì)“環(huán)境”和“服務(wù)”的情感態(tài)度是正向,而對(duì)“食材”持負(fù)面態(tài)度??紤]到方面詞往往蘊(yùn)含了用戶(hù)對(duì)產(chǎn)品或服務(wù)的需求,方面詞情感分析算法的研究將對(duì)細(xì)粒度分析用戶(hù)潛在需求有著重要意義。

與文檔級(jí)和句子級(jí)情感分析任務(wù)相比,方面詞情感分析任務(wù)粒度更細(xì)、更具挑戰(zhàn)。其中一個(gè)棘手的問(wèn)題是,如何在保留情感有效項(xiàng)信息的同時(shí),盡可能減小干擾項(xiàng)對(duì)情感判斷的負(fù)面影響。例如,“我買(mǎi)過(guò)這家的鼠標(biāo)、電腦和平板,鼠標(biāo)很快就沒(méi)用了,至于這個(gè)電腦,不好也不壞,平板倒是挺結(jié)實(shí)”,如果要求對(duì)方面詞“電腦”進(jìn)行情感分析,答案理論上應(yīng)是中立,但一些算法很容易將其誤判為正向或負(fù)向,原因就在于未能有效減小“鼠標(biāo)很快就沒(méi)用了”和“平板倒是挺結(jié)實(shí)”對(duì)情感分析的干擾作用。除此以外,語(yǔ)言的豐富性與靈活性也顯著提高了方面詞情感分析任務(wù)的難度。一些習(xí)語(yǔ)以及復(fù)雜句式也會(huì)對(duì)情感分析的結(jié)果產(chǎn)生不利影響。例如,“I have never had a bad meal”,就方面詞“meal”而言,情感態(tài)度是正向的,但部分模型會(huì)根據(jù)設(shè)計(jì)的規(guī)則或以往的訓(xùn)練經(jīng)驗(yàn),因“bad”的存在而給出錯(cuò)誤的分類(lèi)結(jié)果[3]。

目前,處理方面詞情感分析任務(wù)的主流方式是通過(guò)深度學(xué)習(xí)方法來(lái)賦予模型細(xì)粒度的情感分析能力。為了避免在神經(jīng)網(wǎng)絡(luò)層數(shù)較多時(shí)出現(xiàn)梯度消失問(wèn)題,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[4](long short-term memory, LSTM)成為大多數(shù)深度學(xué)習(xí)模型的基本網(wǎng)絡(luò)結(jié)構(gòu)選擇。Tang等[5]在此基礎(chǔ)上提出了基于目標(biāo)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(target dependent long short-term memory model, TD-LSTM),分別通過(guò)2個(gè)獨(dú)立的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)提取方面詞左邊語(yǔ)境和右邊語(yǔ)境的語(yǔ)義特征,獲得了比基礎(chǔ)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)更好的實(shí)驗(yàn)結(jié)果。而注意力機(jī)制的引入,則使得深度學(xué)習(xí)模型能夠更好地利用有效項(xiàng)的語(yǔ)義特征,并弱化情感干擾項(xiàng)的負(fù)面影響。Ma等[6]在互動(dòng)注意力網(wǎng)絡(luò)模型(interactive attention networks, IAN)中首次提出了語(yǔ)境特征和方面詞特征之間的互動(dòng)式學(xué)習(xí),他們通過(guò)池化整句話(huà)對(duì)應(yīng)的隱藏層狀態(tài)來(lái)獲取語(yǔ)境對(duì)方面詞的注意力權(quán)重,從而使得IAN能夠重點(diǎn)考慮語(yǔ)境中的情感有效項(xiàng)信息。針對(duì)訓(xùn)練數(shù)據(jù)不足的問(wèn)題,Xu等[7]提出了半監(jiān)督序列生成模型(target-oriented semi-supervised sequential generative model,TSSGM),在減小對(duì)訓(xùn)練數(shù)據(jù)的依賴(lài)性的同時(shí)能夠提升情感分類(lèi)器的判斷精度。

在最近2年里,通過(guò)預(yù)訓(xùn)練語(yǔ)言模型來(lái)增強(qiáng)模型的語(yǔ)義表示能力成為方面詞情感分析任務(wù)的研究熱點(diǎn)。取自語(yǔ)言模型的詞嵌入[8](embeddings from language models, ELMo),以及基于transformer[9]的生成式預(yù)訓(xùn)練[10](generative pre-training,GPT),均是其中的優(yōu)秀代表。而B(niǎo)ERT[11](bi-directional encoder representations from transformers)的提出,則更是里程碑式地刷新了多達(dá)11項(xiàng)自然語(yǔ)言處理任務(wù)的最高成績(jī)。Karimi等[12]在實(shí)驗(yàn)中使用基礎(chǔ)BERT模型來(lái)完成處理方面詞情感分析任務(wù),發(fā)現(xiàn)其效果已經(jīng)超過(guò)絕大多數(shù)普通神經(jīng)網(wǎng)絡(luò)模型。Song等[13]探索了BERT在方面詞情感分析任務(wù)中的優(yōu)勢(shì),分別提出了用于句對(duì)分類(lèi)的BERT模型(BERT model for sentence pair classification,BERT-SPC)與帶有BERT的注意力編碼網(wǎng)絡(luò)(attentional encoder network with BERT,AENBERT),在多個(gè)數(shù)據(jù)集上都取得了前沿性的結(jié)果。

盡管現(xiàn)有的模型在方面詞情感分析任務(wù)上有著不俗的表現(xiàn),但仍在2個(gè)方面存在不足。一方面,在很多研究工作中,方面詞的重要性未能得到充分的重視。Jiang等[14]在Twitter數(shù)據(jù)集上評(píng)估了一個(gè)情感分類(lèi)器的效果,結(jié)果發(fā)現(xiàn)40%的分類(lèi)錯(cuò)誤都緣于沒(méi)有考慮方面詞的指示作用。這說(shuō)明,如何充分使用方面詞提供的位置特征和語(yǔ)義特征將是影響模型效果的重要因素。另一方面,方面詞的情感傾向往往與鄰近的形容詞、動(dòng)詞等主觀(guān)性詞語(yǔ)關(guān)聯(lián)更大,位置較遠(yuǎn)的詞語(yǔ)很有可能成為干擾項(xiàng)。有些算法雖然已經(jīng)考慮到方面詞的重要價(jià)值,但卻沒(méi)有真正把握好如何利用方面詞和語(yǔ)境之間的聯(lián)系,往往只是提取方面詞特征和整個(gè)評(píng)論的全局語(yǔ)義特征來(lái)進(jìn)行運(yùn)算,未能有效地消除干擾項(xiàng)的不利影響。

針對(duì)上述不足,本文首次將閱讀理解領(lǐng)域提出的AOA(attention-over-attention)與BERT預(yù)訓(xùn)練模型相結(jié)合,提出了含BERT加持的雙特征嵌套注意力模型(dual features attention-over-attention with BERT,DFAOA-BERT),借助BERT來(lái)獲取優(yōu)質(zhì)的詞向量和語(yǔ)義編碼,在此基礎(chǔ)上計(jì)算AOA數(shù)值,并提取關(guān)鍵語(yǔ)義特征。此外,DFAOABERT還分別設(shè)計(jì)了全局和局部特征提取器,使得模型既能獲得全面的語(yǔ)義信息,還能有效減小情感干擾項(xiàng)的負(fù)面作用。實(shí)驗(yàn)證明,DFAOABERT在3個(gè)公開(kāi)數(shù)據(jù)集上均取得了優(yōu)異的成績(jī),而在主實(shí)驗(yàn)基礎(chǔ)上進(jìn)行的子模塊有效性實(shí)驗(yàn),也充分證明了模型主要組成部分的設(shè)計(jì)合理性。

1 AOA注意力機(jī)制

AOA機(jī)制由Cui等[15]提出,用于處理閱讀理解領(lǐng)域中的完形填空問(wèn)題。它將完形填空任務(wù)轉(zhuǎn)換為問(wèn)答任務(wù),把每個(gè)填空的候選項(xiàng)看作對(duì)文檔的查詢(xún)(query),并設(shè)計(jì)了一套算法,計(jì)算查詢(xún)對(duì)文檔的注意力數(shù)值以及文檔對(duì)查詢(xún)的注意力數(shù)值,將計(jì)算獲得的雙向注意力結(jié)果視為最終語(yǔ)義匹配特征,在此基礎(chǔ)上為每個(gè)候選項(xiàng)進(jìn)行打分和排序。

Huang等[3]則對(duì)閱讀理解領(lǐng)域的AOA進(jìn)行了調(diào)整,將其應(yīng)用到方面詞情感分析任務(wù)中。方面詞被視為查詢(xún),方面詞鄰近的語(yǔ)境被看作是待查詢(xún)的文檔,通過(guò)計(jì)算方面詞和語(yǔ)境之間的雙向注意力數(shù)值來(lái)獲得語(yǔ)義匹配特征,最終將產(chǎn)生的結(jié)果輸入到情感分類(lèi)層中。實(shí)驗(yàn)結(jié)果表明,AOA在方面詞情感分析任務(wù)中有著優(yōu)秀的表現(xiàn),能夠幫助深度學(xué)習(xí)模型更為充分地利用方面詞本身提供的信息以及它和語(yǔ)境之間的語(yǔ)義關(guān)聯(lián)。

設(shè)AOA的輸入為方面詞的語(yǔ)義編碼ha和語(yǔ)境的語(yǔ)義編碼hc,其中,ha∈Rmd,hc∈Rnd,m是方面詞序列的長(zhǎng)度(單詞數(shù)),n是語(yǔ)境序列的長(zhǎng)度,d是語(yǔ)義編碼的維數(shù)。計(jì)算AOA數(shù)值的第1步是獲取兩者的語(yǔ)義聯(lián)系矩陣M:

式中M∈Rnm,M中第i行j列的元素表示語(yǔ)境序列中第i個(gè)詞和方面詞序列中第j個(gè)詞的語(yǔ)義匹配分?jǐn)?shù)。

接著,對(duì)M的列進(jìn)行 s oftmax 操作,獲得方面詞對(duì)語(yǔ)境的注意力數(shù)值 α ;對(duì)M的行進(jìn)行softmax操作,獲得語(yǔ)境對(duì)方面詞的注意力數(shù)值 β。

對(duì) β 按列計(jì)算平均值獲得 β ˉ∈Rm,最后的AOA注意力數(shù)值 γ ∈Rn則由 α 與 βˉ 點(diǎn)乘得到:

2 本文模型

模型的介紹將圍繞輸入層、詞嵌入層、編碼層、注意力機(jī)制模塊以及分類(lèi)層這5個(gè)部分展開(kāi)。

2.1 輸入層

對(duì)于局部特征提取器而言,輸入序列就是包含方面詞的語(yǔ)境序列以及方面詞序列本身。全局特征提取器的輸入序列則有所不同,其語(yǔ)境序列需要經(jīng)過(guò)特殊處理。受BERT-SPC模型[13]啟發(fā),為了充分發(fā)揮BERT在本任務(wù)中的作用,全局特征提取器將原語(yǔ)境序列處理成“[CLS] + 原語(yǔ)境序列 + [SEP] + 方面詞序列 + [SEP]”的形式。其中,“[CLS]”和“[SEP]”是BERT使用的2種標(biāo)記符號(hào),前者是特殊分類(lèi)向量標(biāo)記符,聚集了分類(lèi)相關(guān)的信息,后者是分隔符,在輸入多個(gè)序列時(shí)用于分隔不同序列。將原語(yǔ)境序列處理成這種特殊形式其實(shí)是將原格式轉(zhuǎn)化成了BERT在處理文本分類(lèi)任務(wù)時(shí)所要求的輸入格式,從而充分發(fā)揮BERT的效果。對(duì)于方面詞序列,全局特征提取器與局部特征提取器的處理方式相同。

2.2 詞嵌入層

DFAOA-BERT模型在該部分將單詞一一映射到低維向量空間中,映射方式選用BERT詞嵌入。與GloVe[16]不同的是,BERT提供的是一個(gè)語(yǔ)義理解模型,而GloVe提供的只是一個(gè)詞嵌入矩陣。

設(shè)GloVe提供的矩陣為M,則M∈Rde×|V|,其中,de是詞嵌入的維數(shù), |V| 表示單詞的總數(shù),通過(guò)矩陣M,可將任意單詞wi映射成維數(shù)為de的向量。而B(niǎo)ERT詞嵌入層則是一個(gè)基于序列到序列技術(shù)[4]的預(yù)訓(xùn)練語(yǔ)義理解模型,其參數(shù)并不是像GloVe這樣固定不變的。因此,使用一個(gè)BERT詞嵌入層來(lái)獲取局部特征提取器輸入序列與全局特征提取器序列的詞嵌入,和使用2個(gè)互相獨(dú)立的BERT詞嵌入層所產(chǎn)生的結(jié)果不完全相同。本模型中采用2個(gè)獨(dú)立的BERT詞嵌入層,原因在于該選擇會(huì)小幅度提升算法的訓(xùn)練效果。

圖1 DFAOA-BERT模型結(jié)構(gòu)Fig. 1 Structure of DFAOA-BERT model

2.3 編碼層

本層的任務(wù)是將輸入序列對(duì)應(yīng)的詞嵌入編碼成含有豐富語(yǔ)義信息的向量。詞嵌入本身包含的信息較為基礎(chǔ),基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型一般使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)對(duì)詞嵌入進(jìn)行編碼,DFAOA-BERT則使用MHSA[9](multi-head self-attention)提取語(yǔ)義特征。MHSA的主要思想是通過(guò)多個(gè)注意力函數(shù)來(lái)對(duì)每個(gè)單詞計(jì)算注意力數(shù)值,將這多個(gè)注意力數(shù)值拼接在一起后進(jìn)行激活函數(shù)運(yùn)算,其結(jié)果即為輸入序列的語(yǔ)義表示。MHSA中的自注意力機(jī)制函數(shù)可以選用不同的設(shè)計(jì),DFAOA-BERT使用的是SDA(scaled dot product attention),相較于其他自注意力機(jī)制而言,其優(yōu)點(diǎn)在于既可以保證編碼效果,又能夠有效提高計(jì)算的效率。

令詞嵌入層的輸出為Xe,SDA的計(jì)算方式為

式中:Wq、Wk、Wv均為權(quán)重矩陣;Wq∈Rdh×dq;Wk∈Rdh×dk;Wv∈Rdh×dv。這3個(gè)矩陣中的權(quán)重屬于模型的可訓(xùn)練參數(shù)。dq、dk、dv是矩陣維度,三者的值都為dh/h,其中,dh是隱藏層維數(shù),h是多頭自注意力機(jī)制中的頭數(shù)。根據(jù)每個(gè)注意力頭的SDA計(jì)算結(jié)果,可得到整個(gè)MHSA的輸出Oe:

式中: ⊕ 表示向量的拼接操作;WMHSA是一個(gè)向量矩陣;WMHSA∈Rhdv×dh; T anh 為激活函數(shù)。

通過(guò)以上步驟,MHSA將基礎(chǔ)的詞嵌入編碼為包含豐富信息的語(yǔ)義向量表示。為方便下文闡釋?zhuān)浾Z(yǔ)境序列對(duì)應(yīng)的語(yǔ)義編碼為方面詞序列對(duì)應(yīng)的語(yǔ)義編碼為

2.4 注意力機(jī)制

DFAOA-BERT模型的注意力機(jī)制設(shè)計(jì)以AOA為核心,相對(duì)于全局特征提取器而言,局部特征提取器額外設(shè)計(jì)了語(yǔ)境動(dòng)態(tài)加權(quán)模塊來(lái)增強(qiáng)其獲取局部關(guān)鍵信息的能力。

1) 語(yǔ)境動(dòng)態(tài)加權(quán)模塊。

語(yǔ)境動(dòng)態(tài)加權(quán)模塊的設(shè)計(jì)思想在于,一個(gè)方面詞的情感態(tài)度往往只與鄰近的詞有關(guān),遠(yuǎn)距離的詞反而可能提供噪聲信息而干擾模型的判斷。因此,從本質(zhì)上講,語(yǔ)境動(dòng)態(tài)加權(quán)模塊就是一個(gè)位置相關(guān)的注意力機(jī)制,保留鄰近詞的積極作用,根據(jù)位置關(guān)系弱化遠(yuǎn)距離詞的干擾。

受Zeng等[17]提出的局部情境焦點(diǎn)(local context focus, LCF)模型啟發(fā),DFAOA-BERT的語(yǔ)境動(dòng)態(tài)加權(quán)模塊定義了語(yǔ)義相關(guān)距離D,根據(jù)D來(lái)判斷如何給語(yǔ)境所對(duì)應(yīng)的語(yǔ)義向量設(shè)定計(jì)算權(quán)重。設(shè)輸入的原語(yǔ)境序列為W={w1,w2,···,wi,wi+1,···,wi+m?1,···,wn} ,其 中 {wi,wi+1,···,wi+m?1} 為 方 面 詞 序列,對(duì)語(yǔ)境序列中的任意單詞wj(1≤j≤n),D的計(jì)算方法為

獲得每個(gè)單詞對(duì)應(yīng)的語(yǔ)義相關(guān)距離之后,需要設(shè)置語(yǔ)義相關(guān)距離的閾值TD,之后即可進(jìn)行語(yǔ)境動(dòng)態(tài)加權(quán)計(jì)算。對(duì)于語(yǔ)境序列中的任意單詞wj,其語(yǔ)義編碼向量所對(duì)應(yīng)的權(quán)重sj計(jì)算方式為

對(duì)語(yǔ)境序列的每個(gè)單詞按順序計(jì)算權(quán)重,得到權(quán)重矩陣 S =(s1,s2,···,sn)。語(yǔ)境動(dòng)態(tài)加權(quán)的最終輸出 Ow,即為語(yǔ)境序列的語(yǔ)義編碼與 S 相乘的結(jié)果:

2) AOA機(jī)制。

AOA機(jī)制是DFAOA-BERT注意力機(jī)制的主體部分,局部特征提取器和全局特征提取器都以此為核心。其主要設(shè)計(jì)思想與計(jì)算方法在第1節(jié)已作詳細(xì)闡述。由于2個(gè)特征提取器在該部分的運(yùn)算方式基本一致,下面以局部特征提取器為例進(jìn)行具體說(shuō)明。

考慮到BERT詞嵌入的維數(shù)較高,進(jìn)入AOA模塊后運(yùn)算速度很慢,所以,DFAOA-BERT首先使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM)壓縮維數(shù)、提取語(yǔ)義信息。令 hc和 ha分別為Bi-LSTM最后輸出的語(yǔ)境隱藏狀態(tài)和方面詞隱藏狀態(tài),其計(jì)算方法為

獲得以上結(jié)果之后,根據(jù)第1節(jié)闡述的AOA原理,計(jì)算得出最終的AOA注意力數(shù)值 γ。

2.5 分類(lèi)層

本模型將 r 視為情感分類(lèi)所依據(jù)的最終分類(lèi)特征,通過(guò)一個(gè)線(xiàn)性網(wǎng)絡(luò)將其映射到任務(wù)所要求的結(jié)果空間,并使用 s oftmax 來(lái)計(jì)算方面詞所對(duì)應(yīng)的情感態(tài)度為z的可能性:

式中: Wl、 bl分別是線(xiàn)性網(wǎng)絡(luò)的權(quán)重矩陣和偏移。Z是情感分類(lèi)結(jié)果的種類(lèi)數(shù),在本任務(wù)中,情感態(tài)度共有負(fù)面、中立、正面3種,故Z=3。

在模型的訓(xùn)練方面,DFAOA-BERT采用交叉熵?fù)p失函數(shù)來(lái)計(jì)算訓(xùn)練損失,同時(shí)應(yīng)用L2正則化來(lái)抑制過(guò)擬合現(xiàn)象。損失函數(shù)為

式 中:I(·) 是 指 示 函 數(shù); λ 是L2正 則 項(xiàng);θ 是DFAOA-BERT模型中所有可訓(xùn)參數(shù)的集合。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集信息

本文在3個(gè)公開(kāi)的方面詞情感分析數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):SemEval 2014任務(wù)4中的餐館評(píng)論數(shù)據(jù)集和筆記本評(píng)論數(shù)據(jù)集[18],以及ACL-14 Twitter社交評(píng)論數(shù)據(jù)集[19](為方便下文說(shuō)明,將這3個(gè)數(shù)據(jù)集分別簡(jiǎn)稱(chēng)為餐館數(shù)據(jù)集、筆記本數(shù)據(jù)集和Twitter數(shù)據(jù)集)。表1給出了各數(shù)據(jù)集的訓(xùn)練評(píng)論數(shù)與測(cè)試評(píng)論數(shù)。

表1 數(shù)據(jù)集組成信息Table 1 Composition information of the datasets

3.2 基線(xiàn)

為了全方位評(píng)價(jià)DFAOA-BERT的表現(xiàn)效果,本文選用了多個(gè)基線(xiàn)模型進(jìn)行結(jié)果對(duì)比。這些基線(xiàn)模型基于不同的設(shè)計(jì)思想與技術(shù)原理,包括普通神經(jīng)網(wǎng)絡(luò)模型與含BERT加持的深度學(xué)習(xí)模型。

1)支持向量機(jī)[20](support vector machine,SVM)是應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)解決方面詞情感分析任務(wù)的代表模型。它使用支持向量機(jī)技術(shù)來(lái)結(jié)合特征工程進(jìn)行情感分析。

2)基于目標(biāo)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(TDLSTM)[5]分別通過(guò)2個(gè)LSTM來(lái)提取方面詞左右兩邊的語(yǔ)義特征,將兩部分語(yǔ)義信息拼接后計(jì)算情感數(shù)值。

3)互動(dòng)注意力網(wǎng)絡(luò)(IAN)[6]使用2個(gè)LSTM來(lái)分別獲取語(yǔ)境和方面詞的語(yǔ)義表示。它根據(jù)語(yǔ)境的語(yǔ)義表示的隱藏層狀態(tài)來(lái)構(gòu)造對(duì)方面詞的注意力權(quán)重,反之即可構(gòu)造方面詞對(duì)語(yǔ)境的注意力權(quán)重,取得了不錯(cuò)的效果。

4)循環(huán)注意力記憶網(wǎng)絡(luò)[21](recurrent attention network on memory,RAM)使用Bi-LSTM來(lái)進(jìn)行文本記憶表示,同時(shí)創(chuàng)新性地使用了一個(gè)循環(huán)單元網(wǎng)絡(luò)來(lái)將語(yǔ)境特征的多個(gè)注意力輸出組合在一起。

5)嵌套注意力[3](AOA)綜合考慮到方面詞的語(yǔ)義信息和在整個(gè)評(píng)論中的位置特征,不僅能生成方面詞對(duì)整個(gè)語(yǔ)境的注意力權(quán)重,還能計(jì)算出語(yǔ)境對(duì)方面詞的注意力權(quán)重。

6)基礎(chǔ)BERT[11](BERT-base)是基礎(chǔ)的預(yù)訓(xùn)練BERT模型。即使不添加任何額外模塊,該模型的表現(xiàn)依舊非常突出。

7)帶有BERT的注意力編碼網(wǎng)絡(luò)[13](AENBERT)的設(shè)計(jì)基于預(yù)訓(xùn)練BERT模型,其特點(diǎn)在于完全使用注意力機(jī)制來(lái)編碼語(yǔ)境和方面詞的語(yǔ)義表示。

8)用于句對(duì)分類(lèi)的BERT模型[13](BERTSPC)使用BERT模型來(lái)處理句對(duì)分類(lèi)任務(wù),將該模型應(yīng)用于基于方面詞的情感分析任務(wù)時(shí),需要將模型的輸入處理成“[CLS] + 整個(gè)句子 + [SEP] +方面詞 + [SEP]”的形式。

9)后訓(xùn)練BERT[22](post-trained BERT,BERTPT)模型在方面詞情感分析任務(wù)上探索了BERT模型的后訓(xùn)練策略,成功地提升了BERT模型的精調(diào)效果。

10)BERT對(duì)抗訓(xùn)練[12](BERT adversarial training,BAT)模型將計(jì)算機(jī)視覺(jué)領(lǐng)域常常涉及的對(duì)抗學(xué)習(xí)思想應(yīng)用到方面詞情感分析任務(wù)上,其訓(xùn)練損失包括主模型的損失與對(duì)抗模型的損失這2部分。

3.3 實(shí)驗(yàn)參數(shù)與結(jié)果對(duì)比

實(shí)驗(yàn)中涉及的模型參數(shù)設(shè)置如下:DFAOABERT在語(yǔ)境動(dòng)態(tài)加權(quán)模塊定義的語(yǔ)義相關(guān)距離閾值TD設(shè)為5。BERT版本選用uncased BERTbase,詞嵌入的維數(shù)為768。語(yǔ)境動(dòng)態(tài)加權(quán)模塊中Bi-LSTM的隱藏層維數(shù)設(shè)為150。模型中的可訓(xùn)練參數(shù)使用Glorot[23]初始化方法來(lái)進(jìn)行初始化,學(xué)習(xí)率設(shè)為 2 e?5(在Twitter數(shù)據(jù)集上實(shí)驗(yàn)時(shí)設(shè)為 5e?6),L2正則項(xiàng)設(shè)為 1 e?5,dropout率[24]則根據(jù)不同數(shù)據(jù)集進(jìn)行靈活調(diào)整,餐館數(shù)據(jù)集設(shè)為0.1,筆記本數(shù)據(jù)集設(shè)為0,而Twitter數(shù)據(jù)集則設(shè)為0.5。模型采用Adam優(yōu)化器[25]來(lái)最小化訓(xùn)練損失。由于模型參數(shù)數(shù)量較大,為防止顯卡內(nèi)存不足,每批訓(xùn)練評(píng)論數(shù)設(shè)為16。模型的評(píng)價(jià)方法選用準(zhǔn)確度與Macro-F1,兩者數(shù)值越高則說(shuō)明模型的情感分析能力越優(yōu)秀。

實(shí)驗(yàn)結(jié)果如表2所示。表2中的Acc表示準(zhǔn)確度,MF1表示Macro-F1,兩者均為模型的評(píng)價(jià)指標(biāo)。對(duì)比模型的結(jié)果取自已發(fā)表的論文,“?”指原論文沒(méi)有發(fā)表該結(jié)果,其中,BERT-base的結(jié)果取自Karimi等[12]的實(shí)驗(yàn)結(jié)果。DFAOA-BERT的結(jié)果在顯卡NVIDIA Tesla P100上運(yùn)行獲得。最優(yōu)秀的結(jié)果加粗表示。可以看到,在3個(gè)數(shù)據(jù)集 上,DFAOA-BERT均取得了非常優(yōu)秀的成績(jī)。

表2 實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of the experimental results %

普通基線(xiàn)模型中,基于特征工程的SVM提出時(shí)間最早,但其效果卻出人意料得好,超過(guò)了多數(shù)不含BERT加持的基線(xiàn)模型。因此,如果不考慮人力成本,SVM在特定數(shù)據(jù)集上將會(huì)是一個(gè)不錯(cuò)的選擇。TD-LSTM模型的結(jié)構(gòu)最為簡(jiǎn)單,只使用了2個(gè)LSTM,但其效果也是最不理想的。而引入注意力機(jī)制的模型,例如IAN、AOA,通過(guò)精心設(shè)計(jì)的注意力機(jī)制來(lái)引導(dǎo)網(wǎng)絡(luò)進(jìn)行語(yǔ)義特征提取,從而獲得比TD-LSTM優(yōu)秀很多的結(jié)果。

根據(jù)表2可以觀(guān)察到,就餐館評(píng)論數(shù)據(jù)集而言,80%的分類(lèi)準(zhǔn)確度已經(jīng)接近模型效果的天花板了,而B(niǎo)ERT模型的加持,則使情感分析結(jié)果獲得了驚人的提升。即使是最簡(jiǎn)單的BERT-base模型,其效果已經(jīng)超過(guò)了絕大部分普通基線(xiàn)模型。AEN-BERT、BERT-SPC和BAT為了充分發(fā)揮BERT的強(qiáng)大優(yōu)勢(shì),設(shè)計(jì)了合適的網(wǎng)絡(luò)結(jié)構(gòu)和子模塊來(lái)引導(dǎo)整個(gè)模型滿(mǎn)足方面詞情感分析任務(wù)的要求,取得了令人矚目的成績(jī)。DFAOA-BERT則憑借雙特征AOA機(jī)制,無(wú)論是在準(zhǔn)確度還是Macro-F1分?jǐn)?shù)上,都獲得了比上述基線(xiàn)更理想的結(jié)果,證明了整體模型在解決方面詞情感分析任務(wù)上的優(yōu)秀能力。

3.4 子模塊的有效性實(shí)驗(yàn)

為驗(yàn)證DFAOA-BERT模型中主要子模塊的設(shè)計(jì)合理性,本文進(jìn)行了相應(yīng)的補(bǔ)充實(shí)驗(yàn)。結(jié)果如表3所示。其中,“w/o”(without)代表去除,“G”代表全局特征提取器,“L”代表局部特征提取器,“cdw”代表語(yǔ)境動(dòng)態(tài)加權(quán)模塊。所有實(shí)驗(yàn)均在顯卡NVIDIA Tesla P100上進(jìn)行。最優(yōu)秀的結(jié)果加粗表示。

表3 DFAOA-BERT模型與其變種的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results between DFAOA-BERT model and its variants %

可以清楚地看到,缺少任一模塊,DFAOABERT模型的效果都將有著明顯的下降。全局特征提取器的缺失對(duì)整體效果影響最大,這說(shuō)明了全局語(yǔ)義特征對(duì)于本任務(wù)的重要性。最難判斷的句子往往具有一個(gè)特點(diǎn),即情感指示詞會(huì)出現(xiàn)在模型意想不到的位置,因此,僅依靠局部特征提取器將會(huì)因位置問(wèn)題而在很大概率上忽視情感指示詞的作用,導(dǎo)致情感判斷產(chǎn)生關(guān)鍵性錯(cuò)誤。

在筆記本評(píng)論數(shù)據(jù)集和Twitter評(píng)論數(shù)據(jù)集上,局部特征提取器和全局特征提取器的缺失所帶來(lái)的效果下降幅度相近。這兩者在整體模型中有著相輔相成的關(guān)系,全局特征提取器能夠顧及全面的語(yǔ)義信息但卻沒(méi)有突出重點(diǎn),局部特征提取器則相反,可以充分捕捉方面詞鄰近語(yǔ)境的語(yǔ)義特征但卻難以考慮全面。兩個(gè)提取器對(duì)DFAOABERT的作用都非常關(guān)鍵。而語(yǔ)境動(dòng)態(tài)加權(quán)模塊作為局部特征提取器所獨(dú)有的注意力機(jī)制設(shè)計(jì),較為顯著地提升了局部特征提取器的表現(xiàn)效果。

通過(guò)上述補(bǔ)充實(shí)驗(yàn),可以驗(yàn)證DFAOA-BERT各子模塊在本任務(wù)上的有效性。

3.5 結(jié)果分析與改進(jìn)

根據(jù)上述的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),與之前的模型相比,DFAOA-BERT的綜合表現(xiàn)較為優(yōu)異。無(wú)論是全局、局部特征提取器的設(shè)計(jì),還是語(yǔ)境動(dòng)態(tài)加權(quán)模塊的引入,都對(duì)整體模型的效果有著顯著的正面作用。

但DFAOA-BERT依然存在一定的改進(jìn)空間。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行橫向?qū)Ρ龋梢杂^(guān)察到,DFAOABERT在餐館數(shù)據(jù)集上的表現(xiàn)非常優(yōu)異,而在處理筆記本數(shù)據(jù)集和Twitter數(shù)據(jù)集時(shí)會(huì)呈現(xiàn)出明顯的準(zhǔn)確度下降。出現(xiàn)該問(wèn)題的主要原因在于,筆記本數(shù)據(jù)集和Twitter數(shù)據(jù)集中存在較多拼寫(xiě)錯(cuò)誤與無(wú)意義的標(biāo)記,從而對(duì)模型的語(yǔ)義特征抽取和情感分類(lèi)造成了很大的困難。將AEN-BERT與DFAOA-BERT進(jìn)行對(duì)比,可以觀(guān)察到,雖然DFAOA-BERT在餐館數(shù)據(jù)集上有著顯著的優(yōu)勢(shì),但在筆記本和Twitter數(shù)據(jù)集上的表現(xiàn)卻和AENBERT差別不大。這是因?yàn)锳EN-BERT在語(yǔ)義編碼和特征抽取模塊上有著更為合適的設(shè)計(jì),它針對(duì)方面詞情感分析任務(wù)專(zhuān)門(mén)設(shè)計(jì)了一套注意力機(jī)制來(lái)生成語(yǔ)義表示并提取特征,而非使用大多數(shù)模型所選取的LSTM。因此,DFAOA-BERT在處理低質(zhì)量數(shù)據(jù)集方面仍存在上升空間,可通過(guò)設(shè)計(jì)合理的注意力機(jī)制來(lái)改進(jìn)語(yǔ)義編碼和特征抽取模塊,減小模型對(duì)數(shù)據(jù)質(zhì)量的依賴(lài)程度。

此外,BERT的領(lǐng)域內(nèi)精調(diào)以及方面詞抽取模塊的引入,也是提升DFAOA-BERT效果的兩種改進(jìn)方向。BERT的領(lǐng)域內(nèi)精調(diào)是指對(duì)基礎(chǔ)的BERT模型進(jìn)行一定調(diào)整,使用額外的領(lǐng)域內(nèi)語(yǔ)料資源來(lái)增強(qiáng)BERT在該領(lǐng)域的語(yǔ)義表示能力,從而幫助整體模型獲得更優(yōu)秀的情感判斷能力。方面詞抽取模塊的引入則相當(dāng)于使用一個(gè)模型來(lái)同時(shí)完成方面詞情感分析任務(wù)和方面詞抽取任務(wù),而這兩個(gè)任務(wù)所涉及的模型參數(shù)存在相輔相成的效應(yīng),在Li等[26]以及Hu等[27]的實(shí)驗(yàn)中被證明能夠有效提升整體模型的效果。因此,DFAOABERT可通過(guò)以上兩種改進(jìn)思路,增強(qiáng)方面詞情感分析能力。

4 結(jié)束語(yǔ)

本文針對(duì)當(dāng)前方面詞情感分析任務(wù)研究中存在的不足,設(shè)計(jì)了DFAOA-BERT模型。該模型首次將AOA與BERT預(yù)訓(xùn)練語(yǔ)言模型相結(jié)合,能夠有效提取指定方面詞的情感特征。而全局和局部特征提取器的設(shè)計(jì),則使得模型既能顧及整個(gè)句子的全局語(yǔ)義信息,還能有目的性地弱化情感干擾項(xiàng)的不利影響。實(shí)驗(yàn)證明,DFAOA-BERT在SemEval 2014任務(wù)4中的餐館評(píng)論數(shù)據(jù)集、筆記本評(píng)論數(shù)據(jù)集以及ACL-14 Twitter社交評(píng)論數(shù)據(jù)集上均取得了優(yōu)異的成績(jī),而子模塊的有效性實(shí)驗(yàn)也充分說(shuō)明了DFAOA-BERT各個(gè)模塊設(shè)計(jì)的合理性,任何部分的缺失都將對(duì)模型的效果產(chǎn)生顯著的不利影響。

盡管DFAOA-BERT模型在多個(gè)數(shù)據(jù)集上都有著不錯(cuò)的表現(xiàn),但它仍存在一定的提升空間。本文分析了一些模型的設(shè)計(jì)優(yōu)勢(shì),闡釋了DFAOABERT存在的不足,并從多個(gè)角度提出了改進(jìn)方向與策略方案,以期增強(qiáng)DFAOA-BERT的情感判斷能力與處理低質(zhì)量數(shù)據(jù)時(shí)的穩(wěn)定性。

猜你喜歡
特征提取語(yǔ)義情感
如何在情感中自我成長(zhǎng),保持獨(dú)立
語(yǔ)言與語(yǔ)義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
如何在情感中自我成長(zhǎng),保持獨(dú)立
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 40岁成熟女人牲交片免费| 日本亚洲国产一区二区三区| 国产91色| 不卡的在线视频免费观看| 亚洲精品爱草草视频在线| 另类欧美日韩| 99久久亚洲综合精品TS| 中文字幕佐山爱一区二区免费| 国产在线无码一区二区三区| 99re视频在线| 最新无码专区超级碰碰碰| 一级毛片免费播放视频| 波多野结衣爽到高潮漏水大喷| 日日摸夜夜爽无码| 国产区免费| 亚洲 欧美 日韩综合一区| 亚洲国产成人麻豆精品| 亚洲天堂久久久| 国产成人啪视频一区二区三区| 国产成人无码综合亚洲日韩不卡| 亚洲天堂免费| 亚洲中文无码av永久伊人| 一级高清毛片免费a级高清毛片| 五月综合色婷婷| 漂亮人妻被中出中文字幕久久| 午夜影院a级片| 亚洲国产系列| 国产18页| 日韩在线视频网站| 亚洲男人的天堂在线| 狠狠做深爱婷婷久久一区| 91极品美女高潮叫床在线观看| 亚洲国产一成久久精品国产成人综合| 午夜视频日本| 色偷偷一区二区三区| 久久大香香蕉国产免费网站| 亚洲第一成年人网站| 亚洲天堂精品在线| 国产丝袜啪啪| 国产成人一区二区| 日韩美毛片| 波多野结衣一区二区三区88| 亚洲人成成无码网WWW| 亚洲国产中文欧美在线人成大黄瓜| 亚洲第一福利视频导航| 亚洲男人天堂2018| 国产亚洲视频播放9000| 精品一区二区三区自慰喷水| 亚洲中文无码h在线观看| 日本妇乱子伦视频| 国产欧美日韩综合在线第一| 国产精品久线在线观看| 99免费在线观看视频| 午夜影院a级片| www亚洲精品| 成人综合网址| 日韩AV无码一区| 搞黄网站免费观看| 亚洲一级毛片在线观播放| 亚洲毛片在线看| 亚洲无码日韩一区| 日本欧美中文字幕精品亚洲| 久久一级电影| 无码精油按摩潮喷在线播放| 麻豆精品在线视频| 99精品热视频这里只有精品7| 中文字幕第1页在线播| 欧美另类视频一区二区三区| 久爱午夜精品免费视频| 综合成人国产| 视频一本大道香蕉久在线播放| 久久6免费视频| 久久精品视频亚洲| 久久人人97超碰人人澡爱香蕉| 91网在线| 9丨情侣偷在线精品国产| 午夜在线不卡| 精品伊人久久大香线蕉网站| 国产在线八区| 国产视频只有无码精品| 成人在线不卡| 亚洲制服丝袜第一页|