摘 要: 隱式方面提取對于提升細粒度情感分析的準確性具有重要意義,然而現有隱式方面提取技術在處理大規模數據時泛化能力不強。為此,提出結合依存句法分析與交互注意力機制的隱式方面提取模型。首先利用預訓練語言模型BERT生成文本的初始表征,然后傳遞給依存句法引導的自注意力層再次處理,再將兩次處理的結果經交互注意力機制進一步提取特征,最終用分類器判斷句子所屬的隱式方面類別。與基線BERT及其他深度神經網絡模型對比,所提模型在增強的SemEval隱式方面數據集上取得了更高的F1與AUC值,證明了模型的有效性。
關鍵詞: 方面級情感分析; 隱式方面提取; BERT; 依存句法分析; 交互注意力
中圖分類號: TP391"" 文獻標志碼: A
文章編號: 1001-3695(2022)01-006-0037-06
doi:10.19734/j.issn.1001-3695.2021.06.0249
Combining dependency syntactic parsing with interactive attention mechanism for implicit aspect extraction
Wang Lanlana, Yao Chunlonga, Li Xub, Yu Xiaoqiangb
(a.School of Information Science amp; Engineering, b.Engineering Training Center, Dalian Polytechnic University, Dalian Liaoning 116034, China)
Abstract: Implicit aspect extraction is important for improving the accuracy of fine-grained sentiment analysis.However,existing implicit aspect extraction techniques do not have strong generalization ability when dealing with large-scale data.To address the problem,this paper proposed an implicit aspect extraction model combining dependency syntactic parsing and interactive attention mechanism.First,the model generated the initial representation of the text by the pre-trained language model BERT.Then,it passed the initial representation to the self-attention layer guided by the dependency syntactic parsing.Due to the interactive attention mechanism,the model further extracted the results of the above two processes.Finally it used a classifier to determine the implicit aspect of the sentence.Compared with baseline BERT and other deep neural network models,the proposed model has achieved higher F1 and AUC on the enhanced SemEval implicit aspect dataset,which proves the effectiveness of the model.
Key words: aspect level sentiment analysis; implicit aspect extraction; BERT; dependency syntactic parsing; interactive attention
0 引言
大數據時代,情感分析作為可以自動化挖掘用戶觀點或情感傾向的研究領域而得到廣泛研究。情感分析技術可以應用于商品評價分析、輿情分析、市場預測等多種場景,有助于商家、媒體、市場等多種用戶獲取有用的信息。情感分析按粒度從大到小可分為文檔級、句子級、方面級三類。近年來更多的研究關注方面級情感分析,因其可以分析每句話中具體的評論屬性,更精確地提取信息,如美團、大眾點評等軟件上的餐館評論,通過對其進行方面級情感分析可以高效地得到評論者對于服務、價格等多方面的態度。由此使商家更好地改進餐館,也可讓潛在顧客了解餐館的優劣。
方面級情感分析包括方面提取和方面級情感分類兩個子任務,其中方面提取的有效性是確保細粒度情感分析準確性的前提。方面可分為顯式方面和隱式方面[1]。顯式方面是指在句中直接含有的評價方面詞,以餐館領域的評價為例,如“The prices are wonderfully low.”這個句子中“prices”是顯式方面;隱式方面是指在句中沒有直接寫明,而是通過觀點詞等表達的評價方面,如“Very economical.”這個句子中沒有明確寫明屬性,而是通過“economical”這個觀點詞表達出句子的隱式評價方面為“price”。
當前方面級情感分析研究中大多數的技術都是關于顯式方面[2~4],很少提及隱式方面,即大部分模型關注于提取上述第一個例句中的顯式方面,而忽略了對第二個例句中隱式方面的提取,丟失了數據中的部分有用信息,不能保證數據分析的完整性。隱式方面在句子中占比約為30%[5],隱式方面提取技術不僅對于提高方面提取的準確性具有重要的作用[6,7],還對細粒度情感分析研究的全面性、整體性具有重要意義。
目前隱式方面提取技術主要分為關系推斷法、主題聚類法及分類法[8]三類。關系推斷法是根據顯式方面詞與觀點詞的對應關系,根據觀點詞挖掘隱式方面,主要是在共現頻率分析法或關聯規則法的基礎上引入不同方法對規則進行改進[9];主題聚類法是根據不同方面詞對應的觀點詞不同,利用主題建模框架判斷句子中隱式方面的觀點詞所屬方面詞[10]。關系推斷和主題聚類法兩類方法的準確性依賴于人為地對數據中規則的提取好壞而定,人力資源消耗很大;其次由于不同領域數據集的規則差異,不能很好地泛化到其他數據集中。分類法是預先給定隱式方面詞類別標簽,利用分類器分類。此類相關研究大多數是利用經典機器學習的方法,從詞典或語料庫中獲取語義信息,用SVM、樸素貝葉斯等分類器得到文本的隱式方面[11,12]。用經典機器學習的分類方法雖然相比于關系推斷法和主題聚類法更加自動化,但仍需要人為提取特征。以上方法在應用于不同數據集上時,需人為重新制定規則或提取特征,由于依賴于人工特征工程,無法體現出模型本身的能力。
近些年還出現用深度神經網絡的方法來獲取隱式方面。深度神經網絡可以自動提取文本特征,因此利用深度神經網絡實現隱式方面提取更顯優勢。研究者使用CNN(convolutional neural network,卷積神經網絡)[13]、 BiLSTM(bi-directional long short-term memory,雙向長短期記憶網絡)和BiGRU(bidirectional gated recurrent unit,雙向門控循環單元)[14]等深度神經網絡模型提取隱式方面,文獻[14]還引入詞性向量作為額外輸入。然而以上深度神經網絡需先使用word2vec等語言模型生成靜態詞向量,靜態詞向量雖然可以在一定程度上表示語義和語法信息,卻并不能夠區分一詞多義,無法理解復雜語境。
2018年,Google發布的預訓練語言模型BERT[15]在11項自然語言處理任務中取得最優的結果。BERT僅需通過一個額外的輸出層微調即可適用于多種任務。現有方面級情感分析任務的最佳模型中仍基于BERT,它生成的動態詞向量不僅可以充分表征文本中詞的多義性,還可以提高方面提取任務的準確性。因此本文使用BERT作為編碼器生成隱式方面句的初始表征。然而BERT中的注意力可能會關注于不重要的虛詞等詞語,因此本文提出在BERT上利用依存句法(syntax)與交互注意力的隱式方面提取模型(Syntax-BERT)。該模型利用依存句法引導BERT中的注意力層[16],并在其基礎上加入交互注意力機制,以確保依存句法信息與文本中詞的語義信息被充分利用。最終利用分類器判斷句子所屬的隱式方面類別。
現有的公開隱式方面數據集規模小,不能適用于需要大量訓練數據的深度學習方法,然而從頭構建數據不僅需要專業領域知識,且費時費力。本文提出利用現有的方面級情感分析任務的SemEval數據集生成隱式方面數據集的新方法。SemEval數據集是餐館領域的評論數據,其中僅標注了顯式方面詞與方面詞類別,本文將其改造為隱式方面數據集。
本文的貢獻有兩點:a)現有隱式方面提取任務中的深度學習方法,都是利用靜態的詞向量生成文本表征,本文針對其缺點提出采用預訓練語言模型的方法,并利用依存句法及交互注意力機制進一步提升模型效果;b)針對現有數據集太小、難以提高模型性能的問題,本文基于方面級情感分析中的SemEval數據集構造了專門用于隱式方面提取任務的數據集。
1 隱式方面提取模型
隱式方面提取任務的描述如下:句子S包含n個單詞,S={w1,w2,…,wn},其中wo∈S為觀點詞,目標是在給定的隱式方面類別集合中找出wo對應的最可能的隱式方面fk∈F。
提出的Syntax-BERT模型架構如圖1所示。首先將句子通過BERT得到最后一層的隱層H,再利用依存句法對隱層H的權重重新分配得到H′。將H與H′輸入交互注意力層,交互注意力中注意力層1與注意力層2的輸入不同,即分別將H、H′作為查詢向量。得到的表征向量池化后,采用softmax分類器分類得到輸入句子的隱式方面標簽。
1.1 依存句法引導的自注意力層
文獻[16]在做閱讀理解任務時發現,BERT中的注意力可能會關注于不重要的虛詞等詞語,因此引入依存句法信息。不同于以往文獻中簡單地將依存句法信息與其他模型拼接,該文獻是用依存句法引導BERT中的注意力層,使模型更多地關注文本的有用信息。本文借鑒其在BERT上引入句法分析的方式,并在其基礎上加入交互注意力機制,以確保句子的語義信息被充分利用。
首先利用BERT獲得輸入句子的上下文表征。BERT模型主要由Transformer編碼器組件層層堆疊而成,層數可為12或24。本文模型利用的是12層的Transformer編碼器組成的BERT,Transformer編碼器是由多頭自注意力和全連接前饋網絡通過殘差連接及歸一化的方式相連,其中多頭自注意力可獲取上下文語義,全連接前饋神經網絡用于提供非線性變換。由BERT原文[15]可知,BERT做分類任務時,最后一個隱層即可以充分表示輸入句子的上下文語義信息,其效果與取BERT多層隱層的差別不大,因此本文模型只取BERT最后一個隱層H作為句子的初始表征。
將H輸入依存句法引導的自注意力層得到H′。依存句法引導的自注意力層是根據依存樹結構將隱層H中的注意力權重剪枝,僅保留有依存關系的注意力權重,減少句子中非必要詞對模型的干擾。
依存句法分析即對句子中單詞間的相互依存關系的描述,依存關系是指支配與從屬的關系,從屬詞以某種關系依存于支配詞。每個句子中都含有一個核心詞,與其他詞直接或間接產生聯系。圖2上方和左方的有向弧即依存關系弧,其方向為由支配詞指向從屬詞,箭頭下的小寫單詞為依存關系表示,例如prices依存于low,其依存關系為:prices是low的名詞主語,寫做nsubj;root指向句子的核心詞,在例句里為low。
具體地,假設句子S長度為n,對句子中的每個單詞w,通過句法分析樹得到其祖先節點集P,構造一個n×n維MASK矩陣。P中元素為w作為從屬詞時直接或間接對應的支配詞。即對于句子中單詞wi(wi∈S),若wj(wj∈S)在其祖先節點集Pi中,則矩陣M的i行j列的值為1,且i行i列的值為1,i行其他的位置值為0,計算公式如下:
如圖2的例句中第一個單詞the直接從屬于第二個單詞prices,間接從屬于第五個單詞low,因此MASK矩陣中第一行的(1,1)(1,2)(1,5)三個位置的值為1,其他位置為0。
本文的注意力機制設置三個輸入:查詢向量Q、鍵向量K和值向量V,通常K=V。注意力機制的計算過程是對V進行加權求和,Q和K用來計算對應值向量的權重系數。自注意力指注意力機制的Q=K[17],多頭注意力是將Q分成多份,平行地從文本中選取多個鍵—值對信息,每個注意力頭關注文本的不同特征,再進行拼接。
2 實驗結果與分析
2.1 數據集與評價指標
本文采用的數據集源于SemEval 2014—2016年的餐館領域數據集[18~20]。SemEval數據集是方面級情感分析的經典數據集,三年的數據集都包含方面類和方面詞兩種標簽。 然而2014年的數據與另兩年的數據標簽劃分標準不同,但數據量較多,因此分別處理2014年與另兩年的數據。本文中隱式方面類標簽有五類,同SemEval 2014年的方面類標簽,分別為“food”“service”“price”“ambience”“miscellaneous”。
SemEval 2014年的方面詞與方面類沒有一一映射關系,故人為加入映射關系并生成隱式方面句,如算法2所示。
算法2 SemEval 2014生成隱式方面句的算法
輸入:句子S,S的方面詞列表masks,S的方面類列表cat。
輸出:根據句子S生成的隱式方面句列表text_ma;最終結果定格式為【隱式方面句,標簽】的列表result。
//a)生成隱式方面句列表
for mask in masks
text_ma.append(S.replace(mask,′T′));
//b)若原句子無方面詞
if len(text_ma)==0
for c in cat:result.append([s,c]);
continue;
//c)給隱式方面句加隱式方面標簽
for i in range(0,len(text_ma))
//(a)若原句子有一個方面類標簽
if (len(cat)==1)
result.append([text_ma[i],cat[0]]);
continue;
//(b)若原句子有多個方面類標簽
for j in range(0,len(cat))
max_cat←cat[j] when cosine(Vec(mask[i]),Vec(cat[j])) is minimum;
result.append([text_ma[i],max_cat]);
代碼中,將SemEval2014數據集中任一句子S轉換為隱式方面數據集的過程主要分三步,具體實例如表1所示。a)分別用特殊字符“T”掩蓋每個方面詞,生成可能的隱式方面句存入text_ma列表,如表1的例1,原句子a中的“food”與“prices”為方面詞,隱式方面句b和c是分別將其掩蓋住得到的;b)如果text_ma列表為空,則句子無方面詞,保留原句子及方面類標簽于最終列表result,結束本次程序,但可能會出現多個方面類的情況,需要人為切分句子,保證一個句子中只有一個隱式方面,如例2,該句無顯式方面,但包含兩個隱式方面,故人為拆成兩個句子并加入隱式方面標簽;c)給text_ma列表中的隱式方面句加標簽并存入最終列表result,此時分兩種情況,若只有一個方面類標簽(步驟(a)),則將其作為列表中所有句子的標簽值,跳出本次循環,如例3,句子中兩個方面詞所屬的類別均為“ambience”,則生成的隱式方面句的隱式方面均為“ambience”;若有多個方面類(步驟(b)),則對于每個方面詞生成的隱式方面句,利用glove.6B.300d詞向量生成該方面詞的向量與所有候選方面類的向量(用vec表示轉換函數),取與該方面詞余弦距離最小的方面類向量,即與方面詞語義相似性最高的方面類作為標簽。如例1,對于隱式方面句b,掩蓋方面詞為“food”,其候選的隱式方面有“food”與“prices”兩個方面類,通過語義相似性函數得到其隱式方面為“food”。在處理顯式方面句的過程中始終保證一個句子中只有一個特殊字符,以便讓神經網絡根據該特殊字符來判別句子所對應的方面類標簽。
SemEval 2015、2016年數據集的處理過程如下:首先將原方面類按照2014年的分類標準重新劃分歸為五類作為隱式方面數據集的隱式方面類。隱式方面句的生成過程同算法1的a)b),由于SemEval 2015、2016的方面詞與方面類是一一對應的,無須執行c),a)生成的隱式方面句的標簽值為方面詞對應的方面類。如例4,原句給定了方面詞“dishes”對應的方面類為“FOOD#QUALITY”,按照2014年的分類標準為“food”,故生成的隱式方面句的隱式方面為“food”。
由于SemEval三年間的數據集存在重復句子,將生成的隱式方面句合并后需要去重。在經過人工校正異常標簽值后所得的隱式方面數據集數量分布情況如表2所示,按隱式方面類別標簽分布統計圖如圖3所示,實驗中打亂順序并按比例6:2:2劃分訓練集、驗證集及測試集。
在選取評價指標時,為了更準確地評估模型性能,采用F1值和ROC曲線下面積(AUC)兩種客觀評價指標。前者側重于評估模型對正確標簽的判斷能力,后者在數據不均衡時仍能穩定地評估模型性能。
本文的隱式方面提取任務為多分類任務,因此F1值與ROC曲線均有微觀(micro)和宏觀(macro)兩種度量方式。F1分為micro-F1和macro-F1。micro-F1不區分類別,計算整體數據的F1值;macro-F1是分別計算每個類的F1值,再取其平均值為最終結果。同理,ROC曲線分為micro-average ROC曲線和macro-average ROC曲線。micro-average ROC曲線計算整體的曲線,而macro-average ROC曲線是對每類的ROC曲線取平均。ROC曲線下的面積值(AUC)同樣是可以衡量分類模型性能的指標,AUC的值越大表明模型性能越好。
2.2 實驗設置
句法分析器采用的是paperswithcode網站的Penn Treebank數據集依存分析任務排行榜上的首位LAL-Parser[21],其采用XLNet嵌入,HSPG樹表征以及label attention層。
由于現有隱式方面提取任務的非深度學習模型在不同數據集上需要人為制定規則或提取特征,本文沒有與之對比。實驗中首先對比兩種預訓練語言模型BERT與RoBERTa在本任務上的效果。RoBERTa分類器[22]是paperswithcode網站的SemEval數據集方面級情感分析任務排行榜上的首位(這里指不引入額外訓練數據集的模型排名)。采用BERT的bert-base-uncased模型和RoBERTa的roberta-base模型。其次對比其他隱式方面提取任務的模型,即CNN[13]、BiLSTM和BiGRU[14]模型。最后進行自身對照實驗,主要對交互注意力機制的有效性進行驗證。
實驗參數設置:批量大小為64,文本最大序列長度為128,整體數據集上的訓練輪數為50,模型的優化算法采用Adam。學習率的取值選取模型效果最好時的值,BERT、RoBERTa及本文的Syntax-BERT模型學習率分別為7E-5、3E-5、5E-5。最終得到模型參數在測試集上的評估。
2.3 與其他預訓練語言模型的對比結果
在預訓練語言模型的選擇上,對比了BERT與RoBERTa的效果,即通過預訓練語言模型得到文本表征后,利用 softmax分類器獲取隱式方面。算法3為BERT與RoBERTa模型訓練的偽代碼。其步驟與Syntax-BERT模型的訓練過程(算法1)類似;不同之處在于取到隱層向量H后,Syntax-BERT模型還結合了依存句法和交互注意力等改進。
算法3 BERT與RoBERTa模型的訓練算法
輸入:句子向量S;標簽y;初始化模型所用參數W、b等。
輸出:模型所用參數W、b等。
for iter in iterations do
//將句子輸入模型得到最后一層的隱層向量H。
//model←BERT or RoBERTa
H=model(S);
p0=pooler(get_first_token(H));
/*利用softmax得到模型預測的隱式方面概率值p,更新模型的參數W和b等*/
p=softmax(W p0+b);
update W,b when CrossEntropyLoss(p,y) is lower;
end
表3是訓練得到的模型在測試數據集上的實驗結果,從表3可以看出,BERT的效果優于RoBERTa。原因有兩點:a)RoBERTa模型訓練時利用的數據集過于寬泛,在餐館數據集上的擬合能力不如BERT;b)RoBERTa中的動態掩碼相對于BERT的靜態掩碼會對每輪數據都進行不同的掩蓋,在本身文本信息已經很少的隱式方面數據集上,RoBERTa模型更難以學習到句子中的有用信息。因此選取BERT生成本文的初始表征。由于數據集中14年的占比高,總數據集上的結果亦比較靠近14年的結果,本文提出的依存句法引導的BERT分類模型Syntax-BERT在數據集上的效果優于BERT,原因是充分利用了依存句法信息,引導BERT中的注意力關注更有用的信息;此外,交互注意力可以更好地利用BERT和依存句法間的關系。
圖4、5分別為上述三個模型的微觀ROC曲線圖及宏觀ROC曲線圖。從圖中可以看出,本文模型在ROC曲線及AUC值上均優于BERT及RoBERTa,模型性能最優。
2.4 與其他深度學習模型的對比結果
為了驗證本文模型的效果,在本文數據集上對比了現有隱式方面提取任務的深度學習模型。算法4為本文對比的CNN、BiLSTM與BiGRU模型的訓練算法偽代碼。
算法4 CNN、BiLSTM與BiGRU模型的訓練算法
數據預處理:將訓練集通過word2vec生成句子向量S作為模型的輸入。
輸入:句子向量S;標簽y;初始化模型所用參數W、b等。
輸出:模型所用參數W、b等。
for iter in iterations do
if model←CNN
p0=model(S);
elseif model←BiLSTM or BiGRU
p0=model(s,pos);
/*利用softmax得到模型預測的隱式方面概率值p,更新模型的參數W和b等*/
p=softmax(W p0+b);
update W,b when CrossEntropyLoss(p,y) is lower;
end
以上三種隱式方面提取模型均采用word2vec模型生成句子的詞向量輸入,word2vec模型的訓練數據來自本文的實驗語料,詞向量維度為200,其他訓練參數設置同文獻[13]:最小窗口為1,迭代次數為15,sample為0.001。
文獻[13]的CNN模型訓練時利用四種大小(2,3,4,5)的卷積核,將句子向量S輸入四種卷積層(Conv1d)、池化層(MaxPool1d)后得到的四種卷積結果拼接,利用dropout防止過擬合,得到的向量經分類得到句子所屬的隱式方面概率,其參數更新方式同算法1~3,均采用Adam優化算法實現交叉熵的最小化。實驗中具體參數:每種卷積核各32個,學習率為1E-3,最大序列長度為128,dropout為0.3,訓練批量大小為64,整體數據集上的訓練輪數為50。
文獻[14]的BiLSTM和BiGRU模型除了采用word2vec生成句子向量S,還采用詞性向量pos作為輔助輸入,將兩者拼接輸入BiLSTM或BiGRU模型,后續的訓練過程同CNN模型。實驗中具體參數:詞性向量維度為20,學習率為1E-3,最大序列長度為128,dropout為0.3,訓練批量大小為64,整體數據集上的訓練輪數為50。
表4為上述三個模型在本文數據集上的結果,圖6、7分別為上述三個模型及本文Syntax-BERT模型的微觀ROC曲線圖及宏觀ROC曲線圖。從表4及ROC曲線圖可見,本文提出模型的F1值與AUC值遠高于另外三種模型,分類效果最佳,驗證了本文模型的有效性。
2.5 消融實驗
為了驗證模型中交互注意力機制的有效性,進行消融實驗,實驗結果如表5所示。
a)互注意力。本模型將BERT的表征H與依存句法自注意力層的表征H′通過交互注意力結合,為了驗證交互注意力機制的作用,對比了將其替換為拼接的效果。從表5中可見,拼接的micro-F1和macro-F1與交互注意力相比分別降低了0.6%和1.22%,由此可以證明交互注意力在模型中的有效性。
b)交互注意力與單向注意力。為證明交互注意力比單向注意力效果好,對比了只有注意力層1和只有注意力層2的模型效果。從表5中可以看出,只用注意力層1的效果不如注意力層2,即基于BERT表征H計算依存句法H′的注意力對于隱式方面提取更加重要。交互注意力的效果比單獨用其中一種注意力層的效果好,表明交互注意力能更充分地利用H和H′的相互關系,更大程度地保留文本中的重要信息。
c)交互注意力的頭數。注意力層不僅可以使用傳統的單頭注意力,還可應用多頭注意力,對比的注意力頭數為12。在使用單向注意力或交互注意力時,多頭注意力的效果都比單頭注意力差,可見其雖然可以捕捉到多個子空間的語義信息,卻會增加引入干擾信息的可能。
d)關于注意力層1和注意力層2的組合方式,本文使用兩者的加法比直接將兩者拼接的效果更好,將注意力層1和注意力層2拼接的效果反而不如只使用一種注意力層,可見拼接會損失模型中的有用信息,無法充分發揮注意力的表示能力。
上述分析表明,本文所提的單頭交互注意力模型表現最佳,有一定的合理性。
2.6 案例分析
下面通過測試數據集的一個例子對比在不同模型上得到的結果。對句子“The T is pleasant,fun,and for the most part gorgeous(in the wonderful aesthetic beautification way,not in that she's-way-cuter-than-me way).”,特殊字符“T”掩蓋的方面詞為wait staff,故其正確的隱式方面標簽為“service”。表6為上述模型在正確標簽“service”上的預測概率值及模型預測的隱式方面。由表6可見,CNN模型與本文的Syntax-BERT模型預測結果正確,且本文的模型預測值遠高于CNN,說明本文模型的效果最佳。這句話中包含兩個歧義詞,“pleasant”即可描述人和藹可親,又可指環境好;“gorgeous”既可指人美,又可指風景壯觀。因此BiLSTM和BERT預測結果為“ambience”,也是有依據的,但這兩個模型未能綜合考慮整句話的語境,判斷錯誤;BiLSTM對于正確標簽的預測值最低,可見其沒有分析出句子的深層含義;而BiGRU和RoBERTa模型雖然在正確標簽的預測值上高于BiLSTM模型,但預測的“food”卻與句子含義無關。綜上所述,本文模型不僅考慮到詞義,還加入了句法分析,綜合對整句話的含義預測得到了正確標簽,因此實驗表現優于其他模型。
3 結束語
隱式方面的提取是方面級情感分析任務中的重要一環。為此本文提出利用BERT生成文本初始表征,結合依存句法與交互注意力機制的方法,實驗結果表明,該方法在隱式方面提取任務上表現優于BERT。此外,本文將公開的情感分析數據集改造成專門用于隱式方面提取的數據集,該方法也適用于生成其他領域的隱式方面提取任務數據集。
參考文獻:
[1]Liu Bing,Hu Minqing,Cheng Junsheng.Opinion observer:analyzing and comparing opinions on the Web[C]//Proc of the 14th International Conference on World Wide Web.New York:ACM Press,2005:342-351.
[2]Lin Yuming,Wang Chaoqiang,Song Hao,et al.Multi-head self-attention transformation networks for aspect-based sentiment analysis[J].IEEE Access,2021,9:8762-8770.
[3]Ali W,Yang Yuwang,Qiu Xiulin, et al.Aspect-level sentiment analysis based on Bidirectional-GRU in SIoT[J].IEEE Access,2021,9:69938-69950.
[4]Bouras D,Amroune M,Bendjenna H,et al.Techniques and trends for fine-grained opinion mining and sentiment analysis:recent survey[J].Recent Advances in Computer Science and Communications,2020,13(2):215-227.
[5]Xu Hua,Zhang Fan,Wang Wei.Implicit feature identification in Chinese reviews using explicit topic mining model[J].Knowledge-Based Systems,2015,76(2):166-175.
[6]Lal M,Asnani K.Implicit aspect identification techniques for mining opinions:a survey[J].International Journal of Computer Applications,2014,98(4):1-3.
[7]Yadav A,Vishwakarma D K.A comparative study on bio-inspired algorithms for sentiment analysis[J].Cluster Computing,2020,23(2):2969-2989.
[8]聶卉,何歡.引入詞向量的隱性特征識別研究[J].數據分析與知識發現,2020,4(1):99-110. (Nie Hui,He Huan.Identifying implicit features with word embedding[J].Data Analysis and Know-ledge Discovery,2020,4(1):99-110.)
[9]Hai Zhen,Chang Kuiyu,Kim J J.Implicit feature identification via co-occurrence association rule mining[C]//Proc of the 12th International Conference on Intelligent Text Processing and Computational Linguistics.Berlin:Springer,2011:393-404.
[10]Wei Jiang,Hao Pan,Ye Qing.An improved association rule mining approach to identification of implicit product aspects[J].The Open Cybernetics amp; Systemics Journal,2014,8(12):924-930
[11]Fei Geli,Liu Bing,Hsu M,et al.A dictionary-based approach to identifying aspects implied by adjectives for opinion mining[C]//Proc of the 24th International Conference on Computational Linguistics:Pos-ters.Stroudsburg,PA:Association for Computational Linguistics,2012:309-318.
[12]Hajar E H,Mohammed B.Hybrid approach to extract adjectives for implicit aspect identification in opinion mining[C]//Proc of the 11th International Conference on Intelligent Systems:Theories and Applications.Piscataway,NJ:IEEE Press,2016:1-5.
[13]胡榮,崔榮一,趙亞慧.基于卷積神經網絡的隱式評價對象識別[J].吉林大學學報:信息科學版,2019,37(6):638-644. (Hu Rong,Cui Rongyi,Zhao Yahui.Implicit opinion targets identification based on convolutional neural network[J].Journal of Jilin Univer-sity:Information Science Edition,2019,37(6):638-644.)
[14]王仁武,張文慧.基于深度學習的隱性評價對象識別方法[J].計算機工程,2019,45(8):315-320. (Wang Renwu,Zhang Wenhui.Implicit evaluation object recognition method based on deep learning[J].Computer Engineering,2019,45(8):315-320.)
[15]Devlin J,Chang Mingwei,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2018:4171-4186.
[16]Zhang Zhuosheng,Wu Yuwei,Zhou Junru,et al.SG-Net:syntax-guided machine reading comprehension[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:9636-9643.
[17]石磊,王毅,成穎,等.自然語言處理中的注意力機制研究綜述[J].數據分析與知識發現,2020,4(5):1-14. (Shi Lei,Wang Yi,Cheng Ying,et al.Review of attention mechanism in natural language processing[J].Data Analysis and Knowledge Discovery,2020,4(5):1-14.)
[18]Pontiki M,Galanis D,Pavlopoulos J,et al.SemEval-2014 task 4:aspect based sentiment analysis[C]//Proc of the 8th International Workshop on Semantic Evaluation.Stroudsburg,PA:Association for Computational Linguistics,2014:27-35.
[19]Pontiki M,Galanis D,Papageorgiou H,et al.SemEval-2015 task 12:aspect based sentiment analysis[C]//Proc of the 9th International Workshop on Semantic Evaluation.Stroudsburg,PA:Association for Computational Linguistics,2015:486-495.
[20]Pontiki M,Galanis D,Papageorgiou H,et al.SemEval-2016 task 5:aspect based sentiment analysis[C]//Proc of the 10th International Workshop on Semantic Evaluation.Stroudsburg,PA:Association for Computational Linguistics,2016:19-30.
[21]Mrini K,Dernoncourt F,Tran Q H,et al.Rethinking self-attention:towards interpretability in neural parsing[C]//Proc of Conference on Empirical Methods in Natural Language Processing:Findings.Stroudsburg,PA:Association for Computational Linguistics,2020:731-742.
[22]Dai Junqi,Yan Hang,Sun Tianxiang,et al.Does syntax matter?A strong baseline for aspect-based sentiment analysis with RoBERTa[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2021:1816-1829.