999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征融合的多方面抽取及情感分析

2024-01-23 01:41:04董慧潔楊林楠
現(xiàn)代信息科技 2023年23期

董慧潔 楊林楠

摘? 要:針對(duì)序列標(biāo)注標(biāo)簽預(yù)測(cè)空間大導(dǎo)致模型預(yù)測(cè)效果較差的問(wèn)題,提出一種基于BERT-BiLSTM-Fusion的多方面抽取及情感分析模型。采用跨度預(yù)測(cè)的方法進(jìn)行方面詞抽取與方面詞情感預(yù)測(cè)分類并聯(lián)合訓(xùn)練,通過(guò)Bert預(yù)訓(xùn)練語(yǔ)言模型得到文本嵌入表示,使用BiLSTM學(xué)習(xí)觀測(cè)序列上的依賴關(guān)系增強(qiáng)學(xué)習(xí)位置信息,提高模型抽取效果。對(duì)Bert預(yù)訓(xùn)練語(yǔ)言模型的每一層輸出特征進(jìn)行特征融合,提高模型的情感極性分類效果,并且在三個(gè)公開(kāi)數(shù)據(jù)集Laptop、Restaurant、Twitter上設(shè)計(jì)對(duì)比實(shí)驗(yàn)以及消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,BERT-BiLSTM-Fusion模型的F1值分別達(dá)到了66.72%、78.44%、62.10%,且高于對(duì)比模型,表明了所提出模型的有效性。

關(guān)鍵詞:方面抽取;情感分析;特征融合;聯(lián)合訓(xùn)練;Bert

中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)23-0111-05

Multi-aspect Extraction and Sentiment Analysis Based on Feature Fusion

DONG Huijie1,2, YANG Linnan1,2

(1.School of Big Data, Yunnan Agricultural University, Kunming? 650201, China;

2.Agricultural Big Data Engineering Technology Research Center of Yunnan Province, Kunming? 650201, China)

Abstract: Aiming at the problem that the prediction effect of the model is poor due to the large prediction space of the sequence annotation label, a multi-aspect extraction and sentiment analysis model based on Bert_Bilstm_Fusion is proposed. The method of span prediction is used for joint training of aspect words extraction and aspect words sentiment prediction and classification. The text embedding representation is obtained by using the Bert pre-trained language model. It uses the dependency relationship on the Bilstm learning observation sequence to enhance the learning position information to improve the model extraction effect. It conducts the feature fusion of output features of each layer for the Bert pre-trained language model, improves the sentiment polarity classification effect of the model, and designs comparison experiments and ablation experiments on three public data sets Laptop, Restaurant and Twitter. The experimental results show that the F1 values of the Bert_Bilstm_Fusion model reach 66.72%, 78.44% and 62.10%, respectively, which are higher than those of the comparison model, indicating the effectiveness of the proposed model.

Keywords: aspect extraction; sentiment analysis; feature fusion; joint training; Bert

0? 引? 言

現(xiàn)實(shí)場(chǎng)景中,不僅僅需要模型自動(dòng)化識(shí)別文檔或句子整體的情感傾向,同時(shí)也需要挖掘句子中具體方面的評(píng)價(jià)對(duì)象以及其所對(duì)應(yīng)的情感傾向,從文本中獲取更加細(xì)致的信息[1,2],該任務(wù)即方面抽取及情感分析。其模型方法從機(jī)器學(xué)習(xí)方法逐漸向深度學(xué)習(xí)發(fā)展,近幾年,基于預(yù)訓(xùn)練語(yǔ)言模型的方法取得了更好的結(jié)果[3,4]。文獻(xiàn)[5]的模型在給定方面詞任務(wù)上表現(xiàn)良好,其中輸入為方面詞和文本句子,是一個(gè)分類任務(wù),本文所研究方面抽取及情感分析任務(wù)是抽取加分類的任務(wù),要從文本中自動(dòng)識(shí)別和提取描述特定屬性的方面詞片段[6]。文獻(xiàn)[7]提出一種多任務(wù)的方面抽取與情感分析模型,只能處理文本中只含有一個(gè)方面詞的情況。研究中使用的BIOES與情感組合標(biāo)簽,使模型預(yù)測(cè)搜索空間大,且會(huì)出現(xiàn)同一方面詞中情感標(biāo)簽不一致現(xiàn)象[8-10],從而導(dǎo)致模型效果較差。針對(duì)上述問(wèn)題,本文構(gòu)建BERT-BiLSTM-Fusion模型進(jìn)行改進(jìn)。

1? 總體模型結(jié)構(gòu)

所提出模型BERT-BiLSTM-Fusion主要由嵌入表示層、動(dòng)態(tài)融合層、位置信息增強(qiáng)層和匹配算法組成,其結(jié)構(gòu)如圖1所示。

1.1? 嵌入表示層

BERT [11](Bidirectional Encoder Representation from Transformers)由多層的雙向Transformer編碼器[12]組成,其結(jié)構(gòu)如圖2所示。Transformer編碼器結(jié)構(gòu),主要包括多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)兩部分,如式(1)(2)(3)(4)所示。在大規(guī)模語(yǔ)料上,對(duì)Bert進(jìn)行預(yù)訓(xùn)練,應(yīng)用到具體任務(wù)中時(shí),精調(diào)參數(shù)獲得輸入文本的語(yǔ)義向量表示。本文通過(guò)Bert將輸入文本編碼成向量表示,選擇12層的編碼器,輸入包括原始文本包括兩個(gè)特殊符號(hào)[CLS]、[SEP],字嵌入(Token embedding)就是對(duì)所有輸入詞匯根據(jù)詞表映射成相應(yīng)的向量表示,段嵌入(Segment embedding)是區(qū)別句子是否為同一段,位置嵌入(Position embedding)首先初始化位置信息而后讓模型學(xué)習(xí)位置信息表示,將三個(gè)嵌入相加得到Bert的輸入向量表示h0,將其輸入到模型中得到每一層的hi。

其中,W均表示可訓(xùn)練的參數(shù)矩陣,b表示偏置項(xiàng)。

經(jīng)過(guò)每一層Transformer模塊時(shí)的輸出如式(5)所示,L = 12:

1.2? 特征融合層

本文選取的Bert模型共有12層,一般使用CLS向量表示進(jìn)行下游任務(wù)的文本分類,或者使用BERT最后一層輸出作為其最終輸出。文獻(xiàn)[13]對(duì)BERT結(jié)構(gòu)探究發(fā)現(xiàn)隨著層數(shù)的增加,模型獲得短語(yǔ)(span)信息能力受到限制。底層網(wǎng)絡(luò)主要學(xué)習(xí)表層特征,中間層網(wǎng)絡(luò)則更多的關(guān)注句法信息特征,而高層網(wǎng)絡(luò)則主要學(xué)習(xí)語(yǔ)義信息特征。因此,本文選擇將BERT不同層特征進(jìn)行動(dòng)態(tài)融合,獲取不同層面的文本特征信息,以增強(qiáng)模型效果。

獲取每一層transformer模塊輸出的相應(yīng)特征hi,hi后接全連接層將特征768維度映射成1維ki,將每一層的輸出特征在最后一個(gè)維度上做拼接操作,接著得到的結(jié)果輸入到Softmax函數(shù)中,獲取每一層的輸出特征對(duì)應(yīng)的權(quán)重lg。通過(guò)將每一層的輸出hi在第三維度進(jìn)行拼接得到融合后的特征,與對(duì)應(yīng)的權(quán)重張量相乘得到最終動(dòng)態(tài)融合結(jié)果。計(jì)算過(guò)程如式(6)(7)(8)所示:

其中dense表示全連接層,cat表示張量拼接。

1.3? 位置信息增強(qiáng)層

由于下游任務(wù)需要提取方面詞的首尾位置,因此,位置信息對(duì)于模型十分重要,考慮到文本在經(jīng)過(guò)BERT一系列的注意力層之后會(huì)弱化位置的信息,本文通過(guò)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory Network, BiLSTM)來(lái)訓(xùn)練觀測(cè)序列上的位置依賴信息。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)主要由三個(gè)門(mén)控單元和一個(gè)記憶管道ct組成,每個(gè)單元的輸入包括兩個(gè)狀態(tài),即當(dāng)前單元的序列狀態(tài)和隱藏狀態(tài)。通過(guò)輸入門(mén)、遺忘門(mén)和輸出門(mén)三種門(mén)控機(jī)制控制對(duì)輸入信號(hào)的存儲(chǔ)、利用和丟棄。輸入門(mén)it決定當(dāng)前時(shí)刻記憶管道ct的信息保留多少,遺忘門(mén)ft確定在前一步ct-1中需要保留哪些信息,輸出門(mén)ot用于輸出當(dāng)前時(shí)刻存儲(chǔ)單元內(nèi)部的狀態(tài)信息百分比,以確定下一個(gè)隱藏狀態(tài)的值,計(jì)算公式為:

單向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)從左到右處理輸入序列,只能捕獲序列的上文依賴信息,而雙向的網(wǎng)絡(luò)可以同時(shí)捕捉下文依賴信息,更進(jìn)一步促進(jìn)模型建模上下文關(guān)系的能力。將動(dòng)態(tài)特征融合的結(jié)果輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中,計(jì)算過(guò)程為:

其中N表示文本句子長(zhǎng)度,ei表示動(dòng)態(tài)特征融合中第i個(gè)字符的特征表示, 和? 表示正向和反向的輸出。

1.4? 匹配算法

通過(guò)全連接層將位置信息增強(qiáng)層后獲得的輸出狀態(tài)Li映射成Star向量gs和end向量ge,公式為:

Ws和We表示可訓(xùn)練參數(shù)矩陣。

在解碼的過(guò)程中使用文獻(xiàn)[8]的多跨度解碼算法將gs和ge作為開(kāi)始位置和結(jié)束位置的得分概率向量,從中選取K個(gè)概率最大的位置,而后對(duì)得到的位置進(jìn)行篩選將不符合條件的進(jìn)行剔除,得到抽取部分的結(jié)果。

1.5? 解碼分類層

通過(guò)匹配算法得到方面詞開(kāi)始位置和結(jié)束位置索引之后,根據(jù)得到的索引從特征融合的輸出中取出對(duì)應(yīng)跨度的向量表示。為了對(duì)齊同一批次中的方面詞的寬度,選取同一批次中最大的寬度作為跨度表示的統(tǒng)一寬度進(jìn)行,針對(duì)小于最大寬度的跨度表示進(jìn)行填充,同時(shí)采取掩碼策略掩蓋掉無(wú)效的內(nèi)容,得到最終的方面詞跨度編碼表示si,分類的計(jì)算過(guò)程如下:

其中,tanh表示激活函數(shù),classify表示使用全連接層進(jìn)行三分類映射。

模型訓(xùn)練過(guò)程中方面詞首尾指針抽取部分采用負(fù)對(duì)數(shù)似然損失函數(shù),情感極性分類使用交叉熵?fù)p失函數(shù),最后,將兩者損失相加進(jìn)行整體模型的聯(lián)合訓(xùn)練。

2? 方法實(shí)現(xiàn)

2.1? 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

將模型在三個(gè)公開(kāi)領(lǐng)域的英文評(píng)論數(shù)據(jù)集Laptop、Restaurant、Twitter進(jìn)行實(shí)驗(yàn)。首先對(duì)數(shù)據(jù)集的總數(shù)與標(biāo)簽總數(shù)進(jìn)行分析如圖3所示,通過(guò)分析圖3中數(shù)據(jù)可知最長(zhǎng)的方面詞跨度值為6,如圖4所示。因此,將匹配算法中抽取的最大的Span長(zhǎng)度設(shè)為該值。

分析數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)類別標(biāo)簽存在不均衡現(xiàn)象,因此,本文采用精確率(Precision)、召回率(Recall)和F1值評(píng)估模型的性能表現(xiàn),計(jì)算公式如下:

2.2? 實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)使用Linux環(huán)境下的Ubuntu系統(tǒng)顯卡為英偉達(dá)3090 Ti,CUDA版本為11.0,神經(jīng)網(wǎng)絡(luò)模型使用PyTorch框架構(gòu)建,版本為1.7.1,對(duì)應(yīng)的python版本為3.8。實(shí)驗(yàn)過(guò)程中涉及的靜態(tài)詞向量使用的是Glove 300維的詞向量,使用transformers框架加載預(yù)訓(xùn)練語(yǔ)言模型的權(quán)重參數(shù),模型的超參數(shù)設(shè)置如表1所示。

2.3? 對(duì)比實(shí)驗(yàn)

實(shí)驗(yàn)過(guò)程中使用huggingface transformers框架[14]載入預(yù)訓(xùn)練語(yǔ)言模型參數(shù),非預(yù)訓(xùn)練語(yǔ)言模型采用Glove靜態(tài)詞向量初始化嵌入表示,選取經(jīng)典模型LSTM-CRF、LM-LSTM-CRF[15]、LSTM-TBSA[16]、BERT-GRU、BERT-CRF[17]和Span-Joint[8]結(jié)果對(duì)比,其中/左邊表示原論文的結(jié)果數(shù)據(jù),/右邊表示重新實(shí)驗(yàn)的結(jié)果,-表示原論文中并未實(shí)驗(yàn)。由表2可知,在Laptop數(shù)據(jù)集上可以得出本文的BERT-BiLSTM-Fusion模型相較于對(duì)比模型在F1值上分別提升了12.48%、10.53%、12.94%、5.81%、7.26%、1.74%。

分析表3可以得出在Restaurant數(shù)據(jù)集上本文的BERT-BiLSTM-Fusion模型相較于對(duì)比模型在F1值上分別提升了12.24%、12.26%、14.79%、5.48%、4.29%、1.83%。

Twitter數(shù)據(jù)集實(shí)驗(yàn)結(jié)果表4中本文的BERT-BiLSTM-Fusion模型相較于對(duì)比模型在F1值上分別提升了14.58%、14.75%、13.1%、2.08%、3.59%、5.28%。

綜上,本文的BERT-BiLSTM-Fusion模型在三個(gè)數(shù)據(jù)集上的F1評(píng)價(jià)指標(biāo)均比對(duì)比模型有較好的表現(xiàn)效果,達(dá)到相對(duì)較好的泛化能力,且相比于不含有預(yù)訓(xùn)練語(yǔ)言模型的深度學(xué)習(xí)網(wǎng)絡(luò),本文的模型有較大幅度的提升,反映出了預(yù)訓(xùn)練語(yǔ)言模型的優(yōu)勢(shì),同時(shí)LSTM-CRF、LM-LSTM-CRF、LSTM-TBSA、BERT-GRU、BERT-CRF使用的是序列標(biāo)注的方式解碼預(yù)測(cè)的是BIOES標(biāo)簽,而Span-joint與本文Bert-BiLSTM-Fusion模型使用的是指針標(biāo)注方式預(yù)測(cè)的是首尾指針,從結(jié)果上來(lái)看使用首尾指針的方式效果較好一定程度上緩解了BIOES解碼空間大導(dǎo)致的模型效果不佳的問(wèn)題。

2.4? 消融實(shí)驗(yàn)

為了驗(yàn)證模型中模塊的有效型,選取Bert-Span作為基線模型,針對(duì)模型整體在twitter數(shù)據(jù)集上設(shè)計(jì)消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。分析表5可以得出BERT-BiLSTM-Fusion模型在去掉特征融合Fusion模塊的情況下F1指標(biāo)下降了1.75%,在去掉位置信息增強(qiáng)BiLSTM模塊的情況下F1指標(biāo)下降了0.91%,模型性能呈下降的趨勢(shì),這表明了所提出模塊的有效性,同時(shí)可以看出特征融合模塊對(duì)模型的影響較大,側(cè)面反映了充分提取特征的重要性。相比基線模型,BERT-BiLSTM-Fusion模型的F1指標(biāo)提升了1.79%,這也表明了本文所提模型針對(duì)多方面抽取及情感分析任務(wù)是有效的。

3? 結(jié)? 論

本文圍繞方面抽取與情感分析任務(wù)進(jìn)行建模研究,并且提出了基于BERT-BiLSTM-Fusion的多方面抽取及情感分析模型。使用動(dòng)態(tài)融合的方法加強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型的多層次特征提取能力,同時(shí)使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)訓(xùn)練序列間依賴關(guān)系,為模型注入位置信息,使用跨度匹配預(yù)測(cè)的方式實(shí)現(xiàn)多方面詞抽取。在三個(gè)領(lǐng)域的評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了BERT-BiLSTM-Fusion模型在方面詞抽取與情感分析任務(wù)上有效,且比對(duì)比模型的表現(xiàn)效果好,為該任務(wù)提供了模型參考。在接下來(lái)研究中將考慮引入語(yǔ)法信息進(jìn)一步提高模型抽取和分類的正確率,并且嘗試將模型嵌入到農(nóng)產(chǎn)品電子商務(wù)系統(tǒng)中。

參考文獻(xiàn):

[1] 王璐,馬宏偉,呂歡歡.方面級(jí)文本情感分析綜述 [J].計(jì)算機(jī)應(yīng)用,2022,42(S2):1-9.

[2] 譚翠萍.文本細(xì)粒度情感分析研究綜述 [J].大學(xué)圖書(shū)館學(xué)報(bào),2022,40(4):85-99+119.

[3] 劉培玉,盧強(qiáng),張殿元,等.基于深度學(xué)習(xí)的方面級(jí)情感分析方法研究進(jìn)展 [J].山東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2022,37(1):10-21.

[4] ZHANG W,LI X,DENG Y,et al. A Survey on Aspect-Based Sentiment Analysis:Tasks,Methods,and Challenges [J].IEEE Transactions on Knowledge & Data Engineering,2022 ,35(11):11019-11038.

[5] XU H,LIU B,SHU L,et al. BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis[C]//Proceedings of NAACL-HLT.Minneapolis:ACL,2019:2324-2335.

[6] 徐慶婷,洪宇,潘雨晨,等.屬性抽取研究綜述 [J].軟件學(xué)報(bào),2023,34(2):690-711.

[7] YANG H,ZENG B,YANG J H,et al. A multi-task learning model for chinese-oriented aspect polarity classification and aspect term extraction [J].Neurocomputing,2021,419:344-356.

[8] HU M,PENG Y,HUANG Z,et al. Open-Domain Targeted Sentiment Analysis via Span-Based Extraction and Classification [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence:ACL,2019:537-546.

[9] LV Y,WEI F,ZHENG Y,et al. A span-based model for aspect terms extraction and aspect sentiment classification [J].Neural Computing and Applications,2021,33:3769-3779.

[10] ZHOU Y,HUANG L,GUO T,et al. A Span-based Joint Model for Opinion Target Extraction and Target Sentiment Classification [C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence Main track.Macao:IJCAI,2019:5485-5491.

[11] DEVLIN J,CHANG M W,LEE K,et al. Bert:Pre-training of deep bidirectional transformers for language understanding [J/OL].arXiv:1810.04805 [cs.CL].(2018-10-11).https://doi.org/10.48550/arXiv.1810.04805.

[12] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc,2017:6000-6010.

[13] JAWAHAR G,SAGOT B,SEDDAH D. What does BERT learn about the structure of language? [C]//ACL 2019-57th Annual Meeting of the Association for Computational Linguistics.Florence:ACL,2019:3651-3657.

[14] WOLF T,DEBUT L,SANH V,et al. Huggingface's transformers:State-of-the-art natural language processing [J].arXiv:1910.03771 [cs.CL].(2019-10-09).https://arxiv.org/abs/1910.03771.

[15] LIU L Y,SHANG J B,REN X,et al. Empower sequence labeling with task-aware neural language model [C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence.Menlo Park:AAAI,2018:5253-5260.

[16] LI X,BING L,LI P,et al. A unified model for opinion target extraction and target sentiment prediction [C]//Proceedings of the AAAI conference on artificial intelligence.Honolulu:AAAI,2019:6714-6721.

[17] LI X,BING L,ZHANG W,et al. Exploiting BERT for End-to-End Aspect-based Sentiment Analysis [C]//Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019).Hong Kong:ACL,2019:34-41.

作者簡(jiǎn)介:董慧潔(1998—),女,漢族,河南周口人,碩士研究生在讀,研究方向:自然語(yǔ)言處理;通迅作者:楊林楠(1964—),男,漢族,云南保山人,教授,博士,研究方向:農(nóng)業(yè)信息化。

主站蜘蛛池模板: 亚洲男人天堂2020| 亚洲欧美精品一中文字幕| 亚洲AV电影不卡在线观看| 日本成人一区| 国产精品短篇二区| 丰满人妻中出白浆| 精品99在线观看| 日韩精品专区免费无码aⅴ| 国产精品第页| 91区国产福利在线观看午夜 | 99re经典视频在线| 国产一区二区三区在线观看免费| 无遮挡国产高潮视频免费观看| 广东一级毛片| 国产自产视频一区二区三区| 国产鲁鲁视频在线观看| 91色在线观看| 色偷偷av男人的天堂不卡| 亚洲日韩AV无码一区二区三区人| 激情成人综合网| 成人第一页| 色综合狠狠操| 亚洲第一黄片大全| 91久久国产综合精品| 黄色成年视频| 丁香婷婷激情综合激情| 91人人妻人人做人人爽男同| 好紧好深好大乳无码中文字幕| 日韩av高清无码一区二区三区| 色婷婷视频在线| 热99精品视频| 色丁丁毛片在线观看| 在线日韩一区二区| 亚洲日本www| 亚洲精品国产自在现线最新| 久久久久国产精品熟女影院| 毛片网站在线播放| 老司机午夜精品网站在线观看 | 成人福利在线观看| 国产精品久久久久久久久久98| 日韩精品欧美国产在线| 国产成人高清亚洲一区久久| 国产97色在线| 国产黄在线观看| 国产成人精品男人的天堂| 精品综合久久久久久97超人| 欧美不卡二区| 久热精品免费| 国产欧美视频在线观看| 国产成人久久综合一区| аv天堂最新中文在线| 日韩欧美国产成人| 国产91在线|日本| 成人免费视频一区| 亚洲中文字幕97久久精品少妇| 青草国产在线视频| 国产精品第页| 女人一级毛片| 天堂成人在线| 国产91全国探花系列在线播放| 精品久久久久无码| 中文字幕日韩欧美| 免费国产无遮挡又黄又爽| 视频在线观看一区二区| 日本不卡视频在线| 亚洲精品大秀视频| 亚洲精品无码av中文字幕| 高清久久精品亚洲日韩Av| 美女一区二区在线观看| 毛片免费观看视频| 亚洲天堂日韩av电影| 免费A级毛片无码无遮挡| 久久精品人人做人人爽97| 国产97色在线| 无码精油按摩潮喷在线播放| 欧美五月婷婷| 99er这里只有精品| 啪啪啪亚洲无码| 69综合网| 波多野结衣中文字幕一区二区| 国产精品成人免费视频99| 久久中文字幕av不卡一区二区|