999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT變種模型的情感分析實(shí)現(xiàn)

2022-12-08 07:23:16銀,趙
現(xiàn)代計(jì)算機(jī) 2022年18期
關(guān)鍵詞:單詞文本情感

毛 銀,趙 俊

(1.四川輕化工大學(xué)自動(dòng)化與信息工程學(xué)院,宜賓 644000;2.人工智能四川省重點(diǎn)實(shí)驗(yàn)室,宜賓 644000)

0 引言

人們?cè)诰W(wǎng)絡(luò)上對(duì)各種公共事件表達(dá)自己觀點(diǎn)。新浪微博,作為中國(guó)用戶數(shù)量最多的網(wǎng)絡(luò)平臺(tái)之一,用戶在平臺(tái)上以短文本的形式發(fā)表他們對(duì)于事物的觀點(diǎn),這些觀點(diǎn)可以被其它用戶瀏覽、評(píng)論和轉(zhuǎn)發(fā)。文本情感分析指對(duì)文本中蘊(yùn)含的情感信息進(jìn)行提取、分析和分類,并將分類結(jié)果進(jìn)行保存,來(lái)進(jìn)行下游分析任務(wù)的過程。情感分析可以用于社會(huì)、科學(xué)、文化等多個(gè)領(lǐng)域,能深入探究社會(huì)問題、現(xiàn)象,提高社會(huì)運(yùn)行效率[1]。因此情感分析是至關(guān)重要的。

目前,常用的文本情感分析方法分為機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法和基于規(guī)則的方法?;谝?guī)則的方法需要人工構(gòu)建情感詞典[2],由于互聯(lián)網(wǎng)上新詞和熱點(diǎn)頻發(fā),構(gòu)建的情感詞典不能滿足當(dāng)下需求。Murtadha[3]認(rèn)為,在不同的應(yīng)用領(lǐng)域,詞語(yǔ)的極性與它所在的句子情感強(qiáng)度有關(guān),因此他們構(gòu)建了依賴領(lǐng)域的情感詞典。Rao等[4]提出了一種基于主題建模的方法來(lái)構(gòu)建詞典,其中每個(gè)主題都與社會(huì)情感有關(guān)。Jian等[5]通過條件隨機(jī)場(chǎng)建立了絕對(duì)情感詞典和相對(duì)情感詞典,實(shí)現(xiàn)了一種有效的情感極性判別算法。

基于深度學(xué)習(xí)的方法已經(jīng)引起了許多研究者的關(guān)注。Liriam等[6]提出了一個(gè)基于多語(yǔ)言短文本分類的通用框架GM-ShorT,提高了短文本的分類準(zhǔn)確性。周玄朗等[7]融合了文本圖卷積和Stacking集成學(xué)習(xí)方法,解決了卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征利用不足的問題。王婉等[8]融合了Fast-Test模型和注意力機(jī)制,使模型的分類性能提高了2%。Wang[9]提出了一種被稱為“不連通遞歸神經(jīng)網(wǎng)絡(luò)”的模型,它融入了位置不變性的RNN,限制RNN信息流的距離,在多個(gè)文本分類數(shù)據(jù)集上取得了較好的分類效果。

基于以上描述,本文提出一種新的基于位置向量獲得上下文信息的模型。

1 算法描述

本文提出一種基于BERT和BiLSTM的特征提取模型BERT_MIX_BiLSTM,結(jié)構(gòu)如圖1所示。核心步驟分為以下幾層:

(1)特征處理層:通過對(duì)數(shù)據(jù)集的訓(xùn)練來(lái)獲得詞向量,使用人工標(biāo)注好的情感詞典,對(duì)詞向量中每一個(gè)詞進(jìn)行情感標(biāo)注,利用BiLSTM得到文本的上下文信息,將得到的向量通過注意力機(jī)制,加權(quán)情感特征,作為下一層的輸入。

(2)特征提取層:通過卷積神經(jīng)網(wǎng)絡(luò)處理加權(quán)后的輸入向量,獲取文本的局部特征,降低數(shù)據(jù)的維度。最后通過輸出層,得到文本的情感概率表示。

1.1 特征處理層

特征處理層主要是對(duì)數(shù)據(jù)進(jìn)行處理,將單詞切分,并表示為詞向量矩陣,遍歷矩陣中所有在詞典中的詞,并對(duì)其與詞典中保存的情感強(qiáng)度進(jìn)行分類。通過BiLSTM來(lái)保存文本的語(yǔ)義,最后通過注意力機(jī)制來(lái)對(duì)特征屬性進(jìn)行加權(quán)。

1.1.1 BERT模型

BERT是基于神經(jīng)網(wǎng)絡(luò)模型的自然語(yǔ)言處理模塊,其結(jié)構(gòu)圖如圖2所示。

內(nèi)部利用MLM(masked language model)生成深度的雙層語(yǔ)言特征和下一句預(yù)測(cè)NSP(next sentence prediction)。MLM在每次迭代中隨機(jī)屏蔽15%的單詞[10],目的是在給定上下文的情況下,預(yù)測(cè)出被遮蔽的單詞,得到每個(gè)單詞的詞向量表示。NSP是為了讓模型能理解到兩個(gè)句子之間的聯(lián)系,隨機(jī)調(diào)換語(yǔ)料庫(kù)中兩個(gè)句子的順序,基于前一個(gè)句子,來(lái)預(yù)測(cè)下一個(gè)句子的概率[11]。

1.1.2 詞典標(biāo)注

假定輸入句子:

其中wi表示句子s中第i個(gè)單詞。通過微調(diào)參數(shù)的BERT模型,將輸入單詞wi轉(zhuǎn)換為詞向量vi。建立一個(gè)情感詞典SD(sentiment dictionary),包括了情感詞匯以及情感程度。對(duì)每個(gè)wi屬于SD中的詞匯賦予情感權(quán)重,不屬于SD的詞匯賦值為1。對(duì)于負(fù)面詞匯,需要乘以-1。表達(dá)如下:

式(2)中,swi表示加權(quán)后的wi值。在預(yù)處理層中,使用賦值好的情感來(lái)對(duì)詞向量vi加權(quán)。

1.1.3 BiLSTM模型

BiLSTM是由兩個(gè)反向的LSTM組成。LSTM加入了一個(gè)儲(chǔ)存單元Ct和三個(gè)邏輯門:輸入門,輸出門和遺忘門[12]。通過前一個(gè)時(shí)刻的輸出信息和當(dāng)前時(shí)刻的輸入信息來(lái)共同確定當(dāng)前時(shí)刻的輸出信息,儲(chǔ)存單元和邏輯門能決定當(dāng)前時(shí)刻需要保留和遺忘多少信息。BiLSTM有正反兩個(gè)方向,可以包含文本的上下文信息[13],LSTM結(jié)構(gòu)如圖3所示。

對(duì)于時(shí)間t的輸入,由前向和反向LSTM獲得的隱狀態(tài)表示和為

對(duì)于每個(gè)單詞,連接其上下文信息,得到每個(gè)單詞的注釋ht。

1.1.4 注意力機(jī)制

文本情感分析的任務(wù)中,某些詞具有強(qiáng)烈的感情色彩,有些詞沒有或少量具有感情色彩,不同詞匯對(duì)整個(gè)文本句子的情感極性具有不同的作用,因此,該模型引入了一種注意力機(jī)制[14],通過給不同的詞匯加入不同的權(quán)重,情感極性強(qiáng)的詞語(yǔ)獲得較高的權(quán)重。對(duì)于輸入ht,其權(quán)重賦予由以下公式?jīng)Q定。

上述公式中,ut是隱狀態(tài)表示,計(jì)算與ht的相關(guān)性,ww和bw是打分函數(shù)產(chǎn)生的系數(shù),通過迭代來(lái)學(xué)習(xí)。uw是上下文向量,會(huì)在訓(xùn)練開始時(shí),通過位置矩陣隨機(jī)初始化,并不斷優(yōu)化。ut與uw的相似性來(lái)判斷詞的重要性,然后將計(jì)算的權(quán)重標(biāo)準(zhǔn)化,用ht加權(quán)聚合成Z,Z表示整個(gè)文本的輸入向量,包含著文本的所有單詞的情感信息。

1.2 特征提取

1.2.1 CNN層

傳統(tǒng)深度學(xué)習(xí)中,CNN在自然語(yǔ)言處理領(lǐng)域使用非常廣泛。它由一維卷積層和一維池化層組成的前饋神經(jīng)網(wǎng)絡(luò),卷積核的寬度與詞向量一般等寬,只進(jìn)行一維的滑動(dòng)[15]。假設(shè)xi為數(shù)據(jù)輸入,h為窗口大小,卷積過程可表示為

其中b為偏置項(xiàng),f為激活函數(shù),Ci為提取到的特征向量。假定文本長(zhǎng)度為s。最大池化和平均池化可分別表示為

卷積操作結(jié)束后,執(zhí)行池化層操作,進(jìn)一步壓縮特征向量,降低特征維數(shù),提高計(jì)算速度。池化方法包括最大池化和平均池化。最大池化能保持?jǐn)?shù)據(jù)最重要的特征,平均池化能顯著提高其它不明顯的特征。本文采用并行池化,將最大池化和平均池化匯聚相加一起,形成特征向量lv,并發(fā)送到全連接層。

1.2.2 全連接層和輸出層

采用批量歸一的方式加快網(wǎng)絡(luò)訓(xùn)練速度,減少過擬合。全連接層將特征向量lv映射到目標(biāo)空間中,獲得情緒表達(dá)概率值,最后通過輸出層執(zhí)行分類任務(wù)。

使用sigmoid函數(shù)將輸入概率值轉(zhuǎn)換到[0,1]之間。當(dāng)情緒值接近0,表示情感類別接近負(fù)值;接近1表示情感類別接近正值,以此獲得情感標(biāo)簽。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)的環(huán)境為:操作系統(tǒng)為Windows10,處理器為英特爾Xeon 5218R(雙路),內(nèi)存為128 GB,顯卡為NVIDIA RTX 3080(10 G),Python版本為3.9.7,基于深度學(xué)習(xí)框架tensorflow2.9.0。

2.2 數(shù)據(jù)集

數(shù)據(jù)集采用是帶標(biāo)注的外賣評(píng)論數(shù)據(jù)集,共10萬(wàn)條,正面評(píng)論與負(fù)面評(píng)論各5萬(wàn)條,如表1所示。

表1 數(shù)據(jù)集標(biāo)簽展示

2.3 評(píng)價(jià)指標(biāo)

常用的文本分類指標(biāo)有召回率(Recall,R)、精確率(Precision,P)和F1值(F1),本文將繪制F1和Precision隨著訓(xùn)練輪次的變化曲線來(lái)直觀展示實(shí)驗(yàn)結(jié)果。

2.4 數(shù)據(jù)預(yù)處理

數(shù)據(jù)經(jīng)過jieba分詞,通過微調(diào)的BERT模型訓(xùn)練其詞向量[16]。為了避免過擬合,采用批量梯度下降對(duì)參數(shù)調(diào)優(yōu),并使用網(wǎng)格搜索調(diào)參,尋找最優(yōu)參數(shù),如表2所示。

表2 超參數(shù)設(shè)置

2.5 實(shí)驗(yàn)結(jié)果分析

為了評(píng)估本文提出模型的有效性,將BERT_MIX_BiLSTM模型和幾種常見模型進(jìn)行對(duì)比,包括BERT+CNN模型[17]、BERT+LSTM模型[18]、BiLSTM模 型、BiLSTM+Att模 型[19]和CNN+Att模型[20]。

各個(gè)模型的精確度值對(duì)比如圖4所示,與傳統(tǒng)CNN模型相比,本文模型的精確率高于傳統(tǒng)模型,當(dāng)訓(xùn)練輪次達(dá)到8輪時(shí),本文模型性能呈大幅上升趨勢(shì)。而BiLSTM和CNN在此數(shù)據(jù)集中差別不大,說明數(shù)據(jù)集在上下文信息不長(zhǎng),使得BiLSTM在長(zhǎng)期記憶上的特點(diǎn)沒有得到有效發(fā)揮。BERT+LSTM精確率差,原因可能在于BERT切分詞后,在詞向量中已經(jīng)包含過上下文向量。在后續(xù)輸入進(jìn)LSTM時(shí),包含上下文信息的位置向量卷積完后與LSTM的輸出拼接,使得原本序列預(yù)測(cè)失去有效性。對(duì)于上下文較長(zhǎng),強(qiáng)調(diào)下一句預(yù)測(cè)的數(shù)據(jù)集來(lái)說,BERT+LSTM性能會(huì)有所提升。

在圖5展示了各個(gè)模型的F1值,可以看出,本文模型F1也有所領(lǐng)先,但領(lǐng)先幅度不大,加入了微調(diào)BERT模型后,使得模型整體的F1值有所提高,說明BERT模型使模型的性能得到了有效提升。

3 結(jié)語(yǔ)

為了充分獲取數(shù)據(jù)中的上下文信息,加入了位置矩陣參與運(yùn)算。使用了情感權(quán)重矩陣對(duì)數(shù)據(jù)進(jìn)行了修正。引入了微調(diào)BERT模型,提升了整個(gè)模型的性能。下一步工作可以在該模型中加入不同激活函數(shù),嘗試使用性能更優(yōu)的門控循環(huán)單元(GRU)來(lái)代替LSTM進(jìn)行實(shí)驗(yàn)或使用更好的特征提取方法。

猜你喜歡
單詞文本情感
如何在情感中自我成長(zhǎng),保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
單詞連一連
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
看圖填單詞
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
主站蜘蛛池模板: 国产欧美日韩va另类在线播放| 欧美一区二区啪啪| 亚洲午夜国产精品无卡| 成人福利在线视频免费观看| 国产乱码精品一区二区三区中文| 国产人人射| 欧美午夜网| 欧美日韩专区| 在线亚洲小视频| 欧美区一区| 四虎影视国产精品| 国产特级毛片aaaaaa| 国产精品视频观看裸模| 国产精品手机视频| 欧美精品v欧洲精品| 国产成人麻豆精品| 嫩草国产在线| 欧美人人干| 最新精品国偷自产在线| 2021国产乱人伦在线播放| 在线观看热码亚洲av每日更新| 国产丝袜啪啪| 亚洲精品片911| 色婷婷综合激情视频免费看| 免费观看无遮挡www的小视频| 凹凸精品免费精品视频| 亚洲欧洲天堂色AV| 午夜性爽视频男人的天堂| 激情无码字幕综合| 国产国拍精品视频免费看| 一级高清毛片免费a级高清毛片| AV在线麻免费观看网站| 在线观看国产黄色| 国产男人的天堂| 欧美精品另类| 亚洲无码免费黄色网址| 超薄丝袜足j国产在线视频| 热九九精品| 久久久亚洲国产美女国产盗摄| 亚洲三级片在线看| 欧美在线综合视频| 国模在线视频一区二区三区| 毛片久久网站小视频| 色综合久久久久8天国| 欧洲免费精品视频在线| 免费AV在线播放观看18禁强制| 亚洲床戏一区| 国产亚洲精久久久久久无码AV| 婷婷99视频精品全部在线观看| 色色中文字幕| 国产人在线成免费视频| 亚洲无码视频喷水| 日韩视频免费| 波多野结衣第一页| 免费又黄又爽又猛大片午夜| 精品国产免费人成在线观看| 亚洲国产理论片在线播放| 国产精品美人久久久久久AV| 亚洲第一香蕉视频| 亚洲一级毛片在线播放| 爽爽影院十八禁在线观看| 国产成人一区免费观看| 丁香五月亚洲综合在线| 无码一区二区波多野结衣播放搜索| 92精品国产自产在线观看| 国产精品免费电影| 日韩欧美视频第一区在线观看| 四虎永久在线视频| 91精品国产91久久久久久三级| 国产丝袜一区二区三区视频免下载| 在线观看国产一区二区三区99| 人妻出轨无码中文一区二区| 在线观看精品自拍视频| 亚洲欧美日韩成人高清在线一区| 亚洲天堂日韩av电影| 中文字幕在线一区二区在线| 国产微拍一区二区三区四区| 国产成人综合亚洲欧美在| 国产自在线播放| 中文字幕2区| 麻豆精品在线视频| 久一在线视频|