999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT與多通道卷積神經網絡的細粒度情感分類

2023-12-15 05:46:14諸林云范菁曲金帥代婷婷
科學技術與工程 2023年33期
關鍵詞:分類特征文本

諸林云, 范菁, 曲金帥, 代婷婷

(云南民族大學電氣信息工程學院, 昆明 650031)

情感分析是計算機科學中的一個領域,它涉及識別和分類文本中隱含的情感和觀點,使用自然語言處理來系統地識別、提取、量化和研究一個給定的文本,這個過程也被稱為文本的上下文挖掘。從市場營銷到客戶服務再到醫學,情感分析可以應用于廣泛的領域,以分析人們所表達的不同觀點的潛在情緒,并獲得有價值的見解。除此之外,人們還會在網站上發表一些評論,包括政治、宗教和社會問題。近年來的研究表明,網絡輿情反映了人們的社會政治態度,使用情感分析來識別公眾意見對推進政府的工作非常有幫助,可為管理者提供決策依據。當突發網絡輿情事件時,網民會在微博以及其他社交平臺上面發表意見并進行交流,對網民意見進行情感分析,從而分析公民在突發事件面前的意見,可以為政府在防范輿論嘩然、焦慮和壓力的斗爭中提供相關參考信息。

針對以上存在的問題,現提出融合 BERT 預訓練語言模型和多通道卷積神經網絡的深度學習方法。首先使用數據增強使數據類別達到平衡狀態,接著使用BERT模型對輸入的文本進行編碼,再結合多尺度、多通道的卷積神經網絡對文本進行細粒度情感分類。同時探究表情符號對細粒度情感分類模型的影響。該模型對句子中語義和遠距離依賴的捕捉能力強,并且能夠提取文本的深層次特征,進而提升模型在細粒度情感分類的性能,為政府在突發事件中引導公眾的情緒做出參考。

1 相關研究內容

1.1 社交媒體文本的情感分析

近年來的研究表明,網民的情緒反映了人們的社會政治態度,因此研究網民情緒對網絡輿情的趨勢預測和評價具有重要意義,可為管理者提供決策依據。Georgiadou等[7]對推特帖子進行情緒分析以調查和聚合公眾情緒對英國脫歐的結果。Falck等[8]使用“情感政治指南針”對報紙對政黨的態度進行分類,旨在研究報紙里面的政治傾向對選民意見形成的影響。El Alaoui等[9]提出了一種適應性強的方法,它可以分析用戶的社交媒體帖子,并使用大數據工具實時提取他們的觀點。Bhagat等[10]旨在分析新型冠狀病毒肺炎流行期間,公眾對在線學習的看法,應用基于詞典的方法,對通過網絡抓取提取的文章進行情感分析。結果顯示博客比報紙文章更積極。在探討網民情緒對網絡輿情的影響方面,朱曉卉等[11]使用結合詞典和長短期記憶神經網絡(long short-term memory,LSTM)的情感分析方法對公眾的情感類型以及情感強度進行分類,結合事件進行分析討論,從而得到能夠使輿情轉好的引導方法。 Lu 等[12]通過聚類信息來幫助分析公眾的意見。收集天津端口爆炸相關的原始帖子和熱門評論作為語料庫,通過對聚類結果的分析,識別熱點話題熱點,探討了公眾輿論的演變模式。馮蘭萍等[13]在“東方之星”沉船事故、天津濱海爆炸事故以及“長春長生疫苗”3個事件上驗證其提出的突發事件網絡輿情群體情緒演化模型的可行性。結果表明,該模型能夠體現出在不同情緒下,政府的干預對主流情緒引導能力產生的影響。Jabalameli等[14]使用隱含狄利克雷分布(latent dirichlet allocation,LDA)方法的自然語言處理用于識別 Twitter 數據中的 11 個主題和 8 個子主題,以分析它們對公眾輿論的影響。

1.2 基于深度學習的情感分類

深度學習已經被廣泛地應用于情感分析中,Zhao等[15]將BERT預訓練語言模型用于基于方面的情感分析。該模型通過將外部領域知識融入預訓練語言模型以彌補有限的訓練數據,從而能夠以少量的訓練數據獲得更好的性能。Batra等[16]提出了3種不同的策略來分析基于 BERT 的情感分析模型,實驗結果表明,基于 BERT 的集成方法和壓縮的 BERT 模型在3個數據集上比基線模型在評價指標上提高了 6%~12%。Yan等[17]提出了一種注意力并行雙通道深度學習混合模型來解決以往情感分析研究中難以很好地捕捉文本情感特征和識別詞語歧義的問題。該模型使用BERT預訓練語言模型對輸入的文本進行編碼。實驗結果表明,該模型可以有效優化文本特征的表達,增強文本情感特征的提取能力,可以更好地進行網絡輿情評論的情感分類。

針對基于用戶評論的細粒度情感分析任務,李慧等[18]提出一種融合屬性特征的多粒度卷積核CNN模型用于細粒度情感分析。得到的實驗結果相較于傳統情感分類模型在準確率、召回率和F1評價指標方面都有一定的提高。王義等[19]建立一種細粒度的多通道卷積神經網絡模型。仿真結果表明,該模型較傳統卷積神經網絡模型在情感分類的準確率和F1上性能均有明顯提升。Bian等[20]構建了一個改進的卷積神經網絡模型,可以綜合利用非結構化特征和結構化特征,提高AOP識別的性能,對從攜程上抓取的酒店在線評論進行了實證研究。實證結果表明,該方法可以有效地從酒店的在線評論中識別客戶偏好。張瑾等[21]提出了一種雙向門控循環單元(bidirectional gated recurrent unit,BiGRU)與門控機制相結合的模型用于AI challenger 2018細粒度情感分析,所提模型的MacroF1score值達到了0.721 8,性能超過基線系統,獲得了較好的實驗結果。祝清麟等[22]提出一種結合金融領域情感詞典和注意力機制的金融文本細粒度情感分析模型。該模型能有效獲取金融領域詞語的特征信息。最終在構建的金融領域實體級語料庫上進行實驗,取得了比對比模型更好的效果。Lai等[23]提出了一種基于語法的圖卷積網絡(graph convolutional networks,GCN)模型,以增強對中文微博不同語法結構的理解。實驗結果表明,該模型可以有效地利用依賴解析的信息來提高情感檢測的性能。

2 BERT與多通道卷積神經網絡模型的構建

所提出的模型的總體結構如圖1所示。首先是嵌入層,將處理完成的數據輸入到模型之前,為了能夠讓計算機處理文本序列,則需要將文本序列轉換成數值向量。序列的每一部都會被嵌入層投影到一個d維的連續向量空間中。給定一個標記化的序列X=(x1,x2,…,xn),xi表示序列中的第i個標記,n表示序列的長度。在詞嵌入后,將得到一個n×d維數的矩陣。在每個序列的開始處添加一個特殊的“[CLS]”標記,并將句子嵌入添加到詞嵌入中。為了捕獲詞序,還添加了位置嵌入。詞嵌入、句子嵌入和位置嵌入的嵌入維度是相同的。

圖1 BERT與多通道卷積神經網絡的模型結構Fig.1 Model structure of BERT with multi-channel convolutional neural networks

輸入序列在嵌入層完成后被送入BERT模塊。BERT模塊是由堆疊的Transformer組成的。Transformer模塊主要由多頭注意力機制模塊和前饋神經網絡模塊組成。該模塊在輸入嵌入層加上了位置編碼,然后再通過多頭注意力機制模塊計算多頭自注意力,最后通過前饋神經網絡模塊以及殘差連接和歸一化層得到最后的輸出。

一句話中同一個詞會因為位置不同而導致意思完全相反,為了解決這個問題,Transformer加入了位置編碼,位置編碼與嵌入具有相同的維數,這樣兩者相加得到的向量就帶有詞的位置信息,位置編碼的計算如式(1)和式(2)所示。

PE(pos,2i)=sin(pos/10 0002i/dmodel)

(1)

PE(pos,2i+1)=sin(pos/10 0002i/dmodel)

(2)

式中:pos為詞在句子中的位置;i為維度;dmodel為位置編碼的維度,位置編碼的每個維度都對應于一個正弦曲線。不同的位置信息會隨著不同的波長產生周期性的變化,波長的范圍為2π~10 000×2π。接下來是多頭注意力機制模塊,通過不同的head就可以得到多組特征表達,然后再將多組特征表達進行拼接,如式(3)~式(5)所示。

MultiHead(Q,K,V)=Cancat(head1,

head2,…,headh)Wo

(3)

(4)

(5)

除了多頭注意力機制模塊外,Transformer的編碼器和解碼器中的每個層都包含一個全連接的前饋神經網絡,利用前饋神經網絡來豐富xi的語義信息。它由兩個具有relu激活函數的線性變換組成,如式(6)所示。

FFN=relu(xW1+b1)W2+b2

(6)

式(6)中:W1、W2為權重矩陣;b1、b2為偏置項。通過計算,最終得到BERT的編碼信息,如式(7)所示。

BERToutput1=[E(cls),E(x1),E(x2),…,

E(xi),…,E(xn)]

(7)

式(7)中:E(cls)為輸入句子的語義向量;E(xi)(1≤i≤n)為發送的每個詞的語義向量。為了在充分利用每個詞的語義信息的同時對數據進行降維,本研究利用卷積神經網絡中平均池化層的思想,對E(x1),E(x2),…,E(xi),…,E(xn)進行平均池化操作。此外,為了避免在訓練過程中丟失BERT模型獲得的語義向量,將平均池化操作得到詞語義向量與句子語義向量E(cls)融合,BERToutput2作為輸入多通道卷積神經網絡的最終語義信息。如式(8)和式(9)所示。

(8)

BERToutput2=Eavg+E(cls)

(9)

研究使用具有多個不同大小的卷積核的并行卷積層來學習微博文本特征,設置多個卷積核,全面獲取微博句子表達中的特征,降低特征提取過程中的偶然性。BERT預訓練語言模型輸出的最終語義信息BERToutput2作為多通道CNN模型的輸入,來提取文本的深層特征,對于一個卷積核,一個特征值mi的計算公式如式(10)和式(11)所示。

mi=(WSi:i+k-1+b)

(10)

ci=relu(WSi:i+k-1+b)

(11)

式中:W為卷積核矩陣向量;i為卷積的第i步;k為卷積核的高度;b為偏置項;relu為激活函數;Si為一句話中的第i個詞向量;mi為在第i步卷積操作過程中提取的特征值。mi在經過relu激活函數得到特征值ci。然后采用最大池化的方式選取主要特征作為輸出特征。如式(12)和式(13)所示。

c=[c1,c2,…,cn-h+1]

(12)

(13)

(14)

將得到的特征向量V輸入一個全連接層中,并通過特征空間變換[24]將該特征向量映射到樣本類別空間,如式(15)所示。

R=VW3+b3

(15)

式(15)中:W3為權重矩陣;b3為偏置項。最后使用softmax函數來預測文本的情感類別。假設r1,r2,…,ri,…,rk表示每個文本的概率(即R=[r1,r2,…,ri,…,rk]),特征向量R使用softmax函數轉換為概率向量P,如式(16)和式(17)所示。

P=softmax(R)=[p1,p2,…,pi,…,pk]

(16)

(17)

式中:k為文本情感類別的總數;pi為文本的情感屬于第i類的概率。

3 仿真實驗分析

3.1 實驗環境和數據集

基于Pytorch深度學習框架。該模型的優化函數是Adam,因為它可以為不同的參數設計獨立的自適應學習速率,并加快網絡的收斂速度。該模型的詳細超參數設置如表1所示。

表1 參數設置Table 1 Parameter settings

為了評估本文方法的有效性,使用了SMP2020-EWECT數據集,該數據集一共包含兩個數據集:①通用微博數據集,其中的微博數據是隨機收集的包含各種話題的數據;②疫情微博數據集,其中的微博數據均與疫情相關。對以上兩個數據集進行了全角轉半角、繁轉簡、去除url、去除email、去除@以及保留表情符號等操作。該數據集包含以下6種情感:開心、憤怒、悲傷、恐懼、驚訝和無情緒。為驗證本文模型的魯棒性,將兩個數據集合并對本文方法進行驗證,各種情感樣本總數如圖2所示。

圖2 各種情感樣本數量Fig.2 The number of samples of various emotions

由圖2可知,數據集存在明顯的樣本不均衡,恐懼和驚訝的樣本較少,不平衡數據違反了大多數學習算法的相對均衡分布假設,這會顯著降低分類性能。模型進行訓練時很難從文本中提取所需要的特征,這可能導致過度擬合的情況。當用少量樣本訓練分類模型時,它們傾向于記憶訓練集中的特征,而不是學習潛在的特征分布,導致泛化能力不足,采用數據增強的方式增加恐懼和驚訝的樣本數量,對已有的恐懼和驚訝的樣本通過同義詞替換、隨即插入、隨機替換以及隨機刪除增加樣本的數量。數據增強后的數據集如表2所示。

表2 數據規模Table 2 Data scale

3.2 評價指標

為了驗證不同分類方法的性能,基于混淆矩陣評估所有分類方法。其中包括:真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN)[25]。使用了3個多類別任務評估指標:加權準確度(WP)、加權召回(WR)、加權F1(WF1)[26]。

(18)

(19)

(20)

式中:N為樣本總數;m為類別總數;ni為第i個類別的樣本個數;TPi、FPi和FNi分別為在第i個類別中正向分類、正向錯誤分類和負向錯誤分類的模型樣本;Pi和Ri分別為第i個類別的準確率P和召回率R。

3.3 實驗結果與分析

所提出的模型以及基礎模型在SMP2020-EWECT數據集上的實驗結果如表3和圖3所示。

表3 不同模型分類結果Table 3 Classification results of the different models

圖3 各個模型結果對比Fig.3 Comparison of the results of each model

由表3可知,通過與CNN、BiLSTM、BERT、基于卷積神經網絡特征的區域方法(regions with CNN features,RCNN)、深度金字塔卷積神經網絡(deep pyramid convolutional neural networksfor text categorization,DPCNN)對比可知,所提出的融合BERT和多通道卷積神經網絡的模型在各項評價指標上都有良好的分類效果,本文方法相較于單一的BERT模型,本文模型在加權準確度上提升了5.35%。說明利用多通道的卷積神經網絡可以提取文本的深度情感特征。與Word2Vec+CNN相對比,本文模型在加權準確度上提升了3.56%,說明利用BERT預訓練語言模型可以捕獲詞的上下文信息,增強文本的語義特征表示,進而提升分類器的細粒度情感分類性能。本文算法與BERT+BiLSTM、BERT+RCNN和BERT+DPCNN的分類結果相對比,本文模型在加權準確度上分別提升了4.71%、3.92%、3.61%。在預訓練語言模型方面,BERT+平均池化+多通道CNN相較于Word2Vec+CNN在加權準確度上提升了3.56%,BERT+BiLSTM相較于Word2Vec+BiLSTM在加權準確度上提升了3%,說明BERT預訓練語言模型能夠很好地解決詞的多義問題,對提升情感分類的性能有一定的幫助。

由于文本中包含許多表情符號,而且當前網民在網上發表觀點時,更傾向于用表情來表達他們的感受,為探究表情符號對細粒度情感分類效果的影響,將表情符號按照網上現有的表情庫轉換成對應的文字,轉換后的細粒度情感分類結果如表4和圖4所示。

表4 表情符號轉換后的實驗結果Table 4 Results of the experiments after emoji conversion

圖4 表情符號轉換成文字的結果對比Fig.4 Comparison of the results of emoji symbols converted into text

由表4可知,在將表情符號轉換成文字之后,Word2Vec+CNN的加權準確度提升了2.82%,Word2Vec+BiLSTM的加權準確度提升了1.91%,BERT的加權準確度提升了2.87%,BERT+BiLSTM的加權準確度提升了1.75%,BERT+RCNN的加權準確度提升了1.81%,BERT+DPCNN的加權準確度提升了2.19%,本文方法的加權準確度提升了2.46%,說明表情符號轉換為文字可以提高模型對文本情感特征的提取能力,對提升模型的分類性能有一定的幫助。

4 結論

探討了使用多通道卷積神經網絡進行微博細粒度情感分析的可行性。通過BERT預訓練語言模型對輸入的文本進行編碼,以增強文本的語義特征表示,通過具有多個不同大小的卷積核的并行卷積層來學習微博文本特征,捕獲文本的深層次特征,提升模型在細粒度情感分類的性能。該模型充分考慮了文本特征稀疏的特點。實驗結果表明,本文方法在同等條件下的各項評價指標都高于基礎模型。此外,還探索了文本中的表情符號對模型分類性能的影響,實驗結果表明,將表情符號轉換為文字可以有效地增強情感的表達,提高模型的分類性能。綜上所述,該模型具有一定的實際意義,能夠有效地提高微博文本的細粒度情感分類效果,進而為政府引導公眾情緒提供更為準確的建議。未來,將考慮結合微博的多維特征進行情感分析,并對微博評論進行實時情感預測,提升輿情分析的效率。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91精品日韩人妻无码久久| 蜜桃臀无码内射一区二区三区| 人人91人人澡人人妻人人爽| 2022国产无码在线| 她的性爱视频| jijzzizz老师出水喷水喷出| 91精品国产综合久久香蕉922| 国产女同自拍视频| 伊人大杳蕉中文无码| 青青久久91| 国产精品播放| 中日无码在线观看| 四虎在线观看视频高清无码| 成人噜噜噜视频在线观看| 免费看美女自慰的网站| 五月天久久婷婷| 国产成人久视频免费| a级毛片免费看| 亚洲欧美日韩天堂| 在线观看国产黄色| 成人在线观看一区| 自拍偷拍欧美日韩| 波多野结衣一区二区三区四区| 超碰精品无码一区二区| 91久久性奴调教国产免费| 国产成本人片免费a∨短片| 久久毛片免费基地| 日韩色图在线观看| 国产交换配偶在线视频| 国产97视频在线观看| 91成人精品视频| 91在线国内在线播放老师| 亚洲首页国产精品丝袜| a毛片在线播放| 免费jjzz在在线播放国产| 国产丝袜无码精品| 青青草原国产| 依依成人精品无v国产| 91久久偷偷做嫩草影院免费看 | 国产网站免费| 乱系列中文字幕在线视频| 国产成人亚洲日韩欧美电影| 777国产精品永久免费观看| 69国产精品视频免费| 91视频青青草| 久久免费精品琪琪| 亚洲熟女中文字幕男人总站| 白浆免费视频国产精品视频 | 国产情侣一区| 亚洲精品桃花岛av在线| 久久久久88色偷偷| 熟妇人妻无乱码中文字幕真矢织江| 久久婷婷国产综合尤物精品| 99久久国产综合精品2023| 一级毛片高清| 九色91在线视频| 久久久久人妻精品一区三寸蜜桃| 激情综合五月网| 国产精品成人免费综合| 亚洲永久精品ww47国产| 热思思久久免费视频| 久久成人国产精品免费软件 | 欧美啪啪网| jizz在线免费播放| 啊嗯不日本网站| 2021国产精品自产拍在线| 国产一区二区精品高清在线观看| 一区二区午夜| 拍国产真实乱人偷精品| 国产精品久久自在自2021| 欧美成人h精品网站| 欧美视频二区| 在线毛片网站| 亚洲伊人电影| 久久久久亚洲精品成人网| 欧美日本在线| 国产精品永久在线| 精品午夜国产福利观看| 欧美在线伊人| 91区国产福利在线观看午夜| 国产欧美高清| 无码AV动漫|