999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MC_E_ImprovDPC_B_SV模型的中文情感分類方法

2022-06-25 01:59:42朱海東侯秀萍
長春工業大學學報 2022年1期
關鍵詞:語義分類特征

朱海東, 鄭 虹, 侯秀萍

(長春工業大學 計算機科學與工程學院,吉林 長春 130012)

0 引 言

隨著互聯網技術的發展,人們愿意通過微博等網絡平臺來抒發自己看法及評論,從而產生了大量帶有情感色彩的評論文本。分析這些帶有情感色彩的文本信息有助于快速掌握網民的情感動向[1]。這些評論信息的分析結果對于政府和社會以及商家具有一定的意義和價值。對于商家來說,關注商品的評論及分析結果可以幫助他們制定一些有效的銷售策略,同時也能夠保證商品的質量。對于政府來說,可以根據網民評論信息的分析結果進行合理的輿論監控[2],從而掌握群眾的輿論動向,更加有利于維護社會的穩定,因此,從這些評論文本信息中挖掘出人們的情感,并做出準確的判斷和分析,具有一定的意義和研究價值。

隨著深度學習技術的興起及廣泛應用,越來越多基于深度學習的方法用于情感分類任務中。比較常見的神經網絡有卷積神經網絡(CNN)[3]、循環神經網絡(RNN)[4]以及他們的改進形式,CNN在提取文本特征時無法解決文本長距離依賴的問題,雖然更深層的CNN網絡可以捕捉長距離文本信息,但是隨著網絡層數的增加,模型的計算復雜度也隨之提高。RNN在提取文本特征時,雖然可以有效捕捉長距離依賴的問題,但是在提取局部特征方面存在著不足,同時也會出現梯度爆炸或梯度消失的問題。除此以外,傳統的預訓練模型如Word2vec[5]、Glove也無法解決一詞多義及知識表示的問題。所以,針對以上問題文中提出一種基于ERNIE預訓練模型的改進DPCNN[6](深層金字塔卷積神經網絡)的多通道神經網絡模型MC_E_ImporvDPC_B_SV來進一步提高分類的準確率。

1)利用ERNIE預訓練模型將文本數據進行向量化表示,同時學習完整的語義表示。解決了Word2vec無法解決一詞多義的問題,同時能夠學習到完整的語義表示。增強了模型的語義表示能力。

2)采用改進的DPCNN通道,在不加大計算成本的同時,通過加深網絡來獲取更高的準確率,在此基礎上,將第一個和第二個卷積模塊的卷積層各減少一層,這樣就有效避免了文本經過ERNIE層后,卷積層增加帶來的退化問題。

3)采用并行提取特征的思想。利用ERNIE加雙向的LSTM[7]通道和ERNIE加改進的DPCNN雙通道并行提取特征。

4)采用多通道融合方式。將語義向量特征單獨作為一個通道分別與BILSTM通道和改進的DPCNN通道所提取的特征進行融合,得到一個融合特征,然后再進行分類。

1 相關工作

Bengio等[8]首次將神經網絡模型用于自然語言處理任務中訓練特定的語言模型。在循環神經網絡用于情感分類方面,Xu J等[9]提出一種能捕獲長期情緒信息,提出一種緩存機制的LSTM。這些工作表明循環神經網絡在情感分類任務中是有效的。在CNN網絡與RNN網絡結合用于情感分類方面,Zhou C等[10]將CNN網絡與循環神經網絡相結合,以此來增強模型捕捉特征的能力。在使用預訓練模型進行情感分類方面,Sun Y等[11]首次提出基于知識增強的ERNIE模型,通過對實體和詞的遮蔽策略來增強模型的語義表達能力,在情感分類實驗上取得了良好的實驗效果。雷景生等[12]提出一種將ERNIE與BIGRU相結合的文本分類方法,并且在新浪新聞公開的數據集上取得良好的分類效果。在使用DPCNN進行分類方面,齊佳琪等[13]提出一種將ERNIE預訓練模型與DPCNN相融合的短文本分類模型。經過實驗對比,該模型有較高的分類精度。在利用多通道神經網絡模型進行情感分類方面,陳珂等[14]提出一種基于多通道卷積神經網絡模型,在COAE2014數據集和微博語料數據集進行實驗,結果表明,該模型要比傳統單通道的卷積神經網絡取得更好的效果。霍帥等[15]利用Transformer和多通道的卷積神經網絡進行情感分析研究,在IMDB和SST-2數據集上取得了很好的效果。這表明利用多通道神經網絡模型進行情感分類是可行的。

文中基于以上各方法的優勢提出一種基于ERNIE和改進的DPCNN多通道中文情感分類模型,在中文情感分類方面可以取得更好的分類效果。

2 MC_E_ImprovDPC_B_SV情感分類模型

2.1 模型設計

MC_E_ImprovDPC_B_SV模型是由ERNIE預訓練模型和多個提取特征的通道組成多通道的情感分類模型。該模型由ERNIE層、三個并行的通道(分別是改進的DPCNN通道、BILSTM通道和語義向量通道)和全連接層組成。模型通過結合不同層以及不同通道的各自優勢來實現準確情感分類的目標。通過ERNIE層學習更多的先驗知識來增強語義表示,通過不同的知識掩蔽策略來學習更準確、更完整的語義信息及向量表示,因此經過ERNIE層后能夠得到準確的詞向量表示和語義向量表示。將得到的詞向量分別送入雙向LSTM通道和改進的DPCNN通道,讓經過ERNIE層得到的語義向量獨自成為一個通道。將經過BILSTM通道和改進的DPCNN通道各自得到的特征與語義向量特征進行融合,得到一個由三個通道的特征融合之后的融合特征。然后將融合后的特征送入全連接層,最后利用Softmax進行分類。在此過程中,BILSTM通道利用自身模型結構的優勢更好地提取上下文的文本情感特征,改進的DPCNN通道在不增加計算成本的情況下,通過適當加深網絡層數來更好地捕捉文本的依賴關系,同時避免了模型退化問題,因此可以更好地提取文本特征。

MC_E_ImprovDPC_B_SV整體模型結構如圖1所示。

圖1 MC_E_ImprovDPC_B_SV模型結構

在圖1所示模型中,原始文本s={X1,X2,X3,…,Xn-1,Xn}是長度為n的輸入語句,Xi表示句中的單詞,語句S經過ERNIE層分別得到E={E1,E2,E3,…,En-1,En}的語句向量和V={V1,V2,V3,…,Vn-1,Vn}的語義向量,然后將得到的語句向量E分別送入BILSTM通道和ImprovDPCNN通道進行特征提取,B={B1,B2,B3,…,.Bn-1,Bn}表示BILSTM通道提取的特征向量,D={D1,D2,D3,…,Dn-1,Dn}表示ImprovDPCNN通道提取的特征向量,將特征向量B、D和語義向量V進行融合,形成融合的特征向量R={R1,R2,R3,…,Rn-1,Rn},將融合的特征向量R送入到全連接層,最后送入到Softmax分類器進行分類,得到最后的情感分類結果。

2.2 ERNIE預訓練模型層

ERNIE預訓練模型是在BERT模型的基礎上進行改進,通過改進不同的遮蔽策略,以及利用先驗知識來增強語義表示。而ERNIE模型和BERT模型本質上都是采用多層雙向的Transformer編碼器結構,利用此編碼器結構來訓練生成文本表示向量,在文本轉換成字嵌入后,首先經過的是編碼器的自注意力層,使得編碼器關注到輸入文本的前后文信息,自注意力層的輸出結果會輸入到Add&Norm層進行殘差連接和歸一化操作。將經過處理文本向量輸入到全連接層,全連接層也會進行上一步的殘差連接和歸一化操作。

編碼器端有6層Transformer編碼單元,每一層包括兩個子層,第一個子層是多頭自注意力機制,用來計算輸入的自注意力機制。第二個子層是全連接層。在每一個中都使用了殘差網絡。因此每一個子層的輸出都是:

LayerNorm(x+Sublayer(x))。

(1)

在上述公式中,Sublayer(x)表示子層對于x做的Native Bayes映射。

2.3 BILSTM通道

BILSTM(雙向長短時記憶網絡)是LSTM神經網絡的一種改進結構,這種網絡結構不僅能記住上文信息,同時還能記住下文信息,利用雙向的LSTM從兩個方向讀取文本信息,能夠提取到更加準確豐富的文本特征。LSTM包括三個門,即輸入門、遺忘門、輸出門,利用門控機制來控制記憶網絡中的輸入和輸出信息流[17]。

LSTM三個門公式表示如下:

ft=σ(wf·[ht-1,xt]+bf),

(2)

it=σ(wi·[ht-1,xt]+bi),

(3)

ot=σ(wo·[ht-1,xt]+bo)。

(4)

記憶單元更新信息公式表示如下:

(5)

(6)

ht=ot*tanh(ct),

(7)

式中:it,ft,ot——分別表示記憶網絡中的輸入門、遺忘門和更新門;

xt——t時刻向記憶單元網絡中的輸入序列;

ht-1——t-1時刻的隱藏狀態;

ct——t時刻的記憶狀態;

在提取一些評論文本的特征時,需要雙向捕獲文本信息來更加精準地提取文本特征。所以文中使用雙向LSTM來提取文本上下文特征,BILSTM模型結構如圖2 所示。

圖2 BILSTM模型結構

由圖2可以看出,雙向的LSTM是從兩個方向進行的計算,即從正向計算一遍得到輸出向量ht1,同時從反向計算一遍得到輸出向量ht2,最后得到BILSTM的輸出向量ht[18],其公式為

ht=(ht1,ht2)。

(8)

2.4 ImprovDPCNN通道

ImprovDPCNN模型是由DPCNN改進而來,DPCNN(金字塔CNN)是一種低復雜的詞級深層CNN,在將離散文本信息轉換為連續表示之后,DPCNN通過堆疊卷積模塊和下采樣層進行計算。因為該模型每層的計算量呈指數下降,所以把它稱為深層金字塔形的CNN。同時,金字塔的結構也使模型能夠發現文本中長期依賴關系。模型選用等長卷積進行卷積操作,等長卷積會讓每個詞位的embedding描述語義更加豐富準確,選用兩層等長卷積來提高embdding 的豐富性,然后接下來就是downsampling(池化),在每一個卷積塊(兩層的等長卷積)后,使用一個 size=3 和 stride=2 進行maxpooling池化。序列的長度就被壓縮成原來的一半。其能夠感知到的文本片段就比之前長了一倍。在DPCNN中固定了feature map的數量,也就是固定住了詞向量空間的維度,使得網絡有可能讓整個鄰接詞的合并操作在原始空間中進行。所以在不增加計算復雜度的情況下,DPCNN可以獲得長距離依賴和全局語義信息,比普通的CNN獲得更加精準的語句特征,DPCNN模型結構如圖3所示。

圖3 DPCNN模型結構

由于每個通道的輸入都是ERNIE層的輸出結果,并且原始文本在輸入ERNIE預訓練模型后,會通過自身的學習訓練來進行一次特征提取,得到完整的語義特征和詞向量。由于DPCNN通道的輸入已經過ERNIE層的初步特征提取,為了避免卷積層的增加帶來卷積層特征提取退化的問題[19],所以文中對DPCNN網絡模型進行改進,將等長卷積模塊中卷積核大小為3的卷積層由兩個縮減為一個,除此以外,對于Repeat結構中的卷積層也由兩個縮減為一個,這樣改進后可以有效避免模型退化帶來局部最優的問題,同時也會避免因為卷積層增加而帶來提取特征不精確的問題。

改進后的ImporvDPCNN模型結構如圖4所示。

圖4 ImprovDPCNN模型結構

在ImprovDPCNN模型中同樣也由這幾部分構成,它們分別是Region Embedding層、等長卷積、Repeat結構和殘差連接。

1)Region Embedding層。CNN中包含多尺寸卷積核的卷積層,卷積結果稱為Region embedding(文本域),即對一個文本域進行卷積操作后生成的embedding。

2)等長卷積層。等長卷積層就是經過卷積之后輸出序列長度等于輸入序列長度。ImprovDPCNN的等長卷積通過步長為1,兩端補零的形式進行填充。ImprovDPCNN采用單層等長卷積,等長卷積層為250個尺寸為3的卷積核。ImprovDPCNN通過等長卷積后提高了embedding的語義豐富性[20]。長卷積層采用預激活的方法,即先將x激活,再進行計算,因此等長卷積層的輸出為

Oc=Wσ(x)+b。

(9)

3)Repeat結構。采用固定數量的特征圖進行下采樣,在進行完等長卷積之后,開始固定特征圖的數量,這樣可以減少計算量,然后再進行池化操作。池化操作采用窗口大小為3,步長為2的最大池化方式,這樣的池化操作后使得每個卷積層的計算時間和計算成本減半,形成一個金字塔的形狀。

4)殘差連接。在ImprovDPCNN中殘差連接的具體操作就是將region embedding的輸出直接連到池化層或者輸出層,此操作極大緩解了梯度消失問題。

文中提出的MC_E_ImprovDPC_B_SV模型采用組合和改進的思想,將三個并行通道得到的輸出向量進行向量融合,最終將融合的向量送入到全連接層和Softmax分類器。

3 實驗及結果分析

3.1 實驗環境

實驗在CentOS 7.9 環境下運行,GPU為NVIDIA TITAN XP * 4,編程語言為Python,使用的深度學習框架為Pytorch,實驗所用預訓練模型為百度推出的基于知識策略和實體遮蔽的ERNIE。

3.2 實驗數據集

文中使用的數據集是由譚松波老師整理的酒店評論的中文公開數據集Chnsenticorp,該數據集是帶有情感標簽的情感分類中文數據集,情感極性為積極和消極兩種,即為二分類。為了防止實驗驗證模型出現過擬合現象,將數據集按照8∶1∶1的比例切分為訓練集、測試集和驗證集。將測試集上得到的實驗數據作為實驗結果。積極文本的情感標簽記為1,消極文本的情感標簽記為0。

3.3 超參數說明

為了使模型能表現出自身最佳的分類性能,則模型中的超參數設置見表1。

表1 實驗的超參數表

3.4 評價指標

文中提出的情感分類模型所采用的評價指標有精確率P,召回率R和F1值。具體計算公式為:

(10)

(11)

(12)

式中:TP——實際值和預測值情感極性都為積極時的數據個數;

FP——當實際的情感極性為消極,預測的情感極性為積極時的數據個數;

FN——實際的情感極性為積極,預測的情感極性為消極時的數據個數;

F1——由精確率和召回率共同決定。

3.5 情感分類實驗

為了驗證在相同數據集及同等實驗條件下MC_E_ImprovDPC_B_SV模型具有較好的分類效果,在驗證實驗的同時,又做了許多對比實驗,其中,ERNIE_ImproveDPCNN_SV模型、MC_R_ImprovDPC_B_SV模型、ERNIE_ImprovDPCNN_BILSTM模型、ERNIE_ImprovDPCNN模型作為對比模型在文中首次被提出,對比實驗中的ERNIE、ERNIE_BILSTM、ERNIE_CNN、ERNIE_DPCNN、ERNIE_RCNN等模型早已由其他學者提出,文中不再贅述,具體實驗結果分別見表2~表4。

表2 不同模型在測試集上的準確率及損失值

表3 不同模型積極測試集文本上的不同評價指標

表4 不同模型消極測試集文本上的不同評價指標

不同模型在測試集上準確率分布的條形統計如圖5所示。

圖5 不同模型在測試集上準確率分布的條形統計

不同模型在測試集上損失值分布的折線統計如圖6所示。

圖6 不同模型在測試集上損失值分布的折線統計

3.6 實驗結果分析

從以上實驗結果可以看出,文中提出的MC_E_ImprovDPC_B_SV模型較文中提到的其他情感分類模型有較好的分類效果,在測試集上的分類準確率達到93.92%,除此以外,該模型的精確率和F1值也是文中提到所有模型中最高的,從而也說明了MC_E_ImprovDPC_B_SV模型的優越性,MC_E_ImprovDPC_B_SV模型比ERNIE_ImproveDPCNN_SV模型在分類準確率上提升了0.59%,損失值減少了0.02,說明三通道并行提取特征要比雙通道提取特征更有效果,從另一方面也說明了雙向LSTM通道在提取特征時發揮了重要作用。通過比較模型ERNIE_BILSTM和ERNIE_ImprovDPCNN_BILSTM在測試集上的分類準確率可知,后者比前者的分類準確率提升了0.42%,由此可以看出,ImprovDPCNN通道可以獲得更豐富的情感特征信息。通過比較ERNIE_DPCNN模型和ERNIE_ImprovDPCNN模型在測試集上的分類準確率可以看出,準確率提高1.16%,說明改進后的DPCNN更有利于情感特征的提取,有效改善了模型退化的問題。通過比較MC_E_ImprovDPC_B_SV模型和MC_R_ImprovDPC_B_SV模型可知,在測試集的準確率上前者比后者提高1.16%,在積極文本和消極文本的評價指標方面,MC_E_ImprovDPC_B_SV的Precision和F1值均高于MC_R_ImprovDPC_B_SV模型,由此可以看出,在知識表示和語義增強方面,ERNIE預訓練模型要優于Roberta預訓練模型。

通過比較實驗結果可以得出,DPCNN用于情感分類方面要優于普通的CNN網絡,縱觀文中提出的所有情感分類模型中,基于ERNIE的ImprovDPCNN、BILSTM和語義向量的多通道組合方式能夠發揮出最好的模型性能,同時也說明,通過這樣的組合方式,各通道才能更好地發揮出自身的優勢來進行特征提取,從而進行情感分類。

4 結 語

提出一種基于ERNIE的三通道并行提取特征的中文情感分類模型,這三個通道分別是ImporvDPCNN通道、BILSTM通道和語義向量通道。該模型通過發揮ERNIE及不同通道各自的優勢可以提取到豐富的情感特征,從而能夠進行準確分類,通過驗證實驗和對比實驗可以看出,文中提出的MC_E_ImprovDPC_B_SV模型在情感分類問題上準確率及評價指標F1值要優于文中提到的其他模型。在Chnsenticorp數據集上取得了良好的實驗效果。

文中所提模型雖然取得了很好的分類效果,但也存在諸多不足,比如在長文本情感分類方面的實驗效果還未知,對于多標簽的情感分類問題還不能很好地解決,所以下一步工作將繼續研究和探索進行長文本情感分類和多標簽情感分類問題,使文中模型具有更強的適應性和魯棒性。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 18禁影院亚洲专区| 国产精品九九视频| 青青操视频免费观看| 久久国产精品夜色| 欧美精品二区| 欧美啪啪一区| 国产喷水视频| 国产成人精品日本亚洲77美色| 亚洲天堂.com| 欧洲免费精品视频在线| 国产在线91在线电影| 亚洲视频在线青青| 欧美一级大片在线观看| 欧美日韩国产成人高清视频| 国产午夜福利在线小视频| 国产剧情伊人| 欧美精品v欧洲精品| 亚洲三级电影在线播放| 国产成人精品一区二区| 国产精品短篇二区| 一本大道东京热无码av | 亚洲国产成人精品青青草原| 青青久久91| 国产成人一区免费观看| 国产亚洲精品97AA片在线播放| 亚洲综合香蕉| 久久亚洲黄色视频| 国产性精品| 国产精品极品美女自在线网站| 在线观看国产精美视频| 欧美va亚洲va香蕉在线| 久久精品无码一区二区国产区| 二级毛片免费观看全程| 国产精品亚洲片在线va| 欧美日本在线一区二区三区| 搞黄网站免费观看| 亚洲午夜片| 亚洲精品午夜天堂网页| 欧美亚洲一二三区| 亚洲另类色| 激情无码视频在线看| 精品三级网站| 热这里只有精品国产热门精品| 国产精品成人久久| 国产91av在线| 欧美综合中文字幕久久| 国产一级裸网站| 国产一级视频久久| 久久香蕉国产线看观看精品蕉| 极品性荡少妇一区二区色欲| 久久6免费视频| 国产精品嫩草影院av| 成人韩免费网站| 欧美亚洲日韩中文| 黄色网在线| 高清码无在线看| 911亚洲精品| 亚洲一区毛片| 中文字幕在线看视频一区二区三区| 亚洲欧美激情小说另类| 26uuu国产精品视频| 亚洲天堂精品视频| 日本免费精品| 88av在线| 四虎在线观看视频高清无码| 无码高清专区| 国产精品亚洲αv天堂无码| 久久婷婷六月| 亚洲天堂久久久| 手机精品福利在线观看| 噜噜噜久久| 国产成人a毛片在线| 9966国产精品视频| 在线国产91| 亚洲成aⅴ人在线观看| 日韩激情成人| 国产色爱av资源综合区| 中文字幕在线一区二区在线| 狠狠做深爱婷婷久久一区| 亚洲AV无码一区二区三区牲色| 一级爱做片免费观看久久| 18禁黄无遮挡网站|