999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT-CNN的電商評論情感分析

2020-04-29 10:55:10史振杰董兆偉龐超逸張百靈孫立輝
智能計算機與應用 2020年2期
關鍵詞:特征文本情感

史振杰, 董兆偉, 龐超逸, 張百靈, 孫立輝

(河北經貿大學 信息技術學院, 石家莊 050061)

0 引 言

隨著信息技術的快速發展,網絡已經融入到人們生活的方方面面。網絡上具有平等、自由、共享、虛擬等特點,近年來,互聯網上出現越來越多的網絡應用,例如微博,論壇,電子商務等等,其中,電子商務指的是買賣雙方在不相見的互聯網平臺進行交易的商貿活動。電商應用平臺的飛速發展改變了社會的生活方式,給人們的生活帶來了極大的便利。同時,各電商平臺之間的競爭也尤為激烈,為了增強競爭力,各平臺不僅保證商品的質量和價格合理外,還要了解消費者對商品和服務的反饋,以便更好地制定相應的營銷策略。如今,很多電商平臺都涉及了評論系統,消費者在系統中可以自由發表自己的觀點與看法[1],表達自己的情感,在這些評價、觀點與情感中,包含著許多有價值的信息,這些信息反映了消費者對于商品的主觀感受,對于其他消費者挑選符合心意的商品具有極大的參考價值[2],同時,也是商家改進自身營銷模式的重要依據。

近年來,隨著深度學習的發展以及自然語言領域的使用,越來越多的學者采用深度學習技術來處理海量的文本信息。深度學習可以經過多層次的學習,自動學習到數據的本質特征,能夠在預測與分類任務中獲得較高的準確率。例如常用的網絡有:長短期記憶網絡[3]、卷積神經網絡[4]、循環神經網絡[5]等。

Mikolov等人[6]提出一種使用Skip-gram和CBOW的方式學習詞的分布式表示,通過這樣的方式可以在一定程度上表示出詞語之間的相關性,得到詞語在更高維空間的映射。為了彌補RNN網絡自身在梯度傳遞上的缺陷,Hochreiter等人[7]提出了基于循環神經網絡的優化形式,長短時記憶網絡LSTM,在一定程度上解決了梯度爆炸或者梯度消失的問題。Denil等人[8]提出一種多層次的CNN模型來提取文本中的特征,通過多層次的卷積與池化結構,加強對句子中關鍵的局部特征的獲取,以達到更好的效果。Kalchbrenner等人[9]將靜態卷積網與動態卷積網相結合,對于解決不同文本的不同長度具有較好的效果。Zhou等人[10]提出了將CNN與RNN的特點相結合,先對文本用CNN進行分布特征的提取,再用RNN進行序列特征的提取,最后用于分類。Cao等人[11]改變了兩種模型順序,由此提取出來的特征用于文本分析。Yogatama等人[12]采用生成對抗模型,其中一部分模型用于生成數據,另一部分通過預測數據來進行分析。

李然[13]在進行本文情感分析時采用了神經網絡語言模型,通過自適應的學習短文本向量,提取更深層次的語義信息,在大規模的商品評論數據集上表明了深度學習的分類性能更好。胡朝舉等人[14]提出了一種將CNN與GRU相結合的方法,不僅能采用CNN捕捉句子的局部特征,而且能夠較好地獲取句子的上下文信息,實驗獲得了較高的F值。陳葛恒[15]針對GRU網絡只能前向學習而不能預測到后面的信息問題,提出了雙向的GRU來進行句子前后信息的學習,有效地解決了上下文之間的關聯性。馮興杰等人[16]使用注意力模型與CNN相結合的方法,能夠減少人為對于特征的構造,在相關數據集上結果表明,與傳統的機器學習方法和卷積神經網絡相比有著明顯的提升。馬思丹等人[17]根據詞向量的特點,提出了一種加權Word2Vec的文本分類方法,通過設置文本詞語相似度閾值,分為加權的部分與不加權的部分,在此基礎上進行分類,實驗表明該方法比傳統的TF-IDF效果要好。

在以上的研究中,都使用了基于深度學習的方法進行情感分析,這種方法雖然在一定程度上表現優異,但是要進行長時間的訓練,而且需要大量的語料用于學習,語料不足時很難達到滿意的效果。

綜上,針對現有的文本情感分析方法特征提取不充分,難以表達句子的復雜語義,不能關注上下文信息等問題,提出了一種基于BERT-CNN的網絡結構,通過BERT結構進行語義的向量化表達,運用卷積網絡結構來進一步提取局部特征,最后使用Softmax分類器進行文本的情感分類,在某手機的評論數據集中,相比于其他模型,準確率有一定的提升。

本文的主要工作如下:

(1)利用BERT對評論信息的句子進行向量化表達,充分考慮了句子中每一個詞語對其他上下文中詞語的影響,以及同一個詞語在不同語境中的不同含義表達。

(2)先利用BERT網絡結構來處理文本中上下文特征的提取,再對已經提取的特征使用卷積神經網絡CNN進行局部語義特征提取,既能同時利用BERT與CNN特征提取的優勢,又能很好地解釋要處理文本的語義,從而提高文本情感分析的準確率。

1 BERT模型

BERT的出現在自然處理領域帶來了很大的提升,之前的模型是從左向右或者是將從左向右和從右向左的訓練結合起來,而BERT使用了多層Transformer模型[18],實現了將句子中的每個詞的信息都涵蓋進詞向量中去,實驗的結果表明,雙向訓練的語言模型對語境的理解會比單向的語言模型更深刻,其中文本分類中,用到了Transformer中的Encoder。

BERT中的Transformer由6個Encoder-Decoder疊加組成,在結構上是相同的,但是彼此間卻不共享權重[19]。注意力機制運算如圖1所示。圖1即為一層編碼器(Encoder)和對應的一層解碼器(Decoder),在Encoder中,輸入(input)經過Embedding后,要做位置嵌入(positional Encoding),然后是多頭注意力機制(multi-head Attention),再經過全連接層[20],每個子層之間都有殘差連接。

圖1 注意力機制計算圖

多頭注意力機制就是將一個詞的向量切分成h個維度,求Attention的相似度時每個h維度計算,由于每個單詞在高維空間表示唯一個向量,每一維空間都可以學到不同的特征,相鄰空間所學結果更相似,相較于全體空間放到一起對應更加合理。比如對于vector-size=512的詞向量,取h=8,每64個空間做一個Attention,學到的結果更加準確。

自注意力機制中,每個詞都可以無視方向與距離,有機會直接和句子中的每個詞進行編碼。權重的大小代表了兩者之間聯系的深刻度,一般意義來說,模糊詞所連的邊都比較深。

位置嵌入能夠表示句子的序列信息的順序,對于模型學習句子的含義有重要的影響。Transformer計算token的位置信息使用了正弦波,類似模擬信號的周期性變化,這樣的循環函數在一定程度上能夠增加模型的泛化能力。運算公式如下所示:

PE2i(p)=sin(pos/100 0002i/dpos),

PE2i+1(p)=cos(pos/100 0002i/dpos),

(1)

將id為p的位置映射為一個d維的位置向量,這個向量的第i個元素的數值就是Ei(p)。

但BERT直接訓練一個position Embedding來保留位置信息,每個位置隨機初始化一個向量,加入模型進行訓練,能夠得到一個包含位置信息的Embedding,最后這個Position Embedding與Word Embedding進行直接拼接。

此外,BERT使用masked language model做到了真正意義上的雙向編碼,隨機屏蔽預料中15%的token,然后將被屏蔽的token位置輸出的最終隱層向量輸送到分類器,預測被屏蔽的token,其中類似于完形填空,雖然能夠看到所有的位置信息,但需要預測的詞已經被特殊符號所代替,可以直接進行編碼。但是確定屏蔽掉的單詞后,并沒有直接去掉,而是80%的會被直接替換,10%會被替換為任意單詞,10%會保留原始token。這是為了增強模型的魯棒性,避免出現模型不認識的單詞,增強其泛化能力。

2 CNN模型

在傳統的神經網絡中,把每個神經元都連接到下一層的每個神經元上,這就是全連接,在CNN中,對輸入層進行卷積得到輸出,這就不是全部連接而成為了局部連接,即輸入的局部區域連接到一個神經元上,每一層都用不同的卷積核,再將其組合起來。池化層是卷積神經網絡中的一層重要結構,在卷積層之后應用,池化層對其輸入進行下采樣,最常用的方法就是保留最大信息,一般是經過窗口化的最大池化。

卷積的作用可以認為是發現一種特征,而池化的作用是減少輸出維度同時保留顯著的信息[21]。在卷積神經網絡中,卷積層中的卷積核類似于一個滑動的窗口,如圖2所示,在整個輸入圖像中進行特定步長的滑動,經過卷積運算后,能夠得到輸入圖像的特征圖,這個特征圖就是卷積層提取出來的局部特征,這個卷積核是參數共享。在整個網絡的訓練過程中,包含權值的卷積核也會隨之更新,直到訓練完成。

圖2 卷積神經網絡結構圖

全連接層的作用主要是對特征進行整合,池化層的輸出以全連接的形式傳遞給全連接層,通過分類器得到分類,再將預測的結果與實際的結果進行比較,通過反向傳播的方式更新網絡參數。

在自然語言處理中,多數任務的輸入不再是圖片,而是以矩陣表示的句子或文檔。矩陣的每一行對應一個token(象征),一般是一個單詞或字符,也即每一行代表一個詞向量。在圖像中,卷積核劃過的是圖像中的一塊區域,在自然語言領域一般用卷積核劃過矩陣的一行,即單詞。然后卷積核的寬度就是矩陣的寬度,而高度不是固定的,需要進行設置。

3 BERT-CNN模型建立

整個BERT-CNN神經網絡模型主要分為BERT層、CNN層和情感分類輸出層,整體框架如圖3所示。

圖3 BERT-CNN模型結構圖

BERT-CNN神經網絡模型的情感分類輸出層基本相似,但是詞向量輸入層有差別,BERT-CNN神經網絡模型采用預訓練語言模型BERT作為文本信息的表示,而傳統神經網絡語言模型采用Word2Vec作為文本信息的表示。此外,BERT-CNN將BERT輸出的詞向量經過卷積神經網絡做進一步特征提取,增強了模型的健壯性。CNN層分為卷積與池化兩部分:

對BERT層的輸出矩陣B={H1,H2,...,Hn}進行卷積操作,假設卷積核長度為m,即每次對m個分詞向量進行卷積操作,卷積核滑動的步長一般設為1,對文本矩陣進行上下滑動,則B可以分成{H1:m,H2:m+1,...,Hn-m+1:n},其中,Hi:j表示向量Hi到Hj的所有向量的級聯,對于每一個分量執行卷積操作后得到向量C={c1,c2,...,cn-m+1},而ci是對分量Hi:i+m-1執行卷積操作后得到的值,稱為一個局部特征映射,計算公式如下所示:

ci=WTHi:i+m-1+b,

(2)

其中,W是卷積核的參數,按照均勻分布隨機初始化,并在模型訓練過程中不斷學習,b是偏置變量。

接著對卷積捕獲的文本特征映射向量C={c1,c2,...,cn-m+1}進行池化操作,研究中采用了最大池化方式,公式可表示為:

(3)

上述為1個卷積核經過卷積、池化操作得到的結果,對于q個卷積核得到的結果如下:

(4)

為了提取更好的特征,研究采用3種不同尺寸的卷積核去提取特征,經過池化后,再將不同尺寸的卷積核提取的特征拼接在一起作為輸入到分類器中的特征向量。如圖4所示。

圖4 CNN層結構圖

卷積操作實質上完成了對文本特征中表示局部重要信息的捕獲,池化操作則完成了局部重要特征的提取。此后CNN層的輸出向量經過拼接得到最終的向量,輸入到情感分類器中進行分類,得到模型對于每條輸入數據對應的情感類別。

在前述流程后,研究中將通過平均池化得到的句向量利用全連接層來獲取抽象特征。同時,該網絡層使用ReLU激活函數,為了增強模型的泛化能力,再增加一層全連接層進行輸出,由于本次分類是多標簽分類任務,則需要經過分類器進行分類。

在模型中,BERT作為評論文本的編碼器,使用BERT語言模型的嵌入功能,將每一條評論編碼到各詞向量堆疊而成的句子。作為新的特征用作CNN層的輸入,為了防止過擬合,在全連接層前面加入一層丟棄率為0.5的dropout層。

4 結果與分析

本文模擬實驗環境配置見表1。

本節在京東某手機評論數據集上對比了混合模型BERT-CNN與其他幾種模型,不僅進行了模型準確性,穩定性的對比,同時對比了模型訓練耗時程度。

采用幾種不同的模型進行實驗,研究得到的各指標的實驗結果見表2,時間對比結果見表3。

表1 實驗環境配置表

表2 實驗結果表

表3 時間表

比較表2中BERT-CNN模型和其他幾種常用模型,例如LSTM,BiGRU-Attention。可以看出,相比于這幾種常用模型,混合模型BERT-CNN在準確率與F值上都有了明顯的提升,這說明了BERT-CNN在該京東手機評論數據集上,情感分類效果比較好,同時,對比單獨地使用BERT或者TEXTCNN進行文本分類,也得到了顯著提升。

對比表3中BERT-CNN模型和其他模型所用的時間可以看出,除了BERT模型以外,其它模型雖然準率與F值相對較低,但是所用時間相比混合模型BERT-CNN明顯少很多,這說明了BERT預訓練詞向量模型,需要耗費大量的時間進行句子中詞向量的表示。BERT-CNN效果較好,但時間花費也很大。

5 結束語

近年來,電子商務發展漸趨火爆,電商評論情感分析已然成為一個研究熱點,為了更好地進行研究,本文提出了結合BERT的詞向量,與卷積神經網絡相結合的BERT-CNN網絡模型用于電商評論研究和分析中。該模型先利用BERT進行詞向量編碼表示文本的語義信息,然后在此基礎上使用卷積神經網絡對文本特征進行更加深入提取,實現模型對于文本信息語義的深層理解,完成對電商評論的情感分析。使用某手機的評論數據集進行仿真實驗,實驗結果表明,BERT-CNN模型較大程度地提升了情感分類的性能。

BERT模型使用過程中,參數量較大,訓練及加載都會耗費大量時間,所以,研究對BERT模型進行壓縮,在模型精度不會受到較大損失條件下降低模型的復雜度這也是后續一項重要的研究工作。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91在线视频福利| 国产成人综合在线视频| 在线国产毛片手机小视频| 色综合综合网| 亚洲欧美日韩成人高清在线一区| 国产精品久久久精品三级| 国产综合另类小说色区色噜噜| 一级毛片高清| 中文字幕有乳无码| 超碰aⅴ人人做人人爽欧美| 国产成人综合亚洲欧美在| 日韩大片免费观看视频播放| 中国一级特黄视频| 亚洲另类色| 日韩东京热无码人妻| 欧美A级V片在线观看| 男人天堂亚洲天堂| 成年A级毛片| 久久中文字幕2021精品| 精品国产成人a在线观看| 91精品专区国产盗摄| 免费中文字幕一级毛片| 亚洲天堂免费观看| 91亚洲免费| 亚洲国产欧洲精品路线久久| 国产精品男人的天堂| 色婷婷视频在线| 亚洲欧洲AV一区二区三区| 国产在线八区| 国产无码精品在线播放| 国产美女在线观看| 欧美自拍另类欧美综合图区| 欧美中文字幕第一页线路一| 无码高潮喷水在线观看| 欧美亚洲国产精品久久蜜芽| 色AV色 综合网站| 一区二区无码在线视频| 午夜毛片免费看| 亚洲美女高潮久久久久久久| 欧美午夜在线播放| yy6080理论大片一级久久| 四虎在线观看视频高清无码 | 免费va国产在线观看| www.亚洲一区| 亚洲AV无码不卡无码 | 天天操天天噜| 国内精品九九久久久精品 | 色噜噜狠狠色综合网图区| 欧美怡红院视频一区二区三区| 91精品在线视频观看| 亚洲精品中文字幕午夜| 91午夜福利在线观看精品| 亚洲国产天堂久久九九九| 亚洲Aⅴ无码专区在线观看q| 成人国产精品网站在线看| 成人亚洲视频| 久久一日本道色综合久久| 亚洲人在线| 无码免费的亚洲视频| 欧洲亚洲一区| 在线色国产| 日本黄网在线观看| 国国产a国产片免费麻豆| 日韩无码真实干出血视频| 国产在线小视频| 午夜国产不卡在线观看视频| 无码啪啪精品天堂浪潮av| 在线观看国产精美视频| 国产精品人成在线播放| 92精品国产自产在线观看 | 色婷婷丁香| 亚洲视频免费在线| 日韩在线2020专区| 亚洲国产系列| 亚洲欧洲日韩国产综合在线二区| 国产在线观看一区精品| 青青青国产视频手机| 亚洲天堂网2014| 亚洲欧美在线综合一区二区三区| 久久综合九色综合97婷婷| 九色在线观看视频| 成人午夜视频网站|