胡任遠,劉建華,卜冠南,張冬陽,羅逸軒
1.福建工程學院 信息科學與工程學院,福州350118
2.福建省大數(shù)據(jù)挖掘與應用技術重點實驗室,福州350118
情感分析(sentiment analysis),是指通過自動分析用戶對某種事物的文本內容,提取出用戶對該事物的褒貶態(tài)度以及意見,屬于文本分類問題。傳統(tǒng)的機器學習方法可以解決文本分類問題,例如支持向量機、樸素貝葉斯、最大熵、K鄰近算法等。傳統(tǒng)方法主要通過人工標注一部分文本數(shù)據(jù)為訓練集,并需要文本數(shù)據(jù)特征進行人工提取,然后訓練機器學習的分類模型,最后利用分類模型對沒有標注的數(shù)據(jù)進行預測,輸出最終的預測分類結果。基于傳統(tǒng)機器學習的文本分類方法已經(jīng)取得了非常多的成果,但需要依賴復雜人工規(guī)則的文本特征工程,而特征工程的策略是否合適會大大影響情感分類的效果。
近些年來,深度學習在自然語言處理領域取得了碩果,被廣泛應用于情感分析任務中,成為當前研究熱點[1]。其優(yōu)勢為能夠采用詞嵌入(word embedding)技術,把詞映射成一個實值向量空間,提取詞向量為特征,減少人工特征工程對情感分析的影響。Kim等[2]將不同卷積核的卷積神經(jīng)網(wǎng)絡對英文文本進行語義特征提取,在句子級分類任務中模型的分類效果出色。李洋等[3]提出將CNN與BiLSTM網(wǎng)絡特征融合的文本情感分析模型,利用Word2vec訓練詞向量,在以往模型的基礎上進一步提升情感分析問題的分類準確率。劉全等[4]提出的一種用于基于方面情感分析的深度分層網(wǎng)絡模型,其中的區(qū)域卷積神經(jīng)網(wǎng)絡需要將事先將用戶的評論語言按不同方面的目標詞分割為長度固定的不同區(qū)域,提取了文本序列中不同的特征。以上研究人員都通過不同的神經(jīng)網(wǎng)絡模型處理情感分析問題,并且取得了較好的分類效果。
Word2vec[5]目前被廣泛應用于NLP 領域中詞向量的訓練。Pennington 等[6]于2014 年提出Glove 模型,該模型提高了詞向量在大語料數(shù)據(jù)集上的訓練速度和模型穩(wěn)定性,從而被廣泛應用。通過深度學習對語料庫數(shù)據(jù)的訓練,可以預訓練出詞向量,構成預訓練模型。故預訓練模型(Pre-trainedmodel)是一種基于大量數(shù)據(jù)集訓練得到的神經(jīng)網(wǎng)絡架構,并且可以在此基礎上進行下游任務的實現(xiàn)。預訓練模型在很多NLP 任務中的表現(xiàn)大多比傳統(tǒng)神經(jīng)網(wǎng)絡更為出色。通過對預訓練模型進一步的深入研究,ELMo[7]、Transformer[8]、基于轉換器的雙向編碼表征(BERT)[9]等豐富的預訓練模型被相繼提出,其中BERT 是目前應用最廣泛的預訓練模型。Xu等[10]針對BERT模型缺乏對領域知識和任務相關知識的問題,提出了一種后訓練的解決方案,但其訓練的特征較為單一,未能學習到序列的多層次特征。GAO等[11]在目標詞后添加了一層最大池化層和一層全連接神經(jīng)網(wǎng)絡,提出了基于目標的BERT 分類模型,但其忽略了上下文之間的聯(lián)系而只關注于目標情感詞。堪志群等[12]將BERT 與BiLSTM 結合,在微博數(shù)據(jù)的傾向性分析中取得了出色的效果,串行連接的BiLSTM可以在微調任務(Fine Tune)中特征提取能力仍有提高空間。謝潤忠等[13]提出了一種基于BERT 和雙通道注意力的模型,在情感分類任務中表現(xiàn)出色,但其用的雙通道注意力模型同時需要訓練兩種BERT 模型,時間成本巨大,并且其左通道結合了BiGRU提取序列的聯(lián)系忽略的情感極性的表達,右通道添加一層全連接神經(jīng)網(wǎng)絡,同樣缺乏對目標任務特征的進一步提取。
以上文獻使用的BERT 模型為了處理不同領域的任務,使用了微調的方法讓模型在訓練時可以不斷學習領域知識,并且通過反饋神經(jīng)網(wǎng)絡的來更新原本模型的參數(shù)。但是在研究文本序列的情感極性時,均存在以下不足:(1)BERT模型在通過后續(xù)任務補全推理和決策的過程中,未能很好的幫助其多方面學習情感分析領域知識,提升模型的分類能力。(2)對于句子級文本情感分類任務模型獲取的文本情感極性略顯單一,多層次語義的捕獲能力不足。
由于在情感分析任務中,截取不同長度的文本內容,其所表達的情感極性可能出現(xiàn)截然不同的情況。針對以上問題,本文提出一種多層次語義協(xié)同模型(MCNN)來提取多層次語義的情感傾向特征,該模型能夠以分組的形式,將句子切分成不同長度的句塊,進而對不同的句塊做特征提取,因此可提取到文本序列內不同層次角度的情感極性特征,幫助模型更準確的判斷文本序列的情感極性。最后,本文將MCNN 與BERT 融合,形成了一種基于BERT 模型的多層次語義協(xié)同模型,能夠分析文本序列的情感極性,并且該模型使用BiLSTM,抓取序列的上下文聯(lián)系,使用MCNN 對文本序列進行不同層次上的情感極性特征提取,避免模型存在上述問題的不足,提高了模型的分類準確性。
卷積神經(jīng)網(wǎng)絡(CNN)是深度學習的重要網(wǎng)絡之一,其由于采用了局部連接,權值共享的方式,相比起傳統(tǒng)神經(jīng)網(wǎng)絡采用全連接方式而言,有效的解決了網(wǎng)絡參數(shù)大,訓練時間長等問題。CNN 主要是由輸入層、卷積層、池化層和全連接層組成,如圖1所示。

圖1 卷積神經(jīng)網(wǎng)絡
1.1.1 卷積層
在文本處理中,對句子做分詞處理,得到詞向量數(shù)據(jù),然后將詞向量數(shù)據(jù)輸入到CNN的卷積層,使用卷積核對其做卷積操作,得到新的特征矩陣。圖1中的X1,X2,…,Xn為句子所對應的詞嵌入向量,將詞嵌入向量作為卷積層的輸入,根據(jù)式(1),可以得到序列輸出:

其中,X為詞嵌入向量組成的矩陣,W為權重矩陣,b為偏置量,f為卷積核激活函數(shù)。
1.1.2 最大池化層
在卷積神經(jīng)網(wǎng)絡結構中,池化層一般分為平均池化層和最大池化層,本文使用的為最大池化層。將卷積層的輸出序列輸入池化層,在提取文本的主要特征同時,也降低了向量維度,減少要訓練的權重,并將結果傳給下一層神經(jīng)網(wǎng)絡。
1.2.1 傳統(tǒng)長短期記憶網(wǎng)絡
傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(RNN)在情感分類任務中,隨著文本序列長度的增大,容易出現(xiàn)梯度消失問題。為解決該問題,1997年,Hochreiter等[14]提出長短期記憶網(wǎng)絡模型(LSTM),LSTM 是對RNN 的改進,有效地解決RNN 網(wǎng)絡在訓練過程中梯度消失的問題,利用細胞狀態(tài)和門機制,使其能夠記憶上一步的信息,并融合當前接受的信息向下傳輸,如圖2所示。

圖2 長短期記憶網(wǎng)絡
LSTM運行機制如式(2)~(7)所示:

其中,i、o、f分別代表著LSTM網(wǎng)絡中門機制內的輸入門、輸出門和遺忘門,c是記憶細胞用來記錄細胞狀態(tài)的更新,在t時刻,網(wǎng)絡接收到當前輸入xt和上一時刻t-1 遺留的信息向量ht-1作為三個門機制的輸入,it、ot、ft分別為輸入門、輸出門、遺忘門在t時刻所得到的激活向量。σ為非線性激活函數(shù)sigmoid(),tanh為非線性激活函數(shù)tanh(),圖中Wf、Wi、We、Wc和Ut、Ui、Ue、Uc分別為遺忘門、輸入門、輸出門的記憶細胞所對應的權重矩陣,bt、bi、be、bc是偏置量,由模型訓練獲得。
1.2.2 雙向長短記憶網(wǎng)絡
LSTM雖然解決了文本長度依賴的問題,但是無法獲取文本的上下文信息,雙向長短期記憶網(wǎng)絡(BiLSTM)可以同時考慮文本的上下文語境,如圖3 所示,其工作原理為:將接收的輸入傳入兩個時序相反的LSTM 網(wǎng)絡中,前向LSTM 可以獲取輸入序列的上文信息,而后向的LSTM 可以獲取輸入序列的下文信息,然后通過向量拼接的方式得到最終序列的隱藏表示。為了防止過擬合,本文采用Hinton 等[15]提出的Dropout 策略,每次迭代隨機刪減隱藏層的部分神經(jīng)元,達到了一定程度上的正則化效果。將x1,x2,…,xn作為輸入,通過前向LSTM 和后向LSTM 分別獲得了hL和hR,如式(8)和(9)所示:

圖3 雙向長短期記憶網(wǎng)絡

最后連接hL和hR獲得輸出數(shù)據(jù)hi(i=1,2,…,n)。
1.3.1 Transformer
Transformer 模型的Encoder 部分包含兩個子模塊,一個是自注意力機制層,其采用了多頭自注意力(Multihead Attention),另一個為全連接的前饋神經(jīng)網(wǎng)絡,并且都對數(shù)據(jù)進行標準化操作。模型中每個子模塊采用了殘差連接的方式來改善神經(jīng)網(wǎng)絡退化的問題。Transformer模型以Seq2Seq結構為基礎,改變了傳統(tǒng)Encoder-Decoder架構需要依賴于RNN的模式,僅使用注意力機制和全連接神經(jīng)網(wǎng)絡搭建而成,將輸入數(shù)據(jù)通過詞嵌入(Word Embedding)和位置編碼(Position Encoding)處理,可以學習到文本序列的位置關系,再通過多頭自注意力機制來學習文本序列中字詞相互的關系。Transformer模型結構如圖4所示。

圖4 Transformer模型
圖中虛線箭頭為殘差連接,是為了解決多層神經(jīng)網(wǎng)絡訓練困難的問題,通過將前一層的信息無差的傳遞到下一層,可以有效的僅關注差異部分。Attention的計算公式如(10)和(11)所示,其中Q、K、V為隨機初始化而成后續(xù)通過訓練不斷更新,是注意力層的輸入。多頭注意力機制為多個自注意力機制的結合,可以使模型通過不同的頭學習到不同方面的內容,給予模型更大的容量。可以幫助模型進行縮放,避免softmax的結果非0即1,W0同樣為隨機初始化的矩陣最后將每個頭學習到的注意力矩陣進行拼接。

1.3.2 BERT模型
Word2vec 等傳統(tǒng)生成詞向量工具知識基于淺層神經(jīng)網(wǎng)絡的模型來提供詞嵌入作為特征,相比之下BERT模型還可以集成到下游任務中,可以適用特定的任務體系并作出調整。BERT 是以雙向Transformer 模型為基礎的雙向Transformer編碼器,主要使用了Encoder模塊來計算,如圖5 所示。其采用遮蔽語言模型[16](Masked Language Model,MLM)建模,使得其輸出的序列可以更全面的學習到不同方向的文本信息,為給后續(xù)的微調提供了更好的初始參數(shù)。

圖5 BERT模型結構圖
本文提出一種基于BERT 的多層次語義協(xié)同模型。如圖6所示,BERT-CMCNN模型一共有四層:輸入層、特征提取層,信息融合層以及輸出層。為解決BERT模型缺乏情感分析領域的知識,幫助其補全后續(xù)推理和決策環(huán)節(jié),本文使用在BERT模型后添加的雙通道中含有BiLSTM 來抓取上下文關系以及協(xié)同的多層次語義特征提取模型MCNN,該模型可以從不同角度去理解序列所表達的情感特征,而且采用協(xié)同結構可以很好地避免神經(jīng)網(wǎng)絡過深而帶來的梯度消失以及信息丟失等問題。最后,在信息整合之下本文提出的BERT-CMCNN模型便包含了情感分類領域的序列關系以及不同層次的情感極性特征,更適用于情感分類任務中。

圖6 BERT-CMCNN模型結構圖
首先對中文文本數(shù)據(jù)進行停用詞和特殊且無意義的符號進行去除,其次挑選出情感分析領域最常見的錯別字構建字詞典,對文本序列進行錯別字替換。英文文本數(shù)據(jù)則進行特殊無意義符號去除的大小寫轉換。BERT 模型的每輸入都需要由詞向量(Token Embeddings)、段向量(Segment Embeddings)、位置向量(Position Embeddings)相加而成。其中詞向量是由隨機初始化而來,該向量的取值在模型訓練過程中自動學習,用于刻畫文本的全局語義信息,并與單字詞的語義信息相融合。段向量為區(qū)分字詞所在的上下文。位置向量是由于出現(xiàn)在文本不同位置的字詞所攜帶的語義信息存在差異(比如,“我愛你”和“你愛我”),因此,BERT模型對不同位置的字詞分別附加一個不同的向量以作區(qū)分,輸入格式如圖7所示。

圖7 BERT模型的輸入
MCNN結構如圖8所示,該結構由多個不同大小卷積核的一維卷積神經(jīng)網(wǎng)絡協(xié)同組成了多層次語義學習器。該模型可以學習到以不同卷積核大小為長度的語塊中,不同層次的情感特征。

圖8 MCNN模型結構圖
本文采用的協(xié)同結構一定程度上避免了串行結構中容易出現(xiàn)深度神經(jīng)網(wǎng)絡梯度消失的問題,在后續(xù)情感分析任務中幫助模型學習到了目標領域的知識,來進行后續(xù)的補全推理和決策環(huán)節(jié),最后將學習到的不同層次情感特征進行融合。因其能多角度多層次的學習到序列表達的情感極性,故該模型可以適用于不同語料的情感分類任務中。
實驗方法主要采用以下三種方式:
(1)將BERT詞向量模型與Word2vec、Glove和ELMo三種不同詞向量模型做對比實驗,驗證了BERT詞向量模型的優(yōu)越性。
(2)將CMCNN 的組合方式與BiLSTM-BiLSTM 和MCNN-MCNN等兩種不同的組合方式分別做消融實驗并進行對比,驗證了CMCNN 能夠使BERT 模型補充更豐富的領域知識,提高情感分類準確率。
(3)將BERT-CMCNN 模型與其他情感分類的深度學習模型做對比實驗,驗證本文提出模型的能夠提高情感分類的效率。
3.1.1 實驗環(huán)境
本文實驗環(huán)境:操作系統(tǒng)為Windows10,CPU 為Intel Core i5-8300H,GPU為GeForce GTX 1060 6 GB,內存大小為DDR4 16 GB,開發(fā)環(huán)境為TensorFlow 2.2.0-GPU,開發(fā)工具使用了JetBrainsPycharm。
3.1.2 實驗數(shù)據(jù)
實驗采用的數(shù)據(jù)集有兩種語言(中文和英文),其中每種語言都包含一個二分類數(shù)據(jù)和一個三分類數(shù)據(jù)并且訓練集和測試集是獨立的兩個數(shù)據(jù)集,來確保本文提出方法的有效性。首先對中文文本數(shù)據(jù)進行停用詞和特殊且無意義的符號進行去除,其次挑選出情感分析領域最常見的錯別字構建字詞典,對文本序列進行錯別字替換。英文文本數(shù)據(jù)則進行特殊無意義符號去除的大小寫轉換。中文實驗數(shù)據(jù)采用了Data Fountain 的開源數(shù)據(jù)O2O 商鋪食品相關評論數(shù)據(jù)(本文縮寫為據(jù)o2o)以及疫情期間網(wǎng)民情緒數(shù)據(jù)(本文縮寫為Cov19),英文實驗數(shù)據(jù)則是SST-2 和Twitter 航空評論數(shù)據(jù),如表1 所示,CN代表中文文本數(shù)據(jù),EN代表英文文本數(shù)據(jù)。

表1 實驗數(shù)據(jù)統(tǒng)計
3.1.3 評價標準
本文使用的評價模型的指標為精準率(Precision)、召回率(Recall)和F1 值(F1-score),其中精準率是指正確預測正樣本占實際預測為正樣本的比例,召回率是指表示正確預測正樣本占正樣本的比例,文本引入了綜合衡量指標F1 值作為模型分類結果的評價標準之一,如式(12)~(14)所示:

其中,TP(TruePositive)是指正類判定為正類個數(shù),F(xiàn)P(False Positive)是指負類判定為正類個數(shù),F(xiàn)N(False Negative)是指正類判定為負類個數(shù)。
3.1.4 模型參數(shù)設置
由于模型參數(shù)的選擇對結果會有較大的影響,實驗采用控制變量法,BiLSTM 隱層節(jié)點分別取64、128 和256,使用Adam優(yōu)化器優(yōu)化函數(shù),將卷積層填充模式設為same,BERT模型選用混合語言模型來確保模型初始權重的相同。通過多次對比實驗,發(fā)現(xiàn)取表2 參數(shù)時,BERT-CMCNN分類模型效果最好。

表2 模型參數(shù)設置
3.2.1 實驗方法與內容
本小節(jié)采用Word2vec、Glove、ELMo和BERT不同詞向量模型,對4個數(shù)據(jù)集做情感分類對比實驗,目的是驗證選擇BERT模型更合理。實驗結果數(shù)據(jù)如表3所示。
3.2.2 實驗結果與分析
從表3 可以看出,Glove-CMCNN 模型結果優(yōu)于Word2vec-CMCNN,是因為Glove 通過矩陣分解的方法利用詞共現(xiàn)信息,在關注上下文的同時還學習到了全局信息,在語義表征能力上有所提升。而ELMo 與BERT都可以動態(tài)表示詞向量,根據(jù)下游任務對語義表征能力進行微調,幫助模型學習領域知識,提高了了多義詞的識別效率,同時產(chǎn)生的詞向量特征更為豐富,因而模型得分均獲得了大幅度的提高。

表3 基于不同詞向量模型的對比結果 %
進一步觀察表3 可知,相比于Word2vec 模型而言,ELMo 在4 組數(shù)據(jù)集上的準確率、召回率、F1 分數(shù)平均分別提高了4.16、4.84 和4.50 個百分點。不同于ELMo使用LSTM 進行詞向量特征提取的方法,BERT 采用更為強大Transformer 編碼器進行情感表征,特征提取能力得到進一步提高,相比ELMo模型,BERT模型在4組數(shù)據(jù)集上F1 分數(shù)分別提高了2.54、1.92 和2.22 個百分點,在4 組數(shù)據(jù)集上使用BERT 作為詞向量工具的模型均取得了最高F1 分數(shù)。
3.3.1 實驗方法與內容
實驗設置了3 組消融實驗,分別改變BERT 模型后神經(jīng)網(wǎng)絡的組合方式來證明本文模型組合方式的合理性。實驗結果如表4所示。

表4 不同組合方式在4種數(shù)據(jù)集上的消融實驗結果 %
3.3.2 實驗結果與分析
根據(jù)表4 所示實驗結果,本文模型使用BiLSTMMCNN(CMCMM)模型組合方式的實驗結果會優(yōu)于MCNN-MCNN 以及BiLSTM-BiLSTM 模型組合方式的實驗結果,因為僅使用MCNN 組合的模型雖然可以學習到多層次的語義,但其缺乏提取文本的上下文信息的能力,而僅使用BiLSTM組合的模型在多層次語義特征提取能力上更弱。相比BiLSTM-BiLSTM 模型以及MCNN-MCNN 模型,本文提出的模型在4 組數(shù)據(jù)集上的準確率、召回率、F1 分數(shù)平均分別提高了2.04、2.39、1.93個百分點和1.91、2.01、1.68個百分點。
3.4.1 實驗方法與內容
為了驗證文本提出BERT-CMCNN 模型的有效性,本小節(jié)將此模型和3 種典型的神經(jīng)網(wǎng)絡模型,3 種近期提出的基于BERT 深度學習模型,在4 個數(shù)據(jù)集上進行對比實驗,這7組實驗模型介紹如下。
(1)CNN:基于文獻[17]提出的卷積神經(jīng)網(wǎng)絡模型,使用獨立的句子作為網(wǎng)絡模型的輸入,忽略了文本序列的時序問題,也忽略了句子長距離依賴關系。是基礎的卷積網(wǎng)絡模型。
(2)BiLSTM:基于文獻[18]提出的BiLSTM模型,該模型可以處理時間序列,但輸入的文本序列未能進行特征提取工作,邊緣信息會干擾模型分類結果,無法有效判別句子的情感極性。
(3)BiLSTM-CNN:基于文獻[19]提出的結合BiLSTM和CNN的模型。輸入序列先通過BiLSTM處理后再作為CNN的輸入進行局部語義特征提取。在情感分析任務中該模型取得了比以往單一模型更好的效果,但未融合循環(huán)機制在CNN中,局部語義提取效果仍不顯著。
(4)BERT:基于文獻[10]提出一種基于遷移學習的預訓練模型,采用Transformer 的Encoder 模塊來構建,結合多頭注意力機制和前饋神經(jīng)網(wǎng)絡去學習輸入信息,相比傳統(tǒng)的神經(jīng)網(wǎng)絡而言取得了重大的突破。
(5)BERT-CNN:基于文獻[20]提出的結合BERT 和CNN 的模型,在BERT 模型后添加一層CNN 來進一步提取輸入序列的情感特征,使模型能夠很好地處理情感分析的任務。
(6)BERT-BiLSTM:基于文獻[13]提出的結合BERT和BiLSTM 的模型,在BERT 模型后使用BiLSTM 進一步獲取文本的上下文信息,使得模型在情感分類任務獲得了更好的效果。
(7)BERT-CMCNN:文本提出的結合BERT 的多層次語義協(xié)同網(wǎng)絡模型。在學習序列上下文關系的同時抓取了序列多層次的情感特征,幫助模型在后續(xù)訓練中學習到目標領域的知識,使得模型更好地適應情感分類任務,并在該任務中表現(xiàn)出色。
3.4.2 實驗結果與分析
根據(jù)表5 所示的實驗結果,基于遷移學習思想的BERT模型分類效果遠高于傳統(tǒng)神經(jīng)網(wǎng)絡模型的分類效果(表5中,P、R、F分別代表精準率、召回率和F1值)。CNN、BiLSTM和BiLSTM-CNN在4個數(shù)據(jù)集上的平均F1 分數(shù)只有76.91%、78.78%和79.81%,而BERT模型相比傳統(tǒng)神經(jīng)網(wǎng)絡,在4 個數(shù)據(jù)集上的平均F1 分數(shù)比基礎的CNN、BiLSTM 和BiLSTM-CNN 模型總體提高了8.03、6.16和5.13個百分點。文本提出的BERT-CMCNN模型在4 個數(shù)據(jù)集上都取得了比其他網(wǎng)絡模型更好的分類效果。該模型在4個數(shù)據(jù)集上的平均F1 分數(shù)比傳統(tǒng)神經(jīng)網(wǎng)絡中表現(xiàn)最好的BiLSTM-CNN 網(wǎng)絡模型在4個數(shù)據(jù)集上的平均F1 分數(shù)提高了8.48 個百分點,在表現(xiàn)最好的Conv19 數(shù)據(jù)集上模型效果提高了15.08 個百分點。相比使用了BERT模型的網(wǎng)絡結構,本文提出的BERT-CMCNN 模型相比傳統(tǒng)的BERT 模型在4 個數(shù)據(jù)集上的平均F1 分數(shù)提高了3.63個百分點,在表現(xiàn)最好的Cov19數(shù)據(jù)集上模型效果提高了4.16個百分點,相比近期提出的BERT-CNN模型和BERT-BiLSTM模型也均有提高,F(xiàn)1 分數(shù)平均提高了2.87 個百分點和2.25 個百分點。如圖9~12所示,在4組數(shù)據(jù)集上本文模型的收斂速度均快于其他對比模型,驗證了本文提出方法的有效性。

圖9 o2o數(shù)據(jù)集上4種模型分數(shù)變化曲線

表5 不同模型在4種數(shù)據(jù)集上的結果 %

圖10 Cov19數(shù)據(jù)集上4種模型分數(shù)變化曲線

圖11 SST2數(shù)據(jù)集上4種模型分數(shù)變化曲線

圖12 Twitter數(shù)據(jù)集上4種模型分數(shù)變化曲線
同時本文對MCNN 中的協(xié)同通道數(shù)進行多次試驗,測試模型在4組數(shù)據(jù)集上訓練過程的平均F1 分數(shù),如圖13所示。分別使用二通道(K2)、三通道(K3)和四通道(K4)的協(xié)同模型進行實驗,實驗發(fā)現(xiàn)通道數(shù)過多會影響模型的時間成本但模型分類效果并無明顯提高,過少則會影響模型的分類準確性和收斂速度,故本文采用三通道模型來提取多層次情感特征。對于卷積核大小的取值決定了不同層次情感特征的來源,故本文以三通道模型為前提,對卷積核大小組合的取值做了實驗分析,發(fā)現(xiàn)卷積核在取[2,3,4]時模型分類效果最佳,如圖14所示。

圖13 不同通道數(shù)模型分數(shù)變化曲線

圖14 不同卷積核組合模型分數(shù)變化曲線
本文針對基于遷移學習思想的BERT 模型在不同目標任務中會缺乏領域知識和目標相關知識,提出了基于BERT多層次語義協(xié)同模型,將其應用于情感分析任務中。通過和傳統(tǒng)神經(jīng)網(wǎng)絡模型以及近期提出的基于遷移學習思想的模型在情感分類任務實驗對比,驗證了BERT-CMCNN模型具有更好的分類性能。本文研究模型的實驗內容限于二分類和三分類問題,未來需要針對情感極性更細膩的問題,研究本文模型的有效性。