999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于變分自編碼的半監(jiān)督微博文本情感分析

2021-12-14 01:28:42賈云飛孫佳慧
關(guān)鍵詞:分類(lèi)監(jiān)督文本

韓 萍 劉 爽 賈云飛 孫佳慧

1(中國(guó)民航大學(xué)電子信息與自動(dòng)化學(xué)院 天津 300300)2(中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)3(中國(guó)民航大學(xué)基礎(chǔ)實(shí)驗(yàn)中心 天津 300300)

0 引 言

由于社交媒體的普及和發(fā)布信息的低門(mén)檻,來(lái)自社交媒體的情緒和觀點(diǎn)能提供最新最廣泛的信息。其中,微博改變了傳統(tǒng)的社交網(wǎng)絡(luò)交流方式,以其短小精煉與實(shí)時(shí)的特點(diǎn),迅速成為極具人氣的社交網(wǎng)絡(luò)平臺(tái)與新媒體平臺(tái)。新浪微博2019年第三季度財(cái)報(bào)顯示,截至2019年9月底,微博日活躍用戶增至2.16億。對(duì)微博進(jìn)行情感分析不僅對(duì)傳統(tǒng)消費(fèi)者和企業(yè)收集有關(guān)產(chǎn)品或服務(wù)的意見(jiàn)具有重要意義,而且對(duì)國(guó)家安全和輿情分析也具有重要作用[1]。目前主流的情感分析方法有以下三種:基于情感知識(shí)、基于特征分類(lèi)和基于深度學(xué)習(xí)的方法[2-4]。基于情感知識(shí)的方法通過(guò)構(gòu)建情感詞典,結(jié)合情感詞典中的語(yǔ)義規(guī)則,進(jìn)行情感計(jì)算來(lái)實(shí)現(xiàn)情感極性判別。文獻(xiàn)[5]通過(guò)N-gram特征構(gòu)建兩級(jí)情感詞典取得92.50%的準(zhǔn)確率。但是隨著網(wǎng)絡(luò)新詞的不斷涌現(xiàn)以及表情符號(hào)等非文字的表達(dá)形式的出現(xiàn),顯然依賴(lài)情感詞典的構(gòu)建不能完全表達(dá)整體的語(yǔ)義關(guān)系。基于特征分類(lèi)的方法是提取文本中攜帶情感信息的有用特征并通過(guò)機(jī)器學(xué)習(xí)方法將其視為分類(lèi)問(wèn)題來(lái)處理[6]。文獻(xiàn)[7]首次提出使用機(jī)器學(xué)習(xí)方法進(jìn)行情感分類(lèi),并使用樸素貝葉斯、支持向量機(jī)和最大熵等方法進(jìn)行嘗試。傳統(tǒng)的機(jī)器學(xué)習(xí)方法仍然依賴(lài)于人工設(shè)計(jì),而人工設(shè)計(jì)的特征具有一定的局限性,在某一領(lǐng)域的特征集不一定適用于其他領(lǐng)域。

隨著深度神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)音識(shí)別和圖像分類(lèi)等領(lǐng)域取得了巨大的成功,深度學(xué)習(xí)方法在情感分類(lèi)問(wèn)題上也取得很大的進(jìn)展,其通過(guò)大量的參數(shù)學(xué)習(xí)有用的抽象特征從而提高模型的性能。文獻(xiàn)[8]構(gòu)建字級(jí)別詞向量和詞級(jí)別詞向量的卷積神經(jīng)網(wǎng)絡(luò)(CNN),準(zhǔn)確率達(dá)到95.42%和94.65%。但CNN在自然語(yǔ)言處理的并行化操作中忽略非連續(xù)詞之間的關(guān)系。文獻(xiàn)[9]將注意力機(jī)制應(yīng)用到CNN的輸入端,并在輸出端融入樹(shù)型的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),取得87.12%的準(zhǔn)確率。文獻(xiàn)[10]中提出基于Word2Vec和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的情感分類(lèi)模型(WEEF-BiLSTM),利用雙向長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)取得比較完整的上下文信息后經(jīng)過(guò)SVM進(jìn)行情感分類(lèi)。雙向LSTM既解決了RNN由于內(nèi)部的梯度消失或梯度爆炸而不能實(shí)現(xiàn)文本的長(zhǎng)期依賴(lài)問(wèn)題,又從正序和逆序兩個(gè)方向?qū)崿F(xiàn)語(yǔ)義較完整的學(xué)習(xí)。

然而,為了充分利用深度神經(jīng)網(wǎng)絡(luò)模型的能力,需大量正確的標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練模型,屬于有監(jiān)督學(xué)習(xí)。但收集大量的有標(biāo)記數(shù)據(jù)所需成本很高。僅在學(xué)術(shù)研究中,有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)至少需要上萬(wàn)條有標(biāo)記的數(shù)據(jù),例如,文獻(xiàn)[11]中提到“Yelp 2013數(shù)據(jù)集是最大點(diǎn)評(píng)網(wǎng)站數(shù)據(jù)集中2013年的餐廳評(píng)論數(shù)據(jù)集,包含了78 977條文本評(píng)論數(shù)據(jù)[11]”,在實(shí)際應(yīng)用中的數(shù)據(jù)量會(huì)更加龐大,學(xué)術(shù)研究和實(shí)際需要發(fā)展了無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的應(yīng)用。

半監(jiān)督學(xué)習(xí)在近幾年來(lái)取得理論突破,受到廣泛學(xué)者的青睞。文獻(xiàn)[12]通過(guò)訓(xùn)練度閾值設(shè)定的方法優(yōu)化保留自訓(xùn)練(reserved self-training),準(zhǔn)確率為87.05%。文獻(xiàn)[13-15]本質(zhì)上都是從提高預(yù)測(cè)標(biāo)簽置信度的方面出發(fā),不斷利用有標(biāo)簽的數(shù)據(jù)提高分類(lèi)器的分類(lèi)表現(xiàn),其內(nèi)部是有監(jiān)督的過(guò)程,卻忽略了利用大量無(wú)標(biāo)簽數(shù)據(jù)可以挖掘數(shù)據(jù)內(nèi)部特征表達(dá)來(lái)實(shí)現(xiàn)準(zhǔn)確分類(lèi)的問(wèn)題。

針對(duì)以上不足,本文將適用于文本序列的深度神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為半監(jiān)督變分自編碼模型中編碼器與解碼器,用來(lái)編碼原始文本序列與生成新的文本序列。將其衍生模型雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)作為半監(jiān)督變分自編碼模型中的分類(lèi)器,其作用是為編碼器提供標(biāo)簽信息共同生成隱變量,并為解碼器提供標(biāo)簽信息,與隱變量共同生成新樣本。整體模型通過(guò)優(yōu)化原始樣本與真實(shí)樣本之間的目標(biāo)函數(shù)實(shí)現(xiàn)分類(lèi)器準(zhǔn)確率的提升。

1 基于變分自編碼的半監(jiān)督分類(lèi)模型

1.1 變分自編碼

變分自編碼器(Variational Autoencoder,VAE)是一種基于標(biāo)準(zhǔn)變分自編碼模型正則化版本的生成模型,通過(guò)生成的樣本不斷逼近原始樣本從而獲取其表征樣本特性的隱含層特征,結(jié)構(gòu)如圖1所示。

圖1 變分自編碼結(jié)構(gòu)

(1)

式中:pθ(x|z)表示由隱變量z重構(gòu)數(shù)據(jù)x的概率分布;pθ(z)表示隱變量z的先驗(yàn)分布,常采用標(biāo)準(zhǔn)高斯分布N(0,1)[16]。為了使利用z生成的樣本能與原始樣本對(duì)應(yīng),采用pθ(z|x)表示由原始數(shù)據(jù)通過(guò)學(xué)習(xí)得到隱變量z的概率分布。由于真實(shí)的后驗(yàn)分布pθ(z|x)計(jì)算困難,采用具有對(duì)角線協(xié)方差結(jié)構(gòu)的多元高斯分布qφ(z|x)(φ為編碼參數(shù))來(lái)逼近真實(shí)的后驗(yàn)概率分布。pθ(z|x)與qφ(z|x)分布的KL散度見(jiàn)式(2),編碼器用來(lái)參數(shù)化均值μ和標(biāo)準(zhǔn)差σ,Dense為全連接層,新樣本可通過(guò)解碼高斯隱空間N(μ,diag(σ2))的采樣點(diǎn)得到,由于N(μ,diag(σ2))的采樣過(guò)程不可微,利用μ+N(0,1)×σ來(lái)代替z來(lái)進(jìn)行模型參數(shù)的更新。

KL(qφ(z|x)‖pθ(z|x))=

Eqφ(z|x)[logqφ(z|x)-logpθ(z|x)]

(2)

式中:KL散度為x~qφ(z|x)時(shí)兩個(gè)分布對(duì)數(shù)差的期望值,用于衡量?jī)蓚€(gè)分布的相似程度,其值非負(fù),值越小,分布越相似。利用貝葉斯公式將式(2)中l(wèi)ogpθ(z|x)變換為:

logpθ(z|x)=logpθ(x|z)+logpθ(z)-logpθ(x)

(3)

將式(3)代入式(2)可得:

logpθ(x)=KL(qφ(z|x)||pθ(z|x))+

Eqφ(z|x)[logpθ(x|z)-logqφ(z|x)+logpθ(z)]

(4)

由式(4)可知,logpθ(x)是需要最大化的對(duì)數(shù)似然函數(shù),又為了使近似后驗(yàn)分布接近真實(shí)后驗(yàn)分布,即KL(qφ(z|x)||pθ(z|x))接近于0,則須最大化式(4)中等號(hào)右側(cè)的第二項(xiàng),稱(chēng)其為logpθ(x)的變分下界L(θ,φ;x),可由變分下界構(gòu)成VAE的目標(biāo)函數(shù)(對(duì)于第i個(gè)樣本):

L(θ,φ;x(i))=-KL(qφ(z|x(i))‖pθ(z))+

Eqφ(z|x(i))(logpθ(x(i)|z))

(5)

目標(biāo)函數(shù)由兩部分組成:KL(qφ(z|x(i))‖pθ(z))為正則化項(xiàng);Eqφ(z|x(i))(logpθ(x(i)|z))為重構(gòu)誤差。與自編碼類(lèi)似,qφ(z|x(i))表示變分參數(shù)為φ的編碼器;pθ(x(i)|z)表示變分參數(shù)為θ的解碼器。

1.2 模型描述

一般基于變分自編碼模型,本文給出的模型結(jié)構(gòu)主要包含分類(lèi)器(情感預(yù)測(cè))、編碼器和解碼器三個(gè)部分,分別對(duì)應(yīng)qφ(y|x)、qφ(z|x,y)、pθ(x|y,z)。其結(jié)構(gòu)如圖2所示。

圖2 本文模型結(jié)構(gòu)

由1.1節(jié)可知,變分自編碼器是一種無(wú)監(jiān)督的學(xué)習(xí)方法,而在半監(jiān)督的變分自編碼結(jié)構(gòu)中,對(duì)于輸入x分為有標(biāo)簽的數(shù)據(jù)和無(wú)標(biāo)簽的數(shù)據(jù)兩種,目標(biāo)函數(shù)為最大化其變分下界,有標(biāo)簽的logpθ(x,y)和無(wú)標(biāo)簽的logpθ(x)分別滿足以下條件:

logpθ(x,y)≥

Eqφ(z|x,y)[logpθ(x|y,z)]+logpθ(y)-

KL(qφ(z|x,y)‖pθ(z))=

L(x,y)

(6)

logpθ(x)≥

Eqφ(y,z|x)[logpθ(x|y,z)]+logpθ(y)-

KL(qφ(y,z|x)‖pθ(z))=

U(x)

(7)

式中:H(·)為熵函數(shù)。

除此之外,還利用有標(biāo)簽的數(shù)據(jù)添加分類(lèi)損失,總體的目標(biāo)函數(shù)變?yōu)樽钚』疛:

(8)

1.3 分類(lèi)器

采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)作為分類(lèi)器,其作用是估計(jì)標(biāo)簽分布y~qφ(y|x)。

(9)

(10)

(11)

(12)

1.4 編碼器

(13)

z~N(μ(x,y) diag(σ2(x,y)))

(14)

(15)

(16)

式中:Wμ∈Rdz×(dh+|y|),Wσ∈Rdz×(dh+|y|),y∈R|y|是y的one-hot向量,[∶]為向量的拼接操作。

1.5 解碼器

解碼器的目標(biāo)是序列條件生成模型,將采樣的隱變量z和標(biāo)簽y作為輸入,估計(jì)生成序列模型的概率pθ(x|y,z),對(duì)于輸入一個(gè)序列x={x1,x2,…,xT},其概率為:

(17)

解碼過(guò)程如下:

(18)

(19)

(20)

式中:Wd∈R(|y|+dz)×dh,WP∈Rdh×|x|,|x|為輸入詞典的維度。

2 算法流程

本文模型的算法流程如圖3所示。

圖3 算法總體結(jié)構(gòu)流程

算法步驟如下:

(1) 文本預(yù)處理:首先使用結(jié)巴(Jieba)分詞工具對(duì)每一條微博進(jìn)行分詞處理,然后采用哈工大停用詞表對(duì)文本中涉及的俚語(yǔ)、特定術(shù)語(yǔ)縮寫(xiě)、用戶昵稱(chēng)、URL、標(biāo)點(diǎn)符號(hào)等字符串進(jìn)行去噪處理。

(2) 文本詞向量表示:利用Word2Vec中的skip-gram模型對(duì)語(yǔ)料進(jìn)行訓(xùn)練得到文本的詞向量。詞向量是詞語(yǔ)到實(shí)數(shù)維向量空間的復(fù)雜映射,每個(gè)詞向量的維度是300維。

(3) 編碼器將詞向量矩陣編碼得到的向量與分類(lèi)器得到的類(lèi)概率向量拼接后,進(jìn)行VAE編碼,得到隱變量z的分布qφ(y|x)其維度為150維。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)集為COAE2014(公開(kāi)微博情感傾向性測(cè)評(píng)),該數(shù)據(jù)集共4萬(wàn)條微博,其中已知5 000條微博的極性。摘取其中幾條如表1所示,其中積極樣例中的第一句人工標(biāo)注易出錯(cuò),第二句相對(duì)較長(zhǎng),人工標(biāo)注費(fèi)時(shí)費(fèi)力。采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)設(shè)計(jì)的變分編碼模型可以較好地對(duì)以上微博文本進(jìn)行分類(lèi)(表中*部分代指某些品牌)。

表1 COAE2014數(shù)據(jù)樣例

3.2 實(shí)驗(yàn)設(shè)計(jì)

在5 000條有標(biāo)簽的數(shù)據(jù)中,測(cè)試集與訓(xùn)練集比例為1∶4;35 000條無(wú)標(biāo)簽數(shù)據(jù)同時(shí)用于本文模型中。證明算法在微博情感分類(lèi)上的有效性,設(shè)計(jì)兩組實(shí)驗(yàn)。

實(shí)驗(yàn)1:分析本模型中參數(shù)對(duì)分類(lèi)效果的影響。

實(shí)驗(yàn)2:將本文模型與使用相同數(shù)據(jù)集的其他文獻(xiàn)進(jìn)行對(duì)比,證明算法有效性,并可視化模型優(yōu)化過(guò)程。

3.3 模型參數(shù)

實(shí)驗(yàn)環(huán)境是Intel CPU 1.70 GHz,8 GB內(nèi)存和Windows 7系統(tǒng),使用Python35和TensorFlow深度學(xué)習(xí)開(kāi)源框架實(shí)現(xiàn)。主要參數(shù)如表2所示。

表2 模型參數(shù)設(shè)置

3.4 評(píng)估標(biāo)準(zhǔn)

本文評(píng)估模型通過(guò)準(zhǔn)確率的高低來(lái)評(píng)估模型的性能是否優(yōu)于其他模型。

(21)

式中:Acc代表模型的實(shí)驗(yàn)準(zhǔn)確率;T代表模型預(yù)測(cè)正確的文本;N為參與預(yù)測(cè)的文本總數(shù)。

3.5 結(jié)果分析

3.5.1不同比例標(biāo)記數(shù)據(jù)的分類(lèi)效果

為了驗(yàn)證本文方法在標(biāo)記數(shù)據(jù)比例不同時(shí)的分類(lèi)性能,借此來(lái)檢驗(yàn)半監(jiān)督算法的有效性。分別對(duì)訓(xùn)練集中的5%、20%、40%和65%的有標(biāo)簽數(shù)據(jù)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可以看出隨著有標(biāo)簽數(shù)據(jù)的增加,模型的分類(lèi)準(zhǔn)確率不斷提高,當(dāng)有標(biāo)記數(shù)據(jù)占訓(xùn)練樣本的20%時(shí),分類(lèi)準(zhǔn)確率出現(xiàn)較大幅度的提升,提升6.2百分點(diǎn)。說(shuō)明了本文的半監(jiān)督算法僅利用少量的有標(biāo)簽數(shù)據(jù)就可以對(duì)微博情感進(jìn)行較準(zhǔn)確的分類(lèi)。

圖4 不同比例標(biāo)記數(shù)據(jù)的結(jié)果

3.5.2隱變量維度對(duì)分類(lèi)效果的影響

隱變量是描述數(shù)據(jù)內(nèi)部高級(jí)的特征變量,其維度大小對(duì)分類(lèi)效果的影響如圖5所示。在其他參數(shù)不變,隱變量維度為150時(shí),準(zhǔn)確率最高。在維度較低時(shí),隱變量無(wú)法完整表達(dá)數(shù)據(jù)特征;在維度較高時(shí),模型容易陷入局部最優(yōu)值,出現(xiàn)過(guò)擬合。

圖5 隱變量不同維度的準(zhǔn)確率

3.5.3不同模型最佳參數(shù)的分類(lèi)結(jié)果

對(duì)實(shí)驗(yàn)2的分類(lèi)準(zhǔn)確率進(jìn)行對(duì)比,并且可視化模型目標(biāo)函數(shù)優(yōu)化過(guò)程圖6所示,在迭代150次后模型就達(dá)到收斂狀態(tài)。由表3可知,本文模型在COAE2014數(shù)據(jù)集上取得了95.85%的準(zhǔn)確率,在所有對(duì)比方法中表現(xiàn)最優(yōu)。并且該算法的準(zhǔn)確率也較自訓(xùn)練的半監(jiān)督方法提高8.8百分點(diǎn),說(shuō)明生成模型的隱變量可以較好地表征數(shù)據(jù)內(nèi)部特征,實(shí)現(xiàn)更準(zhǔn)確的分類(lèi)。

圖6 模型目標(biāo)函數(shù)優(yōu)化過(guò)程

表3 不同模型最佳參數(shù)的分類(lèi)結(jié)果(%)

4 結(jié) 語(yǔ)

在微博情感分析任務(wù)中,本文借鑒半監(jiān)督與生成模型的思想,構(gòu)建基于變分自編碼的半監(jiān)督模型用于情感分類(lèi)。該模型在變分自編碼的基礎(chǔ)上提供標(biāo)簽信息來(lái)更好的重構(gòu)數(shù)據(jù)。其優(yōu)點(diǎn)在于:① 采用長(zhǎng)短期記憶網(wǎng)絡(luò)編碼和解碼文本序列,更全面地考慮文本的上下文關(guān)系,使重構(gòu)樣本更加貼近真實(shí)樣本,提高學(xué)習(xí)效率;② 采用變分自編碼的生成模型可以更準(zhǔn)確地刻畫(huà)文本的真實(shí)分布從而提高分類(lèi)準(zhǔn)確率。該算法可以為提高算法推薦、用戶信譽(yù)評(píng)價(jià)和輿論分析等結(jié)果提供良好的模型基礎(chǔ)。由于目前的研究沒(méi)有實(shí)現(xiàn)實(shí)時(shí)分類(lèi)的問(wèn)題,后續(xù)將對(duì)此進(jìn)行改進(jìn)。

猜你喜歡
分類(lèi)監(jiān)督文本
分類(lèi)算一算
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
在808DA上文本顯示的改善
分類(lèi)討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
監(jiān)督見(jiàn)成效 舊貌換新顏
夯實(shí)監(jiān)督之基
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产97色在线| 自拍偷拍欧美| 婷婷综合在线观看丁香| 中国国产一级毛片| 伊人久久精品无码麻豆精品 | 亚洲日韩精品欧美中文字幕| 亚洲欧美精品一中文字幕| 青青青视频91在线 | 日韩无码一二三区| 57pao国产成视频免费播放| 国产黄色视频综合| 日本在线国产| 国产欧美日韩视频怡春院| 91成人免费观看在线观看| 国产精品亚洲欧美日韩久久| 五月婷婷丁香综合| 久久中文电影| 日韩国产综合精选| 午夜小视频在线| 国产香蕉97碰碰视频VA碰碰看| 亚洲国产成人在线| 色天堂无毒不卡| 国产美女91视频| 午夜性爽视频男人的天堂| 四虎免费视频网站| 免费观看欧美性一级| 国产精品美女在线| 五月婷婷精品| 高清久久精品亚洲日韩Av| 日韩av手机在线| 67194亚洲无码| 国产成人乱码一区二区三区在线| 日韩在线播放中文字幕| 久久公开视频| 国产无遮挡裸体免费视频| 九色在线观看视频| 国产专区综合另类日韩一区| 国产女人18水真多毛片18精品 | 亚洲V日韩V无码一区二区| 91成人精品视频| 天堂网国产| 米奇精品一区二区三区| 国产制服丝袜91在线| 免费av一区二区三区在线| 97视频在线观看免费视频| 成人一级黄色毛片| 91成人在线观看视频| 丁香六月激情综合| 国产va在线观看免费| 国产成人综合日韩精品无码首页 | 国产精品思思热在线| 2020国产免费久久精品99| 免费国产在线精品一区| 女人18毛片一级毛片在线| 亚洲欧美精品在线| 国产91小视频在线观看| 99精品一区二区免费视频| 欧美日韩福利| 91口爆吞精国产对白第三集| 欧美第九页| 黄色网页在线播放| 欧美色伊人| 久久久久久久蜜桃| 91麻豆精品国产高清在线| 99无码中文字幕视频| 久久99国产精品成人欧美| 在线免费不卡视频| 国产精品漂亮美女在线观看| 国产清纯在线一区二区WWW| а∨天堂一区中文字幕| 亚洲欧美天堂网| 天天摸天天操免费播放小视频| 亚洲激情区| 欧美狠狠干| 国产jizzjizz视频| 欧美午夜视频| 五月天久久综合| 99久久精品国产精品亚洲| 无码人中文字幕| 中国精品自拍| 人妻熟妇日韩AV在线播放| 扒开粉嫩的小缝隙喷白浆视频|