999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度表示學(xué)習(xí)和高斯過程遷移學(xué)習(xí)的情感分析方法

2017-04-25 07:32:05吳冬茵徐睿峰
中文信息學(xué)報 2017年1期
關(guān)鍵詞:分類特征文本

吳冬茵,桂 林,陳 釗,徐睿峰

(1.哈爾濱工業(yè)大學(xué)深圳研究生院 計算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;2.騰訊科技(深圳)有限公司,廣東 深圳 518055)

基于深度表示學(xué)習(xí)和高斯過程遷移學(xué)習(xí)的情感分析方法

吳冬茵1,桂 林1,陳 釗2,徐睿峰1

(1.哈爾濱工業(yè)大學(xué)深圳研究生院 計算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;2.騰訊科技(深圳)有限公司,廣東 深圳 518055)

情感分析是自然語言處理領(lǐng)域的重要研究問題。現(xiàn)有方法往往難以克服樣本偏置與領(lǐng)域依賴問題,嚴(yán)重制約了情感分析的發(fā)展和應(yīng)用。為此,該文提出了一種基于深度表示學(xué)習(xí)和高斯過程知識遷移學(xué)習(xí)的情感分析方法。該方法首先利用深度神經(jīng)網(wǎng)絡(luò)獲得文本樣本的分布式表示,而后基于深度高斯過程,從輔助數(shù)據(jù)中遷移與測試集數(shù)據(jù)分布相符的高質(zhì)量樣例擴(kuò)充訓(xùn)練數(shù)據(jù)集用于分類器訓(xùn)練,以此提高文本情感分類系統(tǒng)性能。在COAE2014文本情感分類數(shù)據(jù)集上進(jìn)行的實(shí)驗結(jié)果顯示,該文提出的方法可以有效提高文本情感分類性能,同時可以有效緩解訓(xùn)練數(shù)據(jù)的樣本偏置以及領(lǐng)域依賴問題的影響。

情感分析;深度表示學(xué)習(xí);高斯過程;遷移學(xué)習(xí)

1 引言

互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,吸引了大量用戶在網(wǎng)絡(luò)平臺上分享生活、表達(dá)觀點(diǎn)。隨著海量用戶生成文本的不斷積累,對文本中包含的情感進(jìn)行分析,獲取用戶對特定事件、人物或產(chǎn)品的評價與態(tài)度的文本情感分析研究,正在成為自然語言處理領(lǐng)域的研究熱點(diǎn)。

傳統(tǒng)的文本情感分析技術(shù)主要分為基于規(guī)則的方法和基于統(tǒng)計的機(jī)器學(xué)習(xí)方法。前者依托語言學(xué)研究成果,主要利用人工構(gòu)建規(guī)則和情感詞典,對文本的情感傾向性進(jìn)行分析[1];后者主要利用人工標(biāo)注的訓(xùn)練語料,提取文本特征并建立統(tǒng)計模型,實(shí)現(xiàn)文本情感傾向性的分類。近年來,基于深度表示學(xué)習(xí)的方法在文本情感分析任務(wù)中也得到很大發(fā)展。目前主流的基于有監(jiān)督學(xué)習(xí)的方法需要大量人工標(biāo)注的訓(xùn)練語料,來提高模型的學(xué)習(xí)能力和泛化能力,但人工標(biāo)注代價往往偏高,面向?qū)嶋H應(yīng)用的大量標(biāo)注數(shù)據(jù)也很難獲得。另外,基于統(tǒng)計機(jī)器學(xué)習(xí)的方法通常假設(shè)訓(xùn)練語料和測試語料是獨(dú)立同分布的,然而這個假設(shè)在實(shí)際應(yīng)用中往往難以得到滿足。這就意味著這些方法難以克服樣本偏置和領(lǐng)域依賴的問題。

針對這些問題,本文提出了一種基于深度表示學(xué)習(xí)和高斯遷移過程的文本情感分析方法。該方法首先利用詞向量模型和卷積神經(jīng)網(wǎng)絡(luò)獲得文本樣本的分布式表示。而后,基于k近鄰的深度高斯過程設(shè)計了一種非對稱遷移學(xué)習(xí)方法,通過從輔助數(shù)據(jù)中遷移與測試集數(shù)據(jù)分布相符的高質(zhì)量樣例擴(kuò)充訓(xùn)練數(shù)據(jù)集,實(shí)現(xiàn)遷移學(xué)習(xí)用于分類器訓(xùn)練。由于這一方法不需要滿足獨(dú)立同分布假設(shè),可以使用從一個領(lǐng)域?qū)W習(xí)到的知識幫助學(xué)習(xí)新領(lǐng)域的知識,因此有望提高文本情感分類的性能。在2014中文觀點(diǎn)傾向性分析評測(Chinese Opinion Analysis Evaluation,COAE2014)數(shù)據(jù)集上的實(shí)驗顯示,本文提出的方法性能優(yōu)于目前主流的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN[2])和基線的樸素貝葉斯支持向量機(jī)(Na?ve Bayes Support Vector Machines,NBSVM[3])方法,顯示出本文提出的思路可以有效提高文本情感分類性能,同時可以緩解訓(xùn)練數(shù)據(jù)樣本偏置以及領(lǐng)域依賴的影響。

本文的內(nèi)容組織如下:第二節(jié)簡單回顧情感分析以及遷移學(xué)習(xí)的相關(guān)研究工作;第三節(jié)介紹本文提出的基于深度表示學(xué)習(xí)和高斯過程遷移學(xué)習(xí)的情感分析方法;第四節(jié)通過實(shí)驗評估本文提出的方法的有效性;第五節(jié)給出本文的總結(jié)和展望。

2 相關(guān)工作

文本情感分析研究旨在通過分析文本的語義傾向性特征,識別出文本所包含的情感傾向。目前,文本情感分析技術(shù)大體分為基于規(guī)則的方法和基于統(tǒng)計機(jī)器學(xué)習(xí)的方法。前者主要利用語言學(xué)知識,如語言表達(dá)規(guī)則和情感詞典進(jìn)行分析。Taboada[4]利用情感詞典及詞性定義情感詞的語義傾向得分,并將其按特定規(guī)則組合計算,以此判斷文本的情感傾向性。Fu[5]等根據(jù)模糊集合和量化情感詞典解決情感分類及詞語極性強(qiáng)烈程度分級。Bollegala[6]等人利用不同領(lǐng)域情感表達(dá)方式的共性來構(gòu)建領(lǐng)域相關(guān)的情感詞典,擴(kuò)充文本特征,以此提高跨領(lǐng)域情感分類的效果。基于規(guī)則的方法可以直觀地給出文本情感傾向性的計算方法,但其性能受限于人工規(guī)則的完備程度和情感詞典的覆蓋率限制,難以快速處理新類型的文本數(shù)據(jù)。

基于統(tǒng)計機(jī)器學(xué)習(xí)的情感分析方法利用人工標(biāo)注的訓(xùn)練語料,提取文本情感傾向性特征并建立統(tǒng)計模型,從而自動判別未知數(shù)據(jù)的文本情感傾向性。Pang[7]采用基于N-gram的詞語特征和詞性特征,將樸素貝葉斯(Naive Bayesian,NB)、最大熵(Maximum Entropy,ME)和支持向量機(jī)(Support Vector Machines,SVMs)三個機(jī)器學(xué)習(xí)模型應(yīng)用到文本情感分類,為后續(xù)的研究提供了參考。Zhao[8]提出利用句子上下文信息和添加冗余標(biāo)簽來建立基于條件隨機(jī)場(Conditional Random Fields,CRFs)的三層分類模型,有效降低了分類錯誤在不同層級間的傳播。近幾年,基于深度神經(jīng)網(wǎng)絡(luò)和表示學(xué)習(xí)的方法在文本情感分析研究中得到了較多應(yīng)用。Socher[9]在句法分析樹的基礎(chǔ)上,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對電影評論文本進(jìn)行情感傾向性分類,分別在細(xì)粒度情感分析數(shù)據(jù)集和正負(fù)情感傾向性分析數(shù)據(jù)集上取得了顯著的效果。Kim[2]利用word2vec訓(xùn)練得到的詞向量,將文本數(shù)據(jù)映射到文本特征矩陣,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對文本的情感傾向性分類。Sun[10]使用微博評論擴(kuò)展原微博文本,結(jié)合多層限制玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)與深度神經(jīng)網(wǎng)絡(luò)模型對短文本進(jìn)行情感分析。基于統(tǒng)計的機(jī)器學(xué)習(xí)方法,其學(xué)習(xí)能力和泛化能力的提升需要大量人工標(biāo)注的訓(xùn)練語料,這在實(shí)際應(yīng)用中往往難以獲得,導(dǎo)致其性能受到影響。另一個問題是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)難以滿足獨(dú)立同分布假設(shè)。對于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同領(lǐng)域,或來自同一領(lǐng)域但訓(xùn)練數(shù)據(jù)無法覆蓋整個特征空間的情況,從訓(xùn)練數(shù)據(jù)中的得到的模型有偏差,無法準(zhǔn)確預(yù)測未知數(shù)據(jù)。

考慮到遷移學(xué)習(xí)不需要假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)符合獨(dú)立同分布的要求,而是用從一個領(lǐng)域?qū)W習(xí)到的知識來幫助學(xué)習(xí)新領(lǐng)域的知識。通過遷移學(xué)習(xí),可以將從已有數(shù)據(jù)學(xué)習(xí)到的知識遷移應(yīng)用到新的領(lǐng)域來彌補(bǔ)新領(lǐng)域訓(xùn)練數(shù)據(jù)不足的缺陷。因此,遷移學(xué)習(xí)方法得到了廣泛重視。目前大部分針對遷移學(xué)習(xí)的研究主要集中在什么知識可以遷移以及如何遷移。遷移學(xué)習(xí)大致可以分為三類:歸納式遷移學(xué)習(xí)、轉(zhuǎn)換式遷移學(xué)習(xí)和無監(jiān)督遷移學(xué)習(xí)[11]。歸納式遷移學(xué)習(xí)從訓(xùn)練數(shù)據(jù)提取適合測試數(shù)據(jù)的樣例或特征進(jìn)行知識遷移,如從訓(xùn)練數(shù)據(jù)中抽取與測試數(shù)據(jù)相似的訓(xùn)練實(shí)例或者提取兩者共有的特征。Dai[12]假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)在同一特征空間中,然后基于提升方法的思想不斷調(diào)整訓(xùn)練數(shù)據(jù)中有效樣本的權(quán)重,同時降低噪音數(shù)據(jù)的影響。Argyriou[13]則提出針對多任務(wù)遷移學(xué)習(xí)的稀疏特征學(xué)習(xí)算法以解決在多任務(wù)之間的遷移學(xué)習(xí)問題。轉(zhuǎn)換式遷移學(xué)習(xí)要求模型訓(xùn)練期間能夠利用來自不同領(lǐng)域測試數(shù)據(jù)。受到重要性采樣思想的啟發(fā),轉(zhuǎn)換式遷移學(xué)習(xí)集中研究如何估計訓(xùn)練數(shù)據(jù)中每個樣例的權(quán)重,以此實(shí)現(xiàn)經(jīng)驗風(fēng)險最小化。Zadrozny[14]通過定義簡單分類問題來估計訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的先驗分布比值,以此衡量每個訓(xùn)練樣本的權(quán)重。Fan[15]則進(jìn)一步分析了多種分類器對估計訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的先驗分布比值的實(shí)現(xiàn)效果。無監(jiān)督遷移學(xué)習(xí)則在沒有標(biāo)注數(shù)據(jù)的前提下,從訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中學(xué)習(xí)能夠表示訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的共有特征。

在文本情感分析領(lǐng)域可以應(yīng)用遷移學(xué)習(xí)解決單一領(lǐng)域人工標(biāo)注數(shù)據(jù)不足、樣本選擇偏置、跨語言情感分析等問題。考慮到文本數(shù)據(jù)具有領(lǐng)域相關(guān)性,不同領(lǐng)域的情感表達(dá)具有不同的方式,主要體現(xiàn)在相同的情感詞、評價詞在不同領(lǐng)域可能表達(dá)不同的情感傾向性,所以在利用不同領(lǐng)域的數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)時如何選擇合適的特征和樣本進(jìn)行遷移成為研究的重點(diǎn)。Blitzer[16]利用少量標(biāo)注的目標(biāo)領(lǐng)域數(shù)據(jù)來修正結(jié)構(gòu)對應(yīng)學(xué)習(xí)方法(Structural Correspondence Learning,SCL)在源數(shù)據(jù)和目標(biāo)數(shù)據(jù)上的不重合問題,并采用無監(jiān)督的樣本相似度度量方法來從源數(shù)據(jù)中選擇最佳樣本。Xu[17]在處理跨語言文本情感分析的時候,提出基于實(shí)例的遷移學(xué)習(xí),將大量含有標(biāo)注的源語料翻譯成為目標(biāo)語言,并從中篩選出有效樣例來擴(kuò)充目標(biāo)語料數(shù)據(jù)集。Gui[18-19]則通過檢測遷移學(xué)習(xí)中出現(xiàn)的噪音數(shù)據(jù)來降低遷移學(xué)習(xí)帶來的負(fù)面影響,從而獲得跨語言情感分析的效果提升。

3 基于深度表示學(xué)習(xí)和高斯過程遷移學(xué)習(xí)的文本情感分析方法

3.1 基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的文本深度表示學(xué)習(xí)

傳統(tǒng)的基于詞袋模型的文本表示存在維度過高、數(shù)據(jù)稀疏、分布不連續(xù)的缺陷,相對不適合對文本樣本進(jìn)行表示,本文采用了基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的文本深度表示學(xué)習(xí)方法。

卷積神經(jīng)網(wǎng)絡(luò)模型是一種有監(jiān)督學(xué)習(xí)的模型,根據(jù)輸入數(shù)據(jù)類型的不同,可以由不同數(shù)量的卷積層和下采樣層疊加組成,并最終將特征輸出到全連接層。卷積層可以提取輸入數(shù)據(jù)的抽象特征,包含多個神經(jīng)元,這些神經(jīng)元之間共享權(quán)值,從而減少了模型的參數(shù)。下采樣層屬于特征映射層,由多個卷積層產(chǎn)生的特征圖組成,通過對固定大小的區(qū)域上不同位置的特征進(jìn)行聚合計算,如平均值計算或者最大值計算,輸出局部區(qū)域內(nèi)的最優(yōu)特征。經(jīng)過下采樣的池化處理,不僅降低了卷積特征層的特征維度,而且還保留了最有效的特征。全連接層由普通神經(jīng)網(wǎng)絡(luò)構(gòu)成,利用反向傳播算法實(shí)現(xiàn)模型參數(shù)的更新。

卷積神經(jīng)網(wǎng)絡(luò)模型的輸入數(shù)據(jù)為二維特征矩陣,因此像圖像等二維數(shù)據(jù)可以直接作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。而文本數(shù)據(jù)往往被表示為一維特征向量,需要將其擴(kuò)展為二維特征矩陣的表示形式。以word2vec為代表的分布式詞向量的出現(xiàn),為文本數(shù)據(jù)映射到二維特征矩陣提供了可行的方案。本文借鑒Kim[2]提出的基于word2vec訓(xùn)練的詞向量的CNN模型(下文標(biāo)記為W2VCNN),將文本數(shù)據(jù)映射到序列特征。以word2vec模型的分布式詞向量為輸入的文本數(shù)據(jù),將文本數(shù)據(jù)轉(zhuǎn)化為特征向量,實(shí)現(xiàn)了文本的分布式表示學(xué)習(xí)。利用上述特征,可以分類器進(jìn)行特征學(xué)習(xí),構(gòu)建分類模型。

3.2 基于深度高斯過程的非對稱遷移學(xué)習(xí)

高斯過程又被稱作正態(tài)隨機(jī)過程,滿足正態(tài)分布,屬于自然界普遍存在的一種隨機(jī)過程。高斯過程在處理高維度、非線性等復(fù)雜問題上,不僅具有良好的適應(yīng)性,而且具有較強(qiáng)的模型泛化能力。在分類預(yù)測模型上,可以將高斯過程回歸模型的輸出映射到一個概率值上,表示對應(yīng)輸出類別的概率。Kandemir[20]提出了一種基于深度高斯過程的非對稱遷移學(xué)習(xí)模型(Asymmetric Transfer Learning with Deep Gaussian Processes,ATL-DGP),并在圖像分類領(lǐng)域取得了應(yīng)用。圖1為Kandemir提出的ATL-DGP模型的示意圖。本文首先在該模型的基礎(chǔ)上進(jìn)行擴(kuò)展,實(shí)現(xiàn)該模型在文本情感分析上的應(yīng)用。

圖1 基于深度高斯過程的非對稱遷移學(xué)習(xí)模型

設(shè)源數(shù)據(jù)集為Dsource={Xs,Ys},輔助數(shù)據(jù)集為Dextra={Xe,Ye},目標(biāo)數(shù)據(jù)集為Dtarget={Xt,Yt}。分別以源數(shù)據(jù)集Dsource和輔助數(shù)據(jù)集Dextra為訓(xùn)練數(shù)據(jù),建立兩個高斯過程分類模型F={Fs,Fe}。

根據(jù)高斯過程模型的定義,對于高斯過程分類模型Fe有公式(1)和(2)。

其中p(·)表示密度函數(shù),N(x|μ,Σ)表示具有均值μ和協(xié)方差Σ的高斯分布。式(1)和下文中α,β和λ為高斯分布的參數(shù)。Be為輔助數(shù)據(jù)Xe在高斯過程分類模型Fe的第一層高斯過程中產(chǎn)生的非線性特征映射,De表示Be在高斯過程分類模型Fe的隱含特征空間的表示。KDeDe為高斯過程分類模型Fe在第二層高斯過程模型中基于隱含特征向量De產(chǎn)生的協(xié)方差矩陣。那么,根據(jù)高斯過程分類模型Fe的第一層高斯過程,可以得到式(3)和(4):

KXeXe是基于第一層高斯過程的核函數(shù)在輔助數(shù)據(jù)Xe生成的協(xié)方差矩陣。R為隱含節(jié)點(diǎn)數(shù)量。

利用源數(shù)據(jù)集{Xs,Ys}可以構(gòu)建類似的高斯過程分類模型Fs,如式(5)~(10)所示。

p(Ys|Fs)=N(Ys|Fs,β-1Ι)

(5)

p(Fs|Ds)=N(Fs|0,KDsDs)

(6)

p(Ds|Bs,Be→s,π)=

(7)

p(π)=Beta(π|e,f)

(8)

P([Be→s⊕Bs]|Xe,Xs)=

(9)

(10)

根據(jù)上述推導(dǎo)公式,可以發(fā)現(xiàn),高斯過程分類模型Fs與高斯過程分類模型Fe不同在于隱含特征空間Ds的計算。在高斯過程分類模型Fs中,Be->s由模型Fe的第一層高斯過程對源數(shù)據(jù)進(jìn)行非線性映射產(chǎn)生。模型Fs的隱含特征表示Ds由Be->s和Bs進(jìn)行線性加權(quán)組合產(chǎn)生。權(quán)重系數(shù)π服從Beta分布。上述過程實(shí)現(xiàn)了知識遷移,是整個基于深度高斯過程的非對稱知識遷移學(xué)習(xí)的核心部分。

高斯過程模型在處理大規(guī)模訓(xùn)練數(shù)據(jù)時,求解協(xié)方差矩陣的逆將成為整個模型的計算瓶頸,基于深度高斯過程的非對稱遷移學(xué)習(xí)模型在模型訓(xùn)練過程中同樣會面臨該問題。Kandemir在ATL-DGP模型中采用了Snelson[21]提出的基于偽輸入數(shù)據(jù)的稀疏高斯過程求解方法。該方法假定輸入數(shù)據(jù)滿足獨(dú)立同分布條件,因此可以通過對輸入數(shù)據(jù)進(jìn)行隨機(jī)采樣,獲得輸入數(shù)據(jù)的子集,并構(gòu)建低階矩陣來近似完全數(shù)據(jù)高斯過程計算的結(jié)果。

3.3 基于k近鄰的深度高斯過程的非對稱遷移學(xué)習(xí)

在文本的情感分析領(lǐng)域,由于訓(xùn)練數(shù)據(jù)有限,文本數(shù)據(jù)映射到特征空間后,有限的訓(xùn)練樣本無法涵蓋整個文本數(shù)據(jù)的特征空間,出現(xiàn)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布不一致的現(xiàn)象,產(chǎn)生樣本選擇偏置的問題。在訓(xùn)練數(shù)據(jù)集上得到的最優(yōu)分類器并不一定能夠很好地預(yù)測未知數(shù)據(jù)。如圖2所示,黑色圖形代表訓(xùn)練數(shù)據(jù)集上的實(shí)例,白色圖形代表測試數(shù)據(jù)集上的實(shí)例,斜線為以訓(xùn)練數(shù)據(jù)集為基礎(chǔ)構(gòu)建的分類器的分類決策面。

圖2 在有偏置訓(xùn)練數(shù)據(jù)集上的數(shù)據(jù)分類示意圖

從圖2中可以看出,以訓(xùn)練數(shù)據(jù)集為基礎(chǔ)構(gòu)建的最優(yōu)分類器往往可以在訓(xùn)練數(shù)據(jù)集上取得最好效果。但是當(dāng)分類器應(yīng)用到測試數(shù)據(jù)的時候,數(shù)據(jù)分布不一致帶來的問題就凸顯出來。因此,通過隨機(jī)采樣方法獲取的數(shù)據(jù)子集的分布不一定符合測試數(shù)據(jù)的分布。如果先對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,篩選出符合測試數(shù)據(jù)分布的實(shí)例集,再從這個實(shí)例集里面去采樣得到一個可以近似求解高斯過程的子集,就可以盡可能地降低噪音數(shù)據(jù)對模型影響,從而提高模型的分類效果。基于上述假設(shè),本文在ATL-DGP模型的基礎(chǔ)上,設(shè)計一個基于k近鄰(k-Nearest Neighbor,kNN)方法應(yīng)用于偽數(shù)據(jù)子集的選取過程,從而將偽數(shù)據(jù)子集的選擇范圍限制在符合測試數(shù)據(jù)分布的訓(xùn)練實(shí)例上,保證了偽數(shù)據(jù)子集的質(zhì)量,避免隨機(jī)選擇帶來的負(fù)面影響。

對于離線學(xué)習(xí)問題,我們雖然不知道測試數(shù)據(jù)的具體的類別標(biāo)簽,但是可以得到測試數(shù)據(jù)的分布信息。利用測試數(shù)據(jù)的分布信息,從訓(xùn)練數(shù)據(jù)中挑選符合測試數(shù)據(jù)分布的實(shí)例,并基于這些實(shí)例構(gòu)建分類器,以此得到近似滿足測試數(shù)據(jù)分布的最優(yōu)分類器。因此,本文提出結(jié)合k近鄰的方法,從訓(xùn)練樣本中,挑選近似滿足測試數(shù)據(jù)分布的樣本構(gòu)成新的訓(xùn)練數(shù)據(jù)集。具體過程見算法1所示。

算法1. 基于k近鄰的樣本選擇算法輸入:訓(xùn)練樣本集Dtrain,測試樣本集Dtest,文本特征映射模型,近鄰數(shù)k;輸出:新的訓(xùn)練樣本集Dnew。1.根據(jù)文本特征映射模型將訓(xùn)練樣本和測試樣本映射為特征向量集2.基于Dtrain構(gòu)建kNN分類器C13.新訓(xùn)練數(shù)據(jù)集Dnew4.Foreachinstancev∈Dtest5. 根據(jù)kNN分類器C1獲取v的k近鄰實(shí)例v1…vk∈Dtrain6. Dnew=Dnew∪{v1…vk}7.Endfor

圖3示意了經(jīng)過實(shí)例選擇后訓(xùn)練得到的分類模型的最優(yōu)分界面。虛線為樣本選擇前的最優(yōu)分界面。可以看到經(jīng)過k近鄰樣本選擇后,與測試樣本相似的訓(xùn)練樣例得以保留,不相似的視為噪音被去除,對應(yīng)地最優(yōu)分界面移到實(shí)線位置,有望得到更好的分類效果。

結(jié)合ATL-DGP模型,我們使用kNN樣本選擇算法對其擴(kuò)展以消除部分樣本選擇偏置。擴(kuò)展后的算法標(biāo)記為基于k近鄰的深度高斯過程的非對稱遷移學(xué)習(xí)方法(k-nearest Neighbors Asymmetric Transfer Learning with Deep Gaussian Processes,kATL-DGP)。

圖3 在相似數(shù)據(jù)集上的分類效果示意圖

算法2. 基于k近鄰的深度高斯過程的非對稱遷移學(xué)習(xí)模型算法輸入:源數(shù)據(jù)集Dsource,輔助數(shù)據(jù)集Dextra,目標(biāo)數(shù)據(jù)集Dtarget,文本特征映射模型,k近鄰樣本選擇算法參數(shù)k,隱含節(jié)點(diǎn)個數(shù)R;輸出:目標(biāo)數(shù)據(jù)集Dtarget的類別標(biāo)簽。1.利用源數(shù)據(jù)集Dsource和輔助數(shù)據(jù)集Dextra訓(xùn)練得到文本特征映射模型M2.根據(jù)文本特征映射模型M將源數(shù)據(jù)集Dsource、輔助數(shù)據(jù)集Dextra和目標(biāo)數(shù)據(jù)集Dtarget映射為特征向量3.利用k近鄰樣本選擇算法分別從Dsource和Dextra中得到偽數(shù)據(jù)集Psource和Pextra4.利用數(shù)據(jù)集Dsource、Dextra、Psource、Pextra訓(xùn)練得到ATL-DGP模型5.利用ATL-DGP模型預(yù)測目標(biāo)數(shù)據(jù)集Dtarget并輸出分類標(biāo)簽

4 實(shí)驗結(jié)果及分析

為評估本文提出方法的性能,本節(jié)以2014中文觀點(diǎn)傾向性分析評測(COAE2014)數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集作為源數(shù)據(jù)集,測試數(shù)據(jù)集作為目標(biāo)數(shù)據(jù)集,同時引入2014年自然語言處理與中文計算會議(Natural Language Processing & Chinese Computing,NLPCC2014)基于深度學(xué)習(xí)的情感分類評測的訓(xùn)練數(shù)據(jù)集作為輔助數(shù)據(jù)集。

COAE2014微博數(shù)據(jù)集來源于第六屆中文傾向性分析評測之微博觀點(diǎn)句識別子任務(wù),分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)來自同一話題,總共2 174條,其中有1 003條帶有正面情緒,1 171條帶有負(fù)面情緒。測試數(shù)據(jù)分別選自手機(jī)、保險、翡翠三個不同話題,總共7 000條,其中帶有正面情感的有3 776條,帶有負(fù)面情感的有3 224條。

NLPCC2014情感分類評測數(shù)據(jù)集的數(shù)據(jù)來源于網(wǎng)絡(luò)評論數(shù)據(jù),涵蓋數(shù)字影音、手機(jī)數(shù)碼、圖書等領(lǐng)域。其訓(xùn)練數(shù)據(jù)集包含5 000條正面評論數(shù)據(jù)和5 000條負(fù)面評論數(shù)據(jù)。

4.1 實(shí)驗數(shù)據(jù)預(yù)處理與參數(shù)設(shè)置

在數(shù)據(jù)預(yù)處理方面,首先去除文本中數(shù)據(jù)中的噪音信息,如表情符號、電子郵件地址、用戶昵稱等。然后利用ICTCLAS*http://ictclas.nlpir.org/分詞工具對實(shí)驗數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。在文本特征映射過程中,使用Google開源的word2vec*http://word2vec.googlecode.com/svn/trunk/中Skip-gram模型訓(xùn)練W2VCNN的分布式詞向量,以2000萬條無標(biāo)注的微博數(shù)據(jù)作為訓(xùn)練語料,生成包含33萬個詞匯的分布式詞向量模型。對于分布式詞向量模型中不包含的詞語,采用隨機(jī)生成分布式詞向量的方式來產(chǎn)生未登錄詞語的分布式詞向量。具體參數(shù)見表1。

基于高斯過程的知識遷移學(xué)習(xí)分別為源數(shù)據(jù)和輔助數(shù)據(jù)構(gòu)建一個兩層的高斯過程分類模型,通過對層與層之間的隱含特征的線性組合實(shí)現(xiàn)輔助數(shù)據(jù)到源數(shù)據(jù)的知識遷移。其中kATL-DGP模型采用表2所示的參數(shù)設(shè)置。

表1 W2VCNN模型的參數(shù)設(shè)置

表2 kATL-DGP模型參數(shù)設(shè)置

4.2 實(shí)驗結(jié)果及分析

本節(jié)分別評估了基于非遷移學(xué)習(xí)方法包括NBSVM、W2VCNN1、W2VCNN2、RBMDNN,以及結(jié)合遷移學(xué)習(xí)方法ATL-DGP、kATL-DGP的性能。其中NBSVM由Wang[3]提出,采用Unigram和Bigram語言模型構(gòu)建文本特征向量,并采用線性支持向量機(jī)作為模型分類器。RBMDNN[10]方法結(jié)合了限制玻爾茲曼機(jī)和深度神經(jīng)網(wǎng)絡(luò),在短文本分類上獲得了很好的效果。實(shí)驗中,NBSVM、W2VCNN1僅使用COAE2014訓(xùn)練數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),W2VCNN2使用COAE2014訓(xùn)練數(shù)據(jù)集和NLPCC2014情感分類評測數(shù)據(jù)集訓(xùn)練CNN模型,遷移學(xué)習(xí)方法ATL-DGP、kATL-DGP均采用COAE2014訓(xùn)練數(shù)據(jù)集作為源訓(xùn)練數(shù)據(jù)集、NLPCC2014情感分類評測數(shù)據(jù)集作為輔助數(shù)據(jù)集。實(shí)驗所用測試數(shù)據(jù)集均為COAE2014測試數(shù)據(jù)集。

實(shí)驗結(jié)果如表3所示,可以看到對比于非遷移學(xué)習(xí)方法NBSVM、W2VCNN1和RBMDNN,結(jié)合了遷移學(xué)習(xí)的方法ATL-DGP和kATL-DGP達(dá)到了更高的性能。此外,雖然遷移學(xué)習(xí)方法使用了輔助數(shù)據(jù)集,但同樣加入了NLPCC訓(xùn)練集的W2VCNN2模型的實(shí)驗結(jié)果表明,訓(xùn)練數(shù)據(jù)規(guī)模的增大并不是性能提高的主要原因。相反,W2VCNN2對比W2VCNN1僅在負(fù)面情緒識別時F值上升1.9%,而正面情緒識別性能F值下降4.0%,說明由于輔助數(shù)據(jù)集和源訓(xùn)練數(shù)據(jù)集不同源,可能引入了噪音反而造成訓(xùn)練數(shù)據(jù)質(zhì)量下降。在實(shí)驗中,引入輔助數(shù)據(jù)的遷移學(xué)習(xí)方法ATL-DGP和kATL-DGP表現(xiàn)出對樣本選擇偏置的較強(qiáng)的處理能力。

表3 情感分類算法在COAE2014數(shù)據(jù)集上的性能對比

(※所用實(shí)驗設(shè)置與本文不同,采用COAE2014任務(wù)4部分訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,其余數(shù)據(jù)為測試集。)

與W2VCNN1對比,ATL-DGP在非同源的NLPCC數(shù)據(jù)集的輔助下,遷移學(xué)習(xí)策略顯示出一定成效,其正面情緒識別的F值提升1.01%,負(fù)面情緒識別的F值提升較大,達(dá)到4.84%。此外,本文提出的kATL-DGP,相較于ATL-DGP,在改進(jìn)了隨機(jī)采樣帶來的偏置后,在正負(fù)情緒識別效果上均有進(jìn)一步提高,F(xiàn)值分別提高了0.14%和0.37%。

實(shí)驗表明,若簡單地將不同訓(xùn)練數(shù)據(jù)糅合在一起使用,對情感分類性能反而可能有損失,因此有必要實(shí)施遷移學(xué)習(xí)方法。對比現(xiàn)有的方法,本文的方法超過了其他非遷移學(xué)習(xí)方法,達(dá)到了最佳性能,表明該方法通過引入輔助數(shù)據(jù)集,有效提升了文本情感分析的效果。

5 結(jié)論

針對文本情感分析中存在的領(lǐng)域相關(guān)性和樣本偏置問題,本文提出在基于深度表示學(xué)習(xí)獲得樣本分布式表示基礎(chǔ)上,引入基于k近鄰高斯過程遷移學(xué)習(xí)的思想,以測試集為指導(dǎo),從輔助數(shù)據(jù)中提取額外數(shù)據(jù)和信息提高情感分類器的性能。在COAE2014微博情感傾向性識別數(shù)據(jù)集上的實(shí)驗顯示,本文方法可以有效降低領(lǐng)域相關(guān)性和樣本偏置的影響,有效提高情感分類性能。

[1] Xu R F,Wong K F,Xia Y.Coarse-Fine Opinion Mining-WIA in NTCIR-7 MOAT Task[C]//Proceedings of NTCIR 2008:307-313.

[2] Kim Y.Convolutional Neural Networks for Sentence Classification[C]//Proceedings of EMNLP 2014:1746-1751.

[3] Wang S,Manning C D.Baselines and Bigrams:Simple,Good Sentiment and Topic Classification[C]//Proceedings of ACL 2012:90-94.

[4] Taboada M,Brooke J,Tofiloski M,et al.Lexicon-based Methods for Sentiment Analysis[J].Computational Linguistics,2011,37(2):267-307.

[5] Fu G,Wang X.Chinese Sentence-level Sentiment Classification Based on Fuzzy Sets[C]//Proceedings of ACL 2010:312-319.

[6] Bollegala D,Weir D,Carroll J.Cross-domain Sentiment Classification Using a Sentiment Sensitive Thesaurus[J].IEEE TKDE,2013,25(8):1719-1731.

[7] Pang B,Lee L,Vaithyanathan S.Thumbs up?:Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of ACL 2002:79-86.

[8] Zhao J,Liu K,Wang G.Adding Redundant Features for CRFs-based Sentence Sentiment Classification[C]//Proceedings of ACL 2008:117-126.

[9] Socher R,Perelygin A,Wu J Y.,et al.Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank[C]//Proceedings of EMNLP 2013:1631-1642.

[10] Xiao S,Chengcheng L,Fuji R.Sentiment Analysis for Chinese Microblog based on Deep Neural Networks with Convolutional Extension Features[J].Neurocomputing,2016,210:227-236.

[11] Pan S J,Yang Q.A Survey on Transfer Learning[J].IEEE TKDE,2010,22(10):1345-1359.

[12] Dai W,Yang Q,Xue G.R,et al.Boosting for Transfer Learning[C]//Proceedings of ICML 2007:193-200.

[13] Argyriou A,Evgeniou T,Pontil M.Convex Multi-task Feature Learning[C]//Proceedings of NIPS 2007:19-41

[14] Zadrozny B.Learning and Evaluating Classifiers under Sample Selection Bias[C]//Proceedings of ICML 2004:114-121.

[15] Fan W,Davidson I,Zadrozny B,et al.An Improved Categorization of Classifier’s Sensitivity on Sample Selection Bias[C]//Proceedings of ICDM 2005:605-608

[16] Blitzer J,McDonald R,Pereira F.Domain Adaptation with Structural Correspondence Learning[C]//Proceedings of ACL 2006:120-128.

[17] Xu R F,Xu J,Wang X.Instance Level Transfer Learning for Cross Lingual Opinion Analysis[C]//Proceedings of ACL 2011:182-188.

[18] Gui L,Xu R.F,Lu Q,et al.Cross-lingual Opinion Analysis via Negative Transfer Detection[C]//Proceedings of ACL 2014:860-865.

[19] Gui L,Lu Q,Xu R.F,et al.A Novel Class Noise Estimation Method and Application in Classification[C]//Proceedings of CIKM 2015:1081-1090.

[20] Kandemir M.Asymmetric Transfer Learning with Deep Gaussian Processes[C]//Proceedings of ICML 2015:730-738.

[21] Snelson E.,Ghahramani Z.Sparse Gaussian Processes Using Pseudo-inputs[C]//Proceedings of NIPS 2005:1257-1264.

Sentiment Analysis Based on Deep Representation Learning and Gaussian Processes Transfer Learning

WU Dongyin1,GUI Lin1,CHEN Zhao2,XU Ruifeng1

(1.School of Computer Science and Technology,Harbin Institute of Technology Shenzhen Graduate School,Shenzhen,Guangdong 518055,China;2.Tencent Technology (Shenzhen) Ltd.,Shenzhen,Guangdong 518055,China)

Sentiment analysis is an important topic in natural language processing research.Most existing sentiment analysis techniques are difficult to handle the domain dependent and sample bias issues,which restrain the development and application of sentiment analysis.To address these issues,this paper presents a sentiment analysis approach based on deep representation learning and Gaussian Processes transfer learning.Firstly,the distributed representations of text samples are learned based on deep neural network.Next,based on deep Gaussian processes,this approach selects quality samples with the distribution similar to testing dataset from additional dataset to expand the training dataset.The sentiment classifier trained on the expanded dataset is expected to achieve higher performance.The experimental results on COAE2014 dataset show that the proposed approach improved the sentiment classification performance.Meanwhile,this approach alleviates the influences of training sample bias and domain dependence.

sentiment analysis; deep representation learning; Gaussian processes; transfer learning

吳冬茵(1992—),碩士研究生,主要研究領(lǐng)域為自然語言處理、文本情緒計算。E-mail:wudongyinhit@gmail.com桂林(1988—),博士研究生,主要研究領(lǐng)域為機(jī)器學(xué)習(xí)、情感分析。E-mail:guilin.nlp@gmail.com陳釗(1990—),碩士,助理工程師,主要研究領(lǐng)域為復(fù)雜網(wǎng)絡(luò)、信息傳播、自然語言處理、文本情緒計算。E-mail:gilbertchen@126.com

1003-0077(2017)01-0169-08

2016-09-15 定稿日期:2016-11-20

國家自然科學(xué)基金(61370165);國家863計劃(2015AA015405);深圳市孔雀計劃技術(shù)創(chuàng)新項目(KQCX20140521144507925);深圳市基礎(chǔ)研究項目(JCYJ20150625142543470);廣東省數(shù)據(jù)科學(xué)工程技術(shù)研究中心開放課題(2016KF09)

TP391

A

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 3344在线观看无码| 在线播放国产99re| 67194在线午夜亚洲| 国产在线小视频| 夜夜高潮夜夜爽国产伦精品| 无码内射在线| 国产波多野结衣中文在线播放| 91美女在线| 福利姬国产精品一区在线| 亚洲最大在线观看| 欧美精品啪啪| 欧美一区精品| 亚洲综合第一区| 91国内外精品自在线播放| 国产精品无码在线看| 国产一二三区视频| 色综合中文字幕| 日本午夜三级| 91久久精品国产| 国产激情无码一区二区三区免费| 99精品国产高清一区二区| 欧美一级高清视频在线播放| 久久综合伊人 六十路| 日韩午夜片| 午夜无码一区二区三区| 91外围女在线观看| 国产日韩欧美成人| 99精品伊人久久久大香线蕉 | 成人午夜福利视频| 五月激激激综合网色播免费| 日日拍夜夜操| 九色91在线视频| 搞黄网站免费观看| 无码一区中文字幕| 69av免费视频| 国产白浆一区二区三区视频在线| 国产交换配偶在线视频| 国产精品自在线天天看片| 中文字幕首页系列人妻| 亚洲精品免费网站| 国产人成在线视频| 国产成人高精品免费视频| 美女无遮挡免费视频网站| 色首页AV在线| 免费人成视网站在线不卡| 无码日韩人妻精品久久蜜桃| 国产麻豆另类AV| 国产精品尹人在线观看| 免费a级毛片18以上观看精品| 亚洲无码视频图片| 免费在线观看av| 高清不卡一区二区三区香蕉| 99精品国产自在现线观看| 国产网站在线看| 久久免费视频6| 天堂成人av| 久草视频中文| 一区二区影院| 女人天堂av免费| 精品视频在线一区| 国产乱子伦一区二区=| 97国产在线观看| 毛片a级毛片免费观看免下载| 无码'专区第一页| 久久精品人妻中文系列| 国产特一级毛片| 国产三级毛片| 亚洲欧美激情另类| 四虎永久在线精品影院| 日韩无码视频网站| 国产在线欧美| 国产爽妇精品| 人人91人人澡人人妻人人爽| 日韩精品免费一线在线观看| 国产69精品久久久久妇女| 91在线中文| 欧美国产在线一区| 精品国产一二三区| 精品无码一区二区三区在线视频| 亚洲精品不卡午夜精品| 99久久精品国产自免费| 色吊丝av中文字幕|