999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LAAE網(wǎng)絡(luò)的跨語言短文本情感分析方法①

2021-06-28 06:28:08沈江紅廖曉東
計算機系統(tǒng)應(yīng)用 2021年6期
關(guān)鍵詞:分類文本情感

沈江紅,廖曉東,3,4

1(福建師范大學 福建省光電傳感應(yīng)用工程技術(shù)研究中心,福州 350117)

2(福建師范大學 光電與信息工程學院,福州 350117)

3(福建師范大學 醫(yī)學光電科學與技術(shù)教育部重點實驗室,福州 350117)

4(福建師范大學 福建省光子技術(shù)重點實驗室,福州 350117)

情感分析[1,2]的主要任務(wù)是分析隱含在文本中的感情、態(tài)度、觀點等深層次信息.近年來,互聯(lián)網(wǎng)的迅猛發(fā)展,給人們的生活帶來了巨大的變化.在世界范圍內(nèi),越來越多的網(wǎng)民在各大平臺發(fā)表自己的觀點,互聯(lián)網(wǎng)上逐漸出現(xiàn)了不同國家和地區(qū)的語言文字,這些非規(guī)范的短文本蘊含了大眾對事物的褒貶,亦或是自己的需求等信息,不僅在商業(yè)界而且在學術(shù)界備受關(guān)注.比如亞馬遜上的商品銷往全球,同時商家也會收到不同語言的評論,比如“This skirt is beautiful”,“這個裙子太漂亮了”,“Este vestido es hermoso”等.雖然語言形式不同,但都包含了人們對商家所售商品的褒貶,所以深層挖掘這些評論背后的信息,有利于商家了解市場,并及時作出相應(yīng)地調(diào)整,所以具有很大的研究價值.由于英語的語料資源豐富且有大量的的標注數(shù)據(jù)集,所以基于英語語境下的研究工作已漸入佳境,而對于語料資源相對匱乏的語種的研究工作則不易開展.跨語言情感分析能夠借助資源豐富的源語言標注數(shù)據(jù),對標注資源相對匱乏的目標語言數(shù)據(jù)進行情感分析,所以越來越受到研究者的青睞.

近年來許多研究者投身于跨語言情感分析的研究工作中,并取得了很大的進步.傳統(tǒng)的研究方法是基于機器翻譯進行的,然而翻譯的質(zhì)量很大程度上影響著分類效果.隨著深度學習技術(shù)的不斷發(fā)展,一種基于映射的研究方法應(yīng)運而生.該方法主要思想是利用深度學習的方法學習一種映射,將源語言和目標語言映射到同一個向量空間,得到跨語言情感向量,然后再進行特征提取和情感分析任務(wù).如何高效地學習得到這個映射并獲得高質(zhì)量的跨語言向量,則是該工作的核心環(huán)節(jié).

本文在深度學習的基礎(chǔ)上,提出LAAE 網(wǎng)絡(luò)模型,并將跨語言情感分析任務(wù)分成兩個部分:第1 部分是通過LAAE 模型獲得含上下文情感信息的跨語言向量;第2 部分是進行短文本情感分類,利用雙向GRU 進行情感特征提取,并完成情感分類任務(wù).

1 相關(guān)工作

1.1 跨語言情感分析

眾所周知,進行情感分析工作的前提是收集大量的標注數(shù)據(jù).不同于單語言情感分析,跨語言情感分析則是利用資源豐富的源語言標注數(shù)據(jù)去預(yù)測資源匱乏語言的情感,其過程極具復(fù)雜性,目前研究方法主要有兩種,一是傳統(tǒng)的基于機器翻譯的方法,二是在深度學習基礎(chǔ)上的基于映射的方法.

機器翻譯的方法是將目標語言和源語言進行互譯,建立語言連接,然后進行后續(xù)的情感分析[3].機器翻譯使得跨語言文本之間沒有共同詞項特征的問題得到解決.Duh 等[4]通過實驗發(fā)現(xiàn),利用機器翻譯,由日文文本翻譯得到的英文文本,其與源英文文本之間的詞匯重疊率很低,所以機器翻譯的質(zhì)量還有待提升.Zhou 等[5]指出機器翻譯還有可能會改變文本的極性,例如,英文文本的“It’s too fragrant to sleep”,通過谷歌翻譯,得到的中文譯文是“睡的太香了”,屬于積極情感.但是在源語言中該文本表達的意思是“太香了而無法入睡”,屬于消極情感.唐曉波等[6]通過實驗發(fā)現(xiàn)翻譯的質(zhì)量會影響分類效果.所以目前通過機器翻譯工具翻譯的語句,其翻譯結(jié)果的準確性仍然有待提高.

基于映射的方法[7],主要思想是利用深度學習技術(shù)學習一種映射,將源語言和目標語言映射到同一個向量空間,進而得到跨語言情感向量,然后再進行特征提取和情感分析任務(wù),而如何高效地習得這個映射并獲得高質(zhì)量的跨語言向量,則是工作的核心部分.Faruqui 等[8]利用種子詞典和平行語料庫去學習這樣一個線性映射,但建立種子詞典和平行語料庫這件事本身需要耗費大量的人力和物力.Artetxe 等[9,10]則通過一系列的線性變換,去學習這個映射.Zhang 等[11]通過對抗訓(xùn)練,獲得雙語詞典索引.但王坤峰等[12]指出生成對抗網(wǎng)絡(luò)(GAN)存在一些難以克服的缺點,比如模型不易訓(xùn)練,生成的數(shù)據(jù)可解釋性不高,模型魯棒性不高等.Zhou 等[5]利用多個自動編碼器來學習這個映射,然后進行跨語言情感分析的研究.

GAN (Generative Adversarial Network)及其變種目的都是學習從零均值、一方差的標準高斯分布到復(fù)雜樣本分布的映射.本文采用Makhzani 等[13]提出的對抗自編碼器(AAE),因為在生成對抗網(wǎng)絡(luò)中加入自編碼器,可促進生成器生成的數(shù)據(jù)更加貼合輸入的數(shù)據(jù),從而有效地避免無效數(shù)據(jù)或噪聲的產(chǎn)生,使得模型更加高效.

1.2 深度學習

與傳統(tǒng)的特征提取方法相比,深度學習技術(shù)擅長自動地提取特征,從而很大程度上節(jié)約了人力物力等成本.近年來,因其天然的優(yōu)勢,吸引了大量的研究者投身其中,并且在自然語言處理(NLP)領(lǐng)域,尤其是在情感分析任務(wù)中,提出了很多性能優(yōu)良的模型.

1.2.1 長短記憶網(wǎng)絡(luò)(LSTM)

由Hochreiter 等[14]提出的長短記憶網(wǎng)絡(luò)(LSTM)克服了RNN 的長距離依賴的問題,是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(RNN).LSTM 的核心結(jié)構(gòu),如圖1所示.其重要結(jié)構(gòu)是3 個門,分別是輸入門、遺忘門和輸出門,主要用來控制信息的更新與流動.另一個核心結(jié)構(gòu)是細胞狀態(tài)線,在結(jié)構(gòu)上方像流水線一樣地運轉(zhuǎn),起到存儲記憶的作用,并進行信息的傳播和更新.

圖1 LSTM 結(jié)構(gòu)圖

GRU (Gate Recurrent Unit)是LSTM 的一個很特殊的變體,其內(nèi)部結(jié)構(gòu)如圖2所示,相比較于LSTM,GRU 將輸入門和遺忘門合并為更新門,使得模型更加簡潔,提取特征能力更敏捷且易訓(xùn)練,多用于情感分類任務(wù).

圖2 GRU 內(nèi)部結(jié)構(gòu)圖

1.2.2 對抗自編碼器(AAE)

對抗自編碼器主要由3 個模塊組成,分別是編碼器、解碼器、判別器,其內(nèi)部結(jié)構(gòu)如圖3所示.編碼器和解碼器兩者結(jié)合,構(gòu)成一個普通的自編碼器,輸入復(fù)雜樣本,并要求在解碼器的輸出端重構(gòu);判別器輸入編碼向量,判定它是來自一個真實的標準高斯分布,還是來自編碼器的輸出.判別器試圖區(qū)分編碼向量的真假,編碼器則試圖迷惑判別器,編碼器和判別器兩者相互博弈,最終導(dǎo)致判別器混淆不清,訓(xùn)練完成.

圖3 對抗自編碼器結(jié)構(gòu)圖

1.2.3 遷移學習

領(lǐng)域自適應(yīng)是一種遷移學習,它將不同領(lǐng)域的數(shù)據(jù)或特征映射到同一個特征空間,以便于利用其源領(lǐng)域數(shù)據(jù)或特征來加強目標領(lǐng)域的訓(xùn)練,進而達到更好的訓(xùn)練效果[15,16].Kim 等[17]在遷移學習的基礎(chǔ)上,利用不同語言間的共享詞向量進行對抗訓(xùn)練,克服了訓(xùn)練過程中不同語言間的差異問題.由于高質(zhì)量的標注數(shù)據(jù)的匱乏,且人工標注的成本頗高,遷移學習在NLP領(lǐng)域的眾多任務(wù)中發(fā)揮著重要的作用.

2 研究方法

本文提出的基于LAAE 網(wǎng)絡(luò)模型的跨語言短文本情感分析方法,主要分為兩個部分,第1 部分是跨語言向量的生成,具體步驟是將Word2Vec 生成的各語言文本向量,先經(jīng)過LSTM 網(wǎng)絡(luò),目的是獲得含上下文信息的向量,然后再通過AAE 模型學習一個高質(zhì)量的轉(zhuǎn)換矩陣M,將源語言和目標語言轉(zhuǎn)換到同一向量空間,如圖4所示(可視化后,“愛”和“Love”轉(zhuǎn)換到同一空間),最后獲得含上下文信息的跨語言向量.第二部分是跨語言情感分類,分類器在源語言上被訓(xùn)練完成,然后遷移到目標語言上,完成對目標語言的情感分類任務(wù).圖5是本文研究方法的總體框架圖.

圖4 向量轉(zhuǎn)換圖

圖5 LAAE 模型框架圖

2.1 含上下文信息的跨語言向量的生成模塊

LSTM 網(wǎng)絡(luò)具有記憶功能,將文本向量通過LSTM網(wǎng)絡(luò),可獲得含上下文信息的文本向量,提高輸入向量的質(zhì)量,減少噪聲.GAN 及其變種目的都是學習從零均值、一方差的標準高斯分布到復(fù)雜樣本分布的映射.GAN 網(wǎng)絡(luò)模型生成數(shù)據(jù)可解釋性差,產(chǎn)生很多的無效數(shù)據(jù).由Makhzani 等[13]提出的對抗自編碼器(AAE),主要思想是在GAN 中加入自編碼器,從而使得生成數(shù)據(jù)更接近于輸入數(shù)據(jù),避免無效數(shù)據(jù)的產(chǎn)生,使得模型更加高效.我們利用AAE 學習到轉(zhuǎn)換矩陣M,再將M和源語言向量X相乘,如式(1)所示.得到轉(zhuǎn)換后的矩陣Z,此時的Z和目標語言向量T在同一空間,最終建立了源語言和目標語言之間的聯(lián)系.

2.2 跨語言情感分類器的遷移模塊

BiGRU(Bidirectional Gated Recurrent Unit)分類器模型,如圖6所示,其主要是通過兩個反向的GRU,分別是向前GRU和向后GRU,進行特征提取工作.例如:輸入j個句子的第t個單詞的詞向量為cijt,通過BiGRU層特征提取后,可以更加充分地學習上下文之間的關(guān)系,進行語義編碼成hijt,具體計算公式如式(2)所示:

圖6 BiGRU 內(nèi)部結(jié)構(gòu)圖

最后利用 Softmax 函數(shù)對輸出層的輸入進行相應(yīng)計算,同時完成跨語言文本情感分類任務(wù).

目標語言本身可標注資源稀缺,此時遷移學習技術(shù)恰到好處地解決這個困難.分類器在源語言上進行訓(xùn)練,然后遷移到目標語言上,完成目標語言的情感分類任務(wù).

3 實驗結(jié)果及分析

3.1 實驗數(shù)據(jù)集

為了驗證本文所提出的分類法的有效性,本文以英語為源語言,中文和德語為目標語言,進行實驗驗證.1)實驗采用Prettenhofer 等[18]提供亞馬遜不同類目下的產(chǎn)品評論數(shù)據(jù)集.該數(shù)據(jù)集中包含3 個產(chǎn)品領(lǐng)域(書籍、DVD和音樂)和4 種語言(英文、日語、法語和德語)的用戶評論數(shù)據(jù)集.每個領(lǐng)域中的數(shù)據(jù)分為訓(xùn)練集、測試集和無標注文本,大小分別是27 815、3200和80 000.本文選用了數(shù)據(jù)集中的英文和德語評論數(shù)據(jù)集.2) 通過網(wǎng)絡(luò)爬蟲程序從亞馬遜中文站爬取書籍、音樂和DVD 類目的中文評論,并作為中文數(shù)據(jù)集.由于實驗設(shè)備的性能,以及各領(lǐng)域無標注文檔在數(shù)量上的差異問題,本文在各領(lǐng)域中統(tǒng)一使用15 000 條無標注文檔.

3.2 對比實驗

(1) 基于機器翻譯,以SVM 作為分類器,簡稱MTSVM:利用機器翻譯,將目標語言翻譯成源語言,在源語言上訓(xùn)練分類器SVM,最后利用訓(xùn)練好的分類模型,對翻譯成源語言的測試集進行情感分類.

(2) 基于機器翻譯,以BiGRU為分類器,簡稱MTBiGRU:利用機器翻譯,將目標語言翻譯成源語言,在源語言上訓(xùn)練分類器BiGRU,最后利用訓(xùn)練好的分類模型,對翻譯成源語言的測試集進行情感分類.

(3) 基于映射的方法,利用AAE 模型,以BiGRU為分類器,簡稱AAE-BiGRU:利用對抗自編碼器(AAE),學習源語言和目標源之間的轉(zhuǎn)換矩陣,獲得跨語言向量,在源語言上訓(xùn)練分類器BiGRU,最后將訓(xùn)練好的分類器遷移到目標語言上,對目標語言測試集進行情感分類.

3.3 實驗設(shè)計

本實驗是在Keras 及TensorFlow 深度學習框架下進行.參數(shù)設(shè)置如表1所示.

表1 參數(shù)設(shè)置表

3.4 實驗結(jié)果

本文實驗中,對比實驗方法有MT-SVM、MTBiGRU、AAE-BiGRU,將英語設(shè)為源語言,中文和德語設(shè)為目標語言.模型性能評估指標為各方法在跨語言環(huán)境下的文本情感分類的F1 值,結(jié)果如表2所示.

表2 不同方法的F1 值(最好的結(jié)果已加粗表示)

從表2可以看出,基于的映射方法的F1 值明顯高于機器翻譯的方法.同樣都是基于映射的方法,本文的方法和AAE-BiGRU 相比較,平均F1 值從0.7552 提高到0.7797,可見高質(zhì)量的跨語言向量,影響分類效果.本文通過LAAE 模型得到含上下文信息的跨語言向量,從而極大地提高了分類效果.通過學習一個映射,將不同語言的評論映射到同一特征空間,從而建立不同語言之間聯(lián)系,可促進兩者之間知識遷移,有利于進行跨語言情感分類工作.

4 結(jié)論與展望

情感分析的研究在資源豐富的語言領(lǐng)域已經(jīng)很成熟,而在資源稀缺的語言領(lǐng)域則有很大的研究空間.本文以跨語言情感分析為任務(wù),在遷移學習基礎(chǔ)上,提出LAAE 分析方法,即通過LSTM和AAE 網(wǎng)絡(luò)模型,獲得含上下文信息的跨語言向量,最后利用BiGRU 進行分類任務(wù).通過實驗證明高質(zhì)量的含上下文信息的跨語言向量,可以促進跨語言遷移學習的更好進行,進而提高模型性能.

今后的研究工作可做以下兩方面的改進:一方面,我們將重點研究用于遷移學習的新方法,并將目標語言擴展到更多的語言.另一方面,我們會嘗試調(diào)試我們的模型做更細粒度情感分析,因為除了消極、中立和積極情緒外,還有存在更多的情緒特征.

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 国产精品不卡永久免费| 亚洲福利一区二区三区| 女人18毛片久久| 好久久免费视频高清| 亚洲国产中文精品va在线播放| 欧美日本激情| 久久毛片基地| 四虎影视国产精品| 白丝美女办公室高潮喷水视频| 亚洲天堂自拍| 日韩国产黄色网站| 国产av剧情无码精品色午夜| 国内老司机精品视频在线播出| 成人日韩视频| 国产极品美女在线播放| 五月婷婷亚洲综合| 免费国产不卡午夜福在线观看| 狠狠亚洲婷婷综合色香| 国产又色又刺激高潮免费看| 久久婷婷色综合老司机| 欧洲高清无码在线| 在线精品视频成人网| 亚洲无限乱码| 伊伊人成亚洲综合人网7777| 亚洲天堂在线免费| 国产国拍精品视频免费看| 九九视频免费在线观看| 日韩天堂在线观看| 亚洲国产成人精品无码区性色| 国产一级片网址| 亚洲欧洲日韩综合| 欧美日韩在线国产| 国产精品网拍在线| 日本亚洲国产一区二区三区| 欧美三级自拍| 拍国产真实乱人偷精品| 亚洲AⅤ综合在线欧美一区| 99热这里都是国产精品| 国产精品大白天新婚身材| 无码aaa视频| 色综合久久88色综合天天提莫| 国产精品hd在线播放| 2021天堂在线亚洲精品专区| 亚洲第一视频网站| 成年看免费观看视频拍拍| 色婷婷国产精品视频| 国产91全国探花系列在线播放| 在线观看无码av免费不卡网站| 草草影院国产第一页| 欧美福利在线| 蜜桃视频一区二区| 欧美在线观看不卡| 91在线精品麻豆欧美在线| 亚洲资源站av无码网址| 激情乱人伦| 人妻丰满熟妇啪啪| 色欲不卡无码一区二区| 亚洲中文久久精品无玛| 四虎永久免费网站| 国产日韩久久久久无码精品| 国产99视频免费精品是看6| 国产福利免费视频| 亚洲精品国产首次亮相| 9久久伊人精品综合| 日韩无码黄色网站| 精品亚洲麻豆1区2区3区| 成人久久18免费网站| 国产精品久久久久久影院| 狠狠色丁婷婷综合久久| 日本午夜视频在线观看| 国产永久在线视频| 丁香五月激情图片| 亚洲VA中文字幕| 久久国产精品波多野结衣| 亚洲愉拍一区二区精品| 成人在线天堂| 日韩在线观看网站| 国产一级毛片在线| 午夜福利视频一区| 91精品啪在线观看国产| 亚洲系列中文字幕一区二区| 在线日韩日本国产亚洲|