999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全局語義學習的文本情感增強方法研究

2020-08-29 06:17:10王慶林龐良健徐新勝
科學技術與工程 2020年21期
關鍵詞:語義分類特征

王慶林,李 晗,龐良健,徐新勝

(中國計量大學質量與安全工程學院,杭州 310018)

互聯網的快速發展正改變著人們的生活方式。人們在使用互聯網的過程中不再單純是信息的接受者,也在慢慢成為信息發布者。例如人們會對購買過的電商產品發表使用感受,會針對觀看過的影視作品或當下熱點事件發表觀點看法等。快速有效地挖掘出其中有價值的內容,將會幫助產品制造商了解用戶需求以及產品缺陷,或為影視工作者提供創作靈感,或輔助政府部門更好地把控社會輿論、制定相關政策措施。通常,人們發布的信息中伴隨著情感表達。準確判別其中的情感信號是提取有價值信息的前提和基礎。因此對人們發布的內容進行有效的情感分析,顯得尤為重要,正吸引眾多學者開展廣泛的研究與探索。

情感分析是指對帶有情感色彩的主觀性文本進行采集、處理、分析、歸納和推理的過程[1]。情感分類作為情感分析任務中的關鍵環節,旨在獲取人們在文本中表達出的情感傾向,將其分類為積極情感或消極情感。傳統方法中,情感分類主要通過從文本中提取出用于表達人們情感傾向的特征,然后基于這些特征構建文本情感分類器來實現的[2-4]。隨著深度學習的出現,鑒于其在特征學習方面的優勢,文本情感分類研究逐漸轉向設計不同結構的深度神經網絡,以提升情感分類效果[5-6]。近年來,注意力機制的提出[7],以及基于注意力機制構建預訓練模型的研究,如BERT、GPT2等,進一步提升了情感分類的效果。

情感分類的效果不僅取決于網絡模型的結構,同樣也會受到數據集的影響[8]。文本的情感分類研究中,分類模型的結構影響模型自身學習文本中情感特征的能力,數據集的體量與質量影響模型學習文本情感特征的過程。小體量數據集不利于模型獲得更好的泛化能力,為此,學者們提出了不同的文本數據增強技術以對數據集進行擴充。Sennrich等[9]使用回譯技術,首先將英語語料翻譯為法語語料,再將翻譯得到的法語語料翻譯成新的英語語料,通過這一過程生成新的訓練數據;Kobayashi[10]設計了基于聚合關系的同義詞替換的語言模型,通過語言模型生成的新詞替換文本中的目標詞產生新的文本數據。Wei 等[11]提出了同義詞替換、隨機插入、隨機交換、隨機刪除等四種簡潔有效的文本數據增強方法。上述文本增強方法通過在原始數據集的基礎上增加新的訓練數據來解決數據量不足的問題,并提升了文本分類效果。同樣,數據質量也會影響模型分類性能的提升,如情感表達模糊的文本語料也對情感分類結果造成影響。鑒于此,提出基于全局語義學習的文本情感增強方法,提高文本語料的情感分類效果。以BERT模型[12]作為情感分類基準模型,設計語料劃分方法,將語料自動劃分為強情感傾向語料與弱情感傾向語料,并設計基于全局語義學習的變分自編碼器(variational auto-encoder based on global semantic learning,GSLVAE),GSLVAE通過學習強情感傾向語料的語義特征,對弱情感傾向語料進行情感增強,最后利用BERT在新的綜合數據集上再次進行訓練、分類與實驗測試。通過文本情感增強的方法提高人們發布文本內容的情感分類效果,對于以評論文本情感分類為基礎的研究與應用具有重要的意義。

1 弱情感傾向語料的情感增強過程

文本語料的弱情感傾向是數據集質量不佳的一種表現形式。由于用詞不當或描述方式不規范造成情感表達模糊的文本,會導致分類模型難以捕獲有效的情感特征,進而無法完成正確的情感分類。例如,在文本“I highly recommend this movie, just because of its utter idiocy.”中,“idiocy”作為推薦這部電影的原因在邏輯上顯然不合理,“recommend”與“idiocy”的共現使得情感傾向變得模糊,類似現象會導致語料中出現弱情感傾向的文本,分類模型在處理類似語料時難以捕獲有效的情感特征做出正確判斷,從而影響情感分類的效果。

以待情感分類的評論語料為對象,弱情感傾向語料的情感增強過程如圖1所示,整個過程圍繞語料劃分、強情感傾向性語料的全局語義學習以及弱情感傾向性語料的文本增強展開,最終實現弱情感傾向語料的情感增強,提升評論語料的情感分類效果。

圖1 弱情感傾向語料的情感增強過程

(1)語料劃分。首先通過一定的技術手段對文本的情感傾向性進行定量描述,然后按照一定的規則和標準,以批量的方式將情感表達模糊的文本從原始文本語料中分離出來,最終將原始文本語料劃分為強情感傾向語料與弱情感傾向語料。

(2)全局語義學習。基于語言表達中豐富的上下文內涵信息,從文本全局的角度出發,充分學習強情感傾向語料文本中的詞語序列特征與語義特征,為弱情感傾向文本的情感增強提供依據。

(3)情感增強。利用從強情感傾向語料中學習到的詞語序列特征與語義特征信息,對弱情感傾向語料進行重構,改善弱情感傾向語料文本中情感表達模糊的問題,實現情感增強目標。

2 基于變分自編碼器的全局語義學習

2.1 基于循環神經網絡的變分自編碼器

變分自編碼器(variational auto-encoder,VAE)是一種基于自監督學習的神經網絡模型,可應用于特征表示、缺陷檢測以及遷移學習等多項任務。此外,變分自編碼器具備生成與訓練數據相似的數據樣本的功能,因此也可應用于數據增強和無監督學習模型的預訓練等[13]。在處理文本任務時,多使用基于循環神經網絡的變分自編碼器(RNN-VAE)[14],如圖2所示。

SOS和EOS分別為文本起始和結束的標志

RNN-VAE由兩個基于循環神經網絡的部分構成,即編碼器(encoder)與解碼器(decoder)。

(1)編碼器多以雙向循環神經網絡構造,學習輸入文本的潛在語義特征,并將其壓縮到低維的潛在特征空間表示。

(2)解碼器利用潛在語義特征實現對輸入文本的重構。

RNN-VAE通過對語言模型P(S)的學習實現對輸入文本的重構:

P(S)=P(w1,w2,…,wT)=P(w1)P(w2|w1)…

P(wT|w1,w2,…,wT-1)

(1)

式(1)中:wi表示文本中第i個詞;T表示文本中所有詞的總數;條件概率P(wi|w1,w2,…,wi-1)表示在已有前i-1個詞的條件下,第i個詞出現的概率。

語言模型中條件概率的結構不僅符合語言生成的客觀規律,也使RNN適合處理文本任務。RNN-VAE最終通過實現maxP(S)完成語言模型的學習[15],即

Eqθ(z|x)log2(x|z)}

(2)

z=μ+εσ

(3)

(4)

(5)

μ=WμhT+bμ

(6)

σ=WσhT+bσ

(7)

(8)

RNN-VAE的學習過程相當于編碼器將樣本編碼為特征點,解碼器再將特征點解碼為原始樣本的過程,通過估計所有特征點的分布得到一個與真實特征空間近似的特征空間以及相應的編碼與解碼的能力(圖2)。因此,RNN-VAE能夠將特征空間中任意的特征點解碼為新的樣本,也能夠通過對輸入的樣本進行編碼與解碼實現重構,使其呈現與特征空間相似的特征。基于此,構建GSLVAE學習模型,以強情感傾向語料作為訓練集學習其詞語序列特征和情感語義特征,然后GSLVAE將弱情感傾向語料重構為具備強情感傾向的新語料,從而實現情感增強的目標。

2.2 文本語料的全局語義學習方法

2.2.1 模型構建

基于RNN-VAE模型,將段落向量[16]與注意力機制[17]引入編碼器的結構中,構造文檔信息向量hd,實現對粗粒度文本語義特征的提取,同時,利用均值抽取hmean與最大值抽取hmax的方式對編碼器中RNN層的輸出矩陣H進行特征提取,捕獲輸入文本語料新的語義特征,然后,通過合并3個特征構造新的特征hL,實現對文本全局語義特征的提取。潛在特征空間由hL經過線性變化得到的參數μL、σL描述。模型結構與原理如圖3所示。

圖3 GLSVAE原理圖

設計GSLVAE,一方面使模型在基于大規模語料訓練時得到有效收斂,另一方面通過學習強情感傾向語料在表達情感時的特征,用來增強弱情感傾向文本的情感強度。

2.2.2 文檔信息向量

段落向量作為一種維度固定的低維連續向量,能夠在有效表示文本段落的同時解決由詞袋模型(bag of words,BoW)引起的高維稀疏等問題。訓練段落向量的學習過程使其表現出與段落中各個詞向量很高的相似性,因此,對T個詞向量進行線性組合,可以較為精確地重構段落向量:

(9)

式(9)中:xi與ai分別表示段落中第i個詞向量以及對應權重;vd表示段落向量。

段落中每個詞的語義功能各不相同,例如,情感詞對語義的貢獻程度高于停用詞,因此,段落向量中的權重與注意力機制中的權重十分相似。結合注意力機制與詞向量構造的新的段落向量,稱為文檔信息向量。權重通過編碼器(encoder)中RNN層的輸出矩陣H計算得到:

(10)

2.2.3 基于變分自編碼器的全局語義學習

編碼器學習語義特征的過程即為構造概率分布qθ(z|x)的過程,考慮文本的上下文語義以及詞語間的關聯關系,對編碼器的RNN層的輸出矩陣H分別通過均值抽取hmean與最大值抽取hmax的方式提取新的語義特征,如圖4所示。

圖4 均值抽取與最大值抽取

(11)

(12)

GSLVAE壓縮語義特征到潛在特征空間的過程描述如式(13)~式(18)所示:

hL=[hmeanhmaxhd]

(13)

z=μL+εσL

(14)

(15)

(16)

μL=WμLhL+bμL

(17)

σL=WσLhL+bσL

(18)

式中:WμL、bμL分別為參數μL的權值和偏差;WσL、bσL分別為參數σL的權值和偏差。

與RNN-VAE類似,GSLVAE的訓練目標或損失函數,如式(2)所示。

GSLVAE基于RNN-VAE進行改進,在保留提取文本語料中的詞語序列特征能力的同時,通過hmean、hmax及hd構造特征hL,使模型具備提取描述文本語料詞語間關系的語義特征與粗粒度語義特征的能力,最終實現文本語料的全局語義學習。

3 實驗驗證與分析

3.1 實驗數據

以真實的開源IMDb影評數據集為例,評估GSLVAE實現的文本情感增強對于情感分類任務結果的提升效果。該影評數據集包含12 500條積極評論,12 500條消極評論,但積極評論和消極評論語料中都會存在部分弱情感傾向的評論文本。以弱情感傾向評論文本為對象進行情感增強研究,以提高IMDb影評數據集的情感分類效果為目標,并采用分類任務中通用的評價指標對實驗結果進行評價,即精確率P、召回率R、F1值。

3.2 基線模型

BERT模型的出現大幅度提升了文本分類的準確性。以BERT作為基線模型,為語料劃分以及情感分類研究提供基礎。BERT參數設置如表1所示。

表1 BERT參數設置

將IMDb影評數據集等分為4份,進行4折交叉驗證實驗(圖5),在保證分類結果有效性的同時,為全數據集的劃分提供了前提。合并每次實驗的驗證集結果,即可得到BERT模型對全數據集的分類結果(表2)。

圖5 4折交叉驗證實驗示意圖

表2 4折交叉驗證實驗結果

3.3 語料劃分方法及結果

定量描述文本的情感傾向性是對文本語料進行劃分的前提。基于BERT進行文本情感分類,文本的情感類別取決于BERT輸出的一組對應不同情感類別的概率(概率的代數和為1),與最大概率值對應的類別即為分類結果。概率反映分類模型將輸入文本判定屬于某一情感類別的置信程度,通常情況下,分類模型輸出的一組概率中僅有一個概率近似等于1,其他概率近似等于0。然而當輸入文本的情感傾向不明顯時,其分類輸出會呈現出其他規律。以此為依據,基于分類模型的概率輸出,設計如下語料劃分規則,實現語料自動劃分。

(19)

式(19)中:P=[p1,p2,…,pn];pi為輸入文本的類別i對應的概率輸出值;n為總類別數;δ為劃分閾值,δ∈[0,1];B表示將輸入文本劃分為情感表達傾向不顯著的文本;G則反之。

基于BERT對全數據集的分類輸出,將規則R(P)中的δ設置為0.6,對IMDb影評數據集進行劃分,分別得到包含24 656條影評文本的數據集G與包含344條影評文本的數據集B。

3.4 弱情感傾向語料的增強及實驗結果分析

GSLVAE通過學習G數據集中強情感傾向文本的語義特征來增強B數據集中弱情感傾向文本的情感強度。為了更好地實現GSLVAE的收斂效果,以英文中“.”“?”“!”等句子終止符號對劃分后數據集中的文本進行分割,并選擇句子長度為10~20個詞的短句作為GSLVAE的訓練集與情感增強的對象。由數據集G與B分別得到短句134 040、2 247條。利用IMDb語料訓練Word2Vec模型,以得到語料中不同詞的300維詞向量。GSLVAE主要參數設置如表3所示。為保證情感增強后語料與原始語料的語義差異在可控范圍內,需以情感增強階段產生的損失作為是否采納情感增強文本的依據,采納損失≤1的結果。部分文本情感增強結果如表4所示。

表3 GLSVAE主要參數設置

表4 部分文本情感增強結果

表4結果表明,提出的GSLVAE能夠實現弱情感傾向文本的情感增強,例如,短句“Technically this movie is as sound as they come-it just lacks aheart.”經情感增強后變為“Technically this movie is as sound as they come, it lackspassion.”,其中“it lackspassion”相較于“it just lacks aheart”在負面情感傾向的表達中更為明顯。

為了驗證語料在情感增強以后的情感分類效果,將數據集G與經過情感增強的數據集B合并,再次進行4折交叉驗證實驗,得到基于文本情感增強的BERT模型分類結果,如表5所示。

表5 基于文本情感增強的BERT模型分類結果

表5所示的實驗結果表明,提出的基于文本情感增強的數據增強方案使得情感分析任務的結果得到了一定的提升,具體表現為準確率、召回率及F1分別提升了0.15%、0.48%、0.3%。通常,真實語料中情感模糊的文本比例較小,因此上述結果也是較為合理的。

4 結論

作為深度學習領域中的熱點研究,情感分類始終吸引著眾多學者不斷研究與拓展。從提升文本語料情感強度的角度出發,首先基于BERT的情感分類結果設計語料劃分方法,能夠自動將語料劃分為強、弱情感傾向語料;然后改進RNN-VAE的語義學習過程,提出GSLVAE,考慮編碼器處理輸入文本的全過程以及輸入文本的整體語義,分別構造基于hmean與hmax的語義特征以及基于文檔信息向量hd的粗粒度文本語義特征,實現基于循環神經網絡的全局語義學習;最后,GSLVAE通過學習強情感傾向語料的語義特征來實施弱情感傾向文本的情感增強,并將經過情感增強的文本替換到原始語料中,再重新進行情感分類,相較于情感增強之前的結果得到了提升,證實了基于全局語義學習的文本情感增強的有效性。

然而,提出的GSLVAE暫未兼顧時間復雜度的問題,導致模型收斂速度較慢,后期將會以增強文本情感強度為目標繼續探索,研究不同的生成式模型,在降低模型的時間復雜度方面做出改進,進一步完善GSLVAE方法。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲欧美自拍中文| 99爱在线| 久久婷婷色综合老司机| 激情视频综合网| 免费啪啪网址| 一级在线毛片| 亚洲日韩欧美在线观看| 国产极品美女在线| 成人av手机在线观看| 亚洲免费毛片| 最近最新中文字幕在线第一页| 欧美h在线观看| 日韩二区三区无| 国产免费精彩视频| 国产成人精品一区二区免费看京| 五月激情综合网| 亚洲黄色高清| 国产成人精品午夜视频'| 亚洲黄色片免费看| 精品无码人妻一区二区| 国产成人亚洲精品色欲AV| 9久久伊人精品综合| 色偷偷男人的天堂亚洲av| 亚洲国产精品不卡在线| 91精品在线视频观看| 欧美中日韩在线| 国产制服丝袜91在线| 免费人成网站在线高清| 欧美伊人色综合久久天天| 国产成人亚洲综合A∨在线播放 | 欧美日韩中文字幕二区三区| 国产人人乐人人爱| 欧美国产日产一区二区| 久久精品人人做人人爽电影蜜月 | 巨熟乳波霸若妻中文观看免费| 日本高清在线看免费观看| 欧美精品黑人粗大| 亚洲91精品视频| 国内丰满少妇猛烈精品播| 好吊妞欧美视频免费| 又爽又大又光又色的午夜视频| 日韩小视频网站hq| 国产午夜福利亚洲第一| 精品剧情v国产在线观看| 99re热精品视频中文字幕不卡| 漂亮人妻被中出中文字幕久久| 国产精品视频导航| 毛片手机在线看| 99这里只有精品在线| 三上悠亚在线精品二区| av性天堂网| 国产在线拍偷自揄拍精品| 中文字幕色在线| 亚洲精品视频在线观看视频| 久久夜夜视频| 一本久道久综合久久鬼色| 这里只有精品在线播放| 亚洲人成电影在线播放| 成人久久18免费网站| 日韩免费毛片| 久久精品国产精品国产一区| 激情亚洲天堂| 91午夜福利在线观看精品| 一级全免费视频播放| 亚洲精品视频免费看| 国产国产人免费视频成18| 911亚洲精品| 国产精品久久久久久久伊一| 婷婷亚洲最大| 5555国产在线观看| 2020精品极品国产色在线观看| 在线欧美日韩国产| 精品人妻无码中字系列| 国产不卡一级毛片视频| 91精品国产自产在线观看| 中文字幕一区二区人妻电影| 国产丝袜精品| 99免费在线观看视频| 四虎精品黑人视频| 91啪在线| 亚洲人成网站色7777| 国内丰满少妇猛烈精品播|