999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLP和深度學(xué)習(xí)方法的英文情感分析方法研究

2021-07-11 08:16:20薛雨
電子設(shè)計工程 2021年13期
關(guān)鍵詞:文本情感分析

薛雨

(商洛學(xué)院人文學(xué)院,陜西商洛 726000)

隨著互聯(lián)網(wǎng)的普及與發(fā)展,文化、購物、社交等信息平臺產(chǎn)生了大量的文本資源,這些資源大多由用戶自主上傳,其形式多樣、結(jié)構(gòu)復(fù)雜。在這些文本信息中蘊(yùn)含著豐富的數(shù)據(jù)價值,是描繪用戶畫像的直接資料[1-4]。例如,從文化信息數(shù)據(jù)庫中分析文本信息,可以輔助調(diào)查社會關(guān)系網(wǎng)絡(luò)和文化發(fā)展傾向;從購物網(wǎng)站中爬取用戶對于某件商品的評論信息,可以輔助商家更準(zhǔn)確地獲得用戶對該商品的印象,為商家與平臺的營銷策略提供直接支持。在這些需求下,要求計算機(jī)通過智能數(shù)據(jù)處理算法準(zhǔn)確地理解文本信息所蘊(yùn)含的情感傾向,以處理海量大數(shù)據(jù)并提取特征數(shù)據(jù),即文本情感分析,是自然語言處理領(lǐng)域中研究的重要課題之一[5-9]。文中通過將文本片段化,識別出給定文本中所表達(dá)的情感傾向及強(qiáng)度。英語是世界通用語言,對于英文情感分析的研究具有更廣闊的應(yīng)用前景。在情感分析時,按照分析對象的不同,可以分為詞、句、篇不同的級別,不同級別的文本分析粒度不同。文中為了提升英文情感分析方法的實(shí)用價值,以英文語句為單位進(jìn)行情感分析研究。

1 理論基礎(chǔ)

1.1 自然語言處理

自然語言處理(NLP)是一項(xiàng)研究人與機(jī)器間使用自然語言進(jìn)行信息交互的技術(shù)理論和方法,是一項(xiàng)融合計算機(jī)、語言學(xué)、數(shù)學(xué)等各個學(xué)科的智能方法。不論自然語言處理的目的如何,均要將文本信息轉(zhuǎn)化為詞向量作為模型的輸入,并進(jìn)行模型的訓(xùn)練。

經(jīng)典的詞向量訓(xùn)練有兩種方式:一種是基于語言模型的框架;另一種是基于主題的模型。第一種方法由于得到的詞向量信息中包含語義信息,更適合情感分析的研究[10]。

語言模型可以描述確定文本序列下每個詞序列的出現(xiàn)概率,即對于T長度的字符串向量s為:

P(?)是一個概率模型,將字符串序列中的第j個詞表示為wj。通過模型訓(xùn)練,輸出式(1)中的條件概率。但在詞訓(xùn)練的過程中,模型參數(shù)會隨著次數(shù)的增多而增長;詞向量的表述也會隨著向量維度的增長而趨向于稀疏。因此,文中引入了神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,即使用Word2vec 框架。

在文檔D中,對于當(dāng)前詞wij,其上下文Ci以最大后驗(yàn)概率為目標(biāo)函數(shù):

式(2)中,將D中的第j個句子標(biāo)記為Tj。為了計算條件概率p(wij|Cij;θ),需要進(jìn)行詞匯的映射。然后,使用層次Softmax 網(wǎng)絡(luò),進(jìn)行條件概率的最大化。過程如圖1 所示[11-16]。

圖1 層次Softmax結(jié)構(gòu)示意圖

層次Sotfmax 結(jié)構(gòu)與一般的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似,包含輸入層、隱藏層與輸出層。

1)輸入層

在輸入層中,使用詞向量矩陣M記錄當(dāng)前詞在上下文中的2h個詞向量作為模型的輸入,即:

2)隱藏層

隱藏層用于輸入層各個向量的累加,由節(jié)點(diǎn)wneu1完成匯聚。

3)輸出層

層次型Softmax結(jié)構(gòu)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的最大區(qū)別在于輸出層,其輸出層由二叉樹構(gòu)成。每一個二叉樹的葉子節(jié)點(diǎn)均對應(yīng)一個詞向量w,wneu1與二叉樹中的所有非葉節(jié)點(diǎn)連接,非葉子節(jié)點(diǎn)對應(yīng)一個非詞向量q。對于當(dāng)前詞向量,其條件概率可以表示為:

在訓(xùn)練二叉樹時,使用了最小負(fù)對數(shù)似然函數(shù)。在誤差反向傳播的過程中,根據(jù)隨機(jī)梯度下降的原則進(jìn)行參數(shù)更新。

此時,詞向量與非詞向量的更新方法如下:

其中,η是模型的學(xué)習(xí)率,η決定了參數(shù)在梯度下降過程中參數(shù)變化的快慢。

1.2 基于負(fù)抽樣的模型優(yōu)化

在分層Softmax 中,為了節(jié)省訓(xùn)練二叉樹時的計算資源,可以引入負(fù)抽樣方法。負(fù)抽樣前,需要定義模型中的正樣本與負(fù)樣本。文中將wij作為正樣本,將wij替換上下文后的詞作為負(fù)樣本。此時,目標(biāo)函數(shù)可以簡化為:

此時,根據(jù)梯度下降原則:

其中,label用于區(qū)分正負(fù)樣本。當(dāng)樣本是正樣本時,lable=1;當(dāng)樣本是負(fù)樣本時,lable=0。此時梯度為:

同時在引入負(fù)抽樣后,文本內(nèi)所有的詞向量可以劃分為上下文詞、中心詞兩類。參數(shù)更新時,對上下文詞更新,中心詞保留在鄰接矩陣Rw內(nèi),此時的更新方法如下:

1.3 情感相關(guān)詞嵌入

上述模型可以進(jìn)行詞向量的抽取,但直接抽取的詞向量僅包含少量的情感信息。通過向基礎(chǔ)語言模型內(nèi)嵌入與情感相關(guān)的詞目,可以實(shí)現(xiàn)文本的情感分析。此時,損失函數(shù)的形式如下:

其中,正常的詞序列被標(biāo)記為t,替換后的詞序列為tr。

在該模型中,需要在原有模型的基礎(chǔ)上再增加一個Softmax 層,該層專門用于情感信息的提取。在模型的輸入層,以n-gram作為輸入。此時,式(13)可以寫成:

2 方法實(shí)現(xiàn)

文中對自然語言處理的詞向量提取方法結(jié)合情感分析的文本分析模型進(jìn)行了介紹,接下來文中將結(jié)合具體的語料對上述模型進(jìn)行仿真。

2.1 實(shí)驗(yàn)設(shè)計

英文情感分析的實(shí)現(xiàn),最重要的是完成基于英文語料的模型訓(xùn)練[17],然后通過測試數(shù)據(jù)集進(jìn)行測試。流程如圖2 所示。

圖2 情感分析方法流程

為了更優(yōu)地發(fā)揮模型的性能,需要合理選擇情感分析時使用的語料資源。文中使用的語料資源為SemEval2013,這是學(xué)術(shù)界認(rèn)可度極高的國際語義測評競賽提供的官方語料。其具體的組成包括訓(xùn)練集、開發(fā)集與測試集,每個集合由包含肯定、中性和否定的3 種情感傾向組成。情感分析語料參數(shù)如表1 所示。

表1 情感分析語料參數(shù)

在語料的預(yù)處理中,需要根據(jù)算法需實(shí)現(xiàn)的目的對文本信息進(jìn)行分詞,標(biāo)注詞條的屬性以及對于英文中常用的停用詞進(jìn)行過濾。

文中在進(jìn)行分詞與詞性標(biāo)注時,使用中科院發(fā)布的ICTCLAS 分詞標(biāo)注輔助系統(tǒng)作為依據(jù)。

在進(jìn)行模型性能評價時,文中使用的指標(biāo)包括兩類,一類是機(jī)器學(xué)習(xí)算法常用的指標(biāo):準(zhǔn)確度Accuracy、F1,其定義如下:

其中,f(x)是模型的預(yù)測值,y(x)是模型的真實(shí)值,|X|為當(dāng)前數(shù)據(jù)集的輸入值。P、R分別為模型的準(zhǔn)確率與召回率:

另一類是與文本分析情感強(qiáng)度相關(guān)的肯德爾等級系數(shù)t,其定義形式如下:

2.2 仿真結(jié)果

在進(jìn)行算法的仿真時,為了提升算法在英文情感分析時的精度,文中使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)替代分層Softmax 中的二叉樹。根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)需要,確定使用卷積窗口的大小。為了簡化模型,文中在不同的卷積層使用長度相同的卷積核。表2 給出了模型的性能指標(biāo)隨卷積核大小的變化情況。

表2 模型指標(biāo)隨卷積核大小的變化

圖3(a)給出了模型Accuracy 與模型F1 的指標(biāo)隨著卷積核增加的變化情況,圖3(b)給出了模型的訓(xùn)練時間隨著卷積核增加的變化情況。可以看出,模型的精度和F1 值在卷積核小于或等于100 時,隨著卷積核的增長線性提升,當(dāng)卷積核大于100 后,這兩個指標(biāo)不再有所改善;此時,觀察模型訓(xùn)練時間曲線可以看出,模型在卷積核大于100 后,急劇增加。綜上所述,文中在模型訓(xùn)練時選取的卷積核大小為100。最終確定的模型參數(shù)如表3 所示。

圖3 卷積核大小與模型參數(shù)的關(guān)系

表3 模型參數(shù)設(shè)置

模型訓(xùn)練完成后,將測試集輸入到模型中,測試數(shù)據(jù)經(jīng)模型運(yùn)算輸出3 個不同類別的情感預(yù)測值。通過與數(shù)據(jù)集的標(biāo)記進(jìn)行比對,獲得測試結(jié)果。具體的測試結(jié)果如表4 所示。此外,為了評估模型的性能,文中采用基于二叉樹的分層次Softmax 模型,其結(jié)果如表4 所示。

表4 測試結(jié)果對比

從測試結(jié)果可知,在進(jìn)行英文文本的情感分析時,對于表示否定的文本,兩個模型均有較優(yōu)的識別精度。對于中性的文本,識別精度較差;從模型的整體性能來看,文中提出的CNN-Softmax 模型由于引入更深層次的卷積結(jié)構(gòu),在模型的性能上有大幅度提升。Accuracy 與F1 分別達(dá)到了84.3%和82.3%,相較于傳統(tǒng)的基于二叉樹的模型有約5%的提升。

3 結(jié)束語

文本情感分析是自然語言處理領(lǐng)域研究的熱點(diǎn)之一,文中對詞向量模型的提取和基于深度卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析方法進(jìn)行了研究[18]。對于詞向量提取的框架、文中建模方法與情感分析的流程進(jìn)行了深入的介紹。其在開放的語料集上進(jìn)行情感分析實(shí)驗(yàn),仿真結(jié)果證明了文中方法的優(yōu)越性。傳統(tǒng)基于二叉樹Softmax 模型的改造對于英文文本的情感分析,具有較強(qiáng)的實(shí)用價值。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗(yàn)證分析
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
電力系統(tǒng)及其自動化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 精品久久国产综合精麻豆 | 亚洲欧美国产视频| 热99精品视频| 国产精品妖精视频| 中文字幕在线欧美| 国产在线观看第二页| 午夜福利无码一区二区| 日韩在线影院| 永久免费无码日韩视频| 黄色网站不卡无码| 精品精品国产高清A毛片| 亚洲色图欧美视频| 国内精品久久久久久久久久影视| 亚洲国产中文在线二区三区免| 久久久波多野结衣av一区二区| 99热这里只有精品在线播放| 欧美亚洲第一页| 亚洲人成在线免费观看| 欧美有码在线观看| 欧美不卡视频一区发布| 欧美一级夜夜爽www| 亚洲美女操| 国产精品一区二区不卡的视频| 99国产精品国产高清一区二区| 欧美不卡视频一区发布| 国产精品丝袜在线| 久久免费看片| 日韩免费中文字幕| 亚洲一区二区在线无码| 青青青亚洲精品国产| 天天操天天噜| 国产经典三级在线| 全色黄大色大片免费久久老太| 午夜毛片免费观看视频 | 国产jizzjizz视频| 国产亚洲欧美在线视频| 国产一区免费在线观看| 青青青视频91在线 | 国产精品香蕉在线观看不卡| 色网站在线视频| 亚洲va欧美ⅴa国产va影院| 亚洲免费人成影院| 婷婷色在线视频| 大乳丰满人妻中文字幕日本| 久久国产高潮流白浆免费观看| 亚洲一区二区三区香蕉| 国产精品爽爽va在线无码观看| 超碰91免费人妻| 毛片视频网址| 日韩av在线直播| 在线精品亚洲国产| 久久中文字幕不卡一二区| 婷婷午夜天| 欧美一级爱操视频| 色综合天天综合中文网| 国产剧情国内精品原创| 72种姿势欧美久久久大黄蕉| 噜噜噜久久| 毛片久久网站小视频| 亚洲欧美日韩成人高清在线一区| 毛片免费视频| 欧美精品伊人久久| 欧美色图久久| 91视频精品| 亚洲嫩模喷白浆| 福利在线一区| 国产黄在线观看| 青草免费在线观看| 国产黄网永久免费| 久久久久青草大香线综合精品| 欧美午夜一区| 99精品热视频这里只有精品7| 综合成人国产| 91久久精品国产| 亚洲免费福利视频| 成人夜夜嗨| 黄色网页在线观看| 国产裸舞福利在线视频合集| 在线免费看片a| 欧美成人精品高清在线下载| 久久无码av一区二区三区| 国产精品99久久久久久董美香|