999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于類(lèi)不平衡學(xué)習(xí)的情感分析方法

2021-07-15 01:24:44曲豫賓
關(guān)鍵詞:分類(lèi)模型

李 芳, 曲豫賓, 陳 翔, 李 龍, 楊 帆

(1. 桂林電子科技大學(xué) 廣西可信軟件重點(diǎn)實(shí)驗(yàn)室, 廣西 桂林 541004; 2. 江蘇工程職業(yè)技術(shù)學(xué)院 建筑工程學(xué)院, 江蘇 南通 226001; 3. 江蘇工程職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 江蘇 南通 226001; 4. 南通大學(xué) 信息科學(xué)技術(shù)學(xué)院, 江蘇 南通 226019; 5. 江蘇工程職業(yè)技術(shù)學(xué)院 圖文信息中心, 江蘇 南通 226001)

網(wǎng)絡(luò)的快速發(fā)展產(chǎn)生了海量的文本數(shù)據(jù), 大量的文本數(shù)據(jù)來(lái)源于用戶(hù)參與論壇等活動(dòng), 這種UGC(user generated contents)數(shù)據(jù)變得越來(lái)越重要[1]. UGC數(shù)據(jù)主要包括電商商品評(píng)論及電影評(píng)論等, 其可提供一些有價(jià)值的信息, 為用戶(hù)的日常決策提供了重要參考[2]. 網(wǎng)絡(luò)評(píng)論的極性分類(lèi)是文本處理任務(wù)中的一項(xiàng)基本任務(wù)[3]. 網(wǎng)絡(luò)評(píng)論中的情感分析(sentiment analysis)是指根據(jù)文本內(nèi)容, 使用多種方式判斷該段文本的極性, 文本的極性類(lèi)型包括褒義(positive)和貶義(negative)兩種. 常見(jiàn)的分析方法主要有基于詞典的情感分析方法、 基于機(jī)器學(xué)習(xí)的情感分析技術(shù)以及基于深度神經(jīng)網(wǎng)絡(luò)的情感分析技術(shù)[4]等. 朱嫣嵐等[5]借助于HowNet提供的語(yǔ)義相似度計(jì)算目標(biāo)詞與基準(zhǔn)詞之間的相關(guān)性, 對(duì)文本的極性進(jìn)行了分類(lèi); 李明等[4]通過(guò)研究樸素Bayes、 決策樹(shù)、 支持向量機(jī)等算法, 發(fā)現(xiàn)支持向量機(jī)在商品評(píng)論情況傾向性分析中具有較高的召回率和精確率; 高云龍等[6]采用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò), 利用不同編碼方式將短文本映射到不同空間下的分布式表示中, 實(shí)現(xiàn)了對(duì)短文本進(jìn)行分類(lèi); 高巍等[7]采用基于序列卷積網(wǎng)絡(luò)對(duì)Twitter數(shù)據(jù)進(jìn)行情感分類(lèi), 證明序列卷積分類(lèi)模型可在情感分類(lèi)任務(wù)中取得較好的效果. 但上述研究都是針對(duì)平衡數(shù)據(jù)集, 即含有褒義與貶義內(nèi)容的數(shù)據(jù)基本保持一致. 由于用戶(hù)評(píng)論的隨機(jī)性, 這些UGC數(shù)據(jù)通常存在天然的類(lèi)不平衡[8]. 貶義數(shù)據(jù), 也稱(chēng)為消極數(shù)據(jù), 數(shù)量較少, 但卻有較大的影響力. 傳統(tǒng)基于機(jī)器學(xué)習(xí)方法對(duì)類(lèi)不平衡數(shù)據(jù)集的處理方法包括對(duì)數(shù)據(jù)集中多數(shù)類(lèi)欠采樣、 對(duì)數(shù)據(jù)集中少數(shù)類(lèi)進(jìn)行過(guò)采樣和基于代價(jià)敏感的分類(lèi)方法等[9]. 目前, 對(duì)文本分類(lèi)中類(lèi)不平衡問(wèn)題的研究已有許多成果: Li等[10]首先提出了在類(lèi)不平衡數(shù)據(jù)集中采用過(guò)采樣及欠采樣的方法, 緩解不平衡數(shù)據(jù)集對(duì)分類(lèi)器性能的影響; Li等[1]針對(duì)類(lèi)不平衡問(wèn)題, 提出了結(jié)合通用與領(lǐng)域知識(shí)對(duì)文本進(jìn)行過(guò)采樣, 取得了一定的效果; 如先姑力·阿布都熱西提等[11]提出了在維語(yǔ)網(wǎng)頁(yè)中使用n-gram模型結(jié)合類(lèi)不平衡SVM的不良文本過(guò)濾方法; Prusa等[12]采用欠采樣方法解決了Twitter情感分析中的類(lèi)不平衡問(wèn)題; Li等[13]通過(guò)引入半監(jiān)督學(xué)習(xí)的方式擴(kuò)充訓(xùn)練數(shù)據(jù)集, 以緩解類(lèi)不平衡問(wèn)題; Ren等[14]在解決自引入技術(shù)債務(wù)的分類(lèi)問(wèn)題中, 采用基于代價(jià)敏感的分類(lèi)方法緩解類(lèi)不平衡問(wèn)題, 該方法采用文檔數(shù)量比例作為損失函數(shù)中的權(quán)重因子; Lin等[15]在解決使用單機(jī)結(jié)構(gòu)做目標(biāo)識(shí)別的過(guò)程中, 既引入代表代價(jià)敏感的權(quán)重影響因子, 又考慮樣例的分類(lèi)難度, 提升了目標(biāo)識(shí)別的精度; Ye等[16]在用卷積神經(jīng)網(wǎng)絡(luò)解決圖像識(shí)別時(shí)引入了類(lèi)別相關(guān)度特性, 使得少數(shù)類(lèi)具有較大的決策值, 從而緩解了類(lèi)不平衡問(wèn)題. 解決類(lèi)不平衡問(wèn)題過(guò)程中, 對(duì)多數(shù)類(lèi)數(shù)據(jù)欠采樣可能會(huì)導(dǎo)致信息丟失的問(wèn)題, 對(duì)少數(shù)類(lèi)過(guò)采樣可能會(huì)導(dǎo)致模型過(guò)擬合問(wèn)題, 因此基于代價(jià)敏感的分類(lèi)方法應(yīng)用廣泛. 但傳統(tǒng)基于代價(jià)敏感的分類(lèi)方法僅考慮了不同類(lèi)別數(shù)據(jù)集對(duì)訓(xùn)練模型的影響, 未充分考慮訓(xùn)練過(guò)程中不同樣例區(qū)分的難度問(wèn)題. Lin等[15]在設(shè)計(jì)Focal損失函數(shù)過(guò)程中引入了不同樣例的區(qū)分難度, 但該計(jì)算過(guò)程需預(yù)先設(shè)定超參數(shù), 且物理意義不明確.

基于此, 本文在將基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)框架應(yīng)用到情感分析過(guò)程中, 設(shè)計(jì)一種基于交叉熵?fù)p失函數(shù)的目標(biāo)函數(shù), 該目標(biāo)函數(shù)既考慮了不同類(lèi)別比例對(duì)模型訓(xùn)練的影響, 又通過(guò)集成信息熵將不同樣例的分類(lèi)難度引入到新的目標(biāo)函數(shù)中. 首先, 基于預(yù)訓(xùn)練的向量對(duì)情感分類(lèi)文本進(jìn)行詞嵌入, 將訓(xùn)練數(shù)據(jù)集的詞向量輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)中; 其次, 在訓(xùn)練過(guò)程中使用新的目標(biāo)函數(shù)計(jì)算損失值, 進(jìn)而進(jìn)行反向傳播; 最后, 使用常見(jiàn)的AUC(area under curve)作為分類(lèi)性能的評(píng)價(jià)指標(biāo), 將測(cè)試數(shù)據(jù)集在該深度學(xué)習(xí)模型上進(jìn)行驗(yàn)證測(cè)試. 在公開(kāi)的情感文本分類(lèi)數(shù)據(jù)集IMDB上進(jìn)行多次重復(fù)實(shí)驗(yàn), 對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析, 證明基于該目標(biāo)函數(shù)的深度學(xué)習(xí)框架能提升分類(lèi)性能.

1 情感分析中基于類(lèi)不平衡學(xué)習(xí)的深度語(yǔ)義學(xué)習(xí)框架

1.1 基于類(lèi)不平衡學(xué)習(xí)的深度語(yǔ)義學(xué)習(xí)框架

針對(duì)網(wǎng)絡(luò)評(píng)論中需從文本序列特征中學(xué)習(xí)深度語(yǔ)義以及評(píng)論文本中存在類(lèi)不平衡的問(wèn)題, 結(jié)合信息熵提出一種針對(duì)深度學(xué)習(xí)框架的損失函數(shù), 該損失函數(shù)考慮了數(shù)據(jù)分布中的類(lèi)不平衡問(wèn)題, 將信息熵作為衡量樣本分類(lèi)難易程度的影響因子. 深度語(yǔ)義學(xué)習(xí)框架的整體流程如圖1所示.

圖1 情感分析中基于類(lèi)不平衡學(xué)習(xí)的深度語(yǔ)義學(xué)習(xí)框架Fig.1 Deep semantic learning framework based on class imbalanced learning in sentiment analysis

情感分析問(wèn)題屬于自然語(yǔ)言處理(NLP)中的分類(lèi)問(wèn)題, 文獻(xiàn)[17]在卷積神經(jīng)網(wǎng)絡(luò)上對(duì)文本進(jìn)行了分類(lèi)實(shí)驗(yàn), 結(jié)果表明, 采用預(yù)訓(xùn)練的向量對(duì)輸入文本進(jìn)行向量初始化, 能大幅度提升分類(lèi)性能. 如圖1所示, 該深度語(yǔ)義學(xué)習(xí)框架首先使用glove vector對(duì)訓(xùn)練數(shù)據(jù)集中的文本進(jìn)行初始化[18], 得到維度為300維的輸入向量, 然后將該初始化后的向量作為雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入值進(jìn)行訓(xùn)練. 長(zhǎng)短期記憶網(wǎng)絡(luò)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種, 能解決較長(zhǎng)數(shù)據(jù)的依賴(lài)問(wèn)題, 該網(wǎng)絡(luò)也能更好收斂[19]. 而雙向長(zhǎng)短期記憶網(wǎng)絡(luò)除能考慮文字序列之間的正向依賴(lài)外, 也能兼顧文字序列之間的反向依賴(lài)[20], 且雙向長(zhǎng)短期記憶網(wǎng)絡(luò)能更好地解決梯度爆炸和梯度消失問(wèn)題, 從而更好地訓(xùn)練分類(lèi)模型. 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)從嵌入式向量中學(xué)習(xí)語(yǔ)義特征, 分別生成前序語(yǔ)義特征向量和后序語(yǔ)義特征向量, 將兩種向量連接在一起組合為全連接線(xiàn)性分類(lèi)層, 輸出層為包含兩個(gè)輸出神經(jīng)元的輸出層, 對(duì)輸出層使用交叉信息熵?fù)p失函數(shù)計(jì)算訓(xùn)練數(shù)據(jù)集的損失值. 鑒于在訓(xùn)練文本中存在類(lèi)不平衡問(wèn)題, 通過(guò)引入不同類(lèi)別的比值作為權(quán)重影響因子, 同時(shí)引入信息熵的概念, 將經(jīng)過(guò)softmax后的輸出值作為概率分布計(jì)算相應(yīng)的信息熵. 信息熵用于衡量樣本分類(lèi)的難度, 信息熵高則樣本分類(lèi)難度較高, 應(yīng)該分配較多的損失值. 對(duì)損失值進(jìn)行反向傳播, 計(jì)算得到深度語(yǔ)義學(xué)習(xí)模型. 將該訓(xùn)練模型應(yīng)用在測(cè)試數(shù)據(jù)集上, 得到該模型的性能分布情況. 原始訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集具有相同的樣本數(shù), 為構(gòu)建類(lèi)不平衡數(shù)據(jù)集, 設(shè)定抽樣因子序列為list={0.05,0.1,0.2,0.3,0.35,0.4}, 對(duì)訓(xùn)練集與測(cè)試集中的消極評(píng)論(negative)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣, 即可構(gòu)建多組用于訓(xùn)練模型的數(shù)據(jù)集.

1.2 基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的語(yǔ)義特征學(xué)習(xí)模型

文獻(xiàn)[20]對(duì)從網(wǎng)絡(luò)上爬取的英文和中文語(yǔ)料進(jìn)行了分詞及標(biāo)注, 研究表明, 采用長(zhǎng)短期記憶網(wǎng)絡(luò)比采用循環(huán)神經(jīng)網(wǎng)絡(luò)能更好地獲取潛在的語(yǔ)義信息, 達(dá)到較好的分類(lèi)效果. 文獻(xiàn)[21]將IF-IDF信息與分布式詞向量表示相融合, 采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)從攜程網(wǎng)上爬取的網(wǎng)絡(luò)評(píng)論信息進(jìn)行分類(lèi), 取得了比其他循環(huán)神經(jīng)網(wǎng)絡(luò)更好的分類(lèi)效果. 因此, 本文對(duì)網(wǎng)絡(luò)評(píng)論使用glove預(yù)訓(xùn)練模型, 獲取分布式向量表示, 采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)評(píng)論的極性進(jìn)行分類(lèi). 單獨(dú)的長(zhǎng)短期記憶網(wǎng)絡(luò)單元結(jié)構(gòu)如圖2所示. 該網(wǎng)絡(luò)單元由遺忘門(mén)、 記憶門(mén)、 輸出門(mén)等組成.

圖2 長(zhǎng)短期記憶網(wǎng)絡(luò)單元結(jié)構(gòu)Fig.2 Unit structure of long short-term memory network

設(shè)遺忘門(mén)的輸出為ft, 其計(jì)算公式為

ft=σ(wf·[ht-1,xt]+bf).

(1)

記憶門(mén)確定從輸入中得到的哪些信息被記憶, 其計(jì)算公式為

it=σ(wi·[ht-1,xt]+bi),

(2)

(3)

信息的更新過(guò)程為

(4)

該網(wǎng)絡(luò)單元的輸出值為

ot=σ(wo·[ht-1,xt]+bo),

(5)

ht=ot×tanh(Ct).

(6)

長(zhǎng)短期記憶網(wǎng)絡(luò)單元中, 信息流只能前向傳播, (t+1)時(shí)刻的信息僅依賴(lài)于t時(shí)刻之前的信息輸入; 為使(t+1)時(shí)刻的信息能夠感知(t+2)時(shí)刻及以后的信息, 引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò). 對(duì)基于自然語(yǔ)言處理的情感極性文本分類(lèi)問(wèn)題, 該分類(lèi)模型能更好地滿(mǎn)足自然語(yǔ)言處理過(guò)程中對(duì)文本信息上下文感知的需求. 由于采用了雙向長(zhǎng)短期記憶網(wǎng)絡(luò), 在輸出單元時(shí)會(huì)輸出兩個(gè)方向的語(yǔ)義向量. 通過(guò)對(duì)兩個(gè)向量進(jìn)行連接操作形成新的深度語(yǔ)義特征向量, 將該向量作為線(xiàn)性全連接層的輸入向量.

1.3 面向類(lèi)不平衡的集成信息熵?fù)p失函數(shù)

目前, 針對(duì)網(wǎng)絡(luò)評(píng)論的研究[4,21]主要考慮了平衡數(shù)據(jù)集, 即在構(gòu)造訓(xùn)練數(shù)據(jù)集時(shí)積極評(píng)論數(shù)量與消極評(píng)論數(shù)量相同. 具有相同比重的評(píng)論數(shù)據(jù)集在構(gòu)造長(zhǎng)短期記憶網(wǎng)絡(luò)的分類(lèi)模型時(shí)有助于獲取分類(lèi)性能較好的模型, 但網(wǎng)絡(luò)評(píng)論本身存在類(lèi)不平衡問(wèn)題, 通常某種評(píng)論數(shù)量會(huì)遠(yuǎn)多于另一種評(píng)論, 使原有的訓(xùn)練模型無(wú)法遷移到新的數(shù)據(jù)集中. 且由于具有少數(shù)類(lèi)的評(píng)論模型通常具有不可忽視的重要性與影響力, 因此需解決面向類(lèi)不平衡的情感分析問(wèn)題.

針對(duì)類(lèi)不平衡的數(shù)據(jù)集, 常見(jiàn)的解決方法包括在訓(xùn)練數(shù)據(jù)集中對(duì)多數(shù)類(lèi)進(jìn)行欠采樣、 對(duì)少數(shù)類(lèi)進(jìn)行過(guò)采樣、 使用代價(jià)敏感的損失函數(shù)等方法[9]. 欠采樣方法存在丟失數(shù)據(jù)信息問(wèn)題, 傳統(tǒng)基于SMOTE的過(guò)采樣方法不能應(yīng)用于采用分布式詞向量表示的輸入數(shù)據(jù)集中. 采用代價(jià)敏感的損失函數(shù)是解決類(lèi)不平衡問(wèn)題的常用方法之一. 除考慮類(lèi)不平衡外, 還要針對(duì)不同分類(lèi)難度的樣例進(jìn)行處理. Lin等[15]在對(duì)圖像檢測(cè)問(wèn)題的研究中發(fā)現(xiàn), 不同分類(lèi)難度的樣例對(duì)分類(lèi)精度存在較大影響. 易分類(lèi)的樣例其損失函數(shù)應(yīng)有較小的損失值, 難分類(lèi)的樣例其損失函數(shù)應(yīng)有較大的損失值. 通過(guò)引入分類(lèi)難易程度的影響因子, 可實(shí)現(xiàn)對(duì)類(lèi)不平衡數(shù)據(jù)集中不易分類(lèi)的少數(shù)類(lèi)提升其損失函數(shù)輸出值, 改變反向傳播過(guò)程中的網(wǎng)絡(luò)結(jié)構(gòu), 從而提升分類(lèi)性能. 但該方法存在物理意義不明確, 需要在使用過(guò)程中進(jìn)行超參數(shù)優(yōu)化等問(wèn)題, 泛化性能較差.

本文算法基于兼顧類(lèi)不平衡中不同類(lèi)別的分類(lèi)代價(jià)及分類(lèi)難易程度, 特別是對(duì)不易分類(lèi)的少數(shù)類(lèi)更有效. 由于信息熵能有效衡量離散信息的不確定性, 因此不確定性高的分類(lèi)樣例信息熵較高, 其對(duì)應(yīng)的樣例分類(lèi)難度較大; 確定性高的分類(lèi)樣例信息熵較低, 其對(duì)應(yīng)的樣例分類(lèi)難度較小.

如圖1所示, 深度神經(jīng)網(wǎng)絡(luò)的輸出不同類(lèi)別得分為score={t0,t1}, 經(jīng)過(guò)softmax后的分布概率為P={p0,1-p0}, 情感分析問(wèn)題屬于二分類(lèi)問(wèn)題, 為簡(jiǎn)單, 設(shè)其真實(shí)值為P′={1,0}, 則對(duì)應(yīng)的交叉信息熵CE(P′,P)為

CE(P′,P)=1×(-lgp0)+0×[(-lg(1-p0)]=-lgp0.

(7)

考慮網(wǎng)絡(luò)極性評(píng)論中存在的類(lèi)不平衡問(wèn)題, 設(shè)不同類(lèi)別評(píng)論數(shù)量的比例為γ={γ0,1-γ0},γ0∈{0,1}, 為簡(jiǎn)單, 設(shè)類(lèi)別為1的評(píng)論比例為γ0, 則其對(duì)應(yīng)的交叉信息熵CE(P′,P)為

CE(P′,P)=1×(-lgp0)×γ0+0×[-lg(1-p0)]×(1-γ0)=-γ0lgp0.

(8)

交叉信息熵CE(P′,P)的損失值由大量多數(shù)類(lèi)的損失值組成, 因此有必要提升少量難分類(lèi)的少數(shù)類(lèi)損失值權(quán)重.信息熵能衡量離散信息的不確定性, 設(shè)信息熵因子為

(9)

則引入信息熵因子后的交叉信息熵CE(P′,P)為

CE(P′,P)={1×(-lgp0)×γ0+0×[-lg(1-p0)]×(1-γ0)}×β=-βγ0lgp0.

(10)

由p0計(jì)算得到的信息熵在面對(duì)多數(shù)易分類(lèi)樣例時(shí), 其值接近0, 在面對(duì)其他難分類(lèi)樣例時(shí), 分類(lèi)難度越高, 其值越接近1, 因此由β因子進(jìn)行縮放后,β值能較好地反映樣例分類(lèi)的難易程度. 根據(jù)式(8)計(jì)算得到對(duì)應(yīng)的損失函數(shù)梯度為

(11)

2 實(shí) 驗(yàn)

所有實(shí)驗(yàn)均在至強(qiáng)E5-2670的CPU與16 GB內(nèi)存的工作站上完成, 同時(shí)在NVIDIA GeForce RTX 2070 GPU上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)并進(jìn)行分析. 實(shí)驗(yàn)中使用的深度神經(jīng)網(wǎng)絡(luò)庫(kù)采用Pytorch 1.6穩(wěn)定版本, 超參數(shù)采用BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)的默認(rèn)參數(shù).

2.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)采用的情感分析數(shù)據(jù)來(lái)源于IMDB數(shù)據(jù)集, 該數(shù)據(jù)集為經(jīng)過(guò)預(yù)處理的具有明顯情感偏向的數(shù)據(jù)集, 分為積極評(píng)論和消極評(píng)論. 原始數(shù)據(jù)集中包括訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集, 各25 000條數(shù)據(jù). 該數(shù)據(jù)集應(yīng)用較廣, 在Keras,Pytorch等框架上都有集成, 提供專(zhuān)用的數(shù)據(jù)處理接口. 本文實(shí)驗(yàn)需要對(duì)類(lèi)不平衡數(shù)據(jù)集進(jìn)行處理, 因此未采用通用接口, 通過(guò)直接讀取數(shù)據(jù)源創(chuàng)建數(shù)據(jù)字典的方式封裝數(shù)據(jù)處理接口. 設(shè)抽樣因子序列為list={0.05,0.1,0.2,0.3,0.35,0.4}, 對(duì)原數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集中的消極評(píng)論數(shù)據(jù)集進(jìn)行隨機(jī)抽樣, 即可構(gòu)建多組用于訓(xùn)練模型的數(shù)據(jù)集. 數(shù)據(jù)集信息列于表1.

表1 數(shù)據(jù)集信息

2.2 分布式詞向量表示

在自然語(yǔ)言處理中, 單詞的表示已從早期的one-hot編碼發(fā)展為目前常見(jiàn)的分布式詞向量表示. GloVe模型(global vectors for word representation)是目前較常見(jiàn)的單詞分布式詞向量表示模型之一. 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入要求是詞向量, 采用如GloVe模型等預(yù)訓(xùn)練的詞向量可有效提高模型分類(lèi)的精度[17]. 本文實(shí)驗(yàn)中先將GloVe模型加載到內(nèi)存中, 再對(duì)待訓(xùn)練的網(wǎng)絡(luò)評(píng)論查找該向量表, 獲取分布式詞向量表示. 為與GloVe模型保持一致, 分布式詞向量的維度設(shè)為300, 其他超參數(shù)包括每句評(píng)論的長(zhǎng)度設(shè)為200, 超過(guò)特定長(zhǎng)度的句子做截?cái)嗵幚? 對(duì)不滿(mǎn)足長(zhǎng)度的句子進(jìn)行補(bǔ)零操作, 數(shù)據(jù)字典大小為20 000.

2.3 評(píng)價(jià)指標(biāo)

針對(duì)類(lèi)不平衡數(shù)據(jù)集的常用評(píng)價(jià)指標(biāo)包括召回率、F1值和AUC等. AUC能綜合考慮召回率與精確率指標(biāo), 應(yīng)用較廣, 其值越趨近1表示分類(lèi)模型性能越高, 如果AUC值在0.5附近, 則表示其分類(lèi)性能無(wú)應(yīng)用價(jià)值.

2.4 對(duì)比損失函數(shù)

為比較不同類(lèi)別的損失函數(shù)對(duì)情感分析類(lèi)不平衡數(shù)據(jù)集的影響, 本文選擇多種損失函數(shù)在相同條件下進(jìn)行對(duì)比實(shí)驗(yàn). 實(shí)驗(yàn)中用到的4種損失函數(shù)如下:

1) 如式(7)所示, 采用交叉信息熵作為損失函數(shù), 未考慮類(lèi)不平衡問(wèn)題, 在實(shí)驗(yàn)中作為基準(zhǔn)函數(shù), 記為L(zhǎng)F;

2) 如式(8)所示, 采用交叉信息熵作為損失函數(shù), 考慮不同類(lèi)別評(píng)論比例的影響, 引入不平衡率影響因子, 記為L(zhǎng)FCS;

3) 文獻(xiàn)[15]的損失函數(shù), 該損失函數(shù)同時(shí)引入了不平衡率影響因子和表達(dá)分類(lèi)難易程度的影響因子, 該影響因子采用對(duì)分布概率進(jìn)行放大處理的方法, 本文實(shí)驗(yàn)中影響因子采用的放大因子超參數(shù)設(shè)為2, 記為L(zhǎng)FFL;

4) 如式(10)所示, 采用交叉信息熵作為損失函數(shù), 在損失函數(shù)中同時(shí)引入不平衡率影響因子和表達(dá)分類(lèi)難易程度的影響因子信息熵, 基于Pytorch實(shí)現(xiàn)集成信息熵的損失函數(shù), 記為L(zhǎng)FIE.

3 實(shí)驗(yàn)結(jié)果分析

表2為不同抽樣比例情況下采用不同損失函數(shù)深度學(xué)習(xí)模型的AUC值. 由表2可見(jiàn), 在不同抽樣比例的情況下, 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)在使用本文基于集成信息熵的損失函數(shù)后均能獲得最佳的AUC值. 同時(shí), 在抽樣比例較低(0.05)時(shí), 采用LFIE損失函數(shù)的分類(lèi)模型. AUC值最多提高15.3%. 隨著抽樣比例的升高, 采用不同損失函數(shù)的分類(lèi)模型均獲得了不同程度的提高, 呈現(xiàn)近似線(xiàn)性的變化, 這種變化趨勢(shì)符合分類(lèi)模型的性能變化趨勢(shì). 采用LFIE損失函數(shù)的分類(lèi)模型隨著抽樣比例的升高均能獲得最佳的分類(lèi)結(jié)果, 說(shuō)明采用LFIE損失函數(shù)的分類(lèi)模型具有較強(qiáng)的泛化能力.

表2 不同抽樣比例情況下采用不同損失函數(shù)模型的AUC值

根據(jù)不同抽樣比例采用不同損失函數(shù)深度學(xué)習(xí)模型的AUC值得到相應(yīng)的盒圖如圖3所示. 由圖3可見(jiàn): 未考慮類(lèi)不平衡的損失函數(shù)LF, 其中位值優(yōu)于考慮了類(lèi)不平衡影響因子的損失函數(shù)LFCS和LFFL; 采用LFFL損失函數(shù)的模型分類(lèi)性能在部分情況下優(yōu)于未考慮類(lèi)不平衡因子的損失函數(shù)LF; 采用LFFL損失函數(shù)模型的中位數(shù)和最高值均明顯低于未考慮類(lèi)不平衡因子的損失函數(shù)LF. 此外, 僅考慮類(lèi)不平衡因子的損失函數(shù)LFCS, 無(wú)論是在AUC的最高值、 中位數(shù)還是最小值上均明顯低于未考慮類(lèi)不平衡因子的損失函數(shù)LF, 這可能與僅采用不同類(lèi)別評(píng)論的比例值作為影響因子有關(guān). 采用LFIE損失函數(shù)的分類(lèi)模型具有最佳的中位值, 且該中位值明顯高于采用其他損失函數(shù)的分類(lèi)模型的AUC值. 因此, 在不同抽樣比例情況下, 采用LFIE損失函數(shù)的分類(lèi)模型具有較強(qiáng)的魯棒性, 能適應(yīng)不同比例的類(lèi)不平衡情況, 從而有效減少在其他領(lǐng)域中調(diào)整超參數(shù)的難度.

圖3 采用不同損失函數(shù)的模型使用AUC指標(biāo)對(duì)比盒圖Fig.3 Comparison of box plot of AUC indicator for models with different loss functions

綜上所述, 針對(duì)網(wǎng)絡(luò)評(píng)論中普遍存在的負(fù)面評(píng)論較少而影響力卻較大的類(lèi)不平衡問(wèn)題, 本文提出了一種基于類(lèi)不平衡學(xué)習(xí)的情感分析方法. 該方法基于深度學(xué)習(xí)的概率分布輸出, 將計(jì)算樣例得到的信息熵作為影響因子構(gòu)建交叉信息熵?fù)p失函數(shù). 在IMDB公開(kāi)數(shù)據(jù)集上進(jìn)行驗(yàn)證實(shí)驗(yàn)的結(jié)果表明, 采用集成信息熵?fù)p失函數(shù)的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型能處理類(lèi)不平衡問(wèn)題. 對(duì)數(shù)據(jù)的分析結(jié)果表明, 該策略能提升基于長(zhǎng)短期記憶網(wǎng)絡(luò)的文本分類(lèi)性能, 使用集成信息熵?fù)p失函數(shù)的深度學(xué)習(xí)模型比未考慮類(lèi)不平衡損失函數(shù)的深度學(xué)習(xí)模型, AUC指標(biāo)在中位數(shù)上最多提升15.3%.

猜你喜歡
分類(lèi)模型
一半模型
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 69精品在线观看| 91久久青青草原精品国产| 免费久久一级欧美特大黄| 久草视频中文| 欧美成在线视频| 国产日本欧美亚洲精品视| 啪啪国产视频| 亚洲国产系列| 日本免费一级视频| 18禁影院亚洲专区| 看国产毛片| 日本在线免费网站| 成人a免费α片在线视频网站| 人禽伦免费交视频网页播放| 一本大道无码日韩精品影视| 国产午夜无码专区喷水| 亚洲一区二区三区国产精华液| 欧美日韩在线第一页| 2021精品国产自在现线看| 国产精品99一区不卡| 91精品国产丝袜| 亚洲成a人片在线观看88| 97精品久久久大香线焦| 国产在线观看91精品亚瑟| 成人自拍视频在线观看| 国产高清不卡| 国产欧美综合在线观看第七页| 九九热这里只有国产精品| 中文字幕波多野不卡一区| 国产拍揄自揄精品视频网站| 超碰91免费人妻| 黄色国产在线| 国内丰满少妇猛烈精品播| 亚洲人成在线精品| 国产精品无码制服丝袜| 久久综合色88| 亚洲色图另类| 久久动漫精品| 国产网站一区二区三区| 亚洲欧洲日韩综合| 综合人妻久久一区二区精品 | 国产jizzjizz视频| 国产白丝av| 国产免费人成视频网| 亚洲AV无码乱码在线观看代蜜桃| 538国产在线| 亚洲第一成年人网站| 亚洲av综合网| 亚洲国产理论片在线播放| 白丝美女办公室高潮喷水视频 | 亚洲国产精品无码AV| 免费全部高H视频无码无遮掩| 亚洲狠狠婷婷综合久久久久| 无码电影在线观看| 亚洲无码一区在线观看| 永久毛片在线播| 国产成人在线无码免费视频| 在线观看国产精美视频| 国产视频大全| 亚洲欧美人成电影在线观看| 国产一区在线视频观看| 亚洲香蕉伊综合在人在线| 国产第一页屁屁影院| 欧美日韩高清在线| 91网红精品在线观看| 91九色视频网| 精品免费在线视频| 五月天丁香婷婷综合久久| 99尹人香蕉国产免费天天拍| 四虎永久在线精品国产免费| 性视频久久| 成人国产精品一级毛片天堂| 91精品小视频| 国产自在线播放| 国产欧美在线观看视频| 一区二区三区国产| 久青草国产高清在线视频| 国产亚洲视频免费播放| 日韩成人在线一区二区| 国产成人av一区二区三区| 区国产精品搜索视频| 波多野结衣久久高清免费|