999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種構建情感標簽均衡語料庫的主動學習算法

2021-07-16 08:02:58時雪峰任福繼
計算機應用與軟件 2021年7期
關鍵詞:分類文本情感

時雪峰 康 鑫 廖 萍 任福繼

1(南通大學機械工程學院 江蘇 南通 226019) 2(德島大學工學部 德島縣 德島市 770-8506)

0 引 言

情感分析對于了解大量社交網(wǎng)絡消息中所隱藏的思想具有重要作用,并且越來越多地為解決現(xiàn)實世界中的問題提供幫助,如輿論分析[1]、股票趨勢預測[2-3]和產(chǎn)品評論[4-5]等。正確理解社交網(wǎng)絡消息中隱藏的情感信息,有助于分析相關領域的未來趨勢,并為下一次決策提供寶貴的建議。

與正、負兩極的情感判別不同,多情感分類研究的重點是對人類的多種情感進行識別[6-7]。不同的研究領域對人類情感的分類也是不同的,如Ekman[8]認為人類的基本情感有六種,分別是憤怒、厭惡、恐懼、幸福、悲傷和驚奇,用于心理學研究;而Ren等[9]則認為人類的情感狀態(tài)可以細化分為八種,分別是憤怒、歡樂、悲傷、焦慮、討厭、期望、驚訝和愛。每一種分類方法,都對相關領域的研究起到了重要的推動作用。

在有監(jiān)督的情感分類任務中,情感語料庫是必不可少的。情感語料庫的標注是一件耗費時間長、人工成本高的工作。主動學習(Active Learning)算法自動獲取可能性較高的樣本,緩解語料庫不足的壓力。相比于人工專家的篩選,主動學習算法抽取的樣本在情感分布上并不均勻,主要是由原始語料中的情感分布傾向性嚴重造成的。這使得主動學習算法很難根據(jù)現(xiàn)實世界的原始語料來構建具有均衡情感標簽的訓練集,并限制了訓練好的情感分類器對低頻情感標簽的識別,如焦慮和驚奇。現(xiàn)有主動學習算法的研究重點都集中在提高文本情感的預測準確性上,而沒有考慮到語料庫中情感分布的均衡性。針對該問題,本文提出一種基于Kullback-Leibler散度構建情感分布均衡的文本語料庫方法。

1 相關工作

根據(jù)不同研究的需求,文本情感一般可以分為三個粒度:單詞的情感標記,句子的情感分類,文檔的情感分析[10]。單詞情感標記主要是從文檔中找到情感單詞并預測這些單詞的情感[11-12]。對文檔的情感分析著重于文章中情感因素的識別,以及通過各種機器學習方法對文檔中情感的進一步預測[13]。句子的情感分類取決于對中、短文本中單詞情感的分析,并為文檔情感分析提供豐富的信息。文獻[14-16]提出一個句子可能同時具有多個情感狀態(tài),這表明了句子情感分類是多情感分類問題。對此,文中討論了針對中、短社交網(wǎng)絡文本情感分類而訓練的多情感分類器。

Ren等[9]基于對單詞、主題和情感標簽的概率依賴性假設,采用分層貝葉斯網(wǎng)絡生成潛在主題和情感標簽,以預測文檔中復雜的人類情感。通過分析情感標簽和主題的分布,他們發(fā)現(xiàn)了不同語義主題的情感變化情況。Liu等[17]采用大規(guī)模包含內在情感信息的現(xiàn)實世界知識來感知文本情感。這一方法有較強的魯棒性,可以根據(jù)對現(xiàn)實世界知識的理解,來預測文本中隱藏語義的情感。由于以前的主動學習方法無法獲得最具信息性和代表性的樣本,因此,Reyes等[18]基于基本分類器的預測和已預測標簽集的不一致性,提出一種新的樣本選擇策略。通過與其他幾個選擇策略在多個數(shù)據(jù)集上的實驗對比,結果表明該方法具有明顯的優(yōu)勢。Kang等[19]提出包含互補性、信息性、代表性和多樣性四個標準的主動學習方法,用于評估候選樣本。他們將通過文獻[19]中方法選擇的樣本補充到訓練集中,并將選擇的樣本補充到訓練集中以逐步改善監(jiān)督的情感分類結果。以上這些工作的重點都集中在提高對候選樣本的預測準確性上,而對已并入候選樣本的訓練集中情感標簽分布的均衡性關注很少,且在樣本篩選過程中,也很少通過主動學習的方法去抑制訓練集中標簽不均衡的現(xiàn)象。

2 均衡情感分布的主動學習算法

本文提出的主動學習方法是一個包含信息性、代表性、多樣性和互補性四個評價策略的樣本選擇算法。

2.1 主動學習算法

在主動學習算法中,本文構造了一組邏輯回歸分類器φk,其中每個分類器對應一種情感類別。在監(jiān)督學習的基礎上,分類器對每條文本x進行情感預測,并給出情感類別k的預測概率yk∈[0,1]。

yk=φk(x)

(1)

本文主動學習算法從大量未標注數(shù)據(jù)中逐步選擇最具信息性和代表性的文本樣本,并將其添加到現(xiàn)有的訓練集,然后通過對其學習來更新情感概率預測器φk。

與文獻[19]中主動學習模型不同的是,本文對信息性、代表性和多樣性三個選擇準則進行重新排序;同時,算法在互補性準則中加入抑制情感分布偏向化的機制,這使本研究可以直接控制最終輸出樣本的情感標簽平衡屬性,并對互補性標準賦予更多權重。此外,本文重新設計了互補性標準,并通過評估臨時訓練集的情感分布與理想的均勻情感分布之間的Kullback-Leibler散度,以明確的方式評估更多原始樣本的情感標簽平衡特性。以下是各標準的詳細推導過程。

(1) 利用式(1)對樣本進行情感類別{1,2,…,K}上的概率預測,信息性準則i(x)通過評估預測概率的最大交叉熵值,完成樣本考察。

(2)

式中:yk表示情感類別k的預測概率。如算法1中所示,通過最大化該準則,本文可以根據(jù)候選樣本的情感預測概率,為其找出至少一種具有較大信息性的情感類別。

算法1通過主動學習構建標簽平衡情感語料庫

輸入:訓練集X,未標注數(shù)據(jù)集U,選擇標準參數(shù)λ。

1.信息性標準對全體數(shù)據(jù)進行篩選:I={i(x)|?x∈U};

2.按比例抽取樣本:UI=argpartition(I,λI|U|);

3.代表性標準對樣本集UI進行篩選:R={r(x)|?x∈UI};

4.按比例抽取樣本:UR=argpartition(R,λRλI|U|);

5.多樣性標準對樣本集UR進行篩選:D={d(x)|?x∈UR};

6.按比例抽取樣本:UD=argpartition(D,λDλRλI|U|};

7.Fori=0→λC,執(zhí)行:

8.抽取散度值最小的樣本:x=argmin({c(x)|?x∈UD});

9.獲取x的情感標簽e;

10.添加(x,e)到訓練集X,

11.輸出樣本x;

12.從未標注集U中刪除x;

13.完成情感標簽平衡 。

(2) 代表性標準通過以下方法評估每個文本樣本與未標注數(shù)據(jù)中其他文本樣本的平均相似性:

(3)

式中:U表示所有未標注樣本的集合;兩個樣本x和x′之間歐幾里得距離值的相反數(shù)表示它們的語義相似程度。距離值的相反數(shù)越大,則說明樣本間的距離越小。通過像算法1中那樣最大化該準則,本研究可以在未標注數(shù)據(jù)集中找到在語義上最具代表性的候選樣本。

(3) 多樣性標準通過以下方法評估未標注樣本與訓練集中樣本之間的最小歐幾里得距離:

(4)

式中:x∈X表示訓練集文本,X為訓練集合。通過最大化算法1中所示的多樣性標準,本研究可以找到與訓練集文本在語義上截然不同的候選樣本。

(4) 本文提出的新的互補性準則是通過構造一組臨時訓練集X∪{x},來抑制屬于高頻次情感標簽的樣本被選入訓練集。每個臨時訓練集X∪{x}都是將原始樣本x∈U并入現(xiàn)有訓練集X。通過以下方法評估臨時訓練集的情感分布p′與理想的均衡情感分布u~unif{1,K}之間的Kullback-Leibler散度,并尋找出最小的Kullback-Leibler散度值c(x),即表示完成情感標簽最平衡的新訓練集的構建。

(5)

(6)

式中:ek(x)是關于考察樣本x情感標簽k的預測概率。

(7)

對于新訓練集中的樣本x∈U,根據(jù)實際的情感標注規(guī)則和觀察到的情感類別k的概率,給定情感標簽1.0或0.0。對于未標注數(shù)據(jù)集中的樣本x′∈U,其情感類別為k的概率由邏輯回歸情感分類器的預測結果ek(x′)=φk(x)給出。

2.2 平衡情感分布的過程示例

圖1為基于互補性準則的情感標簽均衡化的樣本選擇過程。如圖1(a)所示,從當前訓練集情感標簽分布的情況得知,算法需要尋找的情感類別為“難過”和“討厭”;圖1(b)顯示,算法在偵測到訓練集所缺乏的情感類別后,根據(jù)選擇準則,抽取出預測概率較高的“悲傷”樣本;算法從未標注數(shù)據(jù)中選擇能夠使臨時訓練集X∪{x}具有更均衡的情感分布的樣本,完成平衡訓練集情感標簽的任務,如圖1(c)所示。

(a)

(b)

(c)圖1 主動學習算法平衡數(shù)據(jù)集情感分布過程

在算法1中,參數(shù)λI、λR和λD分別是基于信息性、代表性和多樣性標準選擇樣本的百分率。固定選擇比例有助于選擇標準在面對不同規(guī)模的未標注數(shù)據(jù)集時,保持同樣的樣本選擇能力。參數(shù)λC(其中C表示互補性準則)對應文中主動學習算法最終選擇樣本的規(guī)模。另外,本文使用固定數(shù)字作為輸出樣本的規(guī)模,方便不同規(guī)模的未標注數(shù)據(jù)集在文本情感分類學習過程中的實驗對比。

2.3 多情感分類算法

與一般主動學習算法相同的是,本文構建基于邏輯回歸分類器φk的情感分類算法,用于考察所選數(shù)據(jù)的合理性。

在分類前,算法過濾掉低頻詞特征和暫停詞特征,并通過觀察到的每個單詞特征統(tǒng)計量表示微博文本,記作x。通過對訓練集進行5倍交叉驗證,確定邏輯回歸分類器的超參數(shù)(包括l1和l2懲罰項、正則化強度、每個分類器φk的類權重)。

在情感分類算法中,本文采用準確率(Precision,P)、召回率(Recall,R)和F1值來評估分類結果,公式如下:

(8)

(9)

(10)

式中:TP表示真正例;FP表示假正例;FN表示假反例。

3 實 驗

3.1 數(shù)據(jù)預處理

(1) 降噪。為了減少下文研究中主動學習算法的工作量,本節(jié)對原始微博數(shù)據(jù)的預處理進行說明。由于本文的研究對象為中文短文本微博數(shù)據(jù),其中很多為不規(guī)范用語,大量的噪聲不僅增加后續(xù)研究的工作量,還容易影響抽取樣本的質量。

通過構建噪聲語料庫,本文從原始語料中萃取到純粹的人為短文本信息。構建的噪聲語料庫主要成分包含以下7個方面,如表1所示。

表1 噪聲語料庫的文本類別

基于邏輯回歸分類器的預處理算法通過對噪聲語料庫的學習,為原始語料庫中的文本進行打分評價。當文本得分超過0.5時,表明該文本有極大的可能屬于噪聲語料,故將其過濾。

(2) 標簽數(shù)據(jù)集構建。本研究中,首先由人工專家標注情感分布相對均勻的小規(guī)模語料庫,然后由主動學習算法在保證其情感分布均勻的基礎上,逐步擴大其規(guī)模,最后完成情感語料庫的擴充。

為了驗證本文方法在小規(guī)模數(shù)據(jù)集上的有效性,人工專家標注的語料庫分為訓練集、驗證集和測試集,其分別包含文本864、1 005和1 592條,且每條文本均已由人工專家標注有一個或多個從情感標簽庫(憤怒、歡樂、悲傷、焦慮、討厭、期望、驚訝、愛和中立)中挑選的情感標簽。為使主動學習模型從開始就學習到一個相對公正的情感分類器,本文訓練集、驗證集和測試集中每類情感標簽的規(guī)模分別約為100、100和184條。

(3) 分詞。本文采用清華大學推出的一套中文詞法分析工具包THULAC(THU Lexical Analyzer for Chinese)對所構建的標簽數(shù)據(jù)集進行分詞處理,去除多余的空格、英文字符和其他特殊字符。同時,將文本“@”、“http”和阿拉伯數(shù)字形式的字符串轉為基本語言單元,分別為

3.2 模型參數(shù)選擇

本文使用驗證集和3個未標注數(shù)據(jù)集來確定參數(shù)λI、λR和λD的值,并使用6個未標注數(shù)據(jù)集來確定算法1中參數(shù)λC的值。

表2顯示了每個選擇參數(shù)的候選值。其中:前三個參數(shù)的候選值是用于指定選擇準則選擇樣本的百分率;最后一個參數(shù)的候選值則指定最終輸出樣本量的規(guī)模。根據(jù)不同組別的參數(shù)值而更新的訓練集,比較其在情感分類實驗結果的準確率、召回率和F1值,本研究發(fā)現(xiàn)參數(shù)λI、λR、λD的最佳取值分別為0.2、0.5、0.5,且λC為40。

表2 主動學習算法中選擇準則參數(shù)候選值

3.3 實驗結果與分析

為了驗證本文算法在情感平衡上的有效性,本文做了多組實驗。對比了本文算法和文獻[19]中方法的情感分類性能,還比較了沒有情感分布均衡措施的主動學習方法。在主動學習實驗中,對于每個未標注數(shù)據(jù)集U,本文首先將其與已有訓練集X一起輸入算法1,以獲取更新的訓練集;然后,基于每個訓練集,訓練所構建的情感分類器(式(1)),并分別使用這些學習到的分類器在測試集上進行情感分類實驗并評估結果;最后,逐步統(tǒng)計分類結果。結果表明:隨著訓練集中樣本數(shù)量的增加,文本情感分類的結果也隨之改進,如圖2所示。

(a) F1值的變化趨勢

(b) 準確率的變化趨勢

(c) 召回率的變化趨勢圖2 情感分類結果隨著訓練數(shù)據(jù)增加的變化趨勢

隨著算法1迭代次數(shù)的增加,訓練集的規(guī)模逐漸增大。實驗結果中不斷提高的微平均準確率、召回率和F1值證明,情感分類模型的學習能力逐漸增強。具體來說,在主動學習算法迭代60次后,分類實驗結果的P、R和F1值的微平均分別提高了7.53%、7.36%和7.51%。結果表明,本文方法可有效地從未標注數(shù)據(jù)集中找到合適的樣本,進而顯著提高多標簽文本情感分類模型的學習能力。

下面通過比較本文方法與對照實驗的文本情感分類結果(其主動學習算法僅由前三個準則組成,即信息性、代表性和多樣性)來檢驗所提出的互補性標準的有效性。對照實驗中選擇的參數(shù)與本文方法相同,不同之處在于參數(shù)λD被λC取代,以保證樣本選擇的規(guī)模與算法1相同。

如圖2所示,根據(jù)本文方法得出的P、R和F1值的微平均始終高于對照實驗。兩種方法之間的平均差距為:準確率1.55%,召回率0.94%,F(xiàn)1值1.30%。表明本文所提出的互補性準則能夠以有效的方式對樣本選擇的優(yōu)先級進行重新排序,從而更輕松地找到高質量樣本并將其添加到訓練集中。當對文獻[19]算法的實驗結果進行比較時發(fā)現(xiàn),準確率、召回率和F1值的微平均增量分別為1.55%、2.49%和1.97%。雖然其結果也有提高,但是根據(jù)本研究提出的方法而抽取的樣本更可靠。

最后,本文探索了本文方法、對比算法、文獻[19]算法產(chǎn)生的情感標簽的分布,以進一步分析三種算法對訓練集情感標簽平衡性的影響。通過本文算法或對比算法選擇越來越多的樣本,且將其并入訓練集,不斷擴大訓練集中情感標簽的規(guī)模。

圖3(a)、圖3(b)和圖3(c)分別為基于本文算法、對比算法和文獻[19]算法而逐步更新的訓練集中情感標簽分布情況,其中數(shù)字為情感標簽數(shù)量的衡量刻度。算法在迭代過程中,構建了一系列訓練集。這些訓練集具有比對比算法構建的訓練集更為均衡的情感標簽分布。具體而言,未標注數(shù)據(jù)集中頻次最高的中立情感標簽在選擇過程中受到了很大的限制。同時,在通過本文方法獲得的訓練集中,其他情感標簽的增長速度比對比實驗中的增長快得多,并且這種增長在情感標簽“焦慮”、“歡樂”、“討厭”和“期望”上尤其明顯。與本文方法相比,在基于文獻[19]算法更新的訓練集中,“無情感”標簽極化現(xiàn)象嚴重。其余八種情感類別的標簽數(shù)量變化趨勢相似,但增長速度緩慢,與本文方法差距明顯。

(a) 本文算法

(b) 對比算法

(c) 文獻[19]算法圖3 通過主動學習算法所獲取的訓練集中各類情感 標簽的分布情況

以上結果表明,在未標注數(shù)據(jù)集情感分布具有高度偏向的情況下,文中所提的互補性準則可有效地選擇具有標簽平衡特性的未標注樣本,這從本質上抑制了訓練集中高頻次情感標簽的增長,并促進了低頻次標簽的選擇。

4 結 語

本文提出一種平衡情感分布的主動學習互補性準則,從可能存在情感分布高度偏向的未標注數(shù)據(jù)集中選擇樣本以擴充訓練集,并在訓練集樣本數(shù)量不斷增長的情況下,保持情感標簽分布的平衡。實驗結果表明:所提出的基于Kullback-Leibler散度互補性準則可以有效地平衡構建訓練集的標簽分布,限制了潛在的屬于高頻情感的樣本選擇,并發(fā)現(xiàn)潛在的屬于稀少情感的樣本,一定程度上平衡了訓練集的情感分布。同時,隨著訓練數(shù)據(jù)的增長,文本情感分類結果也得到了穩(wěn)步提高。雖然所構建的訓練集情感標簽還不能達到完全平衡,但是為情感標簽平衡語料庫的建立提供了新的思路,且部分解決了標簽不平衡的問題。下一步的工作將進一步優(yōu)化模型,以期抽取到使訓練集情感標簽更均衡的樣本,從而提高模型在平衡情感標簽方面的性能。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 中文字幕日韩久久综合影院| 国内精品久久久久久久久久影视| 亚洲自偷自拍另类小说| 最新国产午夜精品视频成人| 91视频区| 国产成人乱无码视频| 片在线无码观看| 在线看免费无码av天堂的| 国产成人精品第一区二区| 欧美一区二区福利视频| 毛片最新网址| 九九视频免费在线观看| 亚洲综合18p| www.亚洲色图.com| 最新亚洲人成网站在线观看| 日韩二区三区无| 高清无码一本到东京热| 亚洲AV无码乱码在线观看裸奔 | 爆操波多野结衣| 亚洲va欧美va国产综合下载| 极品国产一区二区三区| 国产一级毛片yw| 啪啪永久免费av| 国产白丝av| 国产99视频精品免费观看9e| 美女裸体18禁网站| 思思99思思久久最新精品| 欧美国产在线看| 国产免费黄| 99久久精品国产麻豆婷婷| 久久久久无码国产精品不卡 | 青青热久麻豆精品视频在线观看| 日本a级免费| 亚洲,国产,日韩,综合一区| 欧美日韩国产精品va| 亚洲乱码视频| 国产无码精品在线播放| 日本高清成本人视频一区| 成人精品在线观看| 国产乱人激情H在线观看| 日韩免费视频播播| 久久人妻xunleige无码| 99精品影院| 毛片久久久| 在线观看欧美国产| 亚洲a级毛片| 国产91成人| 亚洲一区第一页| 欧美精品1区| 亚洲黄网在线| 久久公开视频| 夜夜拍夜夜爽| 亚洲人成日本在线观看| 中文字幕天无码久久精品视频免费| 九色国产在线| 亚洲AⅤ无码日韩AV无码网站| 亚洲欧美日韩动漫| 好吊色国产欧美日韩免费观看| 国产无套粉嫩白浆| 人妻91无码色偷偷色噜噜噜| 热这里只有精品国产热门精品| 伊人色在线视频| 久久五月天综合| 欧美性猛交一区二区三区 | 国产一国产一有一级毛片视频| 免费国产一级 片内射老| 成人毛片免费观看| 久久精品这里只有精99品| 日韩A∨精品日韩精品无码| 国产色网站| 亚洲天堂伊人| 国产成人综合亚洲网址| 国内精自视频品线一二区| 久草中文网| 2018日日摸夜夜添狠狠躁| 日韩中文精品亚洲第三区| 亚洲第一综合天堂另类专| 亚洲电影天堂在线国语对白| 国产91精选在线观看| 久久黄色小视频| 国产美女精品在线| 91在线一9|永久视频在线|