999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)增強(qiáng)和相似偽標(biāo)簽的半監(jiān)督文本分類(lèi)算法

2023-01-01 00:00:00盛曉輝沈海龍

作者簡(jiǎn)介:盛曉輝(1998-),男,山東濰坊人,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理與數(shù)據(jù)分析;沈海龍(1971-),男(通信作者),吉林延吉人,副教授,博士,主要研究方向?yàn)閿?shù)據(jù)分析與智能計(jì)算(hailong_shen@126.com).

摘 要:為了減少對(duì)有標(biāo)記數(shù)據(jù)的依賴(lài),充分利用大量無(wú)標(biāo)記數(shù)據(jù),提出了一個(gè)基于數(shù)據(jù)增強(qiáng)和相似偽標(biāo)簽的半監(jiān)督文本分類(lèi)算法(semi-supervised text classification algorithm with data augmentation and similar pseudo-labels,STAP)。該算法利用EPiDA(easy plug-in data augmentation)框架和自訓(xùn)練對(duì)少量有標(biāo)記數(shù)據(jù)進(jìn)行擴(kuò)充,采用一致性訓(xùn)練和相似偽標(biāo)簽考慮無(wú)標(biāo)記數(shù)據(jù)及其增強(qiáng)樣本之間的關(guān)系和高置信度的相似無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系,在有監(jiān)督交叉熵?fù)p失、無(wú)監(jiān)督一致性損失和無(wú)監(jiān)督配對(duì)損失的約束下,提高無(wú)標(biāo)記數(shù)據(jù)的質(zhì)量。在四個(gè)文本分類(lèi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與其他經(jīng)典的文本分類(lèi)算法相比,STAP算法有明顯的改進(jìn)效果。

關(guān)鍵詞:半監(jiān)督學(xué)習(xí);文本分類(lèi);數(shù)據(jù)增強(qiáng);相似偽標(biāo)簽

中圖分類(lèi)號(hào):TP 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)04-010-1019-05doi: 10.19734/j.issn.1001-3695.2022.08.0412

Abstract:In order to reduce the dependence on labeled data and make full use of a large number of unlabeled data, this paper proposed the STAP (semi-supervised text classification algorithm with data augmentation and similar pseudo-labels). The algorithm used EPiDA (easy plug-in data augmentation) framework and self-training to expand a small amount of labeled data. It used consistency training and similar pseudo-labels to consider the relationship between unlabeled data and its expanded samples and the relationship between similar unlabeled data with high confidence. Under the constraint of supervised cross entropy loss, unsupervised consistency loss and unsupervised pair loss, it improved the quality of unlabeled data. Experiments on four text classification datasets show that STAP algorithm has obvious improvement over other classical text classification algorithms.

Key words:semi-supervised learning; text classification; data augmentation; similar pseudo-label

0 引言

深度學(xué)習(xí)技術(shù)的發(fā)展在自然語(yǔ)言處理任務(wù)上取得了重大突破[1,2],技術(shù)的成功需要大量的有標(biāo)記數(shù)據(jù),然而很多情況下難以獲得大量有標(biāo)記數(shù)據(jù),當(dāng)標(biāo)記數(shù)據(jù)有限時(shí)往往會(huì)出現(xiàn)過(guò)擬合等問(wèn)題,且大量的無(wú)標(biāo)記數(shù)據(jù)無(wú)法利用,人工標(biāo)注需要大量的時(shí)間、金錢(qián)、專(zhuān)業(yè)知識(shí)[3],半監(jiān)督學(xué)習(xí)[4,5]是解決這一問(wèn)題的主要方法之一。目前,主要的半監(jiān)督分類(lèi)算法大致可以分為生成式方法[6,7]、一致性訓(xùn)練[8,9]、代理標(biāo)簽[10]、熵最小化[11]、整體方法[12,13]等。早期的文本分類(lèi)方法大都基于有監(jiān)督學(xué)習(xí)進(jìn)行,然而當(dāng)有標(biāo)記數(shù)據(jù)數(shù)量較少時(shí)容易導(dǎo)致模型偏離正確方向,且無(wú)標(biāo)記數(shù)據(jù)難以利用,造成錯(cuò)誤分類(lèi)。半監(jiān)督文本分類(lèi)是解決這種情況的有效方式,對(duì)于小樣本問(wèn)題研究具有重要意義。數(shù)據(jù)增強(qiáng)的方法也逐步應(yīng)用到半監(jiān)督學(xué)習(xí)中,但是大部分針對(duì)圖像分類(lèi),如何生成高質(zhì)量的數(shù)據(jù)應(yīng)用到半監(jiān)督文本分類(lèi)的研究相對(duì)較少,將數(shù)據(jù)增強(qiáng)方法高效應(yīng)用到半監(jiān)督文本分類(lèi)是一個(gè)重要研究方向。

數(shù)據(jù)增強(qiáng)技術(shù)是當(dāng)標(biāo)記數(shù)量有限時(shí)增加數(shù)據(jù)量的有效手段。Wei等人[14]提出了一種簡(jiǎn)易的數(shù)據(jù)增強(qiáng)方法EDA,EDA利用同義詞替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除四種方法來(lái)擴(kuò)充文本,作為一種便捷高效的數(shù)據(jù)增強(qiáng)算法,EDA得到了廣泛的應(yīng)用,但由于其隨機(jī)性,易造成信息丟失,無(wú)法考慮語(yǔ)境上下文信息,容易改變文本的原有含義。為保持句子原有含義,Kobayashi[15]提出語(yǔ)境增強(qiáng)CA,CA利用上下文語(yǔ)境相關(guān)的單詞重構(gòu)句子,綜合考慮句子語(yǔ)境信息。Karimi等人[16]提出了一種更簡(jiǎn)易的數(shù)據(jù)增強(qiáng)方法AEDA,AEDA只在原文中插入標(biāo)點(diǎn)符號(hào),相比于EDA更為簡(jiǎn)易且不會(huì)導(dǎo)致信息丟失,具有較好的泛化性能。Xie等人[17]將回譯法用于半監(jiān)督文本分類(lèi),回譯是指將句子翻譯成另外一種語(yǔ)言,然后再翻譯回原語(yǔ)言,可以保證句子核心內(nèi)容不發(fā)生改變且與原始句子存在一定差異。目前大多數(shù)據(jù)增強(qiáng)只考慮多樣性或質(zhì)量,Zhao等人[18]提出的數(shù)據(jù)增強(qiáng)框架EPiDA (easy plug-in data augmentation)可以同時(shí)考慮生成樣本的多樣性與質(zhì)量,以此選擇最合理的增強(qiáng)樣本,為數(shù)據(jù)增強(qiáng)方法帶來(lái)了新的啟發(fā)。

有關(guān)半監(jiān)督分類(lèi)的研究中,自訓(xùn)練[19]是一種傳統(tǒng)的經(jīng)典半監(jiān)督學(xué)習(xí)方法,首先使用少量有標(biāo)記數(shù)據(jù)訓(xùn)練模型,然后用模型對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè)得到偽標(biāo)簽,由于有標(biāo)記數(shù)量較少,訓(xùn)練得到的模型泛化性能較低,導(dǎo)致偽標(biāo)簽中存在部分錯(cuò)誤數(shù)據(jù),影響后續(xù)訓(xùn)練。Xie等人[17]提出的無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)(unsupervised data augmentation,UDA)利用數(shù)據(jù)增強(qiáng)與一致性訓(xùn)練的方式,在半監(jiān)督學(xué)習(xí)中取得了顯著成效,但UDA僅對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),一致性訓(xùn)練在探索無(wú)標(biāo)記數(shù)據(jù)和其增強(qiáng)樣本之間的一致性約束,取得了顯著的改進(jìn),但未考慮不同無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系。Hu等人[20]提出的SimPLE則重點(diǎn)研究不同無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系,在圖像分類(lèi)中效果優(yōu)異,但是在文本分類(lèi)中尚未有相關(guān)研究。

本文綜合目前半監(jiān)督學(xué)習(xí)中多種算法的優(yōu)點(diǎn),解決現(xiàn)有算法中存在的問(wèn)題,提出了一個(gè)基于數(shù)據(jù)增強(qiáng)和相似偽標(biāo)簽的半監(jiān)督文本分類(lèi)算法。STAP算法綜合了自訓(xùn)練、EPiDA、UDA、SimPLE等方法的優(yōu)勢(shì),充分利用少量的有標(biāo)記數(shù)據(jù)并且挖掘大量無(wú)標(biāo)記數(shù)據(jù)的有效信息,實(shí)現(xiàn)高效的半監(jiān)督文本分類(lèi)。STAP算法的主要貢獻(xiàn)總結(jié)為:a)將常用數(shù)據(jù)增強(qiáng)方法與EPiDA框架相結(jié)合,利用相對(duì)熵最大化(REM)和條件熵最小化(CEM)同時(shí)考慮數(shù)據(jù)的多樣性和質(zhì)量,以生成高效樣本;b)對(duì)自訓(xùn)練的方法進(jìn)行改進(jìn),從中選出合理的偽標(biāo)簽數(shù)據(jù),實(shí)現(xiàn)對(duì)少量有標(biāo)記數(shù)據(jù)的擴(kuò)充;c)在對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行一致性訓(xùn)練時(shí),引入配對(duì)損失同時(shí)考慮高置信度的相似無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系;d)在四個(gè)文本分類(lèi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與其他算法相比取得了顯著改進(jìn)。

1 半監(jiān)督文本分類(lèi)算法

本章將介紹如何利用STAP算法實(shí)現(xiàn)半監(jiān)督文本分類(lèi)。

給定一組少量有標(biāo)記數(shù)據(jù)集:

針對(duì)少量有標(biāo)記數(shù)據(jù),考慮對(duì)少量有標(biāo)記數(shù)據(jù)進(jìn)行擴(kuò)充,生成數(shù)據(jù)的質(zhì)量與多樣性顯著影響著模型的性能,利用EPiDA和自訓(xùn)練兩種方式對(duì)少量有標(biāo)記數(shù)據(jù)進(jìn)行擴(kuò)充,擴(kuò)充后的數(shù)據(jù)作為有標(biāo)記數(shù)據(jù)的一部分,將合并后的數(shù)據(jù)傳入分類(lèi)模型得到預(yù)測(cè)標(biāo)簽,計(jì)算預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的交叉熵作為有監(jiān)督損失。

針對(duì)大量無(wú)標(biāo)記數(shù)據(jù),一方面關(guān)注無(wú)標(biāo)記數(shù)據(jù)及其增強(qiáng)樣本之間的關(guān)系,計(jì)算KL散度作為一致性損失,另一方面關(guān)注不同無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系并引入一種新的配對(duì)損失。最終損失為有監(jiān)督交叉熵?fù)p失、無(wú)監(jiān)督一致性損失與無(wú)監(jiān)督配對(duì)損失之和,總體框架結(jié)構(gòu)如圖1所示。

1.1 EPiDA數(shù)據(jù)增強(qiáng)

EPiDA由數(shù)據(jù)增強(qiáng)方法、樣本評(píng)估與選擇模塊、分類(lèi)模型(C)三個(gè)部分組成。通過(guò)分類(lèi)模型的反饋,對(duì)數(shù)據(jù)增強(qiáng)方法生成的候選樣本進(jìn)行評(píng)估,用相對(duì)熵最大化(REM)考慮多樣性,條件熵最小化(CEM)考慮質(zhì)量,以此選出最合理的增強(qiáng)樣本。

選取目前常用的文本數(shù)據(jù)增強(qiáng)方法——回譯與語(yǔ)境增強(qiáng),以生成候選樣本,利用樣本評(píng)估與選擇模塊和分類(lèi)模型的反饋輸出合格增強(qiáng)樣本。EPiDA數(shù)據(jù)增強(qiáng)流程如圖2所示。

半監(jiān)督文本分類(lèi)算法STAP應(yīng)用EPiDA框架和自訓(xùn)練對(duì)少量有標(biāo)記數(shù)據(jù)進(jìn)行擴(kuò)充,無(wú)監(jiān)督一致性訓(xùn)練考慮無(wú)標(biāo)記數(shù)據(jù)與其增強(qiáng)樣本之間的關(guān)系,以減少一致性為目標(biāo)控制增強(qiáng)樣本的質(zhì)量,配對(duì)損失考慮高置信度的相似無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系,實(shí)現(xiàn)了對(duì)無(wú)標(biāo)記數(shù)據(jù)的進(jìn)一步利用。STAP不僅豐富了少量有標(biāo)記數(shù)據(jù),又以多種方式挖掘無(wú)標(biāo)記數(shù)據(jù)的信息,豐富了模型的表達(dá)能力。

2 實(shí)驗(yàn)分析

2.1 數(shù)據(jù)集和預(yù)處理

選取AG News、Yahoo! Answers、Amazon-2、今日頭條中文新聞四個(gè)文本分類(lèi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其中Yahoo! Answers選取Science amp; Mathematics、Health、Sports、Business amp; Finance、Entertainment amp; Music、Family amp; Relationships六個(gè)類(lèi)別,今日頭條中文新聞數(shù)據(jù)集選取國(guó)際、科技、體育、教育、財(cái)經(jīng)、旅游六個(gè)類(lèi)別。選取部分?jǐn)?shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,數(shù)據(jù)集統(tǒng)計(jì)和數(shù)據(jù)集劃分信息如表1所示。

2.2 對(duì)比算法

為了驗(yàn)證STAP算法的有效性,將其與相關(guān)的主流半監(jiān)督文本分類(lèi)算法進(jìn)行對(duì)比實(shí)驗(yàn),用于對(duì)比的算法有:

a)BERT[21]:使用預(yù)訓(xùn)練的BERT-based-uncased模型或BERT-based-Chinese模型,對(duì)其微調(diào)進(jìn)行分類(lèi)。

b)自訓(xùn)練[19] (self-training):此處為STAP算法組件的一部分,對(duì)傳統(tǒng)自訓(xùn)練方法進(jìn)行改進(jìn)。以BERT作為基礎(chǔ)預(yù)訓(xùn)練模型,先用少量有標(biāo)記數(shù)據(jù)訓(xùn)練模型,用訓(xùn)練得到的模型對(duì)大量無(wú)標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè),選取每一類(lèi)預(yù)測(cè)概率最高的前K個(gè)樣本構(gòu)造偽標(biāo)簽數(shù)據(jù),用偽標(biāo)簽數(shù)據(jù)與有標(biāo)記數(shù)據(jù)進(jìn)一步訓(xùn)練模型。

c)UDA[17]:無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)算法,運(yùn)用一致性訓(xùn)練,利用大量無(wú)標(biāo)記數(shù)據(jù),提出回譯和TF-IDF單詞替換的文本數(shù)據(jù)增強(qiáng)方法。此處以BERT作為基礎(chǔ)預(yù)訓(xùn)練模型,數(shù)據(jù)增強(qiáng)方法使用回譯并且采用德語(yǔ)或英語(yǔ)作為中間語(yǔ)言。

d)STAP:本文提出的用于半監(jiān)督文本分類(lèi)的新算法。

2.3 實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)采用Python 3.8實(shí)現(xiàn),使用PyTorch 1.7.0深度學(xué)習(xí)框架,CPU為12核 Intel Xeon CPU E5-2650 v4 @ 2.20 GHz,GPU為顯存24 GB的Tesla P40。

對(duì)于基本分類(lèi)模型,使用BERT-based-uncased或BERT -based-Chinese作為預(yù)訓(xùn)練模型對(duì)文本進(jìn)行標(biāo)記,使用具有768維隱藏狀態(tài)的兩層MLP,并使用tanh作為激活函數(shù)。Yahoo! Answers、Amazon-2句子的最大長(zhǎng)度設(shè)置為256,AG News為128,今日頭條新聞數(shù)據(jù)集為64,如果句子超過(guò)最大長(zhǎng)度保留前部分標(biāo)記。權(quán)重因子λU和λP均設(shè)置為1。置信度閾值τc設(shè)置為0.95,相似度閾值τs設(shè)置為0.9。采用Adam作為優(yōu)化器,學(xué)習(xí)率為2E-5。運(yùn)用回譯作為無(wú)標(biāo)記文本數(shù)據(jù)擴(kuò)充的方法,英文數(shù)據(jù)集使用德語(yǔ)作為中間語(yǔ)言,中文數(shù)據(jù)集使用英語(yǔ)作為中間語(yǔ)言。自訓(xùn)練組件中的K值與每個(gè)類(lèi)別有標(biāo)記的數(shù)量相同。

2.4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)簡(jiǎn)要介紹實(shí)現(xiàn)方法并將提出的STAP與其他算法的準(zhǔn)確率與F1值對(duì)比,每個(gè)數(shù)據(jù)集選取不同數(shù)量的標(biāo)記數(shù)據(jù)。本文中模型為基于BERT實(shí)現(xiàn),將有標(biāo)記文本與無(wú)標(biāo)記文本轉(zhuǎn)換為BERT的輸入向量形式,有標(biāo)記文本包含標(biāo)簽信息可直接計(jì)算交叉熵?fù)p失,無(wú)標(biāo)記文本需要根據(jù)一致性訓(xùn)練與相似偽標(biāo)簽計(jì)算一致性損失與配對(duì)損失,令最終損失最小對(duì)模型進(jìn)行優(yōu)化調(diào)整。

2.4.1 不同標(biāo)記數(shù)量準(zhǔn)確率與F1值對(duì)比

改變少量有標(biāo)記文本的數(shù)量,令每個(gè)類(lèi)別的有標(biāo)記文本數(shù)量為20、100、200,觀察四個(gè)不同算法在四個(gè)不同文本分類(lèi)數(shù)據(jù)集上準(zhǔn)確率的變化。實(shí)驗(yàn)結(jié)果如表3所示。

從表3中可以看出,在四個(gè)文本分類(lèi)數(shù)據(jù)集上,改變有標(biāo)記數(shù)量的大小,STAP準(zhǔn)確率總體上優(yōu)于其他文本分類(lèi)算法,其中,BERT只使用了少量有標(biāo)記數(shù)據(jù),self-training、UDA和STAP也使用了大量的無(wú)標(biāo)記數(shù)據(jù)。STAP優(yōu)于其他算法,例如在每個(gè)類(lèi)別20個(gè)有標(biāo)記數(shù)據(jù)的Amazon-2中,STAP準(zhǔn)確率分別高于BERT、self-training、UDA三種算法7.8%、2.4%、1%。

當(dāng)有標(biāo)記數(shù)據(jù)量增大時(shí),改進(jìn)速度放緩,例如在Amazon-2中,每個(gè)類(lèi)別有標(biāo)記數(shù)量為20、200時(shí)STAP算法相對(duì)于BERT的改進(jìn)率分別為7.8%、1.9%。結(jié)果表明,STAP算法相對(duì)于其他算法在小樣本問(wèn)題上具有較好的改進(jìn)效果。為了更加直觀地觀察準(zhǔn)確率波動(dòng),繪制四個(gè)不同算法在四個(gè)不同文本分類(lèi)數(shù)據(jù)集上準(zhǔn)確率波動(dòng)圖,如圖4所示。

為了進(jìn)一步驗(yàn)證算法有效性,計(jì)算相應(yīng)算法的F1值,繪制四個(gè)算法在四個(gè)不同文本分類(lèi)數(shù)據(jù)集上F1值波動(dòng)圖以直觀表示,F(xiàn)1值波動(dòng)如圖5所示。從圖5中可以看出,F(xiàn)1值的波動(dòng)趨勢(shì)與準(zhǔn)確率大致相似,STAP的F1值總體上位于其他三種算法上方,均有不同程度的改進(jìn),具有較好的實(shí)驗(yàn)效果。由此說(shuō)明,STAP對(duì)少量有標(biāo)記數(shù)據(jù)進(jìn)行擴(kuò)充,對(duì)無(wú)標(biāo)記數(shù)據(jù)應(yīng)用一致性訓(xùn)練與相似偽標(biāo)簽具有顯著意義,可以有效減少過(guò)擬合,提升模型分類(lèi)性能。

綜合表3、圖4和5的實(shí)驗(yàn)結(jié)果,STAP的準(zhǔn)確率與F1值優(yōu)于其他文本分類(lèi)算法,且當(dāng)有標(biāo)記數(shù)量較小時(shí)改進(jìn)效果尤為顯著。因此,利用STAP算法實(shí)現(xiàn)半監(jiān)督文本分類(lèi)具有較高實(shí)際應(yīng)用價(jià)值。

2.4.2 無(wú)標(biāo)記數(shù)據(jù)對(duì)STAP算法的影響

為了驗(yàn)證無(wú)標(biāo)記數(shù)據(jù)對(duì)STAP算法準(zhǔn)確率與F1值的影響,本文選取Yahoo! Answers和今日頭條兩個(gè)文本分類(lèi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),令每個(gè)類(lèi)別有標(biāo)記數(shù)量大小為20,無(wú)標(biāo)記數(shù)據(jù)量分別為5 000、10 000、15 000,觀察STAP算法隨著無(wú)標(biāo)記數(shù)據(jù)量改變的準(zhǔn)確率與F1值變化。結(jié)果如圖6所示。

由圖6可以看出,隨著無(wú)標(biāo)記數(shù)量的增加,STAP準(zhǔn)確率與F1值有不同程度的增長(zhǎng)。令初始無(wú)標(biāo)記數(shù)量為5 000,今日頭條數(shù)據(jù)集中每增加5 000無(wú)標(biāo)記數(shù)據(jù),準(zhǔn)確率分別增加0.5%、0.1%,F(xiàn)1值分別增加0.6%、0.1%;Yahoo! Answers數(shù)據(jù)集中每增加5 000無(wú)標(biāo)記數(shù)據(jù),準(zhǔn)確率分別增加0.8%、0.7%,F(xiàn)1值分布增加0.7%、0.8%。實(shí)驗(yàn)進(jìn)一步驗(yàn)證了無(wú)標(biāo)記數(shù)據(jù)的有效性。

2.4.3 消融實(shí)驗(yàn)

為了驗(yàn)證STAP算法中每個(gè)組件的有效性,以AG News數(shù)據(jù)集為例,令每個(gè)類(lèi)別有標(biāo)記數(shù)量為20,進(jìn)行消融實(shí)驗(yàn)分析,從STAP中分別移除EPiDA、self-training、配對(duì)損失(pair_loss)三個(gè)組件,測(cè)試不同組件對(duì)實(shí)驗(yàn)結(jié)果的影響。消融實(shí)驗(yàn)結(jié)果如表4所示。

由表4可以看出,剔除不同組件后,準(zhǔn)確率與F1值都會(huì)有不同程度的下降,STAP準(zhǔn)確率與F1值均為87.5%,剔除EPiDA、pair_loss、self-training后準(zhǔn)確率分別下降0.4%、0.7%、1%,F(xiàn)1值分別下降0.5%、0.6%、1.1%。在這三部分中,剔除自訓(xùn)練的準(zhǔn)確率與F1值下降程度最大,說(shuō)明通過(guò)自訓(xùn)練選取每個(gè)類(lèi)別預(yù)測(cè)概率的前K個(gè)樣本的效果較優(yōu),生成了較多有效樣本,剔除配對(duì)損失和EPiDA后準(zhǔn)確率與F1值都有下降,表明考慮高置信度的相似無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系和從不同數(shù)據(jù)增強(qiáng)方法生成的候選樣本中選取合理樣本都對(duì)算法有改進(jìn)效果。當(dāng)剔除全部組件后,準(zhǔn)確率與F1值分別下降了1.8%、1.9%,這也證明了STAP算法的有效性。

2.4.4 案例分析

為了更加直觀地表示STAP算法的有效性,選取今日頭條中文新聞數(shù)據(jù)集進(jìn)行案例分析,并與其他算法作對(duì)比。由于STAP與對(duì)比算法均是基于BERT預(yù)訓(xùn)練語(yǔ)言模型實(shí)現(xiàn),為便于實(shí)驗(yàn),將文本轉(zhuǎn)換為BERT的輸入向量形式,如表5所示。

將文本的向量形式作為算法輸入,對(duì)STAP與其對(duì)比算法進(jìn)行實(shí)例比較,觀察不同算法判斷正誤情況,選取數(shù)據(jù)集中兩個(gè)樣本為例進(jìn)行說(shuō)明,樣本案例如表6所示。

從表6的樣本案例分析中可以看出,在編號(hào)為1的測(cè)試樣本中,實(shí)際類(lèi)別為旅游,BERT、self-training兩種算法預(yù)測(cè)為國(guó)際,這兩種算法均沒(méi)有充分利用大量的無(wú)標(biāo)記數(shù)據(jù),著重點(diǎn)在于有標(biāo)記數(shù)據(jù),因此在出現(xiàn)“國(guó)家”名詞時(shí)便直接將其預(yù)測(cè)為國(guó)際類(lèi)別,UDA與STAP引入一致性訓(xùn)練,利用無(wú)標(biāo)記數(shù)據(jù),模型泛化性能有所提升,因此預(yù)測(cè)正確。在編號(hào)為2的測(cè)試樣本中,實(shí)際類(lèi)別為體育,BERT、self-training、UDA三種算法均預(yù)測(cè)為旅游,“公里”這種里程名詞在旅游中經(jīng)常出現(xiàn),三種算法無(wú)法挖掘給出數(shù)據(jù)的更多信息,導(dǎo)致預(yù)測(cè)錯(cuò)誤,STAP在利用無(wú)標(biāo)記數(shù)據(jù)時(shí),不僅利用一致性訓(xùn)練考慮無(wú)標(biāo)記數(shù)據(jù)及其增強(qiáng)樣本之間的關(guān)系,也引入配對(duì)損失考慮高置信度的相似無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系,使得算法可以綜合考慮各方面信息,由此可知配對(duì)損失引入的有效性。

3 結(jié)束語(yǔ)

在文本分類(lèi)領(lǐng)域,有標(biāo)記數(shù)據(jù)對(duì)于訓(xùn)練模型具有較高價(jià)值,然而很多情況無(wú)法獲得大量有標(biāo)記數(shù)據(jù),為了緩解模型對(duì)有標(biāo)記數(shù)據(jù)的依賴(lài),提出了一個(gè)半監(jiān)督文本分類(lèi)算法STAP。針對(duì)少量有標(biāo)記數(shù)據(jù),利用EPiDA和自訓(xùn)練兩種方式擴(kuò)充數(shù)據(jù),計(jì)算有監(jiān)督交叉熵?fù)p失。針對(duì)大量無(wú)標(biāo)記數(shù)據(jù),利用一致性訓(xùn)練和相似偽標(biāo)簽的方法,考慮無(wú)標(biāo)記數(shù)據(jù)及其增強(qiáng)樣本之間的關(guān)系和高置信度相似無(wú)標(biāo)記數(shù)據(jù)之間的關(guān)系,計(jì)算無(wú)監(jiān)督一致性損失和配對(duì)損失。STAP利用了已有數(shù)據(jù),將無(wú)標(biāo)記數(shù)據(jù)的信息充分挖掘,在四個(gè)文本分類(lèi)數(shù)據(jù)集上實(shí)驗(yàn),與其他經(jīng)典算法進(jìn)行對(duì)比,效果有顯著改進(jìn)。實(shí)驗(yàn)中令每個(gè)類(lèi)別的數(shù)據(jù)量相同,對(duì)于未來(lái)的研究方向,計(jì)劃探索半監(jiān)督文本分類(lèi)中類(lèi)別不均衡的問(wèn)題和更簡(jiǎn)易的半監(jiān)督文本分類(lèi)算法。

參考文獻(xiàn):

[1]Tian Hao,Gao Can,Xiao Xinyan,et al. SKEP: sentiment knowledge enhanced pre-training for sentiment analysis [C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL,2020: 4067-4076.

[2]Wang Zhiguo,Ng P,Ma Xiaofei,et al. Multi-passage BERT: a globally normalized BERT model for open-domain question answering [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA: ACL,2019: 5877-5881.

[3]周志華. 基于分歧的半監(jiān)督學(xué)習(xí) [J]. 自動(dòng)化學(xué)報(bào),2013,39(11): 1871-1878. (Zhou Zhihua. Disagreement-based semi-supervised lear-ning [J]. Acta Automatica Sinica,2013,39(11): 1871-1878.)

[4]Li C F,Keith F,Hartmann W,et al. Combining unsupervised and text augmented semi-supervised learning for low resourced autoregressive speech recognition [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 6892-6896.

[5]劉建偉,劉媛,羅雄麟. 半監(jiān)督學(xué)習(xí)方法 [J]. 計(jì)算機(jī)學(xué)報(bào),2015,38(8): 1592-1617. (Liu Jianwei,Liu Yuan,Luo Xionglin. Semi-supervised learning methods [J]. Chinese Journal of Computers,2015,38(8): 1592-1617.)

[6]He Wanwei,Dai Yinpei,Zheng Yinhe,et al. GALAXY: a generative pre-trained model for task-oriented dialog with semi-supervised lear-ning and explicit policy injection [C]// Proc of the 36th AAAI Confe-rence on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 10749-10757.

[7]Kumar A,Sattigeri P,F(xiàn)letcher P T. Semi-supervised learning with GANs: manifold invariance with improved inference [C]// Proc of the 31st International Conference on in Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 5534-5544.

[8]Verma V,Lamb A,Kannala J,et al. Interpolation consistency training for semi-supervised learning [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 3635-3641.

[9]Tarvainen A,Valpola H. Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 1195-1204.

[10]Arazo E,Ortego D,Albert P,et al. Pseudo-labeling and confirmation bias in deep semi-supervised learning [C]// Proc of International Joint Conference on Neural Network. Piscataway,NJ: IEEE Press,2020: 1-8.

[11]Perlaza S M,Bisson G,Esnaola I,et al. Empirical risk minimization with relative entropy regularization: optimality and sensitivity analysis [C]// Proc of IEEE International Symposium on Information Theory. Piscataway,NJ: IEEE Press,2022: 684-689.

[12]Chen Jiaoao,Yang Zichao,Yang Diyi. MixText: linguistically-informed interpolation of hidden space for semi-supervised text classification [C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL,2020: 2147-2157.

[13]Berthelot D,Carlini N,Goodfellow I,et al. MixMatch: a holistic approach to semi-supervised learning [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2019: 5050-5060.

[14]Wei J,Zou Kai. EDA: easy data augmentation techniques for Boosting performance on text classification tasks [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA: ACL,2019: 6381-6387.

[15]Kobayashi S. Contextual augmentation: data augmentation by words with paradigmatic relations [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Stroudsburg,PA:ACL,2018:452-457.

[16]Karimi A,Rossl L,Prati A. AEDA: an easier data augmentation technique for text classification [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL,2021: 2748-2754.

[17]Xie Qizhe,Dai Zihang,Hovy E,et al. Unsupervised data augmentation for consistency training [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2020: 6256-6268.

[18]Zhao Minyi,Zhang Lu,Xu Yi,et al. EPiDA: an easy plug-in data augmentation framework for high performance text classification [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL,2022: 4742-4752.

[19]Li Xinzhe,Sun Qianru,Liu Yaoyao,et al. Learning to self-train for semi-supervised few-shot classification [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2019: 10276-10286.

[20]Hu Zijian,Yang Zhengyu,Hu Xuefeng,et al. SimPLE: similar pseudo label exploitation for semi-supervised classification [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 15094-15103.

[21]Devlin J,Chang M W,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL,2019: 4171-4186.

主站蜘蛛池模板: 日日拍夜夜嗷嗷叫国产| 国产精品密蕾丝视频| 又黄又湿又爽的视频| 精品国产电影久久九九| 色悠久久久久久久综合网伊人| 欧美笫一页| 亚洲一道AV无码午夜福利| 国产精品真实对白精彩久久| 天天躁夜夜躁狠狠躁躁88| 日韩精品成人在线| 国产黑丝视频在线观看| 国产91精品调教在线播放| 国产国产人在线成免费视频狼人色| 一级爆乳无码av| 久久精品亚洲热综合一区二区| 欧美成人午夜影院| 国产精品精品视频| 18禁高潮出水呻吟娇喘蜜芽| 日韩麻豆小视频| 91色老久久精品偷偷蜜臀| 在线视频精品一区| 91久久大香线蕉| 欧美激情综合| 一本一道波多野结衣一区二区 | 欧美伊人色综合久久天天| 怡春院欧美一区二区三区免费| 97超碰精品成人国产| 71pao成人国产永久免费视频| 伊人成人在线| 91福利在线看| 国产欧美精品一区aⅴ影院| 88av在线播放| 玖玖免费视频在线观看 | 99视频在线精品免费观看6| 国产拍揄自揄精品视频网站| 亚洲天堂久久| 亚洲三级色| 无码免费视频| 91精品国产自产在线老师啪l| 特级aaaaaaaaa毛片免费视频| 欧美色综合网站| 亚洲a级在线观看| 伊人久久青草青青综合| 久久久久国色AV免费观看性色| 少妇极品熟妇人妻专区视频| 狠狠色噜噜狠狠狠狠色综合久| 亚洲精品国偷自产在线91正片| 熟妇丰满人妻| 99这里精品| a亚洲天堂| 国产精品自在线天天看片| 三上悠亚一区二区| 波多野结衣无码中文字幕在线观看一区二区 | 国产成人无码AV在线播放动漫| 欧美另类精品一区二区三区| 三上悠亚精品二区在线观看| 中文字幕乱妇无码AV在线| 精品久久久久成人码免费动漫 | 日本人妻丰满熟妇区| 欧美精品导航| 成人va亚洲va欧美天堂| 欧美中文字幕无线码视频| 国产无码精品在线播放| 片在线无码观看| 青草午夜精品视频在线观看| 亚洲综合国产一区二区三区| 91精品国产91久久久久久三级| 欧美精品另类| 国产性爱网站| 国产麻豆永久视频| 国产第一页屁屁影院| 国产男人天堂| 国产亚洲精品精品精品| 日韩欧美国产另类| 日韩高清欧美| 亚洲欧洲国产成人综合不卡| 欧美精品在线看| 一级毛片在线播放| 三级国产在线观看| 国产精品自在自线免费观看| 国产成人综合欧美精品久久| 免费看美女毛片|