周悅堯,奚雪峰,3+,崔志明,盛勝利,仇亞進(jìn)
(1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000;2.蘇州市科技局 蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215000;3.蘇州科技大學(xué) 蘇州智慧城市研究院,江蘇 蘇州 215000;4.德州理工大學(xué) 計(jì)算機(jī)學(xué)院,得克薩斯州 拉伯克市 79401)
文本分類是自然語言處理中的核心基礎(chǔ),廣泛應(yīng)用于情感分析[1]、意圖識別[2]等典型任務(wù)。近年來,循環(huán)神經(jīng)網(wǎng)絡(luò)[3](recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)[4](convolutional neural network,CNN)、層次注意力網(wǎng)絡(luò)[5](hierarchical attention network,HAN)以及BERT[6]預(yù)訓(xùn)練模型都在文本分類任務(wù)上取得了十分優(yōu)異的成績,受到學(xué)界及工業(yè)界的重點(diǎn)關(guān)注。要訓(xùn)練一個(gè)性能良好的有監(jiān)督分類模型,至少需要消耗數(shù)十萬的高質(zhì)量標(biāo)注文檔。然而這樣的標(biāo)注文檔常常需要大量標(biāo)注人員和文檔專家的協(xié)同配合標(biāo)注,時(shí)間和人力成本巨大。由此造成高質(zhì)量標(biāo)注數(shù)據(jù)的缺乏,是有監(jiān)督分類模型難以大規(guī)模落地的重要原因。
為解決上述問題,研究者提出了弱監(jiān)督文本分類方法。當(dāng)用戶無法提供大量標(biāo)注文檔時(shí),也可以通過為分類模型提供少量種子詞的方式訓(xùn)練模型達(dá)到應(yīng)用要求。例如類別名稱為Sports,用戶給這個(gè)類別提供高度相關(guān)的種子詞可以是basketball、football、athletes,從而模型基于這些種子詞對屬于Sports的文檔進(jìn)行分類。然而這種方法的局限性在于,相關(guān)種子詞需要依賴對語料庫非常熟悉的專家才能準(zhǔn)確提供。
受此啟發(fā),為進(jìn)一步解決標(biāo)注數(shù)據(jù)稀缺問題,本文提出一種基于類名引導(dǎo)的弱監(jiān)督文本分類(weakly supervised text classification based on class name guidance,CNG)方法。該方法使用類名作為監(jiān)督源,無需標(biāo)注數(shù)據(jù),可以根據(jù)用戶提供的類別名稱生成種子詞,為文檔生成偽標(biāo)簽并訓(xùn)練文檔分類器。同時(shí),根據(jù)排名分?jǐn)?shù)對種子詞集進(jìn)行擴(kuò)展,模型使用迭代的方法不斷改進(jìn)性能。本文工作的主要貢獻(xiàn)有:①設(shè)計(jì)了一種基于類名生成高質(zhì)量種子詞的方法;②提出了一種迭代的弱監(jiān)督文本分類框架;③在公開數(shù)據(jù)集NYT和20 Newsgroups上取得了出色的成績。
無論是英文還是中文,詞語都是自然語言處理中最基本的單元。詞向量技術(shù)可以將文本表示為表達(dá)文本語義的向量。典型的詞向量技術(shù)有Word2Vec[7]、GloVe[8]、ELMo[9]、BERT等。Word2Vec借助詞的上下文得到詞的向量表示,但是它只考慮詞的局部信息;GloVe利用共現(xiàn)矩陣并考慮詞的整體信息來得到詞的向量表示,但是無法適用于詞的不同語境;ELMo能夠?qū)W習(xí)到單詞在不同語境中的變化,但是它使用的語言模型是LSTM(long short-term menory),無法做雙向推理,且并行計(jì)算能力較差。在ELMo的基礎(chǔ)上,BERT具有更強(qiáng)的雙向推理和并行計(jì)算能力,但是它得到的單詞向量表示存在各向異性,即詞向量會(huì)不均勻分布,導(dǎo)致詞向量之間的距離不能很好地表示語義相似性。
文本分類是自然語言處理中一個(gè)長期研究的問題。主流的深度神經(jīng)網(wǎng)絡(luò)文本分類TextRNN[3]模型通過對文本的逐字分析,將語義存儲(chǔ)于隱藏層中,可以很好地捕捉文本的上下文語義,但是模型存在偏差,后面的詞會(huì)比前面的更占優(yōu)。TextCNN[4]模型通過一維卷積來提取句子的特征表示,具備強(qiáng)大的淺層文本抽取能力,但是受限于固定filter,針對長文本效果不佳。CRNN[10]模型丟棄了傳統(tǒng) CNN中使用的池化層并用LSTM進(jìn)行替代,以捕捉文本間的長距離依賴關(guān)系。文本分類的層次注意力網(wǎng)絡(luò)模型[5],首先將注意力機(jī)制[11](Attention Mechanism)應(yīng)用到文檔中的句子,然后拓展應(yīng)用到句子中的單詞,從而找到文檔中最重要的句子和單詞。
弱監(jiān)督文本分類方法的提出,是為解決標(biāo)注數(shù)據(jù)稀缺的問題。弱監(jiān)督文本分類方法的監(jiān)督源是各種形式的種子信息,其中Cai等[12],Miyato等[13]和Xu等[14]的方法使用一些已標(biāo)注的訓(xùn)練文檔;Wang等[15],Meng等[16],Chu等[17]和Tao等[18]的方法使用類別名稱;Meng等[19]和Dheeraj等[20]的方法使用專家提供的種子詞。Cai等提出的PTE將標(biāo)注文檔作為種子信息,使用標(biāo)注和未標(biāo)注的數(shù)據(jù)學(xué)習(xí)文本向量,利用邏輯回歸模型進(jìn)行分類;Chu等提出的Dataless將類名作為種子信息,通過將標(biāo)簽和文檔嵌入語義空間,計(jì)算文檔和潛在標(biāo)簽之間的語義相似度,對文檔進(jìn)行分類;Tao等提出的Doc2Cube將類名作為種子信息,并通過學(xué)習(xí)維度感知嵌入來執(zhí)行多維文檔分類;Dheeraj等提出的ConWea將種子詞作為種子信息,利用語境化表示技術(shù)進(jìn)行語境化文本分類。
本文提出一種弱監(jiān)督文本分類方法CNG http://github.com/orabB/CNG,從類名出發(fā)并結(jié)合種子詞,使用無監(jiān)督詞向量模型Word2Vec學(xué)習(xí)向量表示,對類名和語料庫之間的關(guān)系進(jìn)行建模;通過語義相關(guān)性和語義特異性來設(shè)計(jì)排名分?jǐn)?shù)并生成種子詞,采用迭代方式為未標(biāo)注文檔生成偽標(biāo)簽,訓(xùn)練文本分類器HAN,并結(jié)合訓(xùn)練結(jié)果擴(kuò)展種子詞。CNG方法能夠基于語義相似性和語義特異性生成高質(zhì)量的種子詞,進(jìn)一步解決標(biāo)注數(shù)據(jù)稀缺問題;同時(shí),迭代的訓(xùn)練框架能夠提升模型的泛化能力。
如圖1所示,本文所提CNG方法一共分為種子詞生成,生成偽標(biāo)簽和文檔分類器以及種子詞擴(kuò)展3個(gè)主要模塊。

圖1 方法架構(gòu)
本節(jié)詳細(xì)描述候選詞集的生成,以及通過排名機(jī)制挑選出高質(zhì)量的種子詞。關(guān)于如何界定高質(zhì)量的種子詞,本方法聯(lián)合考慮單詞的語義相關(guān)性和語義特異性。種子詞w對于類的標(biāo)簽名l來說,首先要滿足w和l語義相關(guān),其次w較l而言更加具體且排他。例如football和ball,football屬于ball一類,但是football更具體,football是一種具體的ball,它也只能屬于ball一類。下面分析如何對單詞和文檔進(jìn)行建模,以及如何設(shè)計(jì)種子詞排名機(jī)制。
2.1.1 候選詞集的生成
本文提供的監(jiān)督源是類名,在弱監(jiān)督文本分類任務(wù)中極具挑戰(zhàn)。CNG使用Skip-Gram[21]模型學(xué)習(xí)語料庫中所有單詞的m維向量表示。同時(shí)為了能夠更加高效地捕捉其中的語義關(guān)聯(lián),CNG將所有的m維向量都進(jìn)行單位化操作,并通過vMF分布[22]建模語料庫中單詞m維向量和標(biāo)簽l的關(guān)聯(lián)。分布表達(dá)式如下
f(xw,ul,kl)=exp(kluTlxw)km/2-1l(2π)m/2Im/2-1(kl)
(1)
其中,xw是語料庫中單詞的m維向量,Im/2-1(kl) 是m/2-1階的第一類修正貝塞爾函數(shù)。vMF分布有平均方向和集中參數(shù)兩個(gè)參數(shù),在這里標(biāo)簽名向量ul被作為平均方向,其它單詞在標(biāo)簽名附近的集中程度kl被作為集中參數(shù)。所有單位向量都會(huì)分布在單位超球體上,與標(biāo)簽名語義相關(guān)的單詞都會(huì)聚集在標(biāo)簽名周圍,如圖2所示。

圖2 vMF分布
通過向量余弦相似度獲取一組與標(biāo)簽名l高度語義相關(guān)的單詞Wk。計(jì)算公式如下
Wk=argmaxWksim(w,l)
(2)
sim(w,l)=cos(w,l)=w·l|w|·|l|
(3)
其中,單詞Wk的獲取并不是無止盡的,界定值ts被用來作為不同類別之間不能共享單詞的最大數(shù)字,單詞Wk的數(shù)量不能超過這個(gè)數(shù)值。
Word2Vec中有CBOW和Skip-Gram兩種模型,CBOW模型的主要工作是根據(jù)給定的上下文去預(yù)測輸入的單詞,其核心功能與本節(jié)工作相悖,故不采用。CNG采用的Skip-Gram模型的主要工作是根據(jù)輸入給定的中心詞,首先通過隱藏層權(quán)重矩陣的計(jì)算,最后通過softmax輸出預(yù)測的上下文,Skip-Gram的模型結(jié)構(gòu)如圖3所示。

圖3 Skip-Gram模型結(jié)構(gòu)
2.1.2 種子詞的挑選
至此生成的候選詞集已經(jīng)滿足語義相關(guān)性的要求,但要生成高質(zhì)量的種子詞還需聯(lián)合考慮語義特異性。詞集樣例見表1。

表1 詞集樣例
如果單詞v的含義包含了另一個(gè)單詞w含義,那么單詞v的所有上下文特征也會(huì)在單詞w中出現(xiàn)。使用標(biāo)量SCw,l將單詞w與標(biāo)簽名l關(guān)聯(lián),SCw,l越大時(shí),表明單詞w的語義較標(biāo)簽名l而言更具體且排他。標(biāo)量SCw,l計(jì)算公式如下
SCw,l=∑f∈F(w)∩F(l)RFF(w,f)+RFF(l,f)∑f∈F(w)RFF(w,f)+∑f∈F(l)RFF(l,f)
(4)
其中,F(xiàn)(w),F(xiàn)(l) 是活動(dòng)特征,RFF是著眼于最突出特征的權(quán)重函數(shù)。為方便下一步計(jì)算,CNG將單詞的SCw,l值進(jìn)行歸一化操作,以此得到語義特異性分?jǐn)?shù),計(jì)算公式如下
SSw,l=SCw,l∑SCwi,l
(5)
其中,SSw,l是詞集中的單詞的語義特異性分?jǐn)?shù),取值范圍為[0,1]。
利用學(xué)習(xí)到的語義相關(guān)性和語義特異性來進(jìn)行綜合考慮,特定類的理想種子詞應(yīng)該與該類語義高度相關(guān)并且排他。因此,高質(zhì)量的種子詞被確定為與標(biāo)簽l具有較高的語義相關(guān)性和語義特異性的詞,最終種子詞排名分?jǐn)?shù)計(jì)算如下
Rw,l=sim(w,l)×SSw,l
(6)
首先為部分未標(biāo)注文檔生成偽標(biāo)簽以此來預(yù)訓(xùn)練文檔分類器,之后在未標(biāo)記的文檔上精煉文檔分類器。
2.2.1 生成偽標(biāo)簽
對于給定的文檔Di,它屬于標(biāo)簽名l的概率和它的種子詞的排名分?jǐn)?shù)成正比。計(jì)算公式如下
P(l|Di)∝∑w∈Di∩SwlfDi,w×Rw,l
(7)
其中,fDi,w是單詞w在文檔Di中的詞條頻率,Swl是詞集,Rw,l是種子詞的排名分?jǐn)?shù)。在首次迭代中,CNG使用第一次的生成排名分?jǐn)?shù),而在接下來的迭代中則使用擴(kuò)展分?jǐn)?shù)。因此,對于文檔Di的偽標(biāo)簽分配將按照如下公式
l(Di)=argmaxlP(l|Di)
(8)
2.2.2 文檔分類器
CNG方法的重點(diǎn)在于對弱監(jiān)督種子信息的處理和應(yīng)用,使用層次注意力網(wǎng)絡(luò)模型(HAN)作為文檔分類器。整個(gè)網(wǎng)絡(luò)可以被看作兩部分,詞注意力部分以及句子注意力部分。HAN可以先關(guān)注文檔中的句子,找到文檔中的重要句子;然后關(guān)注句子中的單詞,識別句子中的重要單詞;接著使用生成的偽標(biāo)簽在未標(biāo)記的文檔數(shù)據(jù)上訓(xùn)練一個(gè)HAN模型。對于文檔Di,它估計(jì)的每個(gè)標(biāo)簽名l的預(yù)測概率將被用于后續(xù)種子詞的擴(kuò)展。分類器模型如圖4所示。

圖4 文檔分類器模型
傳統(tǒng)的種子驅(qū)動(dòng)方法都遵循迭代框架,它們使用啟發(fā)式方法生成偽標(biāo)簽,學(xué)習(xí)文檔和類之間的映射,并擴(kuò)展種子集。CNG結(jié)合文檔及其預(yù)測的標(biāo)簽名概率,從每個(gè)標(biāo)簽名候選詞的排名分?jǐn)?shù)出發(fā),使用排名前幾位的候選詞來擴(kuò)展種子詞。擴(kuò)展的種子詞也應(yīng)當(dāng)具有高度的語義相關(guān)性,同時(shí)不會(huì)屬于多個(gè)標(biāo)簽的種子詞集。除此以外,擴(kuò)展的種子詞在預(yù)測的文檔中應(yīng)該有較高的出現(xiàn)頻率。
2.3.1 出現(xiàn)頻率
要想成為標(biāo)簽名l的擴(kuò)展種子詞,它必須在標(biāo)簽名l的文檔中大量出現(xiàn)。這里需要計(jì)算單詞w在所有標(biāo)簽l的文檔中出現(xiàn)的平均頻率,平均頻率的衡量標(biāo)準(zhǔn)如下
AF(l,w)=fl,wNuml
(9)
其中,Numl是被預(yù)測為標(biāo)簽名l的文檔總數(shù),fl,w是單詞w在被預(yù)測為標(biāo)簽名l的文檔中的出現(xiàn)頻率。
2.3.2 擴(kuò)展分?jǐn)?shù)
將出現(xiàn)頻率與上文的排名分?jǐn)?shù)相結(jié)合,得到單詞w關(guān)于標(biāo)簽名l的排名分?jǐn)?shù)。基于這個(gè)排名分?jǐn)?shù),就可以為標(biāo)簽名l擴(kuò)展新的高質(zhì)量的種子詞。擴(kuò)展分?jǐn)?shù)如下
R(l,w)=Rw,l×AF(l,w)
(10)
其中,Rw,l,AF(l,w) 分別是上文提到的排名分?jǐn)?shù)和平均頻率。
種子詞擴(kuò)展具有適應(yīng)性,每個(gè)標(biāo)簽有不同數(shù)量的擴(kuò)展種子詞。在第一次迭代中,只使用詞集里排名前幾位的單詞作為種子詞,其它單詞則將作為下一步迭代的候選擴(kuò)展種子詞。
在擴(kuò)展各個(gè)標(biāo)簽的種子詞之后,生成偽標(biāo)簽并訓(xùn)練分類器。這個(gè)過程在T次迭代中反復(fù)進(jìn)行。
在兩個(gè)公開數(shù)據(jù)集NYT數(shù)據(jù)集和20 Newsgroups數(shù)據(jù)集上,對提出的方法CNG與現(xiàn)有的方法進(jìn)行對比評估,數(shù)據(jù)集都進(jìn)行弱監(jiān)督分類設(shè)置。
實(shí)驗(yàn)使用的環(huán)境與配置見表2。

表2 實(shí)驗(yàn)環(huán)境與配置

3.2.1 NYT數(shù)據(jù)集
NYT數(shù)據(jù)集抓取了紐約時(shí)報(bào)從2009年11月到2010年1月的所有商業(yè)文章,其文本分類數(shù)據(jù)集分為5個(gè)類,共計(jì)13 081個(gè)文檔,平均長度778,具體如圖5(a)所示。

圖5 數(shù)據(jù)集數(shù)量分布
3.2.2 20Newsgroups數(shù)據(jù)集
20Newsgroups數(shù)據(jù)集是用于文本分類、文本挖據(jù)和信息檢索研究的國際標(biāo)準(zhǔn)數(shù)據(jù)集之一,其文本分類數(shù)據(jù)集分為7個(gè)大類,共計(jì)18 828個(gè)文檔,平均長度303,具體如圖5(b)所示。
考慮到兩個(gè)數(shù)據(jù)集不平衡的標(biāo)簽分布,采用F1-score作為評估指標(biāo)(micro-F1和macro-F1),它是統(tǒng)計(jì)學(xué)中用來衡量分類模型精確度的一種指標(biāo),用于測量不均衡數(shù)據(jù)的精度,可以同時(shí)兼顧分類模型的精確率和召回率。在實(shí)驗(yàn)中使用sklearn.metrics包的f1_score()方法進(jìn)行統(tǒng)計(jì)。
所有的對比方法都嚴(yán)格按照原始論文中描述的參數(shù)來進(jìn)行復(fù)現(xiàn)。對于CNG,鑒于它是迭代的訓(xùn)練過程,參數(shù)僅僅是迭代次數(shù)T,因此將迭代次數(shù)T設(shè)置為8。
圖6是迭代次數(shù)和方法效果的關(guān)系圖,其中圖6(a)是NYT數(shù)據(jù)集的結(jié)果,圖6(b)是20Newsgroups數(shù)據(jù)集的結(jié)果。

圖6 迭代次數(shù)和方法效果關(guān)系
在本文的方法中,迭代次數(shù)T是唯一的超參數(shù)。從圖中可以觀察到,雖然第一次迭代的訓(xùn)練表現(xiàn)處于較低的水平(第一次迭代是未使用擴(kuò)展種子詞的訓(xùn)練),但是在接下來的迭代中訓(xùn)練表現(xiàn)攀升,實(shí)驗(yàn)結(jié)果驗(yàn)證了種子詞擴(kuò)展的有效性。從全局來看,在第五次迭代左右,F(xiàn)1-score逐漸平緩,表明在5次迭代后,擴(kuò)展的種子詞無法對模型產(chǎn)生進(jìn)一步的影響,模型效果收斂。
本文使用的Word2Vec與以下兩種詞向量模型進(jìn)行比較:采用BERT與GloVe代替Word2Vec作為CNG方法的詞向量模型。
Word2Vec:本文使用的是其中的Skip-Gram模型,通過最大化使用中心詞預(yù)測其上下文單詞的概率。
GloVe:通過分解全局單詞共現(xiàn)矩陣來學(xué)習(xí)單詞向量,其中共現(xiàn)定義在固定大小的上下文窗口上。
BERT:BERT是一種先進(jìn)的預(yù)訓(xùn)練語言模型,提供上下文化的單詞向量。它可以預(yù)測隨機(jī)隱藏的單詞和連續(xù)的句子關(guān)系。
圖7是在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對比圖,其中圖7(a)為NYT數(shù)據(jù)集的結(jié)果,圖7(b)為20Newsgroups數(shù)據(jù)集的結(jié)果。

圖7 詞向量實(shí)驗(yàn)對比
如圖7所示,Word2Vec表現(xiàn)最佳,GloVe表現(xiàn)稍次之。無監(jiān)督詞向量模型在標(biāo)注數(shù)據(jù)稀缺的情況下表現(xiàn)出色。盡管BERT在有監(jiān)督任務(wù)中性能出色,但在弱監(jiān)督條件下,它的表現(xiàn)明顯較差。原因在于BERT向量存在各向異性,向量不均勻地分布,這使語義相似度的計(jì)算存在偏差,從而導(dǎo)致性能不佳。
本文使用HAN分類器與CNN分類器進(jìn)行比較:采用CNN代替HAN作為CNG方法的文檔分類器。
HAN:基于詞匯層級和句子層級來考慮文本的特征,同時(shí)采用注意力機(jī)制將選擇模型分類的重點(diǎn)。
CNN:通過一維卷積來提取句子的特征表示。
圖8是在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對比圖,其中圖8(a)為NYT數(shù)據(jù)集的結(jié)果,圖8(b)為20Newsgroups數(shù)據(jù)集的結(jié)果。

圖8 分類器實(shí)驗(yàn)對比
實(shí)驗(yàn)驗(yàn)證了CNG方法的通用性,可以兼容不同的文檔分類器。從圖中可以得知,HAN模型在兩個(gè)數(shù)據(jù)集上的表現(xiàn)更佳,CNN模型在20Newsgroups數(shù)據(jù)集上的差距較小。而20Newsgroups數(shù)據(jù)集的長度稍短,沒有放大CNN在長距離依賴關(guān)系的不足。
本節(jié)將提出的CNG方法與近年來最先進(jìn)的弱監(jiān)督方法進(jìn)行對比。
LOTClass[16]:該方法提出一種基于預(yù)訓(xùn)練語言模型BERT的弱監(jiān)督文本分類模型,把類別名稱作為監(jiān)督源,查找類別指示詞并訓(xùn)練模型預(yù)測其隱含類別,最后經(jīng)過自訓(xùn)練達(dá)到分類目的。
Dataless:該方法僅僅使用類別名稱作為監(jiān)督源,它利用維基百科并使用顯式語義分析來派生標(biāo)簽和文檔的向量表示。最后每個(gè)文檔都基于文檔-標(biāo)簽的相似性進(jìn)行標(biāo)記。
Doc2Cube:該方法也使用類別名稱作為監(jiān)督源,迭代地執(zhí)行標(biāo)簽、術(shù)語和文檔的聯(lián)合嵌入,通過學(xué)習(xí)感知維度的嵌入,從而進(jìn)行多維文檔的分類。
WeSTClass[19]:該方法可以使用多種種子信息作為監(jiān)督源,它利用種子信息生成偽文檔,先通過神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,然后在未標(biāo)注文檔上對模型進(jìn)行精煉,從而達(dá)到分類目的。
PV-DM[23]:該方法首先學(xué)習(xí)語料庫中所有的句向量表示(句向量繼承了Word2Vec詞向量的特點(diǎn),而且更具優(yōu)勢),并通過聚合句向量,得出標(biāo)簽表示。最后每個(gè)文檔都會(huì)被分配與該文檔最相關(guān)的標(biāo)簽。
WeSHClass[24]:該方法提出一種反映類別分類的分層神經(jīng)網(wǎng)絡(luò)模型,把種子詞作為監(jiān)督源,通過局部分類器預(yù)訓(xùn)練和全局分類器自訓(xùn)練來完成分類。
CNG-NoGen:該方法是CNG方法的消融版本,采用基于距離度量的種子詞生成方式代替聯(lián)合考慮語義特異性和語義相關(guān)性生成種子詞的方式,其它模塊不變。
由表3的實(shí)驗(yàn)結(jié)果表明,提出的方法CNG在所有對比的弱監(jiān)督方法中取得了更高的F1值。在NYT數(shù)據(jù)集上的Macro-F1值為84.2%,Micro-F1值為93.3%,在20Newsgrops數(shù)據(jù)集上的Macro-F1值為65.7%,Micro-F1值為74.0%。所有弱監(jiān)督分類方法在兩個(gè)數(shù)據(jù)集上的Micro-F1都明顯大于Macro-F1,表明在兩個(gè)數(shù)據(jù)集中,它們在小樣本量的類別上分類效果更差。以CNG方法為例,在分配偽標(biāo)簽以及預(yù)訓(xùn)練之后,沒有足夠的數(shù)據(jù)讓分類模型泛化,從而無法取得更好的效果。

表3 實(shí)驗(yàn)結(jié)果/%
(1)從表中可以得知,Dataless、Doc2Cube等未使用深度神經(jīng)網(wǎng)絡(luò)模型的傳統(tǒng)方法分類效果不佳。它們?nèi)鄙偕疃壬窠?jīng)網(wǎng)絡(luò)模型的多層計(jì)算能力,對分類文本中的特征信息、上下文語義環(huán)境等重要因素考慮不足,實(shí)驗(yàn)結(jié)果表明深度神經(jīng)網(wǎng)絡(luò)模型在弱監(jiān)督文本分類任務(wù)上的有效性。然而PV-DM與使用深度神經(jīng)網(wǎng)絡(luò)的WESTClass等方法相比,其實(shí)驗(yàn)結(jié)果在部分指標(biāo)上更具優(yōu)勢。在標(biāo)注數(shù)據(jù)不足的弱監(jiān)督環(huán)境下,句向量對于文本的語義表示有積極的作用。
(2)與僅以類別名稱作為監(jiān)督源的方法相比,實(shí)驗(yàn)驗(yàn)證了從類名出發(fā),結(jié)合生成的高質(zhì)量種子詞方法的有效性。以單一種子信息作為監(jiān)督源的方法在性能上已經(jīng)接近瓶頸。CNG在NYT數(shù)據(jù)集上的表現(xiàn)最佳,Macro-F1值為84.2%,Micro-F1值為93.3%;但是在20news數(shù)據(jù)集上的Macro-F1值僅次于LOTClass方法,差距為6.8%。
(3)與把種子詞作為監(jiān)督源的方法相比,實(shí)驗(yàn)結(jié)果表明了CNG中高質(zhì)量種子詞生成及擴(kuò)展方法的有效性。在迭代訓(xùn)練過程中,CNG學(xué)習(xí)上次迭代過程中成功預(yù)測的經(jīng)驗(yàn),以此來修正分類器并擴(kuò)展種子詞,從而不斷地對方法進(jìn)行精煉,最終達(dá)到更佳效果。
(4)WESHClass提出的分層標(biāo)簽分類結(jié)構(gòu),針對種子信息進(jìn)一步細(xì)分,將種子信息組織成分層結(jié)構(gòu),對種子信息處理方面提供了非常好的思路。但是因?yàn)樵摻Y(jié)構(gòu)采用的LSTM在隱藏狀態(tài)會(huì)丟失一些重要特征,它使用LSTM生成的偽文檔會(huì)對分類結(jié)果造成負(fù)面影響,所以在數(shù)據(jù)集上表現(xiàn)不是特別好。
(5)CNG-NoGen與CNG相比,性能存在差距。在弱監(jiān)督文本分類任務(wù)中,方法能否對種子信息進(jìn)行最大程度的利用是決定性能的關(guān)鍵點(diǎn)之一。距離度量的方式能夠捕捉與類名語義相關(guān)的單詞,但是單純的語義相關(guān)無法處理部分單詞一詞多義的現(xiàn)象。例如,space的單詞釋義有空間、空格和太空等,這使得模型的輸入存在誤差,從而影響分類效果。而聯(lián)合考慮語義相關(guān)性和語義特異性的方式不僅要求單詞與標(biāo)簽名高度的語義相關(guān)性,還要求語義高度排他(單詞沒有歧義)。
(6)可以從表中觀察到,弱監(jiān)督文本分類方法在20 Newsgroups數(shù)據(jù)集上的表現(xiàn)不佳。原因在于NYT數(shù)據(jù)集上文檔平均長度是20 Newsgroups數(shù)據(jù)集上文檔平均長度的2倍多;由于20 Newsgroups數(shù)據(jù)集中多為較短的新聞?wù)Z料,文本內(nèi)部的依賴關(guān)系不突出,CNG方法無法凸顯HAN分類器在長文本語料中處理復(fù)雜語料的能力,因此無法取得良好的表現(xiàn)。然而使用預(yù)訓(xùn)練語言模型BERT的LOTClass方法在Macro-F1和Micro-F1上取得了大于70%的成績,它在文本平均長度303的20Newsgroups數(shù)據(jù)集上憑借BERT的多層Transformer更好地提取特征,從而取得更出色的分類效果。
本文提出一種基于類名引導(dǎo)的弱監(jiān)督文本分類方法CNG,其核心策略在于從類名出發(fā)并結(jié)合種子詞生成。CNG方法首先學(xué)習(xí)語料庫中單詞的向量表示,利用類別名稱生成種子詞,然后生成偽標(biāo)簽,迭代地使用文檔分類器和種子詞擴(kuò)展來進(jìn)行文本分類。在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了CNG方法的有效性,有望緩解標(biāo)注數(shù)據(jù)稀缺的問題。在未來的研究中,計(jì)劃探索更為有效的監(jiān)督信息,同時(shí)也考慮如何融合不同來源的監(jiān)督信息,以此來提高方法的性能,進(jìn)一步降低標(biāo)注數(shù)據(jù)缺乏所帶來的影響。