汪樂(lè)樂(lè),張賢坤
(天津科技大學(xué)人工智能學(xué)院,天津300457)
文本分類是自然語(yǔ)言處理領(lǐng)域中的典型任務(wù)之一。根據(jù)單個(gè)文本所對(duì)應(yīng)標(biāo)簽數(shù)量的不同,可以將其劃分為單標(biāo)簽文本分類和多標(biāo)簽文本分類兩種類型,其中多標(biāo)簽文本分類在實(shí)際生活中的應(yīng)用更為廣泛,例如主題分類[1]、情感分析[2]和標(biāo)簽推薦[3]等。
相較于單標(biāo)簽分類,多標(biāo)簽分類更準(zhǔn)確地反映了文本的多樣性和復(fù)雜性,但同時(shí)也面臨著更多的挑戰(zhàn)。首先是數(shù)據(jù)的稀疏性問(wèn)題,每個(gè)文本實(shí)例可能涉及多個(gè)標(biāo)簽,這會(huì)導(dǎo)致標(biāo)簽組合的數(shù)量過(guò)于龐大,因此在訓(xùn)練數(shù)據(jù)中,很多標(biāo)簽組合出現(xiàn)較少甚至沒(méi)有,這增加了模型訓(xùn)練的難度。其次是標(biāo)簽間可能存在依賴關(guān)系,也就是說(shuō)某些標(biāo)簽的存在或缺失會(huì)對(duì)其他標(biāo)簽的預(yù)測(cè)產(chǎn)生影響,這種依賴關(guān)系會(huì)增加建模的復(fù)雜度。此外,每條文本都對(duì)應(yīng)多個(gè)標(biāo)簽,即包含多個(gè)標(biāo)簽特征。因此,如何尋找與每個(gè)標(biāo)簽最相關(guān)且最具有辨別力的標(biāo)簽特定特征,利用這些特征提升模型的性能和效率具有重要意義。
在以往的多標(biāo)簽文本分類工作中,研究人員通常先利用各種方法學(xué)習(xí)文本表示,然后進(jìn)行分類,其中不同的方法在文本處理階段對(duì)于詞權(quán)重的處理方式不同。一些前饋神經(jīng)網(wǎng)絡(luò)的方法,例如 DAN[4]和FastText[5],主要思想是將文本中的每個(gè)詞映射為相應(yīng)的向量,并通過(guò)計(jì)算這些向量的平均值獲得文本表示;基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法利用不同大小的卷積核捕獲文本的字、詞或短語(yǔ)的局部特征;基于Attention 機(jī)制的方法,通過(guò)向量點(diǎn)積或余弦相似性等計(jì)算方式衡量文本中詞向量的相似性,并將其歸一化獲得權(quán)重,從而突出文本中不同詞的重要性[6],使模型能夠在表示學(xué)習(xí)過(guò)程中關(guān)注重要信息。然而,上述方法都局限于某一文本實(shí)例內(nèi)部,不能從全局判斷文本中的關(guān)鍵信息。此外,使用領(lǐng)域?qū)<抑R(shí)或特定領(lǐng)域的詞典、術(shù)語(yǔ)表等外部資源能夠豐富文本的特征表示[7],然而這種方法并不針對(duì)特定任務(wù)進(jìn)行優(yōu)化,因此可能無(wú)法充分表達(dá)特定任務(wù)所需的專業(yè)知識(shí)。
屬于某一標(biāo)簽關(guān)鍵信息的聚合,相對(duì)于具體的文本實(shí)例可以更具體、更精準(zhǔn)地表示標(biāo)簽信息。在具體推理中,如果某一文本實(shí)例與某一標(biāo)簽概念最相似,那么該文本實(shí)例大概率屬于這一標(biāo)簽。利用這些更細(xì)粒度的全局關(guān)鍵信息具有重要意義。
為充分利用標(biāo)簽的全局概念信息,本文提出一種基于標(biāo)簽概念的多標(biāo)簽文本分類方法。根據(jù)詞頻和潛在狄利克雷分布(latent Dirichlet allocation,LDA)主題模型提取標(biāo)簽關(guān)鍵詞,并使用與文本編碼相同的方法對(duì)這些關(guān)鍵詞進(jìn)行編碼,以獲得標(biāo)簽概念。在學(xué)習(xí)和預(yù)測(cè)階段使用 K 近鄰(K-nearest neighbor,KNN)機(jī)制檢索概念集,獲取與當(dāng)前文本表示最接近的k個(gè)標(biāo)簽概念作為預(yù)測(cè)結(jié)果,并融合原模型預(yù)測(cè)得到最終預(yù)測(cè)結(jié)果。為了評(píng)估KNN 的預(yù)測(cè)結(jié)果,本文引入對(duì)比損失進(jìn)行輔助訓(xùn)練。在對(duì)比學(xué)習(xí)的過(guò)程中,將文本所對(duì)應(yīng)的標(biāo)簽概念視為正例,同時(shí)將其余標(biāo)簽概念視為負(fù)例,以拉近文本表示與對(duì)應(yīng)正例之間的距離,并推算與負(fù)例之間的距離。
本文的主要貢獻(xiàn)如下:(1)提出一種基于標(biāo)簽概念的多標(biāo)簽文本分類方法,從全局語(yǔ)料中獲取標(biāo)簽概念,并使用對(duì)比損失優(yōu)化的KNN 輔助預(yù)測(cè);(2)本文方法可作為通用框架與其他多標(biāo)簽文本分類模型結(jié)合,提高模型性能;(3)在AAPD 和RCV1-V2 兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。
多標(biāo)簽文本分類任務(wù)方法主要分為兩類:一類是基于機(jī)器學(xué)習(xí)的方法,另一類是基于深度學(xué)習(xí)的方法。
基于機(jī)器學(xué)習(xí)的方法側(cè)重特征提取與分類器的設(shè)置,并可更細(xì)化地分為問(wèn)題轉(zhuǎn)換方法和算法自適應(yīng)方法。問(wèn)題轉(zhuǎn)換方法的主要思路是將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為一個(gè)或者多個(gè)單標(biāo)簽分類問(wèn)題[8],如Label Powerset[9]方法將標(biāo)簽的組合視為一個(gè)新的標(biāo)簽,將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為多分類問(wèn)題。與問(wèn)題轉(zhuǎn)換類方法不同,算法自適應(yīng)類方法的主要思想是改變?cè)兴惴ㄊ蛊淠苓m應(yīng)多標(biāo)簽分類需求。對(duì)于每一個(gè)新樣本,ML-KNN[10]方法首先考慮距離該新樣本最近的k個(gè)原樣本的標(biāo)簽集合,再通過(guò)計(jì)算最大后驗(yàn)概率,預(yù)測(cè)該新樣本的標(biāo)簽集合。基于機(jī)器學(xué)習(xí)的文本分類方法取得了一定成效,但因需要人工提取特征,忽略了文本數(shù)據(jù)中的順序結(jié)構(gòu)和上下文信息而陷入瓶頸。
近年來(lái),神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)在多標(biāo)簽文本分類領(lǐng)域快速發(fā)展。由于CNN 能夠使用不同大小的卷積核對(duì)文本序列進(jìn)行滑動(dòng)窗口操作,從而有效捕獲文本序列中詞或短語(yǔ)的局部特征,因此很快被用于多標(biāo)簽文本分類任務(wù)。Kim[11]首先提出TextCNN 模型,該模型用一層卷積捕獲局部特征,并通過(guò)全局池化操作將這些特征整合為文本表示,最后使用全連接層進(jìn)行分類。XML-CNN[12]設(shè)計(jì)動(dòng)態(tài)的最大池化,相較于普通的最大池化,其補(bǔ)充了文檔的不同區(qū)域更細(xì)粒度的特征,同時(shí)在池化層和輸出層之間增加隱藏瓶頸層,用于學(xué)習(xí)緊湊的文本表示,既輕量化了模型,又提高了分類性能。HFT-CNN[13]利用微調(diào)技術(shù),將上層標(biāo)簽信息傳遞到下層,緩解了層級(jí)標(biāo)簽的數(shù)據(jù)稀疏性。相比基于CNN 的方法,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法可以通過(guò)時(shí)間步的傳遞捕獲長(zhǎng)程相關(guān)性。此外,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)等RNN 變體解決了梯度消失和梯度爆炸問(wèn)題,因此得到了廣泛應(yīng)用。SHO-LSTM[14]方法使用了能解決非線性優(yōu)化問(wèn)題能力的斑點(diǎn)鬣狗優(yōu)化器,通過(guò)優(yōu)化LSTM 的初始權(quán)重提升模型性能。注意力機(jī)制的引入,進(jìn)一步提高了模型的分類性能。在文本分類任務(wù)中,注意力分?jǐn)?shù)可以被理解為是一個(gè)重要的權(quán)重向量[15]。SGM[16]模型將多標(biāo)簽文本分類任務(wù)看作序列生成問(wèn)題,考慮標(biāo)簽間的相互關(guān)聯(lián),并引入Attention自動(dòng)獲取輸入文本的關(guān)鍵信息。Xiao 等[17]提出一種將兩組基于歷史信息的注意力機(jī)制應(yīng)用于seq2seq模型的方法,其中一組注意力機(jī)制考慮歷史上下文詞匯以增強(qiáng)預(yù)測(cè)能力,另一組注意力機(jī)制考慮歷史標(biāo)簽信息以緩解錯(cuò)誤傳播問(wèn)題。Transformer 是一種基于多頭注意力設(shè)計(jì)的模型,它克服了RNN 不能并行計(jì)算、CNN 捕獲全文的上下文信息效率低下的缺點(diǎn)。HG-Transformer[18]模型將文本建模為圖,并將多層Transfomer 結(jié)構(gòu)用在單詞、句和圖級(jí)別捕獲局部特征,最后依據(jù)標(biāo)簽的層次關(guān)系生成標(biāo)簽的表示形式。LightXML[19]是一種輕量級(jí)的深度學(xué)習(xí)模型,采用端到端訓(xùn)練和動(dòng)態(tài)負(fù)標(biāo)簽采樣。該方法使用生成合作網(wǎng)絡(luò)對(duì)標(biāo)簽進(jìn)行召回和排序,其中標(biāo)簽召回部分生成負(fù)標(biāo)簽和正標(biāo)簽,標(biāo)簽排序部分將正標(biāo)簽與這些標(biāo)簽區(qū)分開(kāi)來(lái)。在標(biāo)簽排序的訓(xùn)練階段中,通過(guò)將相同的文本表示作為輸入,動(dòng)態(tài)采樣負(fù)標(biāo)簽,以提升模型的分類性能。MAGNET[20]模型利用圖注意力網(wǎng)絡(luò)學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系,利用特征矩陣和相關(guān)系數(shù)矩陣生成分類器。該模型通過(guò)在圖中傳播信息和捕捉關(guān)系,有效解決了語(yǔ)義稀疏性問(wèn)題,提升了分類性能。LiGCN[21]方法提出了一個(gè)可解釋標(biāo)簽的圖卷積網(wǎng)絡(luò)模型,將詞元和標(biāo)簽建模為異構(gòu)圖中的節(jié)點(diǎn),解決多標(biāo)簽文本分類問(wèn)題,通過(guò)這種方式,能夠考慮包括詞元級(jí)別關(guān)系在內(nèi)的多個(gè)關(guān)系。然而,基于圖神經(jīng)網(wǎng)絡(luò)的方法存在過(guò)平滑的問(wèn)題,無(wú)法捕獲深度依賴特征。
本文提出一種基于標(biāo)簽概念的多標(biāo)簽文本分類方法,模型框架如圖1 所示。本文方法主要包括3 個(gè)部分:標(biāo)簽概念獲取、對(duì)比學(xué)習(xí)和綜合預(yù)測(cè)。標(biāo)簽概念獲取部分將訓(xùn)練集按照標(biāo)簽劃分,依據(jù)詞頻和LDA 主題模型抽取標(biāo)簽的全局關(guān)鍵詞,隨后采用與編碼文本相同的方式對(duì)標(biāo)簽關(guān)鍵詞進(jìn)行編碼,以獲得標(biāo)簽概念的向量表示;對(duì)比學(xué)習(xí)階段引入對(duì)比損失,使文本表示與對(duì)應(yīng)標(biāo)簽概念之間的距離盡可能小,與其他標(biāo)簽概念之間的距離盡可能大;綜合預(yù)測(cè)階段將KNN 預(yù)測(cè)結(jié)果與基礎(chǔ)模型預(yù)測(cè)結(jié)果的加權(quán)和作為最終預(yù)測(cè)結(jié)果。

圖1 模型框架Fig. 1 Model framework
為獲得具有全局關(guān)鍵信息的標(biāo)簽概念,本文提出了一種方法,首先基于詞頻和LDA 主題模型抽取標(biāo)簽關(guān)鍵詞,然后將這些關(guān)鍵詞編碼成標(biāo)簽概念。在抽取標(biāo)簽關(guān)鍵詞前,隨機(jī)抽取屬于某一標(biāo)簽的文本語(yǔ)料,構(gòu)建該標(biāo)簽的全局語(yǔ)料庫(kù)。綜合考慮本實(shí)驗(yàn)使用的數(shù)據(jù)集和實(shí)驗(yàn)效率,標(biāo)簽語(yǔ)料庫(kù)的數(shù)量上限設(shè)定為10 000。
從概率角度分析,顯然標(biāo)簽語(yǔ)料中詞頻越高的詞與該標(biāo)簽越相關(guān),故對(duì)屬于標(biāo)簽yi的全體文本進(jìn)行詞頻統(tǒng)計(jì),取前k個(gè)詞構(gòu)成標(biāo)簽關(guān)鍵詞集Keypi。
重復(fù)是提高詞影響力的一種方式,故利用LDA主題模型進(jìn)一步區(qū)分關(guān)鍵詞。將iy標(biāo)簽的全局語(yǔ)料主題數(shù)設(shè)置為2,原因如下:每條文本具有2 個(gè)及以上標(biāo)簽,若將標(biāo)簽看作主題,則該語(yǔ)料庫(kù)所包含主題必有yi標(biāo)簽主題,剩余標(biāo)簽主題可統(tǒng)一視為另一主題,且這兩個(gè)主題各包含k/2 個(gè)主題關(guān)鍵詞。極端情況下,詞頻關(guān)鍵詞包含yi標(biāo)簽主題的關(guān)鍵詞,且與剩余主題的關(guān)鍵詞完全不相干,這樣更關(guān)鍵的詞就被篩選出來(lái)。采用LDA 主題模型提取影響力前k個(gè)主題詞得到標(biāo)簽關(guān)鍵詞集Keyli。
在頻數(shù)關(guān)鍵詞集Keypi的基礎(chǔ)上添加兩子集的交集,得到標(biāo)簽yi的最終關(guān)鍵詞句,即
采取與文本相同的編碼方式得到標(biāo)簽yi的概念表示,即Ci=Encoder(Si)。
在預(yù)測(cè)階段,首先將文本xi輸入到基礎(chǔ)模型,得到基礎(chǔ)模型預(yù)測(cè)結(jié)果yb和期間的文本表示Encoder(xi)。其次,度量該文本表示與所有標(biāo)簽概念之間的距離,取前p個(gè)最近的標(biāo)簽概念所對(duì)應(yīng)的標(biāo)簽輔助預(yù)測(cè)。具體KNN 預(yù)測(cè)過(guò)程為
為防止梯度爆炸或者梯度消失,距離d(a,b)為經(jīng)Z-score 標(biāo)準(zhǔn)化后的a與b間的歐氏距離。jα表示第j個(gè)標(biāo)簽的權(quán)重,與文本表示距離越近的標(biāo)簽概念權(quán)重越大。最后,將KNN 預(yù)測(cè)結(jié)果與基礎(chǔ)模型預(yù)測(cè)結(jié)果yb作加權(quán)和,其中KNN 預(yù)測(cè)權(quán)重為λKNN,得到最終預(yù)測(cè)結(jié)果,即
對(duì)于多標(biāo)簽文本分類,通常使用二元交叉熵?fù)p失作為損失函數(shù),對(duì)于一批含有M個(gè)文本的數(shù)據(jù)來(lái)說(shuō),其損失LBCE為
其中:yi為第i個(gè)文本的真實(shí)標(biāo)簽,為第i個(gè)文本的預(yù)測(cè)標(biāo)簽值。
此外,為了評(píng)估KNN 預(yù)測(cè)的質(zhì)量、推動(dòng)文本編碼時(shí)考慮全局的標(biāo)簽概念特征,引入標(biāo)簽概念和文本表示的對(duì)比損失[22]輔助訓(xùn)練模型。對(duì)于文本ix,計(jì)算文本表示與所有標(biāo)簽概念表示之間的距離,對(duì)比損失為
其中:Encoder(xi)為文本 xi的編碼表示,Ci為其真實(shí)標(biāo)簽概念。對(duì)比損失LC與文本表示和真實(shí)標(biāo)簽概念表示之間的距離 d (Encoder ( xi), Ci)成正比,因此在模型訓(xùn)練的過(guò)程中,文本編碼會(huì)考慮真實(shí)標(biāo)簽概念的影響,使他們之間的距離變得更近;對(duì)比損失LC與其他標(biāo)簽概念間的距離成反比,則會(huì)被優(yōu)化得更遠(yuǎn)。綜合考慮兩種損失,模型總體損失函數(shù)為
本文在兩個(gè)廣泛使用的數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行評(píng)估,數(shù)據(jù)集相關(guān)信息見(jiàn)表1。

表1 數(shù)據(jù)集相關(guān)信息Tab. 1 Dataset related information
AAPD[16]是arXiv 上計(jì)算機(jī)科學(xué)領(lǐng)域的論文摘要數(shù)據(jù)集,共包含55 840 篇摘要、54 個(gè)主題,其中每篇摘要對(duì)應(yīng)多個(gè)領(lǐng)域主題。
RCV1-V2[23]是一個(gè)大型數(shù)據(jù)集,包含超過(guò)80 萬(wàn)條路透社提供的新聞報(bào)道和103 個(gè)主題,其中每篇報(bào)道對(duì)應(yīng)多個(gè)新聞主題。
實(shí)驗(yàn)選取常用多標(biāo)簽分類評(píng)價(jià)指標(biāo)Micro-F1、Macro-F1 和 Micro-Recall 評(píng)估實(shí)驗(yàn)性能。Micro-Recall 反映了預(yù)測(cè)為某一類的樣本中,預(yù)測(cè)正確的比例,Micro-F1 綜合考慮了預(yù)測(cè)的總體精確率和召回率,Macro-F1 則是Micro-F1 全體的平均。此外,Micro-F1 指標(biāo)傾向樣本,任意樣本權(quán)重相同;Macro-F1 指標(biāo)傾向類別,任意類別權(quán)重相同。
為了驗(yàn)證方法的有效性,選取以下模型作為基礎(chǔ)模型:
FastText[5]:用詞向量的平均作為文本表示再進(jìn)行分類。
TextRNN[24]:使用循環(huán)神經(jīng)網(wǎng)絡(luò)捕獲文本的長(zhǎng)序列特征信息的分類模型,神經(jīng)元采用GRU。
TextCNN[11]:使用不同大小的最大池化卷積核捕獲文本特征的分類模型,側(cè)重局部特征。
SGM[16]:將多標(biāo)簽文本分類任務(wù)看作生成輸入文本的標(biāo)簽序列任務(wù)。
詞嵌入使用Glove[25]預(yù)訓(xùn)練的300 維詞向量,并隨機(jī)初始化詞表以外的單詞。KNN 預(yù)測(cè)標(biāo)簽數(shù)p在AAPD 數(shù)據(jù)集上設(shè)定為2,在RCV1-V2 數(shù)據(jù)集上設(shè)為3,抽取標(biāo)簽關(guān)鍵詞數(shù)為10,KNN 預(yù)測(cè)權(quán)重設(shè)定為0.5。模型使用Adam 優(yōu)化器;模型批次大小為64;初始學(xué)習(xí)率設(shè)置為0.000 1,連續(xù)5 個(gè)epoch 實(shí)驗(yàn)性能未提升衰減學(xué)習(xí)率,衰減率為0.1,連續(xù)10 個(gè)epoch性能未提升則停止訓(xùn)練。模型均使用PyTorch 框架實(shí)現(xiàn),其余參數(shù)與原模型一致。
詳細(xì)實(shí)驗(yàn)結(jié)果見(jiàn)表2。結(jié)果表明:該方法應(yīng)用在4 個(gè)基礎(chǔ)模型上均能提升模型性能,其中在TextCNN上效果最好,在 AAPD 數(shù)據(jù)集上 Micro-Recall、Micro-F1 和Macro-F1 指標(biāo)分別提升3.67%、1.66%、4.07%,在RCV1-V2 數(shù)據(jù)集上則分別提升1.86%、1.02%、2.79%。應(yīng)用在TextCNN 上效果最好的原因可能是KNN 預(yù)測(cè)部分補(bǔ)充了TextCNN 最大池化過(guò)程中丟失的信息。

表2 該方法應(yīng)用在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)性能對(duì)比Tab. 2 Experimental performance comparison of the method applied to two data sets
此外,在調(diào)整好局部權(quán)重的前提下,本文補(bǔ)充了部分實(shí)驗(yàn),進(jìn)一步驗(yàn)證本文方法仍能通過(guò)學(xué)習(xí)全體實(shí)例中的關(guān)鍵信息提升模型性能。在 TextCNN、TextRNN 模型上引入Attention 機(jī)制作為基礎(chǔ)模型,再結(jié)合本文方法進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表3。

表3 引入Attention機(jī)制的TextCNN、TextRNN實(shí)驗(yàn)性能對(duì)比Tab. 3 Experimental performance comparison of TextCNN and TextRNN with the introduced attention mechanism
通過(guò)對(duì)表3 中實(shí)驗(yàn)結(jié)果與表2 中帶有Attention機(jī)制的SGM 相關(guān)實(shí)驗(yàn)結(jié)果進(jìn)行綜合分析,可以發(fā)現(xiàn),各基礎(chǔ)模型添加本文方法后,實(shí)驗(yàn)性能均得到一定程度的提升,這表明本文方法能在文本編碼過(guò)程中學(xué)習(xí)標(biāo)簽的全局關(guān)鍵信息,并與Attention 機(jī)制具有互補(bǔ)關(guān)系。
本文方法中有3 個(gè)關(guān)鍵參數(shù)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生重要影響,分別是KNN 預(yù)測(cè)的標(biāo)簽數(shù)、獲取標(biāo)簽概念時(shí)的候選標(biāo)簽關(guān)鍵詞數(shù)以及KNN 預(yù)測(cè)權(quán)重。因此,結(jié)合TextCNN 和FastText 兩個(gè)基礎(chǔ)模型,在AAPD數(shù)據(jù)集上進(jìn)行參數(shù)調(diào)節(jié),分析參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響。每組實(shí)驗(yàn)固定兩個(gè)參數(shù),對(duì)剩余參數(shù)進(jìn)行調(diào)節(jié)。在默認(rèn)設(shè)置下,KNN 預(yù)測(cè)標(biāo)簽數(shù)為2,標(biāo)簽關(guān)鍵詞數(shù)為10,KNN 預(yù)測(cè)權(quán)重為0.5。
3.6.1 KNN 預(yù)測(cè)標(biāo)簽數(shù)
KNN 預(yù)測(cè)標(biāo)簽數(shù)p對(duì)實(shí)驗(yàn)的影響如圖2 所示。實(shí)驗(yàn)結(jié)果表明,模型在p為2 時(shí)性能最好。起始點(diǎn)KNN 預(yù)測(cè)標(biāo)簽數(shù)量為0,即為基礎(chǔ)模型實(shí)驗(yàn)結(jié)果,性能較起始點(diǎn)的提升證明了該方法的有效性。分析數(shù)據(jù)集,AAPD 數(shù)據(jù)集的平均標(biāo)簽數(shù)為2.4,其中標(biāo)簽數(shù)為2 的數(shù)據(jù)占比為69.4%,因此推理KNN 預(yù)測(cè)標(biāo)簽數(shù)應(yīng)小于樣本最大標(biāo)簽數(shù),設(shè)為該數(shù)據(jù)集文本對(duì)應(yīng)標(biāo)簽數(shù)的眾數(shù)比較合理。此外,p設(shè)為3、4 時(shí),各指標(biāo)性能持續(xù)下降,說(shuō)明預(yù)測(cè)多余標(biāo)簽反而會(huì)對(duì)結(jié)果造成干擾。

圖2 KNN預(yù)測(cè)標(biāo)簽數(shù)對(duì)實(shí)驗(yàn)的影響Fig. 2 Effect of the number of labels predicted by KNN on the experiment
3.6.2 標(biāo)簽關(guān)鍵詞數(shù)
標(biāo)簽關(guān)鍵詞數(shù)k對(duì)實(shí)驗(yàn)結(jié)果的影響如圖3 所示。當(dāng)標(biāo)簽關(guān)鍵詞數(shù)量為10 時(shí),模型表現(xiàn)最佳。這說(shuō)明即使面向全局,標(biāo)簽關(guān)鍵信息也是有限的,相對(duì)少量的關(guān)鍵詞所編碼的標(biāo)簽概念更具區(qū)分度。然而,隨著標(biāo)簽關(guān)鍵詞的增加,對(duì)應(yīng)標(biāo)簽概念的普適性降低,進(jìn)而導(dǎo)致實(shí)驗(yàn)性能下降。

圖3 標(biāo)簽關(guān)鍵詞數(shù)對(duì)實(shí)驗(yàn)的影響Fig. 3 Effect of the number of label key words on the experiment
3.6.3 KNN 預(yù)測(cè)權(quán)重
KNN 預(yù)測(cè)權(quán)重λKNN對(duì)實(shí)驗(yàn)結(jié)果的影響如圖4 所示。模型性能先增長(zhǎng)再降低,性能先增長(zhǎng)說(shuō)明包含全局關(guān)鍵信息的KNN 預(yù)測(cè)結(jié)果能彌補(bǔ)文本局部?jī)?nèi)權(quán)重分配不合理的缺陷。當(dāng)λKNN取1 時(shí),即完全采取KNN 預(yù)測(cè)時(shí),本文方法結(jié)合FastText 模型性能大幅度降低,結(jié)合TextCNN 模型的性能幾乎為零。這說(shuō)明每條文本所含有的關(guān)鍵信息是稀疏的,該方法不具備獨(dú)立預(yù)測(cè)能力。

圖4 KNN預(yù)測(cè)權(quán)重對(duì)實(shí)驗(yàn)的影響Fig. 4 Effect of KNN prediction weight on the experiment
本文提出了一種基于標(biāo)簽概念的多標(biāo)簽文本分類方法。首先,為獲取某一標(biāo)簽共享在全體實(shí)例中的關(guān)鍵信息并顯式表達(dá),先利用詞頻和LDA 主題模型提取標(biāo)簽關(guān)鍵詞,再將其編碼為標(biāo)簽概念。其次,本文方法引入了對(duì)比損失,減小文本表示與所對(duì)應(yīng)標(biāo)簽概念之間的距離,從而在文本編碼過(guò)程中能夠充分學(xué)習(xí)文本所對(duì)應(yīng)標(biāo)簽的全局關(guān)鍵信息。同時(shí),本文方法具有良好的可移植性,可以嵌入現(xiàn)有的多標(biāo)簽文本分類模型中。在AAPD 和RCV1-V2 兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法能有效提升基礎(chǔ)模型的性能。此外,本文還對(duì)幾個(gè)關(guān)鍵參數(shù)設(shè)定的原因和影響進(jìn)行了討論。然而,本文方法仍存在一些不足之處。由于綜合預(yù)測(cè)和對(duì)比學(xué)習(xí)階段需將每一條文本與所有的標(biāo)簽概念進(jìn)行對(duì)比,對(duì)于具有大型標(biāo)簽集的數(shù)據(jù)而言,這兩個(gè)階段的時(shí)間開(kāi)銷較大,因此不適用于極限多標(biāo)簽文本分類任務(wù)。在后續(xù)的研究中,這將成為重點(diǎn)關(guān)注和討論的內(nèi)容。