任彥凝,陳俊霖,劉 群
(重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
多標(biāo)簽文本分類任務(wù)是自然語言處理領(lǐng)域一項(xiàng)基礎(chǔ)而重要的研究方向,推動(dòng)了許多現(xiàn)實(shí)技術(shù)的發(fā)展.在司法領(lǐng)域,一個(gè)案件極有可能符合幾種法條,需要綜合考慮從而作出判決,多標(biāo)簽文本分類可用于法條的預(yù)測(cè)[1].此外,針對(duì)非結(jié)構(gòu)化的法律文本,判斷若干項(xiàng)法律要素是否存在其中,是多標(biāo)簽文本分類任務(wù)在司法領(lǐng)域的另一重要應(yīng)用[2].
在多標(biāo)簽文本分類任務(wù)中,利用標(biāo)簽信息的主流方法是探索標(biāo)簽關(guān)系和引入標(biāo)簽語義元數(shù)據(jù)[3].單獨(dú)考慮兩者會(huì)使分類模型利用信息不全,無法在所有數(shù)據(jù)集上都取得好的分類效果[4].根據(jù)數(shù)據(jù)集中已有的標(biāo)注結(jié)果可以將標(biāo)簽關(guān)系抽象成樹或圖的結(jié)構(gòu)[5],而標(biāo)簽語義元數(shù)據(jù)通常需要查閱大量資料來獲取.對(duì)于專業(yè)性強(qiáng)或容易發(fā)生歧義的文本,人工查閱標(biāo)簽語義可能伴隨著理解錯(cuò)誤和信息不準(zhǔn)確的問題.如在法律領(lǐng)域,非專業(yè)人士很難賦予法律標(biāo)簽精準(zhǔn)無誤的語義.而且不同數(shù)據(jù)集標(biāo)簽各異,人工查找標(biāo)簽語義工作量巨大.因此大部分多標(biāo)簽文本分類方法都未引入任何形式的標(biāo)簽語義元數(shù)據(jù),而是將標(biāo)簽視為無意義的標(biāo)識(shí)符.
目前關(guān)于多標(biāo)簽文本分類的深度學(xué)習(xí)模型普遍采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[6]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[7]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[8]以及Transformer[9,10]等模型.然而這些模型自身也存在各自的缺陷.CNN無法處理序列輸入,其受到固定窗口的限制,無法應(yīng)對(duì)長(zhǎng)文本輸入的情況.RNN在自然語言處理領(lǐng)域的應(yīng)用可以有效解決這一問題,而伴隨著模型深度的增加,梯度爆炸和梯度消失阻礙了RNN的更多發(fā)展.因此LSTM和GRU的提出解決了這種長(zhǎng)期依賴問題.Transformer是較成熟的序列到序列算法,可以解決輸入輸出序列長(zhǎng)度不一致的問題.但是Transformer模型往往需要大量的迭代訓(xùn)練才能達(dá)到最優(yōu)效果,且訓(xùn)練過度會(huì)導(dǎo)致過擬合現(xiàn)象,因此這一類模型對(duì)訓(xùn)練輪次的要求較高,這嚴(yán)重制約了多標(biāo)簽分類模型的實(shí)際部署和應(yīng)用.
針對(duì)上述問題,本文提出了一種融合標(biāo)簽信息的多標(biāo)簽文本分類方法.不同于以往獲取語義元數(shù)據(jù)的方式,本文提出了一種自動(dòng)標(biāo)簽語義生成器,通過自動(dòng)提取整合樣本信息生成標(biāo)簽語義.利用數(shù)據(jù)集生成標(biāo)簽語義元數(shù)據(jù)相比于脫離樣本實(shí)際意義的外部元數(shù)據(jù)而言更加符合數(shù)據(jù)集的特征.此外,針對(duì)深度模型需要大量迭代訓(xùn)練的問題,本文在基于BERT預(yù)訓(xùn)練模型的基礎(chǔ)上提出了combined-attention模型,將標(biāo)簽語義和標(biāo)簽關(guān)系作為兩種注意力頭,使得信息提取更加完整.并且此模型內(nèi)部設(shè)置的門控單元使得兩種注意力頭的權(quán)重大小得以自適應(yīng)分配,從而在不同種類數(shù)據(jù)集上均可實(shí)現(xiàn)優(yōu)異的分類效果.
綜上,本文主要貢獻(xiàn)如下:
1)提出標(biāo)簽語義向量生成器,對(duì)于所有語種及多標(biāo)簽文本分類數(shù)據(jù)集均可用,適用范圍廣;
2)提出combined-attention融合注意力模型,將常用于提取多標(biāo)簽文本分類特征的兩種關(guān)鍵信息以注意力頭的方式融合在一起,保證模型在不同數(shù)據(jù)集上均能提取到有效的分類特征;
3)本文在3個(gè)英文公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本模型能夠?qū)Ψ诸惥扔凶罡?.68%的提升.將此模型成功應(yīng)用于中文法律數(shù)據(jù)集來判斷樣本中是否出現(xiàn)某些法律要素,驗(yàn)證了模型的有效性和實(shí)用性.
基于深度學(xué)習(xí)的文本嵌入模型是自然語言處理方向一直以來的研究熱點(diǎn).相比于傳統(tǒng)機(jī)器學(xué)習(xí)模型存在效果和可擴(kuò)展性較差的問題,深度模型有著很大的優(yōu)勢(shì).Peng將圖的結(jié)點(diǎn)思想應(yīng)用于文本嵌入,將詞抽象成結(jié)點(diǎn)來表示,從而使得句可以抽象成圖,根據(jù)詞的鄰域關(guān)系選擇重要的詞,使用廣度優(yōu)先算法得到每個(gè)詞的子圖,最后使用CNN進(jìn)行相關(guān)計(jì)算[11].Chen將CNN和RNN結(jié)合起來,首先利用CNN提取文本中的關(guān)鍵信息,然后利用RNN將標(biāo)簽間關(guān)系引入到模型中,形成最后的分類信息,實(shí)驗(yàn)表明此模型不適用大規(guī)模數(shù)據(jù)集[12].2017年,Vaswani等提出注意力模型[13],此模型首先應(yīng)用在圖像領(lǐng)域,使得一次識(shí)別過程只集中在部分重要特征上,過濾甚至忽略掉無關(guān)特征.其使用過程首先是計(jì)算得到所有輸入信息中的注意力分布權(quán)重,根據(jù)權(quán)重信息來計(jì)算輸入信息的加權(quán)平均,從而將重要信息提取出來.Bahdanau等首先將注意力模型用于自然語言處理領(lǐng)域,使得當(dāng)前文本計(jì)算單元可以自主選擇關(guān)注上下文有用信息[14].不同于注意力在圖像領(lǐng)域?qū)D片視為像素的堆疊,在自然語言處理領(lǐng)域,字或單詞被看作輸入的基本單元,像素之間的關(guān)系也轉(zhuǎn)變成字或詞間的關(guān)系,文本中的句子和文章與圖像中子圖和整張圖片有著自然的對(duì)應(yīng)關(guān)系.谷歌團(tuán)隊(duì)提出基于自注意力的Transformer模型,用來解決單向文本信息流問題以及相同文本因不同位置而引發(fā)的歧義.自注意力是注意力的一種變體,在做自然語言處理時(shí)期望獲得一個(gè)詞與上下文之間的關(guān)聯(lián),而非將詞獨(dú)立起來.傳統(tǒng)的滑動(dòng)窗口只關(guān)注詞上下文固定窗口內(nèi)的詞,其他窗口以外的詞被忽略了,這極大程度上削弱了詞間的關(guān)聯(lián)性.如果想將窗口外的詞全部考慮進(jìn)來,就需要關(guān)注全部上下文,會(huì)導(dǎo)致參數(shù)量極劇增加,尤其在做長(zhǎng)文本處理時(shí),這種代價(jià)是不可接受的.自注意力的提出就是為了解決以上問題,自注意力是基于注意力機(jī)制的,其通過計(jì)算兩詞之間的相關(guān)性獲得詞間的注意力權(quán)重,既能考慮全文,又能將重點(diǎn)聚焦在關(guān)聯(lián)度高的詞匯上.Compressed Attention在進(jìn)行文本摘要生成任務(wù)時(shí),針對(duì)長(zhǎng)文本首先采用池化操作對(duì)輸入序列進(jìn)行下采樣以壓縮模型輸入量,抽取句子序列中最重要的若干個(gè)作為模型輸入,犧牲掉少部分非重要信息換取低參數(shù)量和高訓(xùn)練效率,再用生成式方法訓(xùn)練模型[15],此方法能夠壓縮輸入序列的長(zhǎng)度.Routing Transformer將Transformer建模為路由模型,提出基于聚類的注意力模型.其應(yīng)用k平均(k-means)聚類方法對(duì)查詢向量和關(guān)鍵詞向量進(jìn)行聚類,每個(gè)查詢向量只注意同一類關(guān)鍵詞,過將相似的詞聚成一類進(jìn)行表示從而加速計(jì)算[16].
隨著研究的不斷深入,盡管研究者努力使用少的參數(shù)獲得優(yōu)秀的結(jié)果,但是深度模型的參數(shù)量卻在大幅度增長(zhǎng).而且以上模型由于需要多次的迭代訓(xùn)練,相對(duì)于BERT 這種大規(guī)模預(yù)訓(xùn)練模型來說,其時(shí)間上的優(yōu)勢(shì)也逐漸減小了.
隨著基于深度文本嵌入模型的應(yīng)用,多標(biāo)簽文本分類的精度也不斷提高.Liu等利用標(biāo)簽間互斥關(guān)系,使用對(duì)比學(xué)習(xí)的方法構(gòu)建正負(fù)樣本,對(duì)預(yù)訓(xùn)練模型參數(shù)進(jìn)行調(diào)節(jié)[17],從而使模型能夠很好地區(qū)分不同樣本之間的差異,在做分類任務(wù)時(shí)利用這種差異能夠獲得好的效果.針對(duì)分類問題,Wang等將標(biāo)簽和詞嵌入到同一空間.最終的特征向量一部分來源于此特征空間,一部分來源于原文本的嵌入向量,兩者的權(quán)重用參數(shù)β調(diào)節(jié)[18].Xiao等針對(duì)數(shù)據(jù)集長(zhǎng)尾分布的特點(diǎn),探究頭標(biāo)簽與尾標(biāo)簽的關(guān)系,將頭標(biāo)簽元知識(shí)遷移到尾標(biāo)簽,用從頭標(biāo)簽分類器學(xué)習(xí)到的元知識(shí)和尾標(biāo)簽訓(xùn)練得到的參數(shù)共同對(duì)尾標(biāo)簽分類,提高了尾標(biāo)簽的分類精度[19].Huang等用Node2Vector模型學(xué)習(xí)標(biāo)簽間關(guān)系得到標(biāo)簽關(guān)系向量,結(jié)合注意力和自注意力共同提取語義信息,但此文將標(biāo)簽看作無語義的符號(hào)[20].Rios等引入醫(yī)學(xué)標(biāo)簽的外部語義提取有用信息,將外部語義、提取到的信息和通過圖神經(jīng)網(wǎng)絡(luò)獲取的標(biāo)簽間關(guān)系聯(lián)合作為分類的特征向量[3],大大提高了模型在零樣本和少樣本上的分類準(zhǔn)確度.
多標(biāo)簽文本分類模型通常需要同時(shí)考慮標(biāo)簽語義和標(biāo)簽關(guān)系,缺乏標(biāo)簽語義的指導(dǎo)會(huì)使得少樣本分類效果較差.從以上的研究成果中可以看到目前大多數(shù)研究集中在如何根據(jù)數(shù)據(jù)集的分類結(jié)果收集標(biāo)簽關(guān)系,而多數(shù)獲取標(biāo)簽語義的方法是查閱資料.但根據(jù)一些編碼處理后的數(shù)據(jù)集逆向搜集標(biāo)簽的語義信息是困難且耗時(shí)的,特別是針對(duì)某些專業(yè)性要求較高的領(lǐng)域來說,很容易因?yàn)槿狈︻I(lǐng)域知識(shí)或認(rèn)知偏差使獲得的標(biāo)簽語義與樣本中要表達(dá)的意思相去甚遠(yuǎn).這對(duì)于如何最大程度利用現(xiàn)有信息,直接獲取每個(gè)標(biāo)簽的語義提出了要求.
對(duì)于給定的輸入文本W(wǎng)=(w1,w2,w3,…,wn),n表示文本中詞的個(gè)數(shù),多標(biāo)簽文本分類模型為其分配若干相關(guān)的標(biāo)簽Y=(y1,…,ym),m表示此樣本對(duì)應(yīng)的標(biāo)簽數(shù),且每個(gè)輸入樣本最終獲得的標(biāo)簽數(shù)目不定.本文的模型框架如圖1所示.

圖1 多標(biāo)簽文本分類模型結(jié)構(gòu)圖Fig.1 Structure of multi-label text classification model
模型分為4個(gè)子模塊:文本嵌入單元、標(biāo)簽語義向量生成器、標(biāo)簽關(guān)系向量生成器、combined-attention分類器.第1個(gè)子模塊是文本嵌入單元,采用有效的預(yù)訓(xùn)練模型BERT能夠獲取更優(yōu)質(zhì)豐富的信息,對(duì)于提升模型分類精度大有裨益.第2個(gè)子模塊是標(biāo)簽語義向量生成器,若某個(gè)數(shù)據(jù)集有t種標(biāo)簽,為了獲得每個(gè)標(biāo)簽的語義元信息,首先將原始數(shù)據(jù)集分成t個(gè)子集合,將所有含有標(biāo)簽yi的樣本歸入第i個(gè)子集.采用注意力機(jī)制根據(jù)t個(gè)子集中的樣本嵌入表示來提取每個(gè)標(biāo)簽的語義向量,此向量作為標(biāo)簽的語義元數(shù)據(jù)將被送入combined-attention分類器.第3個(gè)子模塊是標(biāo)簽關(guān)系向量生成器,對(duì)于相當(dāng)一部分?jǐn)?shù)據(jù)集來說,標(biāo)簽的出現(xiàn)具有等價(jià)、包含、互斥等特點(diǎn).為獲取這種標(biāo)簽間的關(guān)系構(gòu)建了標(biāo)簽共現(xiàn)矩陣,使用Node2Vector方法生成標(biāo)簽關(guān)系向量.此向量作為標(biāo)簽間的關(guān)系表征也被送入combined-attention分類器.第4個(gè)子模塊是combined-attention分類器,此模塊將第1個(gè)模塊的輸出作為注意力鍵向量,將第2個(gè)和第3個(gè)模塊的輸出作為查詢向量,即注意力頭,經(jīng)過此注意力層得到文本分類相關(guān)的有效信息,最終整合兩種關(guān)鍵信息,形成分類結(jié)果.
本模型的文本嵌入使用大規(guī)模預(yù)訓(xùn)練模型BERT.為證明本模型的有效性,不對(duì)BERT進(jìn)行微調(diào)僅使用預(yù)訓(xùn)練的參數(shù).BERT模型的輸入由字嵌入(Token Embeddings)、分割嵌入(Segment Embeddings)、位置嵌入(Position Embeddings)3部分組成.對(duì)于輸入文本W(wǎng)=(w1,w2,w3,…,wn),用BERT將其嵌入為D,公式如式(1)所示:
(1)
式中,D表示句子嵌入的矩陣表示,dj表示第j個(gè)單詞嵌入得到的向量表示,EToken表示字嵌入矩陣,ESegment表示分割嵌入矩陣,EPosition表示位置嵌入矩陣.本文模型在對(duì)分類樣本進(jìn)行嵌入和待提取語義元數(shù)據(jù)的樣本進(jìn)行嵌入兩部分使用BERT做編碼器,將BERT最后一層的輸出D作為本模塊的輸出.
在進(jìn)行語義提取前,首先需要對(duì)數(shù)據(jù)集進(jìn)行處理,將樣本根據(jù)其對(duì)應(yīng)的標(biāo)簽yi分別放入子集Seti中,得到標(biāo)簽類別總數(shù)的t個(gè)子集,子集Seti中包含的樣本都是被標(biāo)記為此標(biāo)簽的.(因?yàn)榇巳蝿?wù)為多標(biāo)簽文本分類,所以也不可避免有其他類別的標(biāo)簽信息包含其中,如何進(jìn)行語義清洗從而使一個(gè)向量單獨(dú)表示一個(gè)標(biāo)簽的方法將在下面進(jìn)行介紹.)將每個(gè)子集的樣本經(jīng)過BERT模型得到嵌入表示,如式(2)所示:
(2)
式中,k為子集中的樣本數(shù):
(3)
然后,利用式(3)計(jì)算樣本間語義相似性權(quán)重矩陣,式中Relu(·)是激活函數(shù),用λ和ξ兩個(gè)字符表明d來自不同樣本,再利用權(quán)重矩陣清洗原樣本得出標(biāo)簽i的語義表示si.具體過程為,將子集中的樣本分為兩兩一組,先在組間進(jìn)行清洗,由此組樣本得出其對(duì)應(yīng)的一級(jí)中間語義,再將所有一級(jí)中間語義分組進(jìn)行語義清洗得到更高級(jí)的中間語義,最后經(jīng)過不斷清洗得出此數(shù)據(jù)集所指向的標(biāo)簽語義.清洗過程首先利用注意力機(jī)制計(jì)算樣本間的注意力權(quán)重,用權(quán)重矩陣的行向和以及列向和分別與對(duì)應(yīng)樣本相乘得到結(jié)果再相加,從而弱化兩樣本間的非公共語義,保留公共語義.原理圖如圖2所示,其中灰色部分表示注意力權(quán)重,灰度越高權(quán)重越大,易知句子間相似度高的部分注意力權(quán)重大.經(jīng)過行(列)向求和得到的權(quán)重向量與樣本1(2)相乘,能夠極大程度地保留被注意到的語義,同時(shí)弱化未被注意的語義.最后將所有子集求得的標(biāo)簽語義向量拼接成標(biāo)簽語義矩陣S∈t×emb,emb表示D的嵌入維度,如式(4)所示:

圖2 標(biāo)簽語義提取過程Fig.2 Label semantic extraction procession
S=concat(s1,s2,s3,…,st)
(4)
式中,concat(·)表示向量拼接操作,將S輸入到combined-attention分類器.
本模塊的輸入是數(shù)據(jù)集中的標(biāo)簽集合{Y1,Y2,…,Yg},其中g(shù)表示數(shù)據(jù)集中的樣本數(shù),首先基于標(biāo)簽集合構(gòu)建標(biāo)簽共現(xiàn)矩陣,行列均為標(biāo)簽標(biāo)識(shí)符,矩陣中的值為兩個(gè)標(biāo)簽共同標(biāo)識(shí)一個(gè)句子的次數(shù).由此矩陣構(gòu)建標(biāo)簽關(guān)系圖(V-E,V為結(jié)點(diǎn)集,E為邊集),初始化圖的結(jié)點(diǎn)數(shù)為數(shù)據(jù)集的標(biāo)簽總數(shù)邊權(quán)重為矩陣中對(duì)應(yīng)的共現(xiàn)次數(shù).為得到每個(gè)標(biāo)簽的標(biāo)簽關(guān)系向量,本模塊采用Node2Vector算法的隨機(jī)游走策略,其參考了文本嵌入時(shí)使用的跳字模型(Skip-Gram)將圖中結(jié)點(diǎn)表示成向量.給出所有初始結(jié)點(diǎn),Node2Vector的目標(biāo)是最大化結(jié)點(diǎn)的近鄰結(jié)點(diǎn)出現(xiàn)概率.按照Skip-Gram的思路,在構(gòu)建模型的過程中,需要遵循條件獨(dú)立性假設(shè)和特征空間對(duì)稱性假設(shè).最終需要優(yōu)化的目標(biāo)函數(shù)如式(5)所示:
(5)
式中,f(·)是映射函數(shù),NS(u)是結(jié)點(diǎn)u采樣出的所有鄰接結(jié)點(diǎn)集,Zu是歸一化因子.在給定當(dāng)前結(jié)點(diǎn)v的情況下,為求取訪問下一個(gè)結(jié)點(diǎn)u的概率,Node2Vector采用有偏的隨機(jī)游走,其概率公式如式(6)所示:
(6)
式中,πuv是結(jié)點(diǎn)v和u之間的未歸一化轉(zhuǎn)移概率,Z是歸一化常數(shù).經(jīng)過Node2Vector得到標(biāo)簽關(guān)系矩陣R∈t×emb.
本模型的輸入是前面3個(gè)模塊的輸出,其中文本嵌入單元的輸出D作為注意力鍵向量,標(biāo)簽語義向量生成器的輸出S和標(biāo)簽關(guān)系向量生成器的輸出R作為注意力頭分別用于提取D中關(guān)鍵信息.combined-attention包括兩個(gè)子層,分別是多頭注意力層Lfirst和前向傳輸層Lsecond,每個(gè)子層都進(jìn)行了殘差連接和歸一化.多頭注意力層的注意力頭為標(biāo)簽語義向量S和標(biāo)簽關(guān)系向量R.標(biāo)簽語義向量作為標(biāo)簽語義頭用來提取樣本基于獨(dú)立性的標(biāo)簽語義信息,標(biāo)簽關(guān)系向量作為標(biāo)簽關(guān)系頭用來提取基于聯(lián)系性的標(biāo)簽關(guān)系信息.由于不同數(shù)據(jù)集中,標(biāo)簽語義頭和標(biāo)簽關(guān)系頭發(fā)揮作用的大小不同,為兩種注意結(jié)果分配不同權(quán)重分別為β和1-β.β通過模型訓(xùn)練進(jìn)行調(diào)節(jié).combined-attention輸出見式(7)、式(8):
Lfirst=Norm(D+β×att(D,S)+(1-β)×att(D,R))
(7)
Lsecond=Norm(Lfirst+forward(Lfirst))
(8)
式中,att(·)表示注意力處理,Norm(·)表示歸一化處理,forward(·)表示全連接層.將Lsecond經(jīng)過sigmoid函數(shù)生成概率向量Y,如式(9)所示:
Y=sigmoid(Lsecond)
(9)
根據(jù)不同需求取前τ個(gè)最大值作為最終分類結(jié)果.此模塊模型如圖3所示.

圖3 信息提取及概率向量生成Fig.3 Information extraction and probability vector generation


表1 數(shù)據(jù)集Table 1 Datasets
·RCV1數(shù)據(jù)集是路透社金融類新聞數(shù)據(jù)集,是文本分類的常用數(shù)據(jù)集.包含訓(xùn)練樣本23149條,測(cè)試樣本781265條.其數(shù)據(jù)量在80KB級(jí)別,共有103個(gè)類標(biāo)簽;
·AAPD數(shù)據(jù)集是計(jì)算機(jī)科學(xué)領(lǐng)域的大型數(shù)據(jù)集,訓(xùn)練集中包含論文摘要55840條,測(cè)試摘要1000條,經(jīng)過處理后的數(shù)據(jù)量在3.5KB 級(jí)別,共有54個(gè)類標(biāo)簽;
·EUR-Lex數(shù)據(jù)集是歐盟法律數(shù)據(jù)集,此次使用的公共版本包含訓(xùn)練樣本11585條,測(cè)試樣本3865 條,共有3956個(gè)類標(biāo)簽.其中有兩個(gè)類別在訓(xùn)練和測(cè)試集中均沒有樣本,最后保留3954個(gè)類標(biāo)簽;
·Divorce數(shù)據(jù)集是2019年法研杯要素提取的數(shù)據(jù)集.將數(shù)據(jù)集進(jìn)行預(yù)處理,篩選出訓(xùn)練樣本1240條,測(cè)試樣本396條,共有20個(gè)類標(biāo)簽.
為應(yīng)對(duì)標(biāo)簽樣本不平衡問題,使用BCEWithLogitsLoss作為損失函數(shù),如式(10)所示:
(10)

本次評(píng)價(jià)指標(biāo)采用τ精度(P@τ)和τ檢索評(píng)價(jià)指標(biāo)(nDCG@τ).這兩種評(píng)價(jià)指標(biāo)在多標(biāo)簽分類模型中被廣泛使用,公式見式(11)、式(12):
(11)
(12)

固定文本輸入長(zhǎng)度,采取長(zhǎng)則截取、短則填充的形式.考慮到大部分關(guān)鍵信息存在于文章首尾,取文章開頭128詞和末尾372詞拼接成長(zhǎng)度為500的樣本輸入到BERT模型,每個(gè)詞的維度為512,批處理大小32,訓(xùn)練輪數(shù)40輪,使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.00001.
本次實(shí)驗(yàn)對(duì)比了5種多標(biāo)簽文本分類方法,簡(jiǎn)介如下:
· XML-CNN[21]模型為解決textCNN中信息提取不充分的問題,提出了動(dòng)態(tài)最大池化,使得每個(gè)特征都有對(duì)應(yīng)的結(jié)果,不僅提高了信息利用率,也將文本位置信息加以利用.
· Attention-XML[4]利用k-means聚類算法構(gòu)造概率標(biāo)簽樹,解決大規(guī)模標(biāo)簽造成的分類精度降低問題;
· BBN[22]提出了雙邊分支網(wǎng)絡(luò)(BBN)處理長(zhǎng)尾分布任務(wù),同時(shí)訓(xùn)練表示學(xué)習(xí)和分類器學(xué)習(xí);
· HTTN[19]利用遷移學(xué)習(xí)方法,用頭標(biāo)簽訓(xùn)練的模型參數(shù)指導(dǎo)尾標(biāo)簽的分類;
· LAHA[20]融合注意力機(jī)制和自注意力機(jī)制以指導(dǎo)多標(biāo)簽文本分類.
本模型在3個(gè)英文數(shù)據(jù)集上多次實(shí)驗(yàn)結(jié)果均好于對(duì)比模型,在中文司法數(shù)據(jù)集上也體現(xiàn)了一定的優(yōu)越性.本模型10次實(shí)驗(yàn)的平均結(jié)果如表2所示.可以看到在英文數(shù)據(jù)集上,對(duì)比以往的模型來說本文模型實(shí)驗(yàn)結(jié)果的各項(xiàng)指標(biāo)均優(yōu)于其他模型.而在司法數(shù)據(jù)集上,部分效果有所提升.司法數(shù)據(jù)集上部分分類指標(biāo)略低的原因可能在于對(duì)比文本慣常采用的總-分-總的篇章結(jié)構(gòu),司法樣本通常將案件關(guān)鍵信息逐條描述出來,且并非完全按照重要程度高低來表述.因此采用首尾截取的方法在司法數(shù)據(jù)集上的適用性稍差.

表2 實(shí)驗(yàn)結(jié)果對(duì)比(%)Table 2 Comparison of experimental results(%)
將此模型與其余對(duì)比模型訓(xùn)練40輪,以AAPD數(shù)據(jù)集上評(píng)價(jià)指標(biāo)P@1在訓(xùn)練過程的變化曲線為例進(jìn)行可視化,如圖4所示.可以看到,在BERT模型的引入以及組合式注意力的共同作用下,本文模型能達(dá)到不錯(cuò)的訓(xùn)練效果,并且在進(jìn)一步的訓(xùn)練中能保持相對(duì)穩(wěn)定的預(yù)測(cè)性能.而其余模型在達(dá)到最好預(yù)測(cè)效果后的進(jìn)一步訓(xùn)練中出現(xiàn)了不同程度的精度波動(dòng),無法保持好的分類能力.這是因?yàn)楸疚牡哪P湍軌蛲瑫r(shí)利用標(biāo)簽語義和標(biāo)簽關(guān)系從而有效提取了文本中的有效關(guān)鍵信息.另外,使用BERT預(yù)訓(xùn)練模型使得其在嵌入階段能夠進(jìn)行準(zhǔn)確的特征編碼,提高了學(xué)習(xí)優(yōu)化的效率,且模型的學(xué)習(xí)率較小而不容易出現(xiàn)過擬合,所以能保持好的分類效果.

圖4 AAPD 訓(xùn)練過程 P@1 變化曲線Fig.4 AAPD training process P@1 change curve
實(shí)驗(yàn)對(duì)比了使用一組標(biāo)簽語義和兩組標(biāo)簽語義的情況下模型的分類效果,如圖5所示,使用兩組語義實(shí)驗(yàn)效果好于僅使用一組.這是因?yàn)閮山M語義可以涵蓋更多的樣本,其中的語義信息也就越豐富.繼續(xù)增加語義頭個(gè)數(shù)也能夠?qū)?shí)驗(yàn)結(jié)果有少許助益,為了簡(jiǎn)化模型最終采用兩個(gè)語義注意力頭.

圖5 一組與兩組標(biāo)簽語義效果圖Fig.5 Precision diagram of one group and two groups of label semantic
為探究模型中標(biāo)簽語義和標(biāo)簽關(guān)系的引入對(duì)實(shí)驗(yàn)結(jié)果的影響,分別只使用標(biāo)簽語義頭或標(biāo)簽關(guān)系頭進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示.在RCV1和Divorce數(shù)據(jù)集上,使用標(biāo)簽關(guān)系的分類效果略好.在AAPD和EUR-Lex數(shù)據(jù)集上,使用標(biāo)簽語義分類效果更好.這與RCV1、Divorce數(shù)據(jù)集標(biāo)簽關(guān)聯(lián)度強(qiáng)而AAPD、EUR-Lex數(shù)據(jù)集標(biāo)簽獨(dú)立性強(qiáng)的特點(diǎn)相符合,而兩者的共同指導(dǎo)效果均優(yōu)于單獨(dú)使用其中一個(gè).

圖6 消融實(shí)驗(yàn)效果圖Fig.6 Precision diagram of ablation experiment
進(jìn)一步將標(biāo)簽語義和標(biāo)簽關(guān)系的注意內(nèi)容進(jìn)行可視化,如表3所示.英文樣本采樣于AAPD數(shù)據(jù)集,標(biāo)簽為“cs.IT、math.IT”,標(biāo)簽語義頭注意到了“field models extension scalar models channel matrices”等關(guān)鍵詞,標(biāo)簽關(guān)系頭注意到了“we consider networks where the channel coefficients are general scalars over some extension field ff p m( scalar m th extension field models ),m times m diagonal matrices over”這些關(guān)鍵詞.中文樣本采樣于Divorce數(shù)據(jù)集,標(biāo)簽為“婚后分居、二次起訴離婚、準(zhǔn)予離婚、法定離婚”,標(biāo)簽語義頭注意到了“分居 外出 再次 離婚 支持”等關(guān)鍵詞,標(biāo)簽關(guān)系頭注意到了“現(xiàn) 原告 再次 訴至 本院 要求 與 被告 離婚 本院 認(rèn)為 原 被告 分居 時(shí)間 較長(zhǎng) 經(jīng) 我院 判決 不準(zhǔn) 離婚 后 仍 未能 和好 夫妻 感情 確已 破裂 原告 要求 與 被告 離婚 訴訟 請(qǐng)求 應(yīng)予支持”等關(guān)鍵詞.可見標(biāo)簽語義頭和標(biāo)簽關(guān)系頭均能在一定程度上注意到分類關(guān)鍵詞,且兩者分別注意到了文本的不同部分,說明兩種注意力頭有互補(bǔ)作用,同時(shí)應(yīng)用兩者能夠獲取更完整的信息.

表3 注意力可視化結(jié)果Table 3 Results of attention visualization
本文提出了一種融合標(biāo)簽信息的多標(biāo)簽文本分類方法.為了捕捉標(biāo)簽間的獨(dú)立性和關(guān)聯(lián)性,設(shè)計(jì)了標(biāo)簽語義向量生成器獲取每個(gè)標(biāo)簽的語義元數(shù)據(jù)、標(biāo)簽關(guān)系向量生成器生成代表標(biāo)簽關(guān)系的向量.模型利用注意力機(jī)制逐步清洗提取標(biāo)簽語義向量,解決了標(biāo)簽語義需要人工搜索的問題.使用Node2Vector方法構(gòu)建標(biāo)簽關(guān)系向量,將兩種向量作為提取句子特征的兩個(gè)注意力頭,輸入到combined-attention模型中.為了讓模型適應(yīng)不同種類數(shù)據(jù)集,在訓(xùn)練模型時(shí)采用自適應(yīng)的方式為兩種注意力信息賦予不同權(quán)重.本模型在3個(gè)英文公共數(shù)據(jù)集上均取得了優(yōu)異的分類效果,在中文法律數(shù)據(jù)集上部分評(píng)價(jià)指標(biāo)也有一定提升.
在未來的研究中,將進(jìn)一步分析模型的語義信息來源與標(biāo)簽間關(guān)系的表示方法,利用好兩者關(guān)系解決尾標(biāo)簽分類精度低的問題.此外,本文模型中的標(biāo)簽語義向量生成器與標(biāo)簽關(guān)系向量生成器增加了模型整體的復(fù)雜度,導(dǎo)致每次迭代訓(xùn)練的時(shí)間有所增加,在保證學(xué)習(xí)效率的前提下減小模型的復(fù)雜度是后面研究的重點(diǎn).