摘 要:目前許多多標(biāo)簽文本分類(lèi)方法主要關(guān)注文檔表示,而丟失了大量標(biāo)簽相關(guān)的語(yǔ)義信息,導(dǎo)致分類(lèi)效果不理想。針對(duì)以上問(wèn)題,提出一種基于標(biāo)簽推理和注意力融合的分類(lèi)方法,挖掘文檔中與標(biāo)簽相關(guān)的特征以及相似標(biāo)簽之間的相關(guān)性,學(xué)習(xí)標(biāo)簽信息進(jìn)行標(biāo)簽推理,同時(shí)采用注意力機(jī)制自學(xué)習(xí)地融合文檔表示和標(biāo)簽表示,最終完成多標(biāo)簽分類(lèi)任務(wù)。在AAPD和RCV1-V2數(shù)據(jù)集上進(jìn)行實(shí)例驗(yàn)證,該方法的F1值分別達(dá)到了0.732和0.887,與其他最新方法相比其準(zhǔn)確度均有提升,實(shí)驗(yàn)結(jié)果證明了標(biāo)簽推理和注意力融合策略的有效性。
關(guān)鍵詞:標(biāo)簽推理;注意力融合;多標(biāo)簽文本分類(lèi)
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2022)11-018-3315-05
doi: 10.19734/j.issn.1001-3695.2022.04.0192
Multi-label text classification method based on label reasoning and attention fusion
Tian Yuwei1a,2, Zhang Zhi1a,1b,2
(1.a.College of Computer Science amp; Technology, b. Big Data Science amp; Engineering Research Institute, Wuhan University of Science amp; Techno-logy, Wuhan 430065, China; 2.Hubei Province Key Laboratory of Intelligent Information Processing amp; Real-time Industrial Systems, Wuhan 430065, China)
Abstract:Recently, many multi-label text classification methods mainly focused on document representation, but lost a lot of label-related semantic information, resulting in unsatisfactory classification effect. In view of this, this paper proposed a multi-label text classification method based on label reasoning and attention fusion. Label reasoning detected text-label related features and similar label-label related features. Attentional mechanism self-learned the fusion of document features and label re-presentation. A lot of cases studied on AAPD and RCV1-V2 datasets show that the F1 values of this method are up to 0.732 and 0.887, respectively, which is more accurate than other latest methods. These experimental results prove the effectiveness of label reasoning and attention fusion.
Key words:label reasoning; attention fusion; multi-label text classification
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61673304);國(guó)家社會(huì)科學(xué)基金重大計(jì)劃資助項(xiàng)目(11amp;ZD189)
作者簡(jiǎn)介:田雨薇(1997-),女,湖北武漢人,碩士研究生,主要研究方向?yàn)槲谋痉诸?lèi)、深度學(xué)習(xí);張智(1975-),男(通信作者),湖北武漢人,副教授,碩士,主要研究方向?yàn)槿斯ぶ悄堋⒂?jì)算機(jī)視覺(jué)、自然語(yǔ)言處理(zhangzhi@wust.edu.cn).
0 引言
在許多自然語(yǔ)言處理應(yīng)用中,如情感分析[1]、話題標(biāo)注[2]、問(wèn)答[3]和對(duì)話行為分類(lèi)[4]等,文本分類(lèi)成為一個(gè)最基本最重要的任務(wù)。文本分類(lèi)包括多類(lèi)分類(lèi)和多標(biāo)簽分類(lèi),前者在眾多類(lèi)別里給文檔分配一個(gè)最適合的標(biāo)簽,而后者將文檔分成不同主題并為其分配多個(gè)相關(guān)標(biāo)簽。隨著大數(shù)據(jù)的快速發(fā)展,多標(biāo)簽文本分類(lèi)需同時(shí)處理大量的文檔和標(biāo)簽,成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。因此,開(kāi)發(fā)行之有效且分類(lèi)準(zhǔn)確度高的分類(lèi)器,以適用于不同的實(shí)際應(yīng)用場(chǎng)景,成為了當(dāng)務(wù)之急。
在多標(biāo)簽文本分類(lèi)任務(wù)中,一個(gè)文檔同時(shí)包含多個(gè)標(biāo)簽,每個(gè)標(biāo)簽都可以作為文檔的一個(gè)組件,存在語(yǔ)義相關(guān)性。而大多數(shù)文檔只會(huì)被分配少量的正面標(biāo)簽,且大多數(shù)標(biāo)簽只屬于少量的正面文檔。為了高效地提取有效信息,多標(biāo)簽文本分類(lèi)任務(wù)主要關(guān)注兩個(gè)方面:a)如何從原始文檔中捕獲并提取標(biāo)簽相關(guān)的語(yǔ)義信息,進(jìn)行文檔表示學(xué)習(xí);b)如何準(zhǔn)確地挖掘標(biāo)簽的相關(guān)性語(yǔ)義,進(jìn)行標(biāo)簽相關(guān)性推理。
在文檔表示方面,基于CNN的深度學(xué)習(xí)方法取得了成功,但受到窗口大小的影響無(wú)法學(xué)習(xí)文本的遠(yuǎn)程相關(guān)性[5]。之后,引入RNN和注意力機(jī)制取得了巨大的進(jìn)步[6]。然而它們大多數(shù)只關(guān)注了文檔的表示,忽略了標(biāo)簽的相關(guān)性。Cho等人[7]提出了一種新型隱藏單元的RNN encoder-decoder模型,在encoder的RNN模塊中將序列轉(zhuǎn)換為一個(gè)向量,在decoder模塊中將向量轉(zhuǎn)換為輸出序列。在設(shè)計(jì)RNN隱藏層時(shí)通過(guò)重置門(mén)和更新門(mén),自適應(yīng)地控制每個(gè)隱藏單元在讀取序列時(shí)保留或遺忘多少。相似的推理機(jī)制成功地應(yīng)用于機(jī)器翻譯、機(jī)器閱讀理解等。Yang等人[8]結(jié)合GRU(gate recurrent unit)推理機(jī)制,提出了一種層次化注意力機(jī)制模型HAN(hierarchical attention network)。該模型采用“詞—句子—文章”的層次化結(jié)構(gòu)來(lái)表示一篇文本,基于雙向GRU的詞序列編碼器和句子層次編碼器,構(gòu)建了兩個(gè)層次的注意力機(jī)制。
對(duì)于上述問(wèn)題,本文提出了一種基于標(biāo)簽推理和注意力融合的多標(biāo)簽文本分類(lèi)方法LRAC(label reasoning with attention mechanism for multi-label classification)。首先,將文本輸入到B-CapsNet模型[9],利用BERT的雙向編碼優(yōu)勢(shì)提高字符向量信息的表達(dá)能力,同時(shí)利用capsule network的動(dòng)態(tài)路由機(jī)制提高文本語(yǔ)義信息傳播的聚合效果,得到文檔表示。然后,將標(biāo)簽文本輸入到標(biāo)簽推理層,利用門(mén)控機(jī)制學(xué)習(xí)標(biāo)簽相關(guān)性信息,將上一輪次的預(yù)測(cè)結(jié)果輸出作為下一迭代中的額外輸入實(shí)現(xiàn)標(biāo)簽推理,形成新的標(biāo)簽表示。通過(guò)注意力機(jī)制,獲取每個(gè)單詞標(biāo)簽對(duì)的語(yǔ)義相關(guān)性。接著,LRAC采用注意力機(jī)制自學(xué)習(xí)地融合文檔表示和標(biāo)簽表示的突出信息,給予兩者不同的權(quán)重關(guān)注,構(gòu)成最終的文本表示。最后,在分類(lèi)層得到每個(gè)標(biāo)簽的預(yù)測(cè)結(jié)果。本文的主要貢獻(xiàn)如下:
a)LRAC模型實(shí)現(xiàn)了標(biāo)簽推理,執(zhí)行多輪預(yù)測(cè),充分利用上一輪次的預(yù)測(cè)結(jié)果學(xué)習(xí)標(biāo)簽的相關(guān)性,避免了依賴標(biāo)簽順序的需要。
b)LRAC模型采用注意力機(jī)制,自學(xué)習(xí)式地關(guān)注單詞標(biāo)簽對(duì)的關(guān)系權(quán)重,充分融合兩者重要特征。
c)LRAC模型同時(shí)提取文檔和標(biāo)簽的有效語(yǔ)義信息,不僅關(guān)注文檔表示,還提取了標(biāo)簽的相關(guān)性,挖掘兩者適量且重要的語(yǔ)義信息。
1 相關(guān)工作
多標(biāo)簽分類(lèi)(multi-label classification, MLC)任務(wù)的目的是給數(shù)據(jù)集中的每個(gè)實(shí)例分配多個(gè)相關(guān)的標(biāo)簽。為了解決多標(biāo)簽的文本分類(lèi)問(wèn)題,自然語(yǔ)言領(lǐng)域的研究者們相繼提出了許多行之有效的分類(lèi)方法。多標(biāo)簽分類(lèi)任務(wù)的發(fā)展歷程可以概括為從機(jī)器學(xué)習(xí)算法到神經(jīng)網(wǎng)絡(luò)模型,其中基于機(jī)器學(xué)習(xí)算法的分類(lèi)方法主要包括問(wèn)題轉(zhuǎn)換和算法自適應(yīng)。
問(wèn)題轉(zhuǎn)換方法的核心思想是將多標(biāo)簽分類(lèi)任務(wù)處理成多個(gè)單標(biāo)簽分類(lèi)任務(wù)。二元相關(guān)性(binary relevance, BR)[10]利用問(wèn)題轉(zhuǎn)換方法,旨在將多標(biāo)簽分類(lèi)任務(wù)轉(zhuǎn)換成多個(gè)單獨(dú)的二元分類(lèi)學(xué)習(xí)任務(wù),但卻忽略了標(biāo)簽的相關(guān)性。分類(lèi)器鏈(classifier chains, CC)[11]將多標(biāo)簽分類(lèi)任務(wù)轉(zhuǎn)換為一個(gè)二分類(lèi)問(wèn)題鏈,考慮到分類(lèi)器鏈上每個(gè)分類(lèi)器的分類(lèi)結(jié)果,每個(gè)二分類(lèi)器是建立在前一個(gè)二分類(lèi)器的預(yù)測(cè)之上的。然而,當(dāng)標(biāo)簽量和樣本量變得龐大時(shí),這些方法的計(jì)算效率和性能迎來(lái)了嚴(yán)肅的挑戰(zhàn)。
算法自適應(yīng)方法旨在改進(jìn)和拓展傳統(tǒng)的單標(biāo)簽分類(lèi)算法來(lái)直接處理多標(biāo)簽數(shù)據(jù)。最具代表性的文獻(xiàn)[12]基于多標(biāo)簽熵構(gòu)造決策樹(shù)進(jìn)行分類(lèi)。集體多標(biāo)簽分類(lèi)器(collective multi-label classifier, CML)[13]采用最大熵原理對(duì)多標(biāo)簽數(shù)據(jù)進(jìn)行處理,將標(biāo)簽相關(guān)性編碼為約束條件。這類(lèi)方法考慮到了標(biāo)簽的相關(guān)性,在捕獲一階或二階相關(guān)性時(shí)表現(xiàn)優(yōu)異,但涉及到更高階的標(biāo)簽相關(guān)性時(shí)效果稍有欠缺。
隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法在文本分類(lèi)領(lǐng)域的發(fā)展,許多研究者也針對(duì)多標(biāo)簽文本分類(lèi)任務(wù)作出了不少貢獻(xiàn),展現(xiàn)出神經(jīng)經(jīng)網(wǎng)絡(luò)模型優(yōu)異的分類(lèi)能力。
Kurata等人[14]提出了一種通過(guò)神經(jīng)元建模標(biāo)簽共現(xiàn)關(guān)系的多標(biāo)簽文本分類(lèi)方法,利用該共現(xiàn)關(guān)系來(lái)初始化輸出層參數(shù)的方法,而不是采用隨機(jī)生成的方式,從而獲得標(biāo)簽之間的關(guān)系,達(dá)到聚類(lèi)的效果。Chen等人[15]提出了一種CNN和RNN的集成方法,使用CNN提取文本特征,結(jié)合RNN預(yù)測(cè)變長(zhǎng)的標(biāo)簽數(shù)量,以獲取全局和局部的語(yǔ)義信息。同時(shí)采用序列生成方式表示標(biāo)簽,學(xué)習(xí)標(biāo)簽之間的相關(guān)性。文獻(xiàn)[16]解決了傳統(tǒng)注意力機(jī)制在seq2seq模型解決MLC任務(wù)時(shí)貢獻(xiàn)較小的問(wèn)題,通過(guò)在LSTM模型提取的詞級(jí)別表示進(jìn)行多級(jí)的空洞卷積來(lái)捕獲更高級(jí)別的語(yǔ)義單元信息,進(jìn)而增強(qiáng)seq2seq的效果。另外該模型提出混合關(guān)注兼顧各個(gè)級(jí)別的表示信息,整合了高層的注意力和詞級(jí)別注意力。Yang等人[17]提出了一種新的序列生成模型(sequence generation model,SGM),基于seq2seq模型將MLC任務(wù)視為序列生成問(wèn)題。該模型帶有一個(gè)新的decoder結(jié)構(gòu),通過(guò)利用標(biāo)簽結(jié)構(gòu)或標(biāo)簽內(nèi)容捕獲標(biāo)簽之間的相關(guān)關(guān)系,同時(shí)在預(yù)測(cè)標(biāo)簽時(shí)自動(dòng)篩選最有信息量的單詞。呂學(xué)強(qiáng)等人[18]針對(duì)標(biāo)簽之間復(fù)雜關(guān)聯(lián)性的問(wèn)題,將BERT和標(biāo)簽語(yǔ)義注意力相結(jié)合,使用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,同時(shí)構(gòu)建標(biāo)簽語(yǔ)義和文本特征相融合的注意力機(jī)制,從而提升模型的效果。Liu等人[19]將多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為標(biāo)簽集合生成問(wèn)題,提出了標(biāo)簽推理網(wǎng)絡(luò),基于序列到集合生成的標(biāo)簽演繹推理和基于二部屬性圖的標(biāo)簽歸納推理,結(jié)合兩種推理機(jī)制讓模型在不借助外部知識(shí)的場(chǎng)景下,端到端地學(xué)習(xí)標(biāo)簽依存關(guān)系從而實(shí)現(xiàn)標(biāo)簽預(yù)測(cè)。
2 模型
基于標(biāo)簽推理和注意力融合的多標(biāo)簽文本分類(lèi)方法LRAC的框架如圖1所示,主要由預(yù)處理、標(biāo)簽推理、注意力融合、分類(lèi)四個(gè)部分組成。
每個(gè)標(biāo)簽作為標(biāo)簽表示矩陣的一個(gè)向量,LRAC避免依賴標(biāo)簽順序,同時(shí)預(yù)測(cè)所有標(biāo)簽的概率。例如表1中的示例b,類(lèi)似于CC等依賴標(biāo)簽順序的分類(lèi)方法,會(huì)按照字母順序等排列順序給出預(yù)測(cè)標(biāo)簽:agriculture,grain,meat,wheat。然而,LRAC不依賴標(biāo)簽順序,通過(guò)同時(shí)計(jì)算所有標(biāo)簽表現(xiàn)正向的概率來(lái)處理分類(lèi)。例如,LRAC會(huì)給出grain概率為0.9,wheat概率為0.8,agriculture概率為0.4,meat概率為0.2。因此,LRAC可以計(jì)算得出每個(gè)標(biāo)簽之間的相關(guān)概率。
受GRU[7]的啟發(fā),LRAC采用一種門(mén)控機(jī)制,將上一輪次的標(biāo)簽預(yù)測(cè)作為額外輸入進(jìn)行新一輪的標(biāo)簽預(yù)測(cè)。例如表1示例b被分配了grain和wheat兩個(gè)高概率標(biāo)簽,在下一輪次的預(yù)測(cè)中,推理機(jī)制將這種標(biāo)簽相關(guān)性信息作為額外輸入特征,將會(huì)提高agriculture標(biāo)簽為正向的概率,同時(shí)將會(huì)降低meat標(biāo)簽為正的概率。另外,LRAC融合文檔表示和標(biāo)簽表示,通過(guò)自學(xué)習(xí)方式提取兩者適量的突出信息,從而構(gòu)成每個(gè)文檔的最終文本表示。
算法1 LRAC整體框架的算法設(shè)計(jì)流程
輸入:多標(biāo)簽文本分類(lèi)數(shù)據(jù)集。
輸出:多標(biāo)簽文本分類(lèi)器預(yù)測(cè)結(jié)果。
a) 加載數(shù)據(jù)集;
b) 文檔文本進(jìn)行B-CapsNet模型預(yù)處理;
c) 標(biāo)簽文本進(jìn)行詞嵌入表示預(yù)處理;
d) 關(guān)注單詞和標(biāo)簽對(duì)的相關(guān)性;
e) 線性結(jié)合更新標(biāo)簽文本表示;
f) 循環(huán)T次進(jìn)行標(biāo)簽推理;
g) 利用注意力融合文檔表示和標(biāo)簽表示;
h) 通過(guò)分類(lèi)層輸出標(biāo)簽預(yù)測(cè)結(jié)果。
2.1 預(yù)處理
首先,LRAC需要對(duì)文檔和標(biāo)簽分別進(jìn)行詞向量化,以獲得文本表示序列和標(biāo)簽集合的矩陣。將文檔表示輸入至B-CapsNet模型[9],首先通過(guò)BERT預(yù)訓(xùn)練語(yǔ)言模型生成句子向量表示。在經(jīng)過(guò)預(yù)訓(xùn)練后,輸入至capsule模塊對(duì)文檔向量進(jìn)行語(yǔ)義特征的捕捉。經(jīng)過(guò)n-gram卷積層生成特征圖矩陣,再經(jīng)過(guò)主膠囊層得到膠囊矩陣表示,最后在路由膠囊層將所有父層膠囊向量拼接得到路由膠囊向量,得到最終的文檔表示。
2.2 標(biāo)簽推理
經(jīng)過(guò)預(yù)處理后,得到了文檔的文本語(yǔ)義信息。標(biāo)簽推理層主要關(guān)注單詞和標(biāo)簽對(duì)的語(yǔ)義相關(guān)性。標(biāo)簽推理部分具體的算法設(shè)計(jì)如算法2所示。其中,第3行在第一次迭代標(biāo)簽推理時(shí),需初始化上一輪次的推理結(jié)果z。第11行分類(lèi)層的輸出會(huì)作為下一輪次第7行標(biāo)簽推理算法的額外輸入。
算法2 LRAC推理機(jī)制的算法設(shè)計(jì)
輸入:數(shù)據(jù)集D;標(biāo)簽推理迭代次數(shù)T。
輸出:多標(biāo)簽文本分類(lèi)器結(jié)果Z。
1 repeat
2 for all instance (xi,yi)∈D do
3 z=1 //初始化
4 for iterations t in 1,…,T do
5 A←LM //計(jì)算單詞和標(biāo)簽對(duì)的相關(guān)性
6 L←AM //更新標(biāo)簽文本表示
7 H←gate(z,L) //通過(guò)門(mén)機(jī)制進(jìn)行標(biāo)簽推理
8 α=sigmoid(MW1)
9 β=sigmoid(HW2) //計(jì)算文檔和標(biāo)簽特征注意力權(quán)重
10 S← αM+βH //融合文本和標(biāo)簽特征
11 z←sigmoid(f(S))
12 end for
13?←loss(z,yi) //更新?lián)p失函數(shù)
14 end for
15 until reaching stop criterion
16 return z
通過(guò)GloVe詞嵌入方式處理所有標(biāo)簽,得到L=(l1,l2,…,ls)??紤]到每個(gè)單詞和標(biāo)簽對(duì)的語(yǔ)義相關(guān)性,通過(guò)注意力機(jī)制使得模型能夠關(guān)注到重要的單詞,計(jì)算其點(diǎn)乘結(jié)果,如式(1)所示。
其中:Lj代表第j個(gè)標(biāo)簽;Aj表示了第j個(gè)標(biāo)簽和文檔的語(yǔ)義相關(guān)性,且A=(A1,…,As)∈?s×n。
受自注意力機(jī)制的啟發(fā),可以通過(guò)線性結(jié)合得到標(biāo)簽文本的一種新的表示,其中L∈?s×k。
充分利用標(biāo)簽的相關(guān)性,將上一輪次的預(yù)測(cè)結(jié)果作為標(biāo)簽表示的額外輸入。上一輪t-1時(shí)刻得到的標(biāo)簽預(yù)測(cè)為zt-1, zt-1=(zt-1,1,…,zt-1,k)。通過(guò)更新門(mén),復(fù)制t-1時(shí)刻的所有信息,同時(shí)決定t-1時(shí)刻傳遞到t時(shí)刻的信息量。其中,W(U)和U(U)為權(quán)重矩陣。
通過(guò)重置門(mén),決定遺忘t-1時(shí)刻的信息量:
其中:W(R)和U(R)為權(quán)重矩陣。通過(guò)重置門(mén)得到了一個(gè)0~1的向量,它衡量了門(mén)控開(kāi)關(guān)的大小。如果某個(gè)元素對(duì)應(yīng)的門(mén)控值為0,則表示該元素的信息將被完全遺忘。使用重置門(mén)存儲(chǔ)過(guò)去相關(guān)信息的內(nèi)容,得到當(dāng)前新的記憶內(nèi)容,表示如下:
更新門(mén)以同樣的門(mén)控方式控制當(dāng)前記憶內(nèi)容傳遞到最終記憶內(nèi)容的信息量。使用更新門(mén)控制過(guò)去狀態(tài)和當(dāng)前狀態(tài)的重要程度,得到最終的標(biāo)簽表示如式(6)所示。
其中: H∈?s×k。
2.3 注意力融合層
2.1節(jié)中的文檔表示主要關(guān)注文檔內(nèi)容的信息,2.2節(jié)中標(biāo)簽表示主要關(guān)注單詞和標(biāo)簽之間的相關(guān)性信息。為了充分利用兩者的表示優(yōu)勢(shì),該層采用自學(xué)習(xí)的融合方式,從兩種文本表示中提取適量突出的信息,從而構(gòu)建完整全面的文本表示。在本層采用兩個(gè)權(quán)重向量α、β∈?s,分別代表兩種文本表示的重要程度,且限制α+β=1。
其中:α和β分別通過(guò)輸入向量M和H的全連接層得到;W1和W2都是訓(xùn)練的常量向量,W1,W2∈?k。
最后得到最終的文本表示,如式(9)所示。
其中:S∈?s×k。
2.4 分類(lèi)層
在得到文檔和標(biāo)簽的完整表示之后,t時(shí)刻每個(gè)標(biāo)簽的預(yù)測(cè)結(jié)果計(jì)算如下:
其中:W3、W4、b3、b4均為訓(xùn)練參數(shù);sigmoid函數(shù)將輸出值轉(zhuǎn)換為取值[0,1]的概率值;zt,j表示t時(shí)刻第j個(gè)標(biāo)簽的預(yù)測(cè)概率。
本文使用cross-entropy來(lái)計(jì)算預(yù)測(cè)結(jié)果zt和真實(shí)結(jié)果y的損失。計(jì)算公式如下:
其中:N為數(shù)據(jù)的總條數(shù);s為標(biāo)簽的個(gè)數(shù);zt,ij∈[0,1]表示t時(shí)刻第i個(gè)文檔的第j個(gè)標(biāo)簽的預(yù)測(cè)結(jié)果;yij∈{0,1}表示第i個(gè)文檔的第j個(gè)標(biāo)簽的真實(shí)值。
3 實(shí)驗(yàn)設(shè)置
3.1 數(shù)據(jù)集
本文采用數(shù)據(jù)集AAPD[17]和RCV1-V2[20],如表2所示。其中,D表示數(shù)據(jù)集,S表示數(shù)據(jù)總條數(shù),L表示標(biāo)簽總量,AW表示每條數(shù)據(jù)的平均單詞數(shù),AL表示每條數(shù)據(jù)的平均標(biāo)簽數(shù)。
AAPD數(shù)據(jù)集由各英文學(xué)術(shù)官網(wǎng)收集的55 840篇計(jì)算機(jī)科學(xué)領(lǐng)域論文的摘要和其所屬的主題組成,其中主題的總個(gè)數(shù)為54。該數(shù)據(jù)集的主要任務(wù)是根據(jù)摘要的內(nèi)容為一篇學(xué)術(shù)論文預(yù)測(cè)多個(gè)相關(guān)的主題。
RCV1-V2由路透社相關(guān)研究人員提供的804 414篇手工分類(lèi)的新聞專(zhuān)線報(bào)道組成,每篇通信社的新聞報(bào)道可以包含多個(gè)主題,總共有103個(gè)主題。采用該數(shù)據(jù)集的主要任務(wù)是根據(jù)每篇報(bào)道的內(nèi)容為其分配多個(gè)相關(guān)的主題。
3.2 評(píng)估指標(biāo)
本文采用正確率(precision)、召回率(recall)和micro-F1作為實(shí)驗(yàn)的主要評(píng)估指標(biāo),見(jiàn)式(12)~(14),其中N為數(shù)據(jù)集中樣本的總數(shù)量。micro-F1用于計(jì)算真陽(yáng)性,即預(yù)測(cè)正確的數(shù)據(jù)、假陰性和假陽(yáng)性的數(shù)量,表示為所有標(biāo)簽F1值的加權(quán)平均值。
3.3 基線模型
為了評(píng)估LRAC的分類(lèi)效能,本文選取了一些經(jīng)典的和先進(jìn)的多標(biāo)簽文本分類(lèi)方法作為基線對(duì)比方法。基線模型為BR[10]、CC[11]、CNN[21]、CNN-RNN[15]、SGM[17]、LSTM[7]、BERT[22]、LSAN[16]、seq2set[23]、LDGN[24]和MAGNET[25]。
3.4 實(shí)驗(yàn)參數(shù)
本文的實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Windows 10 64 bit,處理器為Intel CoreTM i7-8700K CPU,顯卡為NVIDIA GeForce GTX1070 8 GB,內(nèi)存為16 GB。本文的編程環(huán)境為Python 3.8,PyTorch 1.9.0。本文采用GloVe詞嵌入方法,且字符嵌入維度為300。另外本文采用Adam作為優(yōu)化器,其學(xué)習(xí)率為0.001。同時(shí)為了避免過(guò)擬合,本文采用LN歸一化且設(shè)置dropout值為0.2。對(duì)于BR、CC基線實(shí)驗(yàn)?zāi)P停疚耐瑯邮褂肎loVe預(yù)先訓(xùn)練的300維向量初始化嵌入矩陣,將每個(gè)單詞的表示向量的平均值作為文本特征,最后采用邏輯回歸模型作為分類(lèi)器。對(duì)于其他所有基線模型,本文均根據(jù)原始論文采用相同的實(shí)驗(yàn)參數(shù)。
4 實(shí)驗(yàn)結(jié)果和分析
4.1 對(duì)比實(shí)驗(yàn)
對(duì)比實(shí)驗(yàn)采用3.3節(jié)提及的模型作為對(duì)比模型,在數(shù)據(jù)集AAPD和RCV1-V2上的實(shí)驗(yàn)結(jié)果如表3所示。
實(shí)驗(yàn)結(jié)果表明,LRAC在數(shù)據(jù)集AAPD和RCV1-V2中的分類(lèi)性能都優(yōu)于其他基線模型。在AAPD數(shù)據(jù)集中,LRAC的micro-F1值為0.732,基線模型中表現(xiàn)最優(yōu)的LDGN的micro-F1值為0.724,相比之下,LRAC提高了1.10%。與LDGN相比,LRAC利用上一輪次的分類(lèi)結(jié)果學(xué)習(xí)標(biāo)簽相關(guān)性并用于新一輪次的分類(lèi)預(yù)測(cè)中,這表明了推理機(jī)制能在一定程度上改善分類(lèi)結(jié)果。另外,LRAC的recall值為0.700,比基線模型中表現(xiàn)最優(yōu)的BERT提高了1.45%。
在數(shù)據(jù)量更大的RCV1-V2數(shù)據(jù)集(其數(shù)據(jù)量約是AAPD的14.4倍)上,所有的基線模型的分類(lèi)結(jié)果都得到了很大程度的提升,然而LRAC的分類(lèi)結(jié)果仍優(yōu)于其他對(duì)比模型。其中,LRAC的precision值達(dá)到了0.917,比最優(yōu)值BR模型的0.904提升了1.44%。與完全忽略標(biāo)簽相關(guān)性的BR模型相比,LRAC在建模高階標(biāo)簽相關(guān)性后可以極大程度地提升分類(lèi)性能表現(xiàn)。另外LRAC的F1值達(dá)到0.887,比最優(yōu)值0.882提升0.57%。對(duì)比結(jié)果都證明了LRAC的有效性,驗(yàn)證了LRAC采用推理機(jī)制和自適應(yīng)融合特征策略有助于優(yōu)化多標(biāo)簽文本分類(lèi)任務(wù)的性能。
4.2 消融實(shí)驗(yàn)
為了更加充分地闡述標(biāo)簽推理部分的重要性,本節(jié)將和B-CapsNet[9]的消融版本B-CapsNet-Ablation進(jìn)行對(duì)比實(shí)驗(yàn),并在AAPD數(shù)據(jù)集上驗(yàn)證LRAC的有效性。LRAC和B-CapsNet-Ablation采用相同的文本嵌入處理方式,兩者每個(gè)輪次的分類(lèi)器采用相同的預(yù)測(cè)方程,且采用相同的損失方程式(11)進(jìn)行優(yōu)化,以及兩者使用的參數(shù)在整體上保持一致。兩者唯一不同的是B-CapsNet-Ablation未采用標(biāo)簽推理部分和注意力融合機(jī)制,因此不能利用標(biāo)簽的相關(guān)性分析新一輪次的預(yù)測(cè)。另外B-CapsNet-Ablation和B-CapsNet不同之處在于,B-CapsNet-Ablation在每個(gè)輪次的預(yù)測(cè)會(huì)循環(huán)執(zhí)行T次,并使用式(11)損失函數(shù)進(jìn)行優(yōu)化,而B(niǎo)-CapsNet只會(huì)執(zhí)行1次。LRAC和B-CapsNet-Ablation分別執(zhí)行不同T值的對(duì)比結(jié)果,如圖2所示。
T=1時(shí),因?yàn)檫€未迭代學(xué)習(xí)標(biāo)簽信息,推理機(jī)制還未生效,B-CapsNet-Ablation和LRAC的實(shí)驗(yàn)結(jié)果差異不大。但隨著T值增加,前者的分類(lèi)準(zhǔn)確度未得到明顯提升,而LRAC的分類(lèi)準(zhǔn)確度逐步提升,當(dāng)T=3時(shí)達(dá)到最優(yōu)分類(lèi)性能,F(xiàn)1值提升了3.2%。
為了進(jìn)一步驗(yàn)證推理機(jī)制在LRAC中的重要性,本節(jié)從RCV1-V2數(shù)據(jù)集中選取了幾個(gè)典型的示例,如表1所示,展示了這幾個(gè)示例在推理前后的預(yù)測(cè)結(jié)果變化。如示例b所示,推理前,LRAC的預(yù)測(cè)結(jié)果為wheat、grain、agriculture、meat標(biāo)簽,在推理之后,LRAC移除了不相關(guān)的meat標(biāo)簽。如示例c所示,LRAC在經(jīng)過(guò)推理之后移除了一個(gè)不相關(guān)標(biāo)簽interest,且同時(shí)增加了一個(gè)相關(guān)標(biāo)簽iron-steel。
在與B-CapsNet-Ablation的對(duì)比實(shí)驗(yàn)和推理前后預(yù)測(cè)對(duì)比實(shí)驗(yàn)分析中,實(shí)驗(yàn)結(jié)果證明了LRAC推理機(jī)制的重要性。LRAC能充分利用推理機(jī)制學(xué)習(xí)標(biāo)簽的相關(guān)性,并應(yīng)用于新一輪次的預(yù)測(cè)分析中,移除不相關(guān)標(biāo)簽或者增加相關(guān)標(biāo)簽。
4.3 標(biāo)簽順序
LRAC同時(shí)預(yù)測(cè)所有的標(biāo)簽,不依賴于標(biāo)簽的順序。因此本節(jié)在對(duì)標(biāo)簽進(jìn)行詞嵌入時(shí),使用shuffle打亂標(biāo)簽順序,分析標(biāo)簽順序?qū)δP皖A(yù)測(cè)結(jié)果的影響,來(lái)驗(yàn)證各個(gè)模型的標(biāo)簽無(wú)序性質(zhì)。實(shí)驗(yàn)結(jié)果如表4所示,展示了打亂AAPD數(shù)據(jù)集的標(biāo)簽順序后,各個(gè)模型的分類(lèi)結(jié)果以及與打亂順序前的結(jié)果對(duì)比。
從表4可知,在打亂標(biāo)簽順序后,CC、CNN-RNN、SGM等模型的的分類(lèi)性能表現(xiàn)出不同程度的下降,因?yàn)檫@類(lèi)模型在訓(xùn)練和測(cè)試中依賴于標(biāo)簽順序,按照順序?qū)Ω鱾€(gè)標(biāo)簽進(jìn)行分析預(yù)測(cè)。然而在實(shí)際場(chǎng)景中,多標(biāo)簽文本分類(lèi)任務(wù)不應(yīng)該受到標(biāo)簽的順序的影響。BR、CNN、LSTM、BERT、LSAN等模型未受到標(biāo)簽順序的影響,因?yàn)檫@類(lèi)模型是同時(shí)預(yù)測(cè)所有的標(biāo)簽。LRAC不依賴于標(biāo)簽順序,同時(shí)利用上一輪次的分類(lèi)結(jié)果學(xué)習(xí)標(biāo)簽相關(guān)性,作為下一輪次的額外輸入,融合標(biāo)簽相關(guān)性表示和文檔表示,進(jìn)行新的一輪次的預(yù)測(cè)。因此,LRAC與其他模型相比,能避免標(biāo)簽順序依賴,同時(shí)表現(xiàn)出更好的分類(lèi)性能。
4.4 注意力融合實(shí)驗(yàn)
LRAC在注意力融合層融合了標(biāo)簽相關(guān)性表示和文檔表示兩種特征,為了進(jìn)一步更直觀地觀察該自學(xué)習(xí)融合策略的有效性,本節(jié)使用熱力圖,在AAPD和RCV1-V2數(shù)據(jù)集上可視化地展示了對(duì)原始文檔的注意力權(quán)重,即捕獲了文本中哪些重要單詞。實(shí)驗(yàn)結(jié)果如圖3所示,示例可參考表1,其中圖3(a)的真實(shí)標(biāo)簽為interest、retail、ipi,圖3(b)的真實(shí)標(biāo)簽為crude、nat-gas、iron-steel。如示例a所示,LRAC關(guān)注了與真實(shí)標(biāo)簽最相關(guān)的單詞interest、retail、market、financial等。從示例c可知,LRAC關(guān)注度最大的為usx、oil、gas、texas等單詞,分別對(duì)應(yīng)于該示例的各個(gè)真實(shí)標(biāo)簽。因此,從注意力權(quán)重關(guān)注度可以看出,每個(gè)標(biāo)簽都有與其最相關(guān)的單詞,這證明了LRAC采用的標(biāo)簽表示策略能夠提取與標(biāo)簽相關(guān)的且最突出的內(nèi)容,并進(jìn)一步構(gòu)建最終的文本表示,用于分類(lèi)任務(wù)。
5 結(jié)束語(yǔ)
本文針對(duì)多標(biāo)簽文本數(shù)據(jù)集提出了一種基于標(biāo)簽推理和注意力融合的分類(lèi)方法LRAC。LRAC不依賴于標(biāo)簽的順序,同時(shí)預(yù)測(cè)每個(gè)標(biāo)簽,利用每個(gè)輪次所有標(biāo)簽的預(yù)測(cè)結(jié)果作為新一輪次的額外輸入,分析學(xué)習(xí)標(biāo)簽間的高階相關(guān)性,同時(shí)使用注意力機(jī)制融合文檔特征和標(biāo)簽特征,有效地整合兩種信息,抓取適量的突出特征。大量的實(shí)驗(yàn)結(jié)果表明,LRAC在具有挑戰(zhàn)性的數(shù)據(jù)集AAPD和RCV1-V2中的分類(lèi)結(jié)果優(yōu)于競(jìng)爭(zhēng)基線模型,驗(yàn)證了LRAC在多標(biāo)簽文本分類(lèi)任務(wù)上的有效性。另外的實(shí)驗(yàn)分析進(jìn)一步驗(yàn)證了LRAC的標(biāo)簽無(wú)序性以及標(biāo)簽推理在捕獲標(biāo)簽間依賴關(guān)系時(shí)的有效性,同時(shí)證明了自學(xué)習(xí)注意力融合機(jī)制能學(xué)習(xí)捕獲最突出的文本特征。
LRAC通過(guò)標(biāo)簽嵌入改進(jìn)文本表示,在一定程度上依賴于標(biāo)簽信息,但是對(duì)于那些標(biāo)簽信息不具備實(shí)際意義的數(shù)據(jù)集而言,該方法顯然不適用。在未來(lái)的研究中,還可以收集更豐富的特征信息,例如文本描述、文本的層次結(jié)構(gòu)等,將這外部知識(shí)作為額外輸入來(lái)拓展當(dāng)前的模型,以提升分類(lèi)效能。LRAC僅從文本表示和特征提取兩個(gè)方面進(jìn)行了改進(jìn),在未來(lái)研究中可以嘗試結(jié)合遷移學(xué)習(xí)或者無(wú)監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,進(jìn)一步改進(jìn)模型的適用范圍。另外,本文只嘗試了在英文數(shù)據(jù)集上的分類(lèi)效果,在未來(lái)研究中可進(jìn)一步測(cè)試在中文數(shù)據(jù)集上的可適用性。
參考文獻(xiàn):
[1]王穎潔,朱久祺,汪祖民,等.自然語(yǔ)言處理在文本情感分析領(lǐng)域應(yīng)用綜述[J]. 計(jì)算機(jī)應(yīng)用,2022,42(4): 1011-1020. (Wang Yingjie,Zhu Jiuqi,Wang Zumin,et al. A review of applications of natural language processing in emotion analysis [J]. Journal of Computer Applications,2022,42(4): 1011-1020.)
[2]丁卓冶. 面向主題的關(guān)鍵詞抽取方法研究[D]. 上海: 復(fù)旦大學(xué),2013. (Ding Zhuozhi. Research on subject-oriented keyword extraction method[D]. Shanghai: Fudan University,2013.)
[3]劉園園,李勁華,趙俊莉. 基于語(yǔ)義解析的領(lǐng)域問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(11): 42-48,97. (Liu Yuanyuan,Li Jinhua,Zhao Junli. Design and implementation of domain question answering system based on semantic parsing [J]. Computer Applications and Software,2021,38(11): 42-48,97.)
[4]林鴻輝,劉建華,鄭智雄,等.聯(lián)合對(duì)話行為識(shí)別與情感分類(lèi)的多任務(wù)網(wǎng)絡(luò)[J/OL].計(jì)算機(jī)工程與應(yīng)用. (2021-12-13) [2022-09-04]. http://kns.cnki.net/kcms/detail/11.2127.tp.20211209.0924.002.html. (Lin Honghui,Liu Jianhua,Zheng Zhixiong,et al. A multi-task network for joint conversational behavior recognition and emotion classification [J]. Computer Engineering and Applications.(2021-12-13) [2022-09-04]. http://kns.cnki.net/kcms/detail/11.2127.tp.20211209.0924.002.html.)
[5]閆琰. 基于深度學(xué)習(xí)的文本表示與分類(lèi)方法研究 [D]. 北京: 北京科技大學(xué),2016. (Yan Yan. Research on text representation and classification based on deep learning[D]. Beijing: University of Science and Technology Beijing,2016.)
[6]龔千健. 基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類(lèi) [D]. 武漢: 華中科技大學(xué),2016. (Gong Qianjian. Text classification based on recurrent neural network model [D]. Wuhan: Huazhong University of Science and Technology,2016.)
[7]Cho K,Merrienboer B V,Gulcehre C,et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2014: 1724-1734.
[8]Yang Zichao,Yang Diyi,Dyer C. Hierarchical attention networks for document classification[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016: 1480-1489.
[9]Tian Yuwei,Zhang Zhi. Text classification model based on BERT-capsule with integrated deep learning[C]// Proc of the 16th Confe-rence on Industrial Electronics and Applications. Piscataway,NJ: IEEE Press,2021: 106-111.
[10]Gonalves T,Quaresma P. A preliminary approach to the multilabel classification problem of portuguese Juridical documents [C]// Proc of Portuguese Conference on Artificial Intelligence. Berlin: Springer,2003: 435-444.
[11]Read J,Pfahringer B,Holmes G,et al. Classifier chains for multi-label classification[J]. Machine Learning,2011,85(3): 333-359.
[12]Clare A,King R D. Knowledge discovery in multi-label phenotype data[C]// Proc of European Conference on Principles of Data Mining and Knowledge Discovery. Berlin: Springer,2001: 42-53.
[13]Ghamrawi N,Mccallum A. Collective multi-label text classification[C]// Proc of the 14th ACM International Conference on Information and Knowledge Management. New York: ACM Press,2005: 195-200.
[14]Kurata G,Xiang Bing,Zhou Bowen. Improved neural network-based multi-label classification with better initialization leveraging label co-occurrence[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016: 521-526.
[15]Chen Guibin,Ye Deheng,Xing Zhenchang,et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization [C]// Proc of International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2017: 2377-2383.
[16]Xiao Lin,Huang Xin,Chen Boli,et al. Label-specific document re-presentation for multi-label text classification[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 466-475.
[17]Yang Pengcheng,Sun Xu,Li Wei,et al. SGM: sequence generation model for multi-label classification [C]// Proc of the 27th International Conference on Computational Linguistics. 2018: 3915-3926.
[18]呂學(xué)強(qiáng),彭郴,張樂(lè),等. 融合BERT與標(biāo)簽語(yǔ)義注意力的文本多標(biāo)簽分類(lèi)方法[J]. 計(jì)算機(jī)應(yīng)用,2022,42(1): 57-63. (Lyu Xueqiang,Peng Chen,Zhang Le,et al. A text multi-label classification method combining BERT and label semantic attention[J]. Journal of Computer Applications,2022,42(1): 57-63.)
[19]Liu Qing,Lin Hongyu,Xiao Xinyan,et al. Fine-grained entity typing via label reasoning [EB/OL]. (2021-09-13). https://arxiv.org/abs/2109. 05744.
[20]Lewis D D,Yang Yiming,Rose T G,et al. RCV1: a new benchmark collection for text categorization research[J]. Journal of Machine Learning Research,2004,5: 361-397.
[21]Kim Y. Convolutional neural networks for sentence classification[C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2014: 1746-1751.
[22]Devlin J,Chang M W,Lee K. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Confe-rence of the North American Chapter of the Association for Computatio-nal Linguistics: Human Language Technologies. 2019: 4171-4186.
[23]Yang Pengcheng,Luo Fuli,Ma Shuming,et al. A deep reinforced sequence-to-set model for multi-label classification[C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 5252-5258.
[24]Ma Qianwen,Yuan Chunyuan,Zhou Wei,et al. Label-specific dual graph neural network for multi-label text classification[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. 2021: 3855-3864.
[25]Pal A,Selvakumar M,Sankarasubbu M. MAGNET: multi-label text classification using attention-based graph neural network[C]// Proc of the 12th International Conference on Agents and Artificial Intelligence. 2020: 494-505.