基于層級圖標簽表示網(wǎng)絡的多標簽文本分類

2024-03-05 07:11:42徐江玲陳興榮

計算機應用研究 2024年2期

徐江玲陳興榮

收稿日期：2023-05-05；修回日期：2023-07-31

作者簡介：徐江玲（1997—），女，湖北孝感人，碩士研究生，主要研究方向為自然語言處理、多標簽文本分類；陳興榮，女（通信作者），副教授，博士，主要研究方向為數(shù)量經(jīng)濟、應用統(tǒng)計（xujiangling2020@163.com）．

摘? 要：多標簽文本分類是一項基礎而實用的任務，其目的是為文本分配多個可能的標簽。近年來，人們提出了許多基于深度學習的標簽關聯(lián)模型，以結合標簽的信息來學習文本的語義表示，取得了良好的分類性能。通過改進標簽關聯(lián)的建模和文本語義表示來推進這一研究方向。一方面，構建的層級圖標簽表示，除了學習每個標簽的局部語義外，還進一步研究多個標簽共享的全局語義；另一方面，為了捕捉標簽和文本內容間的聯(lián)系并加以利用，使用標簽文本注意機制來引導文本特征的學習過程。在三個多標簽基準數(shù)據(jù)集上的實驗表明，該模型與其他方法相比具有更好的分類性能。

關鍵詞：多標簽文本分類；標簽相關性；層級圖表示；標簽組嵌入；標簽文本注意力

中圖分類號：TP391??? 文獻標志碼：A

文章編號：1001-3695（2024）02-010-0388-05

doi：10.19734/j.issn.1001-3695.2023.05.0236

Multi-label text classification based on hierarchical graph label representation network

Xu Jiangling，Chen Xingrong

（School of Mathematics & Physics，China University of Geosciences，Wuhan 430000，China）

Abstract：Multi-label text classification is a basic and practical task，and its purpose is to allocate multiple possible labels for text.In recent years，people have proposed a lot of deep -learning label association models，which learn the semantic representation of the text by combining label information，and have achieved good classification performance.This paper promoted this research direction by improving the modeling and text semantics of the label association.On the one hand，the constructed hierarchical graph representation not only learned the local semantics of each label，but also further studied the global semantics shared by multiple labels.On the other hand，in order to capture the connection between labels and text content，it used the label text attention mechanism to guide the learning process of text characteristics.Experiments on the three multi-label benchmark data sets show that the proposed model has better classification performance compared to other methods.

Key words：multi-label text classification（MLTC）；correlation of label；graphical representation of the hierarchy；group embedding of label；label-text attention

0? 引言

多標簽文本分類（MLTC）是為語料庫中的每個樣本分配一個或多個標簽的任務［1］。MLTC目前已在主題識別、問答系統(tǒng)、標簽推薦、信息檢索［2～5］等領域得到廣泛應用。最近的進展主要是利用標簽關聯(lián)模型來學習文本的語義表示。在多標簽分類任務中，相關的標簽極有可能同時出現(xiàn)，標簽的相關性能夠為多標簽學習提供有用的信息，因此對于標簽的相關性建模已經(jīng)進行了很長時間的研究，并且被證明是非常有效的［6，7］。如何充分挖掘和利用標簽的相關性，是目前研究者普遍關注的問題。同時，隨著對標簽研究的進一步深入，標簽不再是沒有任何意義的原子符號，而是具有語義信息的實際內容［8，9］，標簽語義中包含著與文本內容相關的信息，因此利用標簽語義引導模型學習文檔中的重要單詞信息，可以進一步提升分類效果。本文通過改進標簽關聯(lián)的建模和文本語義表示來推進這一研究方向。一方面，不同于現(xiàn)有的只學習每個標簽局部語義的方法，本文希望進一步研究多個標簽共享的全局語義，以此更加充分地捕捉標簽之間的高階相關性；另一方面，現(xiàn)有方法中利用BiLSTM提取文本特征，通常是直接選取最后一個單詞的隱藏狀態(tài)或者對所有的單詞隱藏狀態(tài)進行等權平均來作為文本的特征表示，但并非所有的單詞對標簽的貢獻都是一樣的［10］。為了更加關注文本中與標簽相關的成分，引入標簽文本注意機制從文本內容中識別出與標簽相關的文檔表示，可以獲得更好的性能。

為了實現(xiàn)上述想法，本文設計了一個層級圖標簽表示網(wǎng)絡（hierarchical graph label representation network，HGLRN），通過標簽特定嵌入和標簽組嵌入，分別捕獲局部語義和全局語義，然后通過注意機制將它們與文本特征結合，學習包含標簽語義信息的文本表示。具體過程如下：首先，引入標簽組嵌入（label-group embedding，LGE）模塊，通過圖注意力網(wǎng)絡和可微分池化捕獲每個標簽的局部語義和一組標簽共享的語義；然后，標簽語義引導注意（semantic guided attention，SGA）模塊，通過標簽文檔注意機制將LGE模塊與文本特征模塊中BiLSTM的多個隱藏狀態(tài)結合起來，明確地引導文本特征學習關注對分類重要的單詞信息。本文的貢獻總結如下：

a）構建了標簽之間的層級圖結構，除了考慮每個標簽之間的局部語義之外，還進一步研究多個標簽共享的全局語義，可以有效地捕捉標簽語義的高階相關性，從而更加充分地學習標簽的依賴信息。

b）模型中的標簽文本注意機制，可以從每個文本中獲取與標簽相關的成分，最后生成包含標簽相關信息的文本表示。

1? 相關工作

傳統(tǒng)的多標簽文本分類方法使用特征工程技術作為文本特征提取器，然后使用分類算法進行分類，例如多標簽決策樹（multi-label decision tree，ML-DT）［11］、秩支持向量機（ranking support vector machine，Rank-SVM）［12］、多標簽K近鄰（multi-label K-nearest neighbor，ML-KNN）［13］等。隨著深度學習的發(fā)展，各種基于神經(jīng)網(wǎng)絡的模型，如卷積神經(jīng)網(wǎng)絡（convolutional neural network，CNN）［14，15］、循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network，RNN）［16，17］等在文本分類中得到了廣泛的應用，與傳統(tǒng)方法相比，它們可以從文本中學到更具分類價值的特征。近年來隨著Transformer網(wǎng)絡［18］以及基于該網(wǎng)絡的預訓練模型（bidirectional encoder representation from transformers，BERT）［19］的提出，其在分類性能方面取得了很大的提升。然而，這些方法的分類效果通常依賴于文本特征的學習，可能需要大量的計算資源來獲取，因此本文除了利用文本的表示，還尋求利用標簽信息來實現(xiàn)更有效的多標簽文本分類。

在多標簽文本分類中，文檔同時被多個標簽注釋，而標簽通常具有相關性。研究表明，利用標簽相關性可以顯著提高分類的性能［20］。在Kurata等人［21］的研究中，模型隱藏層和輸出層之間的權重是利用標簽共現(xiàn)矩陣來初始化的，從而考慮標簽的相關性；Chen等人［22］利用CNN文檔編碼器提取局部特征，并利用RNN捕捉標簽之間相關性。近年來，有一些方法利用圖神經(jīng)網(wǎng)絡（graph neural network，GNN）生成標簽語義嵌入。例如Pal等人［23］使用圖注意力網(wǎng)絡（graph attention networks，GAT）捕捉標簽信息，利用雙向長短時記憶網(wǎng)絡（bi-directional long short-term memory，Bi-LSTM）學習文本特征，以點乘的形式將兩者結合起來實現(xiàn)多標簽的文本分類；Ozmen等人［24］利用圖卷積網(wǎng)絡（graph convolutional network，GCN）構建了一種標簽信息傳遞網(wǎng)絡，提取標簽的拉推關系，以此來考慮標簽之間多種類型的雙向依賴關系。盡管這些方法在多標簽文本分類上取得了不錯的性能，但它們是在學習模型頂部的分類器時才融入標簽信息，這使得標簽信息對學習文本表示的影響是間接的。為了解決這個問題，引入標簽文本注意機制，直接從模型底部合并標簽信息，以此通過標簽信息來引導文本特征的學習，可以關注文本中重要的單詞信息。

有些研究進一步利用標簽文本之間的依賴關系來學習文本的表示。文獻［25］構建了一種標簽和文本的顯式交互模型，通過單詞與標簽的匹配得分，針對不同標簽學習各自的文檔表示；Xiao等人［26］提出了一種標簽特定注意網(wǎng)絡，利用標簽語義信息來確定標簽和文檔之間的語義連接，用于構建標簽的文檔表示；Liu等人［27］利用文本標簽協(xié)同編碼器來獲得文本和標簽的相互參與表示，使得模型能夠專注于文本和標簽的相關部分，從而有利于文本分類。但是這些方法過于依賴局部的標簽表示，在標簽缺失或者含有噪聲時，可能導致單詞與標簽錯誤匹配的問題，不足以預測正確的標簽。因此本文在學習標簽語義信息的過程中，通過構建標簽的層級結構，同時考慮標簽的局部語義和全局語義，可以有效地捕捉標簽之間的高階相關性，從而更加充分地利用標簽信息。

2? 研究方法

2.1? 體系結構

本文的模型結構如圖1所示，通過標簽組嵌入模塊可同時獲取標簽的局部語義和全局語義，以此來有效地捕獲標簽的高階相關性。在標簽組嵌入模塊中，以標簽圖結構G={H，A}作為輸入來生成標簽語義嵌入和標簽組嵌入，H={hi}ni=1為標簽的特征矩陣，其中hi為標簽特征向量，n為標簽的個數(shù)，A為基于標簽共現(xiàn)的鄰接矩陣。該模塊的輸出為標簽嵌入El={eil}ni=1∈Euclid Math TwoRApn×d和標簽組嵌入Eg={eig}mi=1∈Euclid Math TwoRApm×d，其中m為標簽簇數(shù)，d為標簽特征向量的維數(shù)。文本特征提取模塊采用雙向LSTM網(wǎng)絡來獲取文檔的特征向量，BiLSTM網(wǎng)絡從正反兩個方向同時對文本單詞序列進行更新，即xi、xi，將兩者連接起來作為單詞的最終特征表示xi=［xi，xi］∈Euclid Math TwoRAp2D，i∈［1，N］，其中N為文本序列長度，D為隱藏層神經(jīng)元個數(shù)。

在獲取文本特征向量之后，語義引導注意模塊可以通過注意機制依次將每個單詞特征向量xi與學習到的標簽嵌入El和組嵌入Eg相結合，利用標簽語義與單詞特征表示之間的注意分數(shù)對單詞特征進行加權，以此引導文本特征學習過程中關注重要的單詞特征，最終可以將單詞的表征聚合成文檔特征表示，得到包含標簽級語義的文本表示Ml和包含標簽組級語義的文本表示Mg。將兩部分連接起來Ml‖Mg，并采用全連接層對文本標簽進行預測，損失函數(shù)為交叉熵損失函數(shù)：

L1=-∑Ni=1［yi log （σ（i））+（1-yi） log （1-σ（i））］（1）

2.2? 標簽組嵌入模塊

為了充分捕獲標簽之間的高階相關性，本文構建了標簽組嵌入模塊來生成標簽語義嵌入El和標簽組嵌入Eg，分別表示標簽的局部語義和全局語義。

2.2.1? 語義標簽嵌入

GAT是一種基于自注意力的模型，通常用于學習圖結構的節(jié)點特征，GAT以節(jié)點標簽特征矩陣H∈Euclid Math TwoRApn×d和相應的鄰接矩陣A∈Euclid Math TwoRApn×n作為輸入，通過節(jié)點更新機制對標簽進行更新，進而從標簽圖中得到包含標簽相關性的語義標簽嵌入El，其中n表示標簽個數(shù)，d表示標簽特征維數(shù)。

在節(jié)點更新過程中，首先計算第一個GAT層中第i個標簽和它的鄰近標簽j之間的注意力系數(shù)：

αij=exp（LeakyReLU（αT（Whi‖Whj）））∑k∈Euclid Math OneNApi exp （LeakyReLU（αT（Whi‖Whj）））（2）

其中：α∈Euclid Math TwoRAp2d′×1和W∈Euclid Math TwoRApd′×d是可學習的權重矩陣；hi∈Euclid Math TwoRApd是標簽i的特征向量；Euclid Math OneNApi是圖中標簽i的領域集合；‖表示級聯(lián)操作。然后通過注意力系數(shù)對鄰近節(jié)點的標簽特征進行加權，從而得到節(jié)點i更新后的節(jié)點特征：

eil=σ（∑j∈Euclid Math OneNApiαijWhj）（3）

從第一個GAT層得到的標簽嵌入為E1l={eil}ni=1。第t個GAT層語義標簽嵌入Etl可由下式生成：

Etl=GATt，embed（Et-1l，A）（4）

2.2.2? 語義組嵌入

在實際的多標簽分類場景中，數(shù)據(jù)集的標注結果可能包含噪聲或缺失標簽，僅僅學習特定于標簽的語義表示可能不足以作出正確的預測，因此考慮進一步學習多個標簽的全局表示，以此更加充分地學習標簽的依賴信息。GAT的結構是扁平的，在學習標簽的過程中會忽略圖中可能出現(xiàn)的層次結構，所以在獲得GAT層更新的語義標簽嵌入El后，為了有效地捕獲多個標簽之間的全局語義，繼續(xù)對El進行可微分池化（DiffPool）［28］。Diffpool是一種將圖節(jié)點軟映射到一組簇的圖聚類算法，它可以將相似的標簽特征節(jié)點進行聚類，得到標簽語義組嵌入，這種層級化的方式可以同時捕捉到標簽的局部特征信息和多個標簽共享的全局特征信息。一旦捕獲語義標簽嵌入El，就可以應用DiffPool生成語義組嵌入Eg：

Eg=DiffPool（El，A）（5）

在可微分池化過程中，pooling層利用第t個圖注意層的輸出節(jié)點特征E（t）和鄰接矩陣A（t）作為輸入信息，經(jīng)過pooling層后，節(jié)點信息將會被聚集到m（m

E（t+1），A（t+1）=DiffPool（E（t），A（t））（6）

該過程中利用一個可學習的權值矩陣S（t）將每個節(jié)點映射到對應的簇中，通過該權值矩陣可以輸出新的特征矩陣和鄰接矩陣：

E（t+1）=S（t）TE（t）（7）

A（t+1）=S（t）TA（t）S（t）（8）

其中：E（t+1）∈Euclid Math TwoRApnt+1×d、A（t+1）∈Euclid Math TwoRApnt+1×nt+1為更新后的標簽特征矩陣和鄰接矩陣；S（t）同樣也是定義在圖結構上的矩陣。

S（t）=softmax（GATt，pool（E（t），A（t）））（9）

其中：S（t）∈Euclid Math TwoRApnt×nt+1，利用softmax函數(shù)可以得到各個節(jié)點劃分到下一層各個簇的概率。

此外，為了學習更加緊湊的群嵌入，本文加入正則化項，將組嵌入Eg與標簽嵌入El之間的距離最小化，如下所示。

L2=∑mk=1∑Eil∈Ck‖Ekg-Eil‖2（10）

其中：Ck為第k個高度相關的標簽簇。

2.3? 文本特征提取模塊

本文采用雙向LSTM網(wǎng)絡來獲取文檔的特征向量。首先需要文本預處理，然后使用BERT來嵌入單詞，再輸入到BiLSTM網(wǎng)絡中，BiLSTM從正反兩個方向更新文本序列X，更新后每個單詞的隱藏狀態(tài)為

xi=LSTM（xi-1，xi）（11）

xi=LSTM（xi-1，xi）（12）

其中：xi、xi分別表示文本第i個單詞正向和反向更新后的隱藏狀態(tài)輸出。然后將這兩個方向輸出的單詞特征向量連接起來，得到第i個單詞的最終隱藏表示：

xi=［ xi，xi］（13）

整個文本特征提取過程可以表示為式（14），X為學習的文本語義特征：

X=fBiLSTM（fBERT（s；θBERT）；θBiLSTM）∈Euclid Math TwoRApN×2D（14）

其中：s為文檔句子；θBiLSTM為網(wǎng)絡參數(shù)；θBERT為詞嵌入的參數(shù)；N為文本序列長度；D為BiLSTM的隱藏層神經(jīng)元個數(shù)。

2.4? 語義引導注意模塊

語義引導注意模塊的目的是利用標簽語義嵌入El和Eg來引導文本語義表示的學習，以此將提取的標簽依賴信息納入模型當中。首先采用文本單詞序列特征分別與標簽嵌入、標簽組嵌入之間的Hadamard乘積來計算注意權值：

sli=X⊙eil（15）

sgj=X⊙ejl（16）

然后利用softmax函數(shù)對計算得到的注意分數(shù)進行歸一化處理，得到標準化注意分數(shù)al∈Euclid Math TwoRApC×d和ag∈Euclid Math TwoRApm×d，如下所示。

ali=exp（sli）∑iexp（sli）（17）

agj=exp（sgj）∑jexp（slj）（18）

得到標準化的注意力分數(shù)后，應用第二個Hadamard乘積對文本各單詞特征進行加權，以引導在文本特征學習過程中關注對標簽語義重要的單詞，并且將各單詞的表征聚合成文檔向量：

Ml=∑ial⊙X（19）

Mg=∑jag⊙X（20）

通過上式最終得到了包含局部標簽信息的文本表示Ml∈Euclid Math TwoRApC×d和包含全局標簽信息的文本表示Mg∈Euclid Math TwoRApm×d。

模型的最后為分類模塊，首先連接包含標簽局部語義信息的文本表示Ml和包含標簽共享語義信息的文本表示Mg，再加上一個全連接層，利用sigmoid分類器即可實現(xiàn)分類，通過式（21）來進行標簽預測：

=σ（fC tanh（Ml‖Mg））（21）

其中：σ（·）和tanh（·）為非線性激活函數(shù)；fC為全連接層；L1+λL2為總訓練損失，λ為正則化參數(shù)。

3? 實驗

3.1? 數(shù)據(jù)集介紹

表1展示了實驗中使用的數(shù)據(jù)集的詳細信息。

Reuters-21578是從路透社收集的新聞文件，該數(shù)據(jù)集共10 788個文檔，其中訓練文本7 769份，測試文本3 019份，共90個標簽類別。

RCV1-V2數(shù)據(jù)集由路透社提供的新聞專線文章分類而成。每個新聞專線故事有多個主題，整個數(shù)據(jù)集共103個主題，包含781 265個用于訓練的文檔和23 149個用于測試的文檔。

AAPD（arxiv academic paper dataset）為論文數(shù)據(jù)集，共包含55 840篇學術論文，每篇論文有多個主題。AAPD數(shù)據(jù)集分為44 672個文檔進行訓練，11 168個文檔進行測試，共54個類別。

3.2? 參數(shù)設置及評價指標

本文在NVIDIA TESLA V100-32G顯卡上使用PyTorch進行實驗，在訓練過程中，使用BERT預訓練模型對文檔句子和標簽進行編碼，詞嵌入維度大小d為768維，BiLSTM的層數(shù)為2，隱藏狀態(tài)的維度設置為256。語義標簽嵌入由兩個GAT層組成，第一個GAT層的輸出特征維度和第二層的輸入特征維度均為768，第二層的輸出特征維數(shù)和標簽組輸入維度為512。在GAT層后面加上一個DiffPool層，DiffPool層中有兩個超參數(shù)，即標簽的組數(shù)m和正則化參數(shù)λ。關于各數(shù)據(jù)集中超參數(shù)的選取，將在3.5節(jié)中進行詳細分析。對于所有數(shù)據(jù)集，使用Adam優(yōu)化器來最小化損失函數(shù)，批量大小batch size設置為32，學習率lr初始化為0.001，并且在網(wǎng)絡中加入了dropout方法防止過擬合，概率設置為0.5。

本文使用多標簽文本分類任務中的兩個主要評價指標F1分數(shù)（micro-F1）和漢明損失（Hamming loss）來評估模型。F1分數(shù)越大，損失越小，分類算法的性能越好。

3.3? 結果分析

在三個數(shù)據(jù)集上評估所提模型，以觀察模型在這些數(shù)據(jù)集上的性能，并且選取基線模型進行對比，包括傳統(tǒng)機器學習方法的BR［29］、CC［30］模型，以及基于深度神經(jīng)網(wǎng)絡的CNN［14］、CNN-RNN［22］、seq2seq［31］、LSAN［26］、MAGNET［23］、LDGN［32］、CNLE［27］模型。表2展示了多個模型在各數(shù)據(jù)集上的micro-F1和Hamming loss。其中HL表示Hamming loss，F(xiàn)1表示micro-F1，標有*的為復現(xiàn)結果，其他為原論文引用結果。

從表2可以看出，HGLRN在兩個性能指標方面表現(xiàn)優(yōu)異，超越其他模型，取得了良好的效果。常用的基線模型BR、CC、CNN、CNN-RNN、seq2seq在這三個數(shù)據(jù)集上的性能表現(xiàn)相差不是很大。其中BR和CNN沒有利用任何標簽信息，包括標簽之間以及標簽文本之間的相關性；CC通過構建二分類問題的貝葉斯條件鏈建模標簽之間的關系，但忽略了標簽跟文檔的關系；同樣CNN-RNN也沒有考慮標簽和文檔之間的相關性，性能與CNN模型相當；而seq2seq模型中同時考慮了這兩種依賴關系，因此取得了不錯的分類效果。與基線模型相比，本文模型取得了顯著的性能提升。

LSAN標簽特定注意網(wǎng)絡，可以生成特定于標簽的文本表示，通過注意力機制將標簽和文本信息融合在一起，其在micro-F1上相比前幾個基線模型，性能有了明顯的提升，而本文模型相較于LSAN，在Reuters-21578、RCV1-V2、AAPD三個數(shù)據(jù)集上micro-F1分數(shù)分別提高了2.8%、1.4%、2%，并相應降低了Hamming loss，進一步證實了本文模型相較于之前的模型有顯著的優(yōu)勢。

MAGNET、LDGN、CNLE模型的分類效果大幅超過以往的基線模型，因為這些模型專注于標簽依賴信息的學習。本文模型相比這幾個模型有著進一步的提升，在這三個數(shù)據(jù)集上的micro-F1分數(shù)分別提高了0.5%、0.4%和0.2%。這是因為本文模型在學習標簽的過程中進一步引入了標簽組嵌入，可以更好地學習標簽的全局語義，同時利用單詞與標簽的相關性來引導文本特征的學習，從而提升了模型最終的分類效果。

3.4? 消融實驗

除了與各基準方法整體性能比較之外，本文還進行了消融實驗，以評估模型中不同組件的有效性。

為了驗證標簽組嵌入模塊的有效性，將該模塊的簡化版本進行實驗，即對比本文模型框架中不使用LGE模塊（No LGE）、僅使用標簽嵌入（Label-E）、僅使用標簽組嵌入（Label-G）、使用完整LGE模塊（HGLRN）四個實驗。另外，為了驗證標簽文本注意機制的有效性，同樣簡化語義引導注意模塊，去掉標簽文本之間的注意力，直接將文本特征與標簽語義進行點乘交互（No SG_Att）。圖2展示了三個數(shù)據(jù)集上的消融實驗結果。

消融實驗結果顯示，在三個數(shù)據(jù)集上沒有利用任何標簽依賴信息的No LGE模型的F1分數(shù)均為最低，分類性能與其他模型相比差很多，相較于不使用LGE模塊，考慮僅僅加入標簽嵌入和僅僅加入標簽組嵌入效果均有明顯的提升，說明了學習標簽的依賴信息能夠顯著地提升分類效果，而加入整個LGE模塊的分類效果最好。因為它同時學習了標簽的局部和全局語義，可以更加充分地捕捉到標簽之間的依賴信息，結果清楚地展示了整個標簽組嵌入模塊LGE的有效性。在三個數(shù)據(jù)集上去掉標簽注意機制的模型No SG_Att與HGLRN相比，F(xiàn)1分數(shù)會相應降低，表明文本標簽注意力機制對提升模型性能是有利的，可以利用文本和標簽語義的依賴信息，更好地提取文本特征。

為了更加充分地闡述標簽組嵌入模塊的重要性，從AAPD數(shù)據(jù)集中選取了幾個典型的示例，如表3所示，展示了這幾個示例在加入標簽組嵌入模塊LGE前后的標簽預測結果。從表中可以看出來，對于文本1而言，No LGE的預測結果為cs.CV、stat.ML、cs.CL標簽，而加入標簽組嵌入模塊LGE后，HGLRN能夠結合標簽的依賴信息進行標簽預測，進而移除了不相關的cs.CL標簽。文本2中，HGLRN在No LGE模型預測基礎上增加了一個正確標簽math.IT。對于文本3，HGLRN在No LGE模型預測基礎上刪除了一個不相關標簽cs.IT，且同時預測出了標簽cs.SI。從上述示例可以看出，HGLRN模型通過標簽組嵌入模塊，充分學習標簽之間的依賴信息，能夠顯著地提升文本分類效果。

為了更加直觀地觀察文本標簽注意機制的有效性，對AAPD數(shù)據(jù)集中一個實例的注意力權重進行可視化。不同標簽下不同單詞的貢獻各異，可視化圖中顏色越深，表示該詞被分配到越大的注意力權重。由于注意力機制的存在，提出模型可以為標簽選擇最相關的語義信息，實驗結果如圖3所示。

圖3中示例文本的真實標簽為“Physics and Society（phy-sics.soc）”“Computers and Society（cs.cy）”和“Computational Engineering，F(xiàn)inance，and Science（cs.ce）”，模型在分類時側重于相關度高的單詞，如“digitalization”“energy management”“consuming systems”“foundations”“evolutions”等，這表明HGLRN所使用的標簽注意機制可有效提取與標簽語義相關且最顯著的內容，以建立更具分類價值的文本表示。

3.5? 參數(shù)敏感性

在這一節(jié)中主要研究模型中兩個超參數(shù)設置的敏感性，即標簽簇數(shù) m 和正則化參數(shù)λ，在三個數(shù)據(jù)集上分析不同的參數(shù)取值對模型性能的影響。首先在Reuters-21578數(shù)據(jù)集上，對于組數(shù) m ，分別取值10、20、30、40、50、60這幾種不同情況進行實驗，λ 則固定為10-3。圖4（a）中的實驗結果表明，當m取值為20時，F(xiàn)1分數(shù)最高，分類性能最好。然后固定組數(shù)為20，研究不同的λ取值{10-1，10-2，…，10-6}對分類效果的影響，結果如圖4（b）所示，從圖中結果發(fā)現(xiàn)，參數(shù)λ的取值對模型性能不是很敏感。根據(jù)實驗結果，m最終設置為20，λ設置為10-3。

同樣在RCV1-V2和AAPD數(shù)據(jù)集上也進行了消融實驗，首先固定λ為10-3，研究F1分數(shù)隨m的變化情況。可以發(fā)現(xiàn)，在RCV1-V2和AAPD數(shù)據(jù)集上的m分別取30和15時，F(xiàn)1分數(shù)最高，因此分別將組數(shù)m固定為30和15，研究不同的λ取值對分類效果的影響，結果如圖5、6所示。根據(jù)圖中的實驗結果，最終在RCV1-V2數(shù)據(jù)集上選取組數(shù)m為30，正則化參數(shù)λ選取10-2。在AAPD數(shù)據(jù)集上，選擇組數(shù)m為15，同時將正則化參數(shù)λ設置為10-3。

4? 結束語

本文提出了一種用于多標簽文本分類的層級圖標簽表示網(wǎng)絡，構建的層級圖結構同時考慮了標簽的局部語義和全局語義，并通過注意機制引導文本語義表示的學習，充分利用了標簽的依賴信息。實驗結果表明，本文模型性能優(yōu)于許多方法。

盡管本文模型性能具有競爭優(yōu)勢，但仍然存在一些局限性，在學習標簽的相關性時僅僅利用訓練數(shù)據(jù)集中的標簽共現(xiàn)度，而忽略了對標簽關系的方向和類型的建模，進一步考慮標簽間的多種依賴關系可能會取得更好的分類效果。

參考文獻：

［1］郝超，裘杭萍，孫毅，等.多標簽文本分類研究進展［J］.計算機工程與應用，2021，57（10）：48-56.（Hao Chao，Qiu Hangping，Sun Yi，et al.Research progress in multi-label text classification［J］.Computer Engineering and Applications，2021，57（10）：48-56.）

［2］Tang Duyu，Qin Bing，Liu Ting.Document modeling with gated recurrent neural network for sentiment classification［C］//Proc of Confe-rence on Empirical Methods in Natural Language Processing.Stroudsburg，PA：Association for Computational Linguistics，2015：1422-1432.

［3］Chen Jianshu，He Ji，Shen Yelong，et al.End-to-end learning of LDA by mirror-descent back propagation over a deep architecture［C］//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge，MA ：MIT Press，2015：1765-1773.

［4］Kumar A，Irsoy O，Ondruska P，et al.Ask me anything：dynamic me-mory networks for natural language processing［C］//Proc of Interna-tional Conference on Machine Learning.New York：ACM Press，2016：1378-1387.

［5］Gopal S，Yang Yiming .Multilabel classification with meta-level features［C］//Proc of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM Press，2010：315-322.

［6］鄧維斌，王智瑩，高榮壕，等.融合注意力與CorNet的多標簽文本分類［J］.西北大學學報：自然科學版，2022，52（5）：824-833.（Deng Weibin，Wang Zhiying，Gao Ronghao，et al.Integrating attention and CorNet for multi label text classification［J］.Journal of Northwest University：Natural Science Edition，2022，52（5）：824-833.）

［7］Zhang Qianwen，Zhang Ximing，Yan Zhao，et al.Correlation-guided representation for multi-label text classification［C］//Proc of the 30th International Joint Conference on Artificial Intelligence.2021：3363-3369.

［8］肖琳，陳博理，黃鑫，等.基于標簽語義注意力的多標簽文本分類［J］.軟件學報，2020，31（4）：1079-1089.（Xiao Lin，Chen Boli，Huang Xin，et al.Multi-label text classification based on label semantic attention［J］.Journal of Software，2020，31（4）：1079-1089.）

［9］Wang Tianshi，Liu Li，Liu Naiwen，et al.A multi-label text classification method via dynamic semantic representation model and deep neural network［J］.Applied Intelligence，2020，50：2339-2351.

［10］呂學強，彭郴，張樂，等.融合BERT與標簽語義注意力的文本多標簽分類方法［J］.計算機應用，2022，42（1）：57-63.（Lyu Xueqiang，Peng Chen，Zhang Le，et al.Multi-label text classification based on BERT and label semantic attention［J］.Journal of Computer Applications，2022，42（1）：57-63.）

［11］Clare A，King R D.Knowledge discovery in multi-label phenotype data［C］//Proc of the 5th European Conference on Principles of Data Mi-ning and Knowledge Discovery.Berlin ：Springer-Verlag，2001：42-53.

［12］Elisseeff A，Weston J.A kernel method for multi-labelled classification［C］//Proc of the 14th International Conference on Neural Information Processing Systems Natural and Synthetic，2001：681-687.

［13］Zhang Minling，Zhou Zhihua.ML-KNN：a lazy learning approach to multi-label learning［J］.Pattern Recognition，2007，40（7）：2038-2048.

［14］Kim Y.Convolutional neural networks for sentence classification［C］//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA：Association for Computational Linguistics，2014：1746-1751.

［15］Zhang Xiang，Zhao Junbo，LeCun Y.Character-level convolutional networks for text classification［C］//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，2015：649-657.

［16］Hu Haojin，Liao Mengfan，Zhang Chao，et al.Text classification based recurrent neural network［C］//Proc of the 5th IEEE Information Technology and Mechatronics Engineering Conference.Piscataway，NJ：IEEE Press，2020：652-655.

［17］Wang Ruishuang，Li Zhao，Cao Jian，et al.Convolutional recurrent neural networks for text classification［C］//Proc of International Joint Conference on Neural Networks.Piscataway，NJ：IEEE Press，2019：1-6.

［18］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2017：6000-6010.

［19］Devlin J，Chang M W，Lee K，et al.BERT：pre-training of deep bidirectional transformers for language understanding［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.Stroudsburg，PA：Association for Computational Linguistics，2019：4171-4186.

［20］Liu Huiting，Chen Geng，Li Peipei，et al.Multi-label text classification via joint learning from label embedding and label correlation［J］.Neurocomputing，2021，460：385-398.

［21］Kurata G，Xiang Bing，Zhou Bowen.Improved neural network-based multi-label classification with better initialization leveraging label co-occurrence［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.Stroudsburg，PA：Association for Computational Linguistics，2016：521-526.

［22］Chen Guibin，Ye Deheng，Xing Zhenchang，et al.Ensemble application of convolutional and recurrent neural networks for multi-label text categorization［C］//Proc of International Joint Conference on Neural Networks.Piscataway，NJ：IEEE Press，2017：2377-2383.

［23］Pal A，Selvakumar M，Sankarasubbu M.MAGNET：multi-label text classification using attention-based graph neural network［C］//Proc of the 12th International Conference on Agents and Artificial Intel-ligence.2020：494-505.

［24］Ozmen M，Zhang Hao，Wang Pengyun，et al.Multi-relation message passing for multi-label text classification［C］//Proc of ICASSP-IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2022：3583-3587.

［25］Du Cunxiao，Chen Zhaozheng，F(xiàn)eng Fuli.Explicit interaction model towards text classification［C］//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：6359-6366.

［26］Xiao Lin，Huang Xin，Chen Boli，et al.Label-specific document representation for multi-label text classification［C］//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg，PA：Association for Computational Linguistics，2019：466-475.

［27］Liu Minqian，Liu Lizhao，Cao Junyi，et al.Co-attention network with label embedding for text classification［J］.Neurocomputing，2022，471：61-69.

［28］Ying Z，You Jiaxuan，Morris C，et al.Hierarchical graph representation learning with differentiable pooling［C］//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2018：4805-4815.

［29］Boutell M R，Luo Jiebo，Shen Xipeng，et al.Learning multi-label scene classification［J］.Pattern Recognition，2004，37（9）：1757-1771.

［30］Read J，Pfahringer B，Holmes G，et al.Classifier chains for multi-label classification［C］//Proc of the 20th European Conference on Machine Learning.Berlin：Springer，2009：254-269.

［31］Yang Pengcheng，Sun Xu，Li Wei，et al.SGM：sequence generation model for multi-label classification［C］//Proc of the 27th International Conference on Computational Linguistics.Stroudsburg，PA：Association for Computational Linguistics，2018：3915-3926.

［32］Ma Qianwen，Yuan Chunyuan，Zhou Wei，et al.Label-specific dual graph neural network for multi-label text classification［C］//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.Stroudsburg，PA：Association for Computational Linguistics，2021：3855-3864.

計算機應用研究2024年2期

計算機應用研究的其它文章: 基于事件驅動深度強化學習的建筑熱舒適控制; 基于半監(jiān)督動態(tài)深度融合神經(jīng)網(wǎng)絡的軟測量; 面向運動想象腦電信號識別的多層判別字典對學習方法; 融合用戶社交關系的自適應圖卷積推薦算法; 基于線上-線下超網(wǎng)絡模型的輿論演化仿真分析; 基于GRA-GCRITIC和改進加權雙向投影的區(qū)間Fermatean模糊多屬性群決策方法