999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MSML-BERT模型的層級多標簽文本分類方法研究

2022-08-09 05:47:50劉貴全
計算機工程與應用 2022年15期
關鍵詞:分類特征文本

黃 偉,劉貴全

1.中國科學技術大學 大數據學院,合肥 230027

2.中國科學技術大學 計算機科學與技術學院,合肥 230027

3.中國科學技術大學 大數據分析與應用安徽省重點實驗室,合肥 230027

文本是當今世界最重要的信息載體之一,文本數據有很多來源,包括:網絡數據、電子郵件、日常聊天、社交媒體、票證和用戶評論等[1]。然而在信息爆炸的時代,由于文本的非結構化性質,人工處理和分類大量文本數據既耗時又具有挑戰性。此外,采用人工的方式分類文本很容易受到外界因素的影響,比如疲勞作業和缺乏專業知識。因此,隨著工業應用中文本數據規模的逐漸擴大,自動文本分類技術變得越來越重要[2]。多標簽文本分類(multi-label text classification,MTC)是自然語言處理領域中重要且經典的問題,旨在為句子、段落和文檔等文本單元分配一個或多個標簽,比如一段新聞文本,可能同時具有“財經”“體育”和“足球”等標簽[3]。

本文所要研究的是層級多標簽文本分類(hierarchical multi-label text classification,HMTC)任務,可以視為是MTC的一個特殊的子任務,但是比普通的MTC任務更具有挑戰性[4]。對于HMTC任務,文本對應的多個標簽可以組織成樹狀的層級結構。如圖1(a)所示,該圖展示了隨機的一條文本對應的層級標簽結構,圖中所有的圓圈代表語料庫中所有的標簽構成的總體標簽結構,而其中有顏色的圓圈代表該條文本對應的標簽構成了總體標簽結構中的一個子結構,即該條文本對應的標簽有“News”“Sports”“Football”“Features”“Arts”和“Movie”。本文聚焦于多路徑(Multi-path)、強制性(Mandatory)的HMTC任務,這是現實應用中最常見的場景,其中多路徑表示文本的多個標簽在層級標簽結構中具有一條或多條標簽路徑,同時強制性指不同標簽路徑的長度相等[5-6]。HMTC被廣泛地應用于問答系統[7]、電子商務中的產品歸類[8]和付費搜索營銷中的競價策略[9]等,在這些場景中文本的多個標簽通常都被組織成層級結構。

圖1 標簽層級結構以及層級建模方式Fig.1 Label hierarchy and hierarchy modeling

如何有效地利用層級結構信息是HMTC任務中最關鍵的問題[4]。許多研究在處理HMTC問題的過程中完全或者部分忽略了這種層級結構信息,導致模型整體的性能較低,尤其是在對較低層級標簽的預測上面表現不佳[10]。現有研究證明,引入層級結構信息可以提高對層級標簽的預測能力,從而提高HMTC任務的整體性能[11-12]。許多研究提出構建一系列獨立訓練并且按順序預測的局部分類器來解決HMTC問題,但是這種方式僅能實現局部最優并且會造成誤差的傳播[13-14]。最近一些研究通過引入各種結構(比如雙向樹形長短期記憶網絡或圖卷積網絡[15]、基于注意力的遞歸神經網絡[16]等)來設計端到端的全局模型,這些模型往往使用相同的模型結構來預測不同層級的標簽,忽略了不同層級和粒度的標簽之間的差異性和多樣性,影響了各層級標簽的預測性能。另外,這些模型在利用標簽結構時通常采用編碼總體層級結構信息(如圖1(b)所示)的方法,但是他們并沒有顯式和充分地建模層級依賴關系(如圖1(c)所示)以及引入了不必要的噪音,進而導致對較低層級長尾標簽的預測性能較差,并且會造成標簽不一致(Label Inconsistency)問題(一個標簽節點被預測出來,但是其對應的父節點標簽沒有被預測出來,不符合現實應用場景)[5]。

因此當前HMTC方法面臨的兩大問題為:(1)使用相同的模型結構來預測不同層級的標簽,忽略了不同層級和粒度的標簽之間的差異性和多樣性,導致對各層級標簽的預測性能較差;(2)沒有顯式和充分地建模層級依賴關系以及引入了不必要的噪音,造成對下層長尾標簽的預測性能尤其差,并且會導致標簽不一致問題。針對以上問題,本文創造性地將多任務學習(multi-task learning,MTL)架構引入HMTC任務中,并基于此提出了MSML-BERT(multi-scale multi-layer BERT)模型。該模型將標簽結構中每一層的標簽分類網絡視為一個學習任務,通過任務間知識的共享和傳遞,提高HMTC任務的總體性能。

在多任務架構的基礎之上,針對問題(1),本文設計了多尺度特征抽取模塊(multi-scale feature extraction module,MSFEM)用于捕捉不同尺度和粒度的特征,形成不同層級分類任務所需要的各種知識,以提高各層任務的預測性能;進一步,針對問題(2),本文設計了多層級信息傳播模塊(multi-layer information propagation module,MLIPM),用于充分建模層級依賴,并將上層的特征表示中關鍵的信息傳播到下層特征表示中去,從而利用上層任務的知識來幫助下層的預測任務,以提高對底層長尾標簽的預測性能,并降低預測的標簽不一致性。在該模塊中,本文設計了層次化門控機制(hierarchical gating mechanism),為了過濾不同層級任務之間的知識流動,保留有效知識而丟棄無效知識。最終,將MSML-BERT模型與目前主流的展平、局部和全局模型在經典的文本分類數據集RCV1-V2、NYT和WOS上進行了大量的對比實驗,結果顯示該模型顯著地超過其他模型。另外,通過分層表現分析,證明了該模型在所有層級的表現上均顯著地優于其他模型,尤其是對下層長尾標簽具有更好的性能。然后,通過標簽一致性分析,證明了該模型在具有強大的HMTC性能的同時,仍然保持較低的不一致比率,更加滿足現實場景的應用需求。并且,通過消融實驗證明了各個模塊的有效性。

綜上,本文的具體貢獻如下:

(1)首次將多任務學習架構引入HMTC任務中,提出MSML-BERT模型,通過各層級任務之間知識的共享和傳遞,提高HMTC任務的總體性能。

(2)設計了多尺度特征抽取模塊(MSFEM),用于捕捉不同尺度和粒度的特征,以形成不同層級任務所需要的各種知識,以提高各層級任務的表現。

(3)設計了多層級信息傳播模塊(MLIPM),用于建模層級依賴,在不同層級之間傳遞知識,以提升對下層長尾標簽的預測表現,并降低預測的標簽不一致性。在該模塊中,設計了層次化門控機制(HGM),用于過濾不同層級任務之間的知識流動。

(4)在數據集RCV1-V2、NYT和WOS上與當前的主流方法進行了大量的對比實驗,結果表明本文的方法顯著超過了其他方法。分層分析表明該方法在各層級標簽尤其是下層的長尾標簽上的表現顯著超過其他方法。通過標簽一致性分析表明該方法能保持較低的標簽不一致比率。

1 相關工作

1.1 層級多標簽文本分類

在步入大數據時代之后,隨著實際應用中將標簽體系組織成層級結構的場景越來越多,HMTC任務也因此獲得了廣泛的關注[1]。根據探索層級標簽結構方式的不同,HMTC方法主要可以分為:展平方法、局部方法和全局方法[4]。

展平方法是處理HMTC問題最簡單的方法,這種方法假設層級結構中的所有標簽都是獨立的,并統一地對所有層級的標簽進行展平的分類[10]。有些展平方法采用普通MTC的方式展平地預測所有層級的標簽,而有些展平方法只預測葉子節點標簽并啟發式地添加它們的祖先節點標簽,這是不合理的,因為層級結構信息都在一定程度上被忽略了。最近,一些神經網絡方法在文本分類任務上取得了成功。RCNN[17]模型通過使用循環神經網絡(recurrent neural network,RNN)來引入上下文信息進行后續的文本分類。Text-CNN[18]模型利用卷積神經網絡(convolutional neural network,CNN)的特征抽取能力,使用不同尺寸的卷積核提取不同粒度的特征進行后續分類。Bi-BloSAN[19]模型將文本序列分成多個塊,并分別使用塊內注意力機制和塊間注意力機制來捕捉局部和全局的上下文相關性。Peng等[20]通過修改以上經典的RCNN、Text-CNN和Bi-BloSAN等模型的輸出層結構,并將它們應用于HMTC任務。Liu等[21]修改了Text-CNN模型的結構并提出了XML-CNN模型,通過增加瓶頸隱層和動態最大池化操作,用于解決HMTC任務。

局部方法訓練一系列獨立運行的局部分類器,并且預測通常以自上而下的順序進行,因此在某一層產生的錯誤分類將會向下傳播,這很容易讓模型的預測產生偏差。Cai等[11]將支持向量機(support vector machine,SVM)擴展成為層級分類方法,該方法以反映層級標簽結構的方式構建判別函數,稱為HSVM模型。Ruiz等[22]提出HME模型,采用分而治之的原則,為標簽結構的每一層單獨構建分類器來處理。Bi等[23]提出CSSA模型,通過貝葉斯最優化的方式進行預測以降低總體風險,但是該模型仍然是以局部的方式進行訓練的。Cerri等[24]提出HMC-LMLP模型,該模型通過增量訓練的方式訓練一組神經網絡,每個神經網絡負責預測給定層級的標簽類別。

全局方法使用單個分類器并且更顯式地對標簽層次結構進行建模,模型通常采用端到端的方式訓練并且對所有標簽進行一次性地預測。Vens等[12]提出了Clus-HMC模型,該模型基于樹方法,使用單個決策樹(decision tree)來處理整個標簽層級結構。Borges等[25]提出使用競爭性神經網絡(competitive neural network)來解決多標簽分類,稱為MHC-CNN模型。Huang等[16]提出HARNN模型,通過使用分層注意力機制來捕捉文本和標簽層級結構之間的關聯,逐層地預測文本的多個標簽。Zhou等[15]利用雙向樹形長短期記憶網絡(bidirectional tree long short-term memory,Bi-TreeLSTM)和圖卷積網絡(graph convolutional network,GCN)結構來建模層次關系,并且對層級的標簽進行展平化的預測。Peng等[20]提出HE-AGCRCNN模型,通過聯合使用CNN、RNN、GCN和Capsule network結構來建模層次關系,進而提高HMTC任務的性能。

1.2 多任務學習

多任務學習受到人類學習過程的啟發,旨在用有限的標記數據,借助于公共知識來提高多個相關任務的泛化性能[26-27]。

隨著深度學習的蓬勃發展,近期的多任務學習方法主要分為兩類:硬參數共享方法和軟參數共享方法。其中,在硬參數共享方法中,每個任務的模型由共享層和任務特定層兩個部分組成,共享層用于學習和共享通用的知識和表征,而任務特定層用于彌補不同任務之間的差異以及提高不同任務的泛化性[28]。而在軟參數共享方法中,不同的任務擁有獨立的模型,并且使用正則化的方法作用于不同模型參數之間的距離上,以使得相似任務的模型參數也相似[29]。

多任務學習在現實世界的任務中有很多的應用,比如在自然語言處理領域[30]、計算機視覺領域[31]等。多任務學習還與其他領域的知識相結合,產生了多任務多視角學習[32]、多任務強化學習[33]等。由于在HMTC任務中,不同層級的分類任務之間往往既存在共性又存在差異性,因此本文首次提出將多任務學習方法應用于HMTC任務中,將標簽層級結構中每一層的標簽分類問題都視為一個單獨的任務去處理。本文采取的多任務學習方法是硬參數共享方法,模型包括共享層和任務特定層。本文提出的MSML-BERT模型借助于多任務學習的優勢,以提高不同層分類任務的表現,同時提高HMTC任務整體的性能和泛化性。

2 基于MSML-BERT模型的層級多標簽文本分類方法

首先,給出HMTC任務的問題定義:語料庫中的所有標簽組織成一個總體的標簽層級結構,將該結構定義為T,一共有L層。語料庫中所有標簽組成一個標簽集合S。任意一條文本作為模型的輸入,定義為X。該條文本對應的標簽集合定義為Y,該條文本對應的不同層的標簽子集合分別定義為Y1,Y2,…,Y L。HMTC任務的目的是:設計一個模型,在給定任意一條文本輸入X的情況下,預測出該條文本對應的標簽集合Y,并且該標簽集合Y中的多個標簽要盡量滿足標簽結構T的約束。在MSML-BERT模型中,將任意一個神經網絡定義為f(θ),其中θ為待估參數。

如圖2所示,MSML-BERT模型是一個多任務學習的架構,包括共享層和任務特定層。其中BERT模型充當了整體模型的共享層,用于學習和共享通用的特征和知識。而不同層級的標簽分類網絡構成了不同的任務特定層,用于彌補不同任務之間的差異,并且學習每一個任務特定的特征表示。

圖2 MSML-BERT模型的總體結構Fig.2 Entire architecture of MSML-BERT

進一步地,任務特定層包括了多尺度特征抽取模塊(MSFEM)和多層級信息傳播模塊(MLIPM)。

其中MSFEM用于根據不同層分類任務的需求,捕捉不同尺度的特征。而MLIPM用于將上層特征表示中有價值的信息傳遞到下層表示,幫助下層的標簽分類任務,進而提升HMTC任務的整體性能。

2.1 模型共享層(Shared Layer)

本文采用預訓練BERT[34]模型來作為MSML-BERT模型的共享層部分。BERT模型由堆疊了12層的Transformer Encoder[35]結構組成。Transformer Encoder結構主要包括兩個子層:多頭自注意力機制(multi-head self-attention mechanism)和前饋網絡(feed-forward networks)。并且為了使模型能夠有效地訓練和加速收斂,在每個子層后面采用了殘差連接(residual connection)和層歸一化(layer normalization)的操作。通過多個Transformer Encoder結構的不斷堆疊,BERT最終能夠輸出一個結合上下文信息的高級語義表征。然后,會將該語義表征傳入后續不同的任務特定層進行處理,以用于不同層的分類任務。

2.1.1 Transformer Encoder結構

Transformer Encoder結構是BERT模型的基本組成單元,其基本結構如圖3所示。每個Transformer Encoder結構包含兩個子層:多頭自注意力機制和前饋網絡。同時,為了模型能夠有效地訓練和加速收斂,每個子層后面還采用了殘差連接和層歸一化的操作。

圖3 Transformer Encoder結構Fig.3 Structure of Transformer Encoder

2.1.2 多頭自注意力機制

在文本分類中,自注意力機制是一種非常有效的方法,通過分配不同的權重來突出文本語義表征中的不同部分。首先,將輸入的文本X分別映射為矩陣Q、K和V,然后自注意力機制計算如下:

公式(1)是單頭自注意力機制的計算過程,然而通常使用多頭自注意力機制進行并行計算,用于捕捉不同維度的文本特征,計算方式如下:

其中W Qi、W Ki、W Vi和W O都是系數矩陣,head i表示第i頭的自注意力計算結果。

2.1.3 前饋網絡

除了多頭注意力機制,Transformer Encoder結構還包括前饋網絡子層。該子層由兩個線性變換組成,并且在兩次線性變換中間穿插一個relu激活函數:

其中,W1和W2為系數矩陣,b1和b2為偏置項。前饋網絡能夠增強Transformer Encoder的非線性擬合能力。

2.1.4 殘差連接和層歸一化

殘差連接最先由計算機視覺領域提出,用于解決深層神經網絡的梯度消失問題[36]。層歸一化是跨特征維度進行歸一化計算,為了讓深層神經網絡的數據分布更加穩定[37]。

因為BERT模型是由多層堆疊的Transformer Encoder構成的,并且每層結構中又包括多頭注意力機制和前饋網絡子層,因此BERT的模型結構非常深,所以采用了殘差連接和層歸一化操作來防止梯度消失,同時也避免每一層數據分布不穩定的情況。公式如下:

其中,Sublayer表示自注意力機制或者前饋網絡子層,Layer Norm表示層歸一化操作,x表示子層的輸入,y表示經過殘差連接和層歸一化操作之后的輸出。

2.2 任務特定層(Task-specific Layers)

共享層的BERT模型輸出一個通用的高級語義表示,隨后會將該語義表示傳入后續不同的任務特定層進行處理,以用于不同層的分類任務。根據層級標簽結構的層數構建任務特定層,將每一層的標簽分類問題都視為一個單獨的任務。

任務特定層包括了MSFEM和MLIPM。一方面,MSFEM采用不同尺寸的CNN來捕捉多尺度的深層次結構特征,然后不同尺度的特征將用于不同層的標簽的分類任務。并且CNN的計算可以并行化,運算速度快,將CNN用在不同的任務特定層中以提高各層任務的分類性能。另一方面,受到用于優化推薦任務的個性化特征門控機制的啟發[38],本文設計了一個層次化門控機制(hierarchical gating mechanism,HGM)。MLIPM通過使用HGM,將上層任務中有價值的信息和有用的特征傳遞到下層任務中,同時丟棄那些冗余的特征。

2.2.1 多尺度特征抽取模塊(MSFEM)

已知任意一條文本X經過共享的BERT層,得到該條文本的通用特征表示E∈?n×d,其中n表示輸入文本的長度,d表示文本中每一個字向量的維度。

其中,E i∈?d表示文本中第i個字對應的字向量,E i:i+j表示字向量E i,E i+1,…,E i+j的拼接。

在通用文本表征E的基礎上,MSFEM為不同層級的分類任務抽取多尺度的特征。該模塊針對層級結構的不同層次,采用不同尺寸的一維卷積核作用于通用文本表征E,一維卷積核的高度與字向量的維度d相同,但是不同層級對應的一維卷積核的寬度不同。第l層的一維卷積核的寬度為h l(1≤l≤L),且滿足h1>…>h l>…>h L。對于較上的層級采用較寬的一維卷積核提取粗粒度特征,對于較下的層級采用較窄的一維卷積核提取細粒度特征。

對于標簽結構的第l層,采用K個寬度為h l的一維卷積核作用于文本表征E上以提取特征圖M l,具體過程如公式(7)~(9)所示:

其中,W lk是標簽結構中第l層所對應的第k個(1≤k≤K)一維卷積核權重矩陣,該一維卷積核作用于字向量窗口E i:i+hl-1產生一個新特征r i,其中b是偏置項,relu是激活函數。一維卷積核作用于每一個可能的字向量窗口上得到特征向量R,多個特征向量組合得到第l層對應的特征圖M l。

最大池化操作作用于特征圖M l中的每一個特征向量R i,得到相應最顯著的特征r?i。最終,將所有顯著的特征拼接,得到對應層級結構中第l層的獨立特征表示為F′l,具體公式如下:

至此,MSFEM為層級結構的每一層產生一個獨立的特征表示F′l,用于該層的分類任務。

2.2.2 多層級信息傳播模塊(MLIPM)

上文通過MSFEM學習的文本在各個層級的特征表示F′l是相互獨立的。根據文獻[6]可知,同屬于一個父類的類別共享某些公共的特征和信息,低層級的特征表示應該包含某些高層級的表示信息。因此,本文設計了MLIPM,將上層特征表示中有價值的信息傳遞到下層,通過將上層的某些特征信息與本層特征信息融合以產生本層的層次化表征,用于本層的分類任務。MLIPM塊中采用了一個層次化門控機制(HGM),用來決定哪部分上層特征表示被保留到下層表示中,同時決定哪部分上層特征表示被舍棄。因此,第l層最終的層次化特征表示F l,應該由本層的獨立特征表示F′l和上一層的層次化特征表示F l-1聯合決定,具體計算過程如下:

其中,HGM表示層次化門控機制(hierarchical gating mechanism)。

具體來說,對于上層的層次化特征表示F l-1,下層的獨立特征F′l表示只關注其中的有效特征部分,而忽略其他沒有價值的信息。因此,HGM可以根據本層獨立特征表示F′l的需求來量身定制地選擇繼承上層的層次化特征表示F l-1中有價值的那部分信息。如圖4所示,HGM以上一層的層次化特征表示F l-1和本層的獨立特征表示F′l作為輸入,以本層最終的層次化特征表示F l作為輸出。其中H Gating表示層次化門控單元,?表示逐元素乘法,⊕表示拼接操作。

圖4 HGM的結構Fig.4 Structure of HGM

HGM的具體計算過程如下:

其中,W l-1和W l為權重參數矩陣,b為偏置項,σ為sigmoid激活函數。通過將W l-1和W l分別作用于F l-1和F′l并且通過sigmoid激活函數得到相應的門控分數。進一步,上層的層次化特征表示F l-1在門控分數的作用下生成中間表示F*l-1。最后,將上層對應的中間表示F*l-1與本層的獨立的特征表示F′l拼接,從而得到最終的第l層的層次化特征表示F l。

2.2.3 模型輸出

本文采用多任務學習的框架來處理HMTC任務,將每一層的多標簽分類視為是一個任務。對于第l層的多標簽分類任務,層次化特征表示F l首先被送入一個全連接層,如下公式所示:

其中,Wo表示全連接層的系數矩陣,b o表示偏置項,relu表示非線性激活函數,O l表示第l層對應的全連接層的輸出。

最后,將第l層的全連接層輸出O l逐元素地送入sigmoid激活函數進行輸出,如下:

其中,σ表示sigmoid激活函數,表示層級結構中第l層的第j個類別的輸出概率。

因此,第l層的損失函數可以定義為:

其中,ylj是層級結構中第l層的第j個類別的期望輸出,|l|表示層次結構中第l層的總的類別數目。

MSML-BERT模型的總損失Ltotal為所有層的分類任務的損失之和,如下所示:

3 實驗

3.1 實驗準備

3.1.1 數據集和數據預處理

選擇了三個經典的文本分類公開數據集用于HMTC實驗,包括:RCV1-V2(reuters corpus volume I)數據集[39]、NYT(the New York Times annotated corpus)數據集[40]和WOS(Web of science)數據集[14]。其中,RCV1-V2數據集和NYT數據集都是新聞文本語料庫,而WOS數據集包括來自Web of Science的已經發表論文的摘要。這些數據集的標簽都組織成樹狀的層級結構。

根據前文,專注于多路徑和強制性場景的HMTC任務,因此需要對這幾個數據集做一定的預處理[6]。對于RCV1-V2和NYT數據集,選擇滿足多路徑和強制性要求的那部分數據,即層級標簽結構具有一條或者多條路徑,并且不同路徑的長度都等于3。由于WOS數據集本身就滿足強制性需求,不需要對其進行預處理,但是需要注意WOS數據集對應的層級標簽結構中路徑的長度為2。然后隨機地將這些數據集劃分成訓練集、驗證集和測試集。相關數據的統計信息詳見表1。

表1 數據集的統計信息Table 1 Statistics of datasets

3.1.2 評價指標

選取用于HMTC任務中常用的評價指標Micro-F1值和Macro-F1值[15],來衡量各個模型的表現。

(1)Micro-F1值

Micro-F1值是考慮到所有標簽的整體精確率和召回率的F1值。用TPt、FP t、FN t分別表示總體標簽集合S中第t個標簽的真陽性、假陽性、假陰性。那么Micro-F1值的計算如下所示:

(2)Macro-F1值

Macro-F1值是另一種F1值,它計算標簽結構中所有不同的類別標簽的平均F1值。Macro-F1賦予每個標簽相同的權重。形式上,Macro-F1值定義如下:

總的來說,Micro-F1值對所有的樣本進行均等加權,而Macro-F1值對所有的標簽進行均等加權。由于Micro-F1值對出現更頻繁的標簽賦予更大的權重,Macro-F1對所有標簽賦予相同的權重,因此Macro-F1值對更難預測的底層標簽更加敏感。

3.1.3 實驗設置

MSML-BERT模型中共享層部分采用的是BERTbase模型[34]。BERT-base中包含的參數量約為109×106。BERT-base中有12層Transformer Encoder結構,每層的嵌入維度為768,前向層維度為3 072,注意力頭數為12。在訓練(training)和推理(inference)階段,BERT編碼器的最大長度設置為300。MSML-BERT模型在訓練階段的總損失是每個層級任務的損失之和,每個任務的損失的系數均設置為0.3。本文在訓練MSML-BERT模型時選擇Adam優化器,并將學習率設置為3×10-4,將batch size設置為15。其他的一些諸如dropout比率,權重衰減率等超參數的設置與原始預訓練模型保持一致。本文使用Pytorch框架來實現MSML-BERT模型,并在GeForceRTX 2080 TiGPU上面進行實驗。

3.2 實驗結果

本文提出的MSML-BERT模型與其他目前主流的模型在RCV1-V2、NYT和WOS數據集上進行了詳細的實驗對比,具體的實驗結果如表2和表3所示。選擇的基線方法包括展平方法、局部方法和全局方法。其中展平方法包括RCNN模型[17]、Text-CNN模型[18]、Bi-BloSAN模型[19]和XML-CNN模型[21],局部方法包括HSVM模型[11]、HME模型[22]、CSSA模型[23]和HMC-LMLP模型[24],全局方法包括Clus-HMC模型[12]、MHC-CNN模型[25]、HARNN模型[16]、HiAGM模型[15]和HE-AGCRCNN模型[20]。為了更加明確地對比不同方法的性能,表2和表3中的每一類方法都按照性能由低到高的順序排列。

表2 Micro-F1指標上的表現Table 2 Performanceon Micro-F1

表3 Macro-F1指標上的表現Table 3 Performance on Macro-F1

所有模型在Micro-F1指標上的實驗結果如表2所示,在三個文本分類公開數據集上,本文提出的MSMLBERT模型相比其他所有的展平方法、局部方法和全局方法均取得了更好的表現,這體現了MSML-BERT模型在解決HMTC問題上的優越性。MSML-BERT模型在RCV1-V2、NYT和WOS數據集上面取得的最好的Micro-F1值表現分別為81.8%、75.4%和85.5%,這說明了MSMLBERT模型在充分挖掘了層級標簽結構,通過建模層次依賴有效地提升了HMTC任務的整體性能。

所有模型在Macro-F1指標上的實驗結果如表3所示,取得了與Micro-F1指標上相一致的結論,即MSMLBERT模型在Macro-F1值指標上超過了其他所有的展平方法、局部方法和全局方法。MSML-BERT模型在RCV1-V2、NYT和WOS數據集上面取得的最好的Macro-F1值表現分別為59.7%、50.6%和62.9%。該模型在Macro-F1指標上取得了巨大的提升,結合Macro-F1指標對稀疏標簽更加敏感的特性,可知MSML-BERT模型在預測下層的稀疏標簽上具有更大的優勢,這是因為本文的模型通過對層級依賴的建模,利用了從上層學到的知識來幫助下層標簽的預測。

3.3 性能分析

首先,本文進一步做了消融實驗來分別驗證MSFEM和MLIPM的有效性。接著,本文做了模型的分層表現分析來進一步探究模型在不同層級上面的具體表現。最后,本文做了模型預測的標簽一致性分析,來驗證模型是否符合現實應用場景的需求。

3.3.1 消融實驗

本文使用MSML-BERT在RCV1-V2數據集上面做了消融實驗分析,實驗結果如表4所示。在表4中,BERT表示采用普通MTC的方式,直接使用BERT模型統一對所有層級的標簽進行一次性的展平分類;MS-BERT相比BERT多了MSFEM,表示采用多任務架構,分別處理每一層的標簽分類任務,使用MSFEM抽取多尺度的特征,用于不同層的標簽分類任務;MSMLBERT即是本文提出的最終模型,在MS-BERT的基礎之上又多了MLIPM,該模塊用于將上層中的有效信息傳播到下層,以幫助下層的標簽分類任務。

表4 MSML-BERT模型的消融分析Table 4 Ablation analysis of MSML-BERT

表4的前兩行說明了MSFEM的有效性。通過MSFEM,模型可以捕捉不同層分類任務所需要的多尺度的特征,使得模型能夠充分挖掘層級結構的信息。因此,該模塊提高了每一個層級的分類性能,進而提升HMTC任務整體的表現。該模塊使得模型的Micro-F1指標和Macro-F1指標分別提高了0.9和1.6個百分點。

類似地,表4的后兩行說明了MLIPM的有效性。借助于MLIPM,模型將上層表征中的有效信息傳播到下層表征中去,然后對不同層級的多尺度特征做充分的融合,使得模型能夠很好地建模層次依賴關系。借助于該模塊,模型提高了下層標簽的預測表現,同時也提高了整體任務的性能。該模塊使得模型的Micro-F1指標和Macro-F1指標分別提高了2.3和1.9個百分點。

3.3.2 分層表現分析

在HMTC任務中,除了預測整個標簽層級結構中的所有標簽,準確地預測每個層級的標簽類別也同樣重要。因此,本文在每個層級上都將MSML-BERT模型與其他模型的表現做了對比。實驗在RCV1-V2數據集上進行,并且選用對模型表現更敏感的Macro-F1值作為對比指標。

關于不同層級的表現,本文將所提出的方法與表2、表3中的所有展平方法、局部方法和全局方法進行了對比,結果顯示本文提出的MSML-BERT模型在每個層級上都獲得了最好的表現并且顯著地優于其他模型。由于其他方法的分層表現比較接近,在圖上顯示比較密集,為了獲得更加清晰的視圖,本文在對比的展平方法、局部方法和全局方法中分別選取兩種在分層性能上表現最好的方法展示于圖中,詳細結果見圖5。該圖顯示,MSML-BERT在標簽結構的所有層級上的Macro-F1值表現都優于其他方法,這是因為MSML-BERT模型相比其他模型更加充分挖掘了層級結構信息,同時也因為MSML-BERT模型建模了層級依賴關系。

圖5 模型在不同層級上的表現Fig.5 Model performance in different layers

此外,圖5顯示隨著層次的深入,MSML-BERT模型與其他模型之間的差距也越來越大。這說明隨著層級的增長,標簽預測變得越來越困難,MSML-BERT利用從上層表征中學習到的知識來幫助下層長尾標簽分類的策略變得越來越有價值。

3.3.3 標簽一致性分析

標簽不一致問題是HMTC任務中的一個嚴重的問題,因為它違反了實際應用場景的需求,但是標簽不一致很難被諸如Micro-F1值的這種標準評價指標所反映出來[5]。標簽不一致經常發生在那些采用統一的方式處理不同層的標簽分類任務的方法中,這些方法往往采用統一的方式處理不同層級的標簽分類任務,獨立地預測所有標簽,一定程度上忽略了標簽層級結構信息,因此會導致標簽不一致性的出現。

現有研究中通常使用標簽不一致比率來衡量標簽不一致性,標簽不一致比率為具有不一致標簽的預測數與總預測數的比例。值得一提的是,本文提出的MSML-BERT模型在具有出色的分類性能的同時,也保持了較低的標簽不一致比率,使得標簽不一致比率顯著低于其他方法。本文在RCV1-V2數據集上做了MSML-BERT與其他模型的標簽不一致性對比實驗。實驗結果表明MSML-BERT模型與其他所有的對比模型相比,具有最低的不一致比率,為了表格更加簡潔,本文在對比的展平方法、局部方法和全局方法中分別選取兩種不一致率最低的方法展示于表格中,實驗結果詳見表5。這是因為該模型分別把每一層的標簽分類問題當做一個單獨的任務去處理,同時本文在處理當前層任務的時候,也會結合使用其他層的信息,因此能夠獲得較低的標簽不一致比率。

表5 標簽不一致比率Table 5 Label inconsistency ratio

4 結束語

本文首次將多任務學習框架引入HMTC任務中,并提出了MSML-BERT模型,通過各層級任務之間知識的共享和傳遞,提高模型在HMTC任務上的整體性能。基于此,設計了多尺度特征抽取模塊,用于捕捉不同粒度和尺度的特征,形成不同層任務所需的知識,以提高各層級任務的性能。同時設計了多層級信息傳播模塊,用于充分建模層級依賴信息,將上層任務的知識傳遞到下層任務中,以提升對底層長尾標簽的預測性能。在RCV1-V2、NYT和WOS數據集上進行了大量的實驗,結果顯示該模型的整體性能顯著超過其他模型。分層表現分析顯示該模型在各層標簽尤其是底層長尾標簽上的表現顯著優于其他模型。標簽一致性分析表明本文方法具有更低的標簽不一致比率,具有更好的現實應用價值。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 欧美一级大片在线观看| 精品无码人妻一区二区| 国产视频欧美| 亚洲欧美综合在线观看| 91日本在线观看亚洲精品| 依依成人精品无v国产| 91午夜福利在线观看精品| 亚洲无码37.| 热re99久久精品国99热| 无码电影在线观看| 国产精品一线天| 成人伊人色一区二区三区| 日韩精品一区二区三区大桥未久 | 久久综合丝袜长腿丝袜| 在线观看免费黄色网址| 在线综合亚洲欧美网站| 亚洲AV永久无码精品古装片| 国产黄色爱视频| 素人激情视频福利| 伊人大杳蕉中文无码| 毛片视频网址| 欧美在线观看不卡| 欧美在线免费| 国产色婷婷| 亚洲日韩欧美在线观看| 国产毛片高清一级国语 | 亚洲中文无码av永久伊人| 午夜国产精品视频| 色婷婷亚洲综合五月| 中文字幕在线观| 成人久久精品一区二区三区| 久久人午夜亚洲精品无码区| 日韩a级片视频| 国产伦精品一区二区三区视频优播| 在线亚洲精品福利网址导航| 欧美怡红院视频一区二区三区| 99视频在线观看免费| 一本久道久久综合多人| 无码在线激情片| 国产在线97| 久久国产精品娇妻素人| 国产精品七七在线播放| 国产成人福利在线视老湿机| 国产簧片免费在线播放| 亚洲第一视频网站| 色呦呦手机在线精品| 香蕉eeww99国产在线观看| 国产精品黄色片| 久久黄色影院| 国产视频一区二区在线观看| 2022精品国偷自产免费观看| 日韩精品中文字幕一区三区| 欧美日本二区| 久久精品无码中文字幕| 亚洲欧美一区二区三区图片| 亚洲欧美人成电影在线观看| 中国毛片网| 四虎综合网| 最新午夜男女福利片视频| a级毛片毛片免费观看久潮| 国产成人高清亚洲一区久久| 日韩天堂在线观看| 亚洲国产天堂在线观看| 久久精品人人做人人综合试看| 国产在线日本| 国产丝袜第一页| 国产成人综合亚洲欧美在| 国产91透明丝袜美腿在线| 日韩福利视频导航| 波多野结衣中文字幕一区| 欧美精品亚洲二区| 中文字幕免费在线视频| 成年人免费国产视频| 亚洲成人在线免费观看| 99久久亚洲综合精品TS| 亚洲精品第一页不卡| 呦系列视频一区二区三区| 国产亚洲精品yxsp| 亚洲国产高清精品线久久| 91区国产福利在线观看午夜| 日韩高清成人| 亚洲综合二区|