基于循環(huán)卷積多任務(wù)學習的多領(lǐng)域文本分類方法

2021-08-26 08:10:20謝金寶李嘉輝康守強王慶巖王玉靜

電子與信息學報 2021年8期

謝金寶李嘉輝康守強王慶巖王玉靜

①(廣東科學技術(shù)職業(yè)學院機器人學院珠海 519090)

②(哈爾濱理工大學電氣與電子工程學院哈爾濱 150000)

1 引言

文本分類是自然語言處理中一項重要的基礎(chǔ)工作[1]，具有廣泛的應(yīng)用場景，例如垃圾郵件過濾、商品情感分類等。過去使用傳統(tǒng)的機器學習方法進行文本分類。近年來，循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Netword,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等深度學習網(wǎng)絡(luò)在文本分類任務(wù)中取得了很好的進展[2]。與傳統(tǒng)方法不同的是，深度學習方法能自主學習文本的深層語義特征。長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是一種改進的RNN，可以有效地捕獲文本的上下文信息，CNN能夠捕獲文本的局部特征。為每個領(lǐng)域的文本訓練效果好的分類模型需要大量標記樣本，由于手工注釋是很耗時的，因此很難獲得。為解決此問題，很多研究者采用域適應(yīng)方法[3]有效利用標簽數(shù)據(jù)進行文本分類。遷移學習過程中，當源域和目標域數(shù)據(jù)分布不同但任務(wù)相同時，這種特殊的遷移學習為域適應(yīng)學習。在文本分類任務(wù)中，一個領(lǐng)域的數(shù)據(jù)不足時，利用資源豐富的源域?qū)W習到的知識去學習，減少領(lǐng)域之間的差異，提高領(lǐng)域文本分類的準確率。不同的是，假設(shè)每個領(lǐng)域的標記數(shù)據(jù)不足以訓練出一個準確的單一領(lǐng)域情感分類器。我們研究多任務(wù)學習方法[4]，從多個領(lǐng)域中提取共享的特征，把各個任務(wù)的信息利用起來，使用有限的標記樣本訓練一個比單一領(lǐng)域分類器性能更好的分類器。Liu等人[5]開發(fā)出一種結(jié)合語義分類和信息檢索任務(wù)的多任務(wù)學習模型，采用詞袋模型會丟失很多語義信息，共享一個深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)隱藏層很難得到文本的高層次語義信息。主流的多任務(wù)學習模型采用LST M獲取文本表示[6,7]，但他們僅僅使用LSTM的最后一個隱藏層的輸出作為文本的特征表示，會導致文本特征被文本末尾單詞所主導，丟失很多關(guān)鍵的信息。常見的多任務(wù)學習模型有完全共享模型和共享私有模型。完全共享模型是多個任務(wù)共享一個模型提取共享特征；共享私有模型則是多個任務(wù)通過共享一個模型提取共享特征，同時每個任務(wù)輸入到一個私有層提取特定任務(wù)的特征，再將兩種特征融合起來，這樣會對內(nèi)存和時間造成更大的消耗。

基于以上結(jié)論，本文提出一個基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)學習模型，本文方法中不同領(lǐng)域的文本在一個多任務(wù)學習模型中聯(lián)合訓練，能夠利用不同領(lǐng)域中的文本信息。考慮時間和內(nèi)存問題，本文采用完全共享模式，利用一個共享層提取特征，把相關(guān)任務(wù)的數(shù)據(jù)信息利用起來學習，而不相關(guān)的部分可以作為噪聲提升泛化效果。為了更全面地挖掘文本特征，共享模型通過LSTM層獲取文本的長短期依賴，再通過CNN層利用不同窗口的卷積核提取句子不同位置的n-gram特征，還可以將LSTM的所有隱藏層輸出利用起來，不至于被最后一個單詞所主導。模型可以將多任務(wù)學習與LSTM,CNN兩種深度學習網(wǎng)絡(luò)的優(yōu)勢結(jié)合起來。為了評估本文所提模型性能，本文的實驗數(shù)據(jù)集為：亞馬遜的多領(lǐng)域情感分類數(shù)據(jù)集和電影情感分類數(shù)據(jù)集。實驗結(jié)果表明，本文所提模型優(yōu)于單任務(wù)深度學習模型和主流的多任務(wù)學習模型，能夠有效地對多領(lǐng)域文本情感進行分類。

2 相關(guān)工作

2.1 深度學習方法

RNN在一個固定大小的隱藏層中逐字逐句分析文本，保留前面的文本。LSTM作為一種改進的RNN模型可以提取文本的長期依賴關(guān)系，并解決傳統(tǒng)RNN存在的梯度消失問題[8]。LSTM在文本預(yù)測和情感分類等序列任務(wù)中取得了不錯的效果。CNN最初是為計算機視覺設(shè)計的。CNN利用具有卷積濾波器的層去提取局部特征，在圖像分類[9]等計算機視覺任務(wù)中已經(jīng)相當成熟，在文本分類等自然語言處理任務(wù)中也取得了不錯的進展。Kim[2]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類，提出了一個具有不同窗口大小濾波器的CNN架構(gòu)。Kalchbrenner等人[10]提出了動態(tài)卷積神經(jīng)網(wǎng)絡(luò)得到句子的特征表示。他們在不進行任何特征工程的情況下，實現(xiàn)了文本分類任務(wù)的高性能，證明了模型的有效性。

2.2 多任務(wù)學習

近年來，基于深度學習的多任務(wù)學習模型在自然語言處理領(lǐng)域變得非常流行[11]，它們提供了一種方便的方式來組合來自多個任務(wù)的信息。Collobert等人[12]用多任務(wù)學習處理詞性標注、命名體識別、語義角色標注等幾個傳統(tǒng)的自然語言處理任務(wù)，只有查找表部分是共享的。在多個領(lǐng)域的文本分類任務(wù)中，早期有一些基于分類器組合的研究[13]。在這些方法中，每個領(lǐng)域訓練的分類器使用不同的組合方案進行組合。他們的方法沒有學習到更高層次的語義信息。Liu等人[6]基于LSTM設(shè)計了多任務(wù)學習模型，采用了兩個多任務(wù)共享方式，分別是完全共享方式和共享私有方式。有研究者也在不斷地研究新的多任務(wù)共享方式，去決定多個任務(wù)是如何共享的，比如外部記憶共享模型由多個任務(wù)共享的外部內(nèi)存來增強神經(jīng)模型[14]；圖多任務(wù)學習框架可以將不同的任務(wù)有效地進行通信[15]；領(lǐng)域注意機制模型將所有領(lǐng)域的文本共享一個LSTM模型，再以每個領(lǐng)域的表示作為注意力從共享表示中提取與某領(lǐng)域中最相關(guān)的特征[16]。

3 提出的模型

本文提出一種用于文本分類的循環(huán)卷積多任務(wù)學習模型(Recurrent Convolution Multi-Task Learning,MTL-RC)，此模型將不同任務(wù)在一個共享深度學習模型中訓練，共享模型將循環(huán)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合可以從這兩種結(jié)構(gòu)中受益。本模型將不同領(lǐng)域的文本輸入共享模型中，最后輸入不同的Softmax層輸出分類結(jié)果，模型包括輸入層、詞嵌入層、共享深度學習網(wǎng)絡(luò)層和輸出層。模型結(jié)構(gòu)如圖1所示。

圖1 MTL-RC多任務(wù)學習模型

3.1 輸入層

3.2 詞嵌入

考慮到每條訓練樣本的長度不同，為了保持維度大小一致，通常在詞嵌入前通過取長補短把每條樣本的長度變成相同的。把其中一個任務(wù)的一條數(shù)據(jù)的單詞列表表示為xm=(x1,x2,···,xn)，其中n為一個樣本單詞的數(shù)量，xt為這段文本中的第t個單詞，所有的單詞都來自詞匯表V中。在輸入到模型之前，通過詞向量矩陣W ∈R d×|V|將單詞轉(zhuǎn)變?yōu)樵~向量，其中|V|為詞匯表中單詞的數(shù)量，d為詞向量的維度。詞嵌入后每一條數(shù)據(jù)變?yōu)?維向量X∈R d×n。

3.3 共享LSTM和CNN層

以兩個任務(wù)為例，把兩個任務(wù)文本詞向量輸入到共享LSTM層中，僅僅以LSTM的最后一個隱藏層作為文本表示，不能獲取豐富的語義信息，如圖2所示。

圖2 共享LSTM層

本文將每一個任務(wù)的文本生成詞向量后，都要經(jīng)過一個由LSTM和CNN組成的共享層，LSTM是一種鏈式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用來傳播歷史信息，CNN則是采用多個卷積核并行地提取文本的局部特征，LSTM和CNN結(jié)合起來可以更加全面地提取文本的深層語義特征。共享LSTM和CNN層如圖3所示。下面主要介紹這兩個深度學習網(wǎng)絡(luò)層。

圖3 共享LSTM和CNN層

3.3.1 LSTM層

LSTM對歷史信息帶有記憶功能，能夠在長的序列中有好的表現(xiàn)[8]。相比RNN只有一個傳遞狀態(tài)，LSTM有兩個傳輸狀態(tài)，分別是細胞狀態(tài)ct、隱藏層狀態(tài)ht。雖然提出了很多LSTM變體，考慮模型的訓練時間，在這項工作中采用標準的LSTM結(jié)構(gòu)。

LSTM的核心思想是利用記憶細胞和門機制管理，其中令xt為當前時間步的輸入，ht–1為上一時刻隱藏層的輸出，每一個LSTM單元包括3個門，分別是遺忘門ft、輸入門it、輸出門ot。而這3個門的作用就是決定如何更新細胞狀態(tài)ct、隱藏層狀態(tài)ht。LSTM每個時間步的計算公式為

上述公式中，W表示權(quán)重矩陣，b表示偏置值。σ是sigmoid函數(shù)，輸出在[0,1]之間，tanh是雙曲正切函數(shù)，輸出在[–1,1]之間，所有門的值和隱藏層的輸出值在[0,1]之間。

3.3.2 CNN層

LSTM的輸出矩陣作為卷積層的輸入，使用一個包括濾波向量的1維卷積在序列上滑動并在不同的位置檢測特征。卷積核的寬度與LSTM輸出特征向量的維度一樣，本文使用不同窗口的多個卷積核提取豐富的文本局部特征。讓hi∈Rd為LSTM輸出矩陣的第i個d維向量，F(xiàn)∈Rk×d代表一個濾波器的矩陣。這樣，一個特征被表示為

其中，f為非線性激活函數(shù)，本文使用ReLU,b為偏置項。

經(jīng)過卷積操作后，可以得到一個n–k+1維的向量C，形如

在卷積層后進行池化操作，池化的特點之一就是固定卷積后矩陣維度的大小，還能降低輸出結(jié)果的維度。本文使用了最大池化得到特征向量中最大的值，以這種方式，對于每個卷積核，得到了最顯著的特征

經(jīng)過池化之后，還需將不同卷積核得到的特征值拼接起來，得到最終的特征向量，表示為

3.4 輸出層

最后一層是輸出層，每一個任務(wù)的文本表示分別輸入到特定任務(wù)的Softmax層中，進行情感分類。一共有k個任務(wù)，因此要輸入到k個Softmax層中，令m為其中的第m個任務(wù)，利用Softmax函數(shù)計算第m個任務(wù)的樣本每一個情感類別的概率，表示為

其中，W為要學習的權(quán)重，b為偏置，C為樣本情感分類的類別數(shù)。

更新網(wǎng)絡(luò)參數(shù)不斷地最小化交叉熵損失值，某任務(wù)中某個樣本的損失值表示為

4 實驗

4.1 實驗設(shè)置

為了驗證本文所提模型，采用由王鑫等人[9]收集的16個不同的情感分類數(shù)據(jù)集。其中14個數(shù)據(jù)集是來自不同領(lǐng)域的亞馬遜商品評論，包括books,electronics,DVD,kitchen,appearel,camera,health,music,toys,video,baby,magazines,software,sports，目的是把商品評論情感分為積極的和消極的，這些數(shù)據(jù)集是根據(jù)Blitzer等人[3]的數(shù)據(jù)集收集的。另外2個數(shù)據(jù)集是關(guān)于電影評論的，包括互聯(lián)網(wǎng)電影資料庫(Internet Movie DataBase,IMDB)和電影評論數(shù)據(jù)集(Movie Review,MR)，IMDB首先被Maas等人[17]提出，它是用于情感分類的一個基準數(shù)據(jù)集，是一個大型的電影評論數(shù)據(jù)集，包含完整的評論。MR被Pang等人[18]提出，它包含從“爛番茄網(wǎng)”提取的積極和消極評論。這16個不同任務(wù)的數(shù)據(jù)集，其中每個任務(wù)有2000條數(shù)據(jù)，積極的和消極的分別為1000條。標記樣本被隨機分為訓練集、驗證集和測試集，比例分別為70%, 20%和10%。

模型的參數(shù)最終根據(jù)模型的性能以及訓練時間選擇。本文使用Collobert等人[12]訓練的SENNA詞向量，維度是50維的，在實驗表現(xiàn)出不錯的效果。考慮到時間問題，僅僅使用了最原始的LSTM，隱藏層的維度設(shè)為100。本文分別實驗了不同的卷積核尺寸和數(shù)量，最終卷積核尺寸設(shè)為(1,2,3)，每一個卷積核的個數(shù)為100。把dropout值設(shè)為0.7能有效地減小過擬合。使用了Adam優(yōu)化器和反向傳播策略對模型進行訓練，樣本的批次設(shè)置為16，學習率為0.0005。表1展示了本文所實驗過的不同參數(shù)設(shè)置范圍以及模型使用的最終的設(shè)置。

表1 參數(shù)設(shè)置

4.2 對比模型

LSTM：長短時記憶網(wǎng)絡(luò)，單任務(wù)的文本分類模型，分別用每個任務(wù)的樣本進行訓練和測試。

CNN：卷積神經(jīng)網(wǎng)絡(luò)，它也是單任務(wù)文本分類模型，實驗設(shè)置與本文相同

MTL-DNN：共享DNN模型[5]，使用詞袋輸入，共享一個隱藏層。

MTL-CNN：多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型[12]，其中查找表部分是共享的，其他層比如CNN是基于特定任務(wù)的。

FS-MTL：完全共享循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Full Shared Multi-Task Learning,FS-MTL)[6]，是將所有的任務(wù)共享一個LSTM模型，每個任務(wù)從特定的輸出層輸出。

ASP-MTL：對抗多任務(wù)學習模型(Adversarial Multi-Task Learninng,ASP-MTL)[7]，使用對抗訓練和正交約束，將共享特征和私有特征劃分更細。

IC-MTL：間接交流多任務(wù)學習框架(Indirect Communciation for Mult i-Task Lear ning,IC-MTL)[15]，是一種圖多任務(wù)學習框架，在這個框架中，不同的任務(wù)可以相互通信，共享層可以發(fā)送信息到某一任務(wù)中。

4.3 實驗結(jié)果

4.3.1模型對比

本文模型MTL-RC與當前熱門的模型對比結(jié)果在表2中。為了更好地對比，本文與對比實驗采用同樣的數(shù)據(jù)集，分別是14個亞馬遜商品評論數(shù)據(jù)集和2個電影評論數(shù)據(jù)集。其中比較流行的多任務(wù)學習模型ASP-MTL采用200維glove詞向量，學習率為0.01，訓練最小批次為16。

本文利用分類準確率對實驗結(jié)果進行評價。其中前兩種方法是單任務(wù)深度學習模型，分別對每個任務(wù)建模進行情感分類。而其他的模型是多任務(wù)學習模型，對多個任務(wù)的數(shù)據(jù)集進行共同建模，多任務(wù)學習模型的實驗結(jié)果文獻[7,15]。表2展示了16個任務(wù)使用不同的模型的準確率，之后的討論都是以每個模型的平均準確率進行對比。從表2可以看出，除了MR數(shù)據(jù)集，在其他數(shù)據(jù)集中，本文所提模型MTL-RC是優(yōu)于其他模型的。MR的提升之所以不明顯，甚至相比有的多任務(wù)模型略有下降，是因為MR的每條樣本長度僅僅只有21，相對其他數(shù)據(jù)集太小，不容易獲得很好的文本表示。相比單任務(wù)模型，多任務(wù)模型準確率都有一定的提升，單任務(wù)LSTM,CNN方法準確率分別為81.2%和80.1%。多任務(wù)FS-MTL和MTL-CNN方法準確率分別為84.7%和84.5%，比單任務(wù)模型分別提升3.5%和4.4%，而MTL-RC模型比單任務(wù)模型分別提升了8.9%和10.0%，由此可見，將多個任務(wù)的文本利用起來，能顯著提升模型準確率。多任務(wù)模型MTLRC比MTL-DNN,MTL-CNN和FS-MTL都有很大的提升，準確率分別提升了5.8%,5.6%和5.4%，說明采用多任務(wù)學習的方法，將LSTM和CNN網(wǎng)絡(luò)結(jié)合起來的有效性，能獲得更充分的文本表示，提升模型的性能。

表2 與其它模型準確率對比(%)

在FS-MTL模型中，完全共享一個LSTM層，獲取文本表示，每個任務(wù)的文本表示分別輸入到不同的輸出層進行情感分類。可以看出FS-MTL比MTL-DNN和MTL-CNN模型的準確率略有提升，一部分原因是MTL-DNN采用詞袋輸入丟失了語義信息，MT-CNN僅僅共享了詞嵌入部分。ASP-MTL是對FS-MTL的改進，加入了一個私有層提取每個任務(wù)的私有特征，并且采用了對抗訓練和正交約束將共享層和私有層精確劃分，準確率達到了86.1%。與之前模型不同的是IC-MTL可以實現(xiàn)不同任務(wù)之間的通信。而本文的模型MTL-RC也是針對FSMTL的改進，在LSTM獲取文本表示之后加入了不同窗口的多個卷積核對并行提取文本的局部特征，因為卷積層是并行提取特征，所以模型的訓練速度是很快的，MTL-RC的準確率也比FS-MTL,ASPMTL,IC-MTL分別提升了5.4%,4%,2.8%。以上分析表明本文方法優(yōu)于這些對比方法，證明了本文方法的有效性。

4.3.2多任務(wù)學習模型準確率和速度

本節(jié)將繼續(xù)證明多任務(wù)學習模型的有效性，為每一個任務(wù)構(gòu)建一個單任務(wù)深度學習模型STL-RC，同樣在LSTM層之后采用卷積核提取特征，分別對每個任務(wù)進行訓練，其他的設(shè)置保持不變。對STL-LC平均一次訓練的所有任務(wù)的時間總和與MTL-RC的時間進行對比，同時也將兩個模型平均每個任務(wù)的準確率進行對比。MTL-RC與STLLC模型時間及準確率對比如表3所示。圖4展示了其中4個商品評論數(shù)據(jù)集和2個電影評論數(shù)據(jù)集在本文提出模型MTL-RC和單任務(wù)學習模型STL-LC準確率的對比。

由表3可知，MTL-RC模型平均每個任務(wù)的分類準確率比STL-LC提升6.5%，證明了多任務(wù)學習能夠提高模型的準確率。本文所提模型平均每次訓練的時間比每個任務(wù)訓練STL-RC模型時間總和快213.1 s，可以證明多任務(wù)學習方法能能夠提高模型的訓練速度。由圖4可以看出，相比STL-RC模型，本文所提MTL-RC模型每個任務(wù)的準確率都有顯著的提升。總之，本文方法在時間和性能上都優(yōu)于單任務(wù)方法。

圖4 MTL-RC與STL-LC模型每個領(lǐng)域分類準確率的對比

表3 MTL-LC與STL-LC模型準確率與時間比較

4.3.3卷積神經(jīng)網(wǎng)絡(luò)的影響

為了避免僅僅輸出LSTM最后一個時間步的特征，被最后一個單詞主導，本文提出把LSTM的全部隱藏層的輸出再通過CNN提取特征的多任務(wù)學習模型MTL-RC與僅僅把LSTM最后一個隱藏層輸出的模型MTL-LSTM模型進行對比分析，實驗結(jié)果如圖5所示。

由圖5可以看出，本文所提模型MTL-RC與改進前的MTL-LSTM相比，每個領(lǐng)域的分類準確率都有一定幅度的提升，只有MR數(shù)據(jù)集的準確率較低，是因為其文本最短，得到的特征信息較少，改進不是很明顯。由此可以說明本文所提模型MTLRC先把LSTM的全部信息輸出，再采用CNN提取文本的局部特征，可以有效地防止特征被最后一個單詞所主導，同時能分別利用LSTM和CNN的優(yōu)勢，得到深層次的文本語義特征，取得更好的分類效果。

圖5 MTL-RC與MTL-LSTM模型每個領(lǐng)域分類準確率的對比

4.3.4模型參數(shù)的影響

為了驗證不同窗口卷積核對分類效果的影響，本節(jié)采用不同的卷積核窗口進行實驗，實驗結(jié)果如表4所示。

由表4可知，采用不同的卷積核窗口比只使用一種卷積核窗口的分類準確率有一定的提升，當窗口大小選(1,2,3)時，比只選用1,2和3準確率分別提升1.5%,0.6%和0.9%，也比其他的不同窗口組合準確率高，因此選擇合適的卷積核窗口對模型的分類性能會有一定的提升。卷積核用來提取文本的局部特征，采用具有相同窗口的不同數(shù)量的卷積核可以學習互補的特性。實驗結(jié)果可以說明采用不同窗口的卷積核可以獲得不同高度視野下的局部特征，因此可以獲取更加豐富的文本特征。

表4 MTL-RC模型使用不同卷積核的準確率對比

4.3.5領(lǐng)域數(shù)量對模型性能的影響

本節(jié)通過實驗探索領(lǐng)域的數(shù)量對本文模型性能的影響。在本文實驗中，將不同數(shù)量領(lǐng)域的文本輸入到模型進行訓練，以books,electronics,DVD和kitchen這4個領(lǐng)域為基準，領(lǐng)域的數(shù)量從1增加到16，步長為3。這4個領(lǐng)域在本文方法的準確率，如圖6所示。

由圖6所示，隨著領(lǐng)域數(shù)量的增加，這4個領(lǐng)域的評論分類準確率也在逐漸增加，其中從1個領(lǐng)域到10個領(lǐng)域，準確率上升較為顯著。可見領(lǐng)域的數(shù)量對本文模型準確率影響很大。因為多任務(wù)學習能夠起到一個擴充數(shù)據(jù)量的作用，不同領(lǐng)域的樣本很多表達是相似的，具有相關(guān)性。領(lǐng)域數(shù)量增多，樣本的數(shù)量也會呈線性增加，可以有效解決有標簽樣本的問題。多個任務(wù)在淺層共享，可以削弱網(wǎng)絡(luò)的能力，一定程度上防止過擬合。同時多個領(lǐng)域的文本也會有不相關(guān)的部分，學習一個任務(wù)時與該任務(wù)不相關(guān)的部分可以作為噪聲，提高模型的泛化能力。

圖6 不同領(lǐng)域數(shù)量下模型的準確率

5 結(jié)論

本文提出一種基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)學習文本分類模型，將多個文本任務(wù)在一個深度學習模型中訓練。現(xiàn)有常用的多任務(wù)學習模型包括完全共享模型和共享私有模型，共享私有模型例如ASP-MTL模型是加入了對抗網(wǎng)絡(luò)防止共享私有特征混淆，IC-MTL是圖多任務(wù)學習模型，使得不同任務(wù)共享層和私有層之間可以相互通信。完全共享模型例如MTL-DNN,MTL-CNN,FS-MTL則是分別共享不同的深度學習網(wǎng)絡(luò)構(gòu)建多任務(wù)學習實現(xiàn)不同的自然語言處理任務(wù)。本文則考慮內(nèi)存和時間問題僅僅構(gòu)建完全共享模型也獲得了很好的效果。與過去的完全共享模型不同的是，本文模型通過LSTM和不同尺寸的卷積核提取豐富的語義信息，能夠同時利用多任務(wù)學習及深度學習模型的優(yōu)勢。在多領(lǐng)域文本分類數(shù)據(jù)集上的實驗結(jié)果表明，本文所提MTL-RC模型準確率比單任務(wù)STL-LC模型提高了6.5%，訓練1次的時間快了213.1 s。單任務(wù)學習模型僅僅采用單個小樣本數(shù)據(jù)集，因此標簽數(shù)據(jù)量是比較少的，在同等實驗參數(shù)和條件下，多任務(wù)學習模型比單任務(wù)學習準確率提高了很多而且有更快的速度。MTL-RC模型比最新的多任務(wù)學習模型FS-MTL,ASP-MTL,IC-MTL分別提升了5.4%,4%和2.8%。因此本文所提模型在解決有標簽數(shù)據(jù)不足的問題上準確率更高，有更好的成效。