999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ERNIE 2.0模型的用戶評論多標簽文本分類研究

2021-04-05 06:53:18孟曉龍
現代信息科技 2021年17期

摘? 要:文章針對多標簽文本分類這一熱點問題,采用“預先訓練模型+微調策略”模式,即研究持續學習語義理解框架ERNIE 2.0和基于知識蒸餾的壓縮模型ERNIE Tiny預先訓練模型,以及傾斜的三角學習率STLR微調策略在用戶評論多標簽文本數據集中的實踐。相對經典語義表征模型BERT,采用ERNIE 2.0模型的效果可提高1%以上,采用ERNIE Tiny模型的速率可提升3倍左右;相對默認微調策略,采用傾斜的三角學習率STLR微調策略的效果同樣可再提高1%左右。

關鍵詞:多標簽文本分類;預先訓練模型;微調策略;知識蒸餾

中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2021)17-0087-05

Abstract: Aiming at the hotspot issue of multi label text classification, this paper adopts the mode of “pre training model + fine tuning strategy”, that is, to study the continuous learning semantic understanding framework ERNIE 2.0, the compression model ERNIE Tiny pre training model based on knowledge distillation, and the practice of inclined triangular learning rate STLR fine tuning strategy in user comments multi label text data sets. Compared with the classical semantic representation model BERT, the effect of ERNIE 2.0 model can be improved by more than 1%, and the rate of ERNIE Tiny model can be increased by about 3 times; compared with the default fine tuning strategy, the effect of inclined triangular learning rate STLR fine tuning strategy can also be improved by about 1%.

Keywords: multi label text classification; pre training model; fine tuning strategy; knowledge distillation

0? 引? 言

多標簽文本分類是自然語言處理中一個重要而富有挑戰性的任務,與通常一個文本僅歸屬于一個標簽的單標簽文本分類不同[1-3],多標簽文本分類任務則是將文本同時歸屬于一個或多個標簽,并且多個標簽之間可能存在更加復雜的關系。

隨著深度神經網絡的發展,研究者提出各種基于深度神經網絡的多標簽文本分類模型,特別是將多標簽分類任務當作序列生成問題,考慮標簽間相關性的序列到序列Seq2Seq模型與考慮輸入文本關鍵信息的注意力Attention機制結合的各類算法大放異彩,進一步提升多標簽文本分類模型的性能。與此同時,將上游預先訓練語言模型應用于自然語言處理下游特定任務這個劃時代的思想,讓預先訓練模型PTMs(Pre-trained models)漸漸步入人們的視野。隨著ELMo、GPT、BERT等預先訓練模型在自然語言處理任務方面取得SOTA結果,一系列以BERT為基礎的改進模型相繼被提出,大大推動自然語言處理領域的進步。

本文基于某用戶評論多標簽文本分類數據集,分別從如何構建基于預先訓練模型的多標簽中文文本分類模型,如何在效果損失較少的情況下顯著地提升模型速率,如何有效地設計微調策略這三個方面進行研究。主要的貢獻有:

(1)改造某細粒度用戶評論情感分析數據集成為用戶評論多標簽文本分類數據集,并采用二元交叉熵損失作為多標簽分類的損失函數。

(2)相對于典型的預先訓練模型BERT,本文采用的持續學習語義理解框架ERNIE 2.0的效果可提高1%以上,而基于知識蒸餾的壓縮模型ERNIE Tiny的速率可提升3倍左右。

(3)相對于模型默認微調策略,本文采用的傾斜的三角學習率STLR微調策略效果可再提高1%左右。

1? 相關工作

1.1? 多標簽分類

多標簽文本分類的關鍵是如何合適地表達標簽間復雜的相關性。隨著神經網絡的發展,研究者提出各種基于深度神經網絡的多標簽文本分類模型。

Zhang等人提出[4]多標記學習的反向傳播算法BP-MLL(Back Propagation for Multi-Label Learning),通過定義成對排序損失函數來捕獲多標簽學習的特征,首次在多標簽文本分類問題上展現多層前饋神經網絡明顯優勢。Nam等人基于Zhang的工作,以交叉熵損失函數作為目標函數[5],并采用整流線性單元ReLUs激活函數、Dropout正則化機制和AdaGrad優化器學習率調整等技巧來提升訓練效果。此后,Kurata等人提出[6]利用標簽之間的共現關系來初始化輸出層權重,采用詞嵌入和卷積神經網絡CNN(Convolutional Neural Network)結構來捕獲標簽相關性,而Chen等人提出[7]采用卷積神經網絡CNN和遞歸神經網絡RNN(Recursive Neural Network)來從文本中提取全局和局部語義信息。

為了更好地解決多標簽文本分類問題,Nam等人利用循環神經網絡RNN(Recurrent Neural Network)巧妙地使用序列到序列Seq2Seq模型[8],對給定的源文本進行編碼,并對表示進行解碼,將多標簽文本分類問題近似于序列預測問題。Yang等人采用[9]短期記憶網絡LSTM(Long Short-Term Memory)處理標簽序列的依賴關系來考慮標簽之間的相關性,并利用注意力Attention機制考慮文本不同部分的貢獻,提出一種新的全局嵌入解碼器結構。Lin等人通過[10]多層擴展卷積產生更高層次的語義單位表示并結合注意力機制來進行多標簽分類,與傳統的Seq2Seq模型相比,該模型能夠更好地預測低頻標簽,并且受標簽序列先驗分布的影響較小。Yang等人結合[11]卷積神經網絡CNN和并行自注意力機制設計分層解碼器來生成標簽序列,以從源文本中提取細粒度的局部鄰域信息和全局交互信息。

1.2? 預先訓練模型

預先訓練一直是學習深度神經網絡參數的有效策略,早在2006年,Hinton等人就指出通過“預先訓練”可以得到比較接近最優模型參數的初始化權值,并經“全局微調”達到模型優化重建的目的[12]。

Peters等人2018年采用深度雙向Bi-LSTM來實現上下文相關,提出一種動態的、語境化的語言模型ELMo(Embedding from Language Models),將目標任務處理轉移到預先訓練產生詞向量的過程中[13]。Radford等人2018年提出基于多層單向Transformer結構的生成式預先訓練方法GPT(Generative Pre-Training),先用無標簽的文本去訓練生成語言模型,再根據具體的目標任務對模型進行微調[14]。Devlin等人2018年提出基于多層雙向Transformer結構的語義表征模型BERT(Bidirectional Encoder Representations from Transformers),同時利用下一句子預測任務和掩碼語言模型來獲得高級別的語義表征[15]。Zhang等人2019年提出增強的語言表征模型ERNIE(Enhanced Language Representation with Informative Entities),該模型[16]結合大規模語料庫和知識圖譜,可同時充分利用詞匯、句法和知識信息。Sun等人進而提出持續學習語義理解框架ERNIE 2.0(AContinual Pre-Training Framework for Language Understanding),該框架[17]以遞增方式構建預先訓練任務,并通過連續多任務學習來讓模型學習這些已構建的任務。

1.3? 微調策略

隨著預先訓練模型深度的增加,其所捕獲的語言表征使目標任務更加容易,微調策略已逐漸成為預先訓練模型適應目標任務的主要方法。然而,微調的過程往往是脆弱的,即使有相同的超參數值,不同的隨機種子就可導致實質上不同的結果。Sun等人的研究表明[18],對相關領域語料進行進一步的預先訓練,可以進一步提高BERT的能力,并在文本分類數據集上取得SOTA的性能。Li等人提出的TransBERT(Transferable BERT)[19],不僅可以從大規模的未標注數據中遷移學習通用的語言知識,還可以從各種語義相關的監督任務中遷移學習到特定類型的知識。Stickland等人在預先訓練模型BERT添加額外的特定任務適應模塊PALs(Projected Attention Layers)[20],實現比標準微調模型少7倍參數,卻在通用語言理解評估基準GLUE(General Language Understanding Evaluation)表現相當的性能。Goyal等人2017年提出預熱方法[21],即在訓練初期使用較小的學習率開始,并在訓練后期逐步增大到較大的學習率;Howard等人2018年提出傾斜的三角學習率STLR(Slanted Triangular Learning Rates)方法[22],先線性地增加學習率,然后根據訓練周期線性地衰減學習率。

2? 關鍵技術

2.1? 持續學習語義理解框架

持續學習語義理解框架ERNIE 2.0通過不斷地引入各種各樣的預先訓練任務,以幫助模型有效地學習詞匯,句法和語義表示[17]。其訓練過程包含:

(1)基于大數據和先驗知識的無監督預先訓練任務構建。

(2)持續的多任務學習更新。

2.1.1? 預先訓練任務構建

先前的預先訓練模型通常基于單詞和句子的共現來訓練模型。實際上,除單詞和句子的共現外,還有其他詞匯,句法和語義信息值得在訓練時進行檢查。比如,個人名稱、位置名稱和組織名稱之類的命名實體可能包含概念性信息;句子順序和句子接近度之類的信息可能包含結構感知表示;文檔級別的語義相似性或句子之間的語篇關系可能包含語義感知表示。因此,ERNIE 2.0構造單詞感知任務、結構感知任務和語義感知任務等不同種類任務。其中,單詞感知任務能夠使模型捕獲詞匯信息,結構感知任務能夠使模型捕獲語料庫的句法信息,而語義感知任務能夠使模型學習語義信息。

2.1.2? 持續的多任務學習

受人類能夠不斷積累通過學習或經驗獲得的信息,從而有效地開發新技能這一學習特點的啟發,ERNIE 2.0引入持續學習的理念,即通過增量的方式進行多任務學習,不是只使用新增的任務來訓練,而是通過多任務學習同時學習之前的和新增的任務。

為有效地管理和訓練這些任務,ERNIE 2.0構建Task Embedding模型提供任務嵌入以表示不同任務的特征。每個任務ID都分配給一個唯一的任務嵌入,并以相應的令牌Token、位置Position、句子Sentence和任務Task嵌入作為模型的輸入。對于給定的序列,特殊分類嵌入[CLS]標記序列的首位,分隔符[SEP]標記多個輸入任務的間隔;同時,ERNIE 2.0使用多層Transformer作為基本編碼器,通過Self-Attention機制來捕獲序列中每個令牌的上下文信息,并自動將每個任務分配給不同的訓練階段。這樣,模型就可以即保證方法的效率,又不會忘記先前訓練有素的知識。

2.1.3? 壓縮模型

ERNIE Tiny通過如圖1所示的方法進行模型結構壓縮和模型蒸餾。ERNIE Tiny模型采用3層Transformer結構實現線性提速,并采用加寬Hidden層來實現效果提升。ERNIE Tiny模型采用中文Subword粒度輸入來縮短輸入文本的序列長度,進一步降低計算復雜度。ERNIE Tiny利用模型蒸餾的方式,扮演學生角色在Transformer層和Prediction層學習教師模型ERNIE 2.0模型對應層的分布和輸出。

2.2? 多標簽分類損失函數

本文使用二元交叉熵損失(Binary Cross Entropy Loss)作為多標簽分類的損失函數[5],其定義為:

其中,N為樣本的數量,K為標簽的數量,yij∈{0,1}和∈[0,1]分別表示第i個樣本的第j個標簽的真實標簽值和概率預測值。

2.3? 傾斜的三角學習率

本文使用傾斜的三角學習率STLR(Slanted Triangular Learning Rates)方法[22],即先線性地增加學習率,再根據訓練周期線性地衰減學習率。具體表達為:

其中,T是總的訓練迭代次數,cut_frac是學習率上升在整個訓練迭代次數的比例,cut是學習率轉折時的迭代次數,p是學習率遞增或將遞減的放縮比例,ratio是最小學習率與最大學習率ηmax的比值,ηt是第t次迭代的學習速率。

經驗發現,當cut_frac等于0.1,且ratio等于32時,具有短期增長和長衰減期特性,結果較好。

3? 實驗與分析

3.1? 實驗數據

本文改造AI Challenger 2018細粒度用戶評論情感分析數據集,將其正向、中性、負向、未提及四種情感傾向狀態合并成用戶評論的“提及(1)”和“未提及(0)”兩種類別,形成包含6大類共20個標簽的用戶評論多標簽中文數據集,訓練集105 000個樣本,測試集15 000個樣本,以測試集為例介紹數據集的基本情況如表1所示。

該用戶評論多標簽數據的訓練集和測試集的文本平均字數分別為348.74和347.12,文本平均標簽數分別為5.42和5.39。

3.2? 評價指標

本文實驗使用AUC(Area Under ROCCurve),即ROC(Receiver Operating Characteristic)曲線下的面積作為評價指標。根據分類模型產生的概率預測結果將樣本排序[23],并按某一截斷點(Cut Point)將該排序的樣本分為兩部分{x1,x2,…xm+1,xm+n},前一部分m樣本判作正例,后一部分n樣本判作反例。AUC的定義為:

其中,f為分類函數;I為示性函數,即當括號內的表達式成立時值為1,否則為0。AUC的取值范圍在[0.5,1]之間,其值越大表明分類模型的性能越好。

3.3? 實驗結果及分析

本文實驗使用3.1節介紹的用戶評論多標簽分類數據集,并以3.2節介紹的AUC作為分類結果的評價標準。實驗環境單卡32 GB的Tesla V100顯卡。

實驗選擇2.1節介紹的ERNIE 2.0、ERNIE Tiny和BERT模型作為預先訓練模型,采用2.3節介紹的STLR微調策略和參數及默認策略(即采用自適應矩估計Adam優化器,批次大小等于16,全局學習率等于1e-4,微調迭代周期等于3作為微調策略,最大序列長度均等于512。實驗結果如表2所示。

實驗結果表明,相對典型的預先訓練模型BERT,本文采用的持續學習語義理解框架ERNIE 2.0的效果可提高1%以上,而基于知識蒸餾的壓縮模型ERNIE Tiny的效果與之相近,但速率可提升3倍左右,這是由于ERNIE 2.0不斷地引入各種各樣的預先訓練任務,可以有效地學習詞匯、句法和語義表示;采用傾斜的三角學習率STLR的“預熱”策略,同樣可再提高模型的效果1%左右,這是由于該策略有助于減緩模型在初始階段的提前過擬合現象和保持模型深層的穩定性。

同時,分析實驗結果也發現,上述三種預先訓練模型在此用戶評論多標簽中文數據集的絕大多數類別的AUC值可達90%以上的優秀表現,而在如“菜品—口感”和“其他—本次消費感受”等嚴重不平衡類別的表現不佳。

4? 結? 論

在本文的研究中,作者證實“預先訓練模型+微調策略”模式在多標簽文本分類問題研究的優異性能,展現ERNIE 2.0和ERNIE Tiny預先訓練模型和STLR微調策略在用戶評論多標簽文本數據集上的突出表現。同時,作者也發現多標簽分類損失函數的定義、預先訓練模型的蒸餾壓縮、微調策略的設計和超參數的設定,以及類別不平衡導致效果不佳的問題,都將是作者后續此類研究的突破點。

參考文獻:

[1] 肖琳,陳博理,黃鑫,等.基于標簽語義注意力的多標簽文本分類 [J].軟件學報,2020,31(4):1079-1089.

[2] 謝志煒,馮鴻懷,許銳埼,等.電力基建施工問題文本分類研究 [J].現代信息科技,2019,3(17):17-19.

[3] 孫明敏.基于GRU-Attention的中文文本分類 [J].現代信息科技,2019,3(3):10-12.

[4] ZHANG M L, ZHOU Z H. Multi-label Neural Networks with Applications to Functional Genomics and Text Categorization [J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1338-1351.

[5] NAM J,KIM J,MENC?A E L,et al. Large-Scale Multi-label Text Classification — Revisiting Neural Networks [C]//ECML PKDD 2014:Machine Learning and Knowledge Discovery in Databases:Nancy:Springer,2014(8725):437-452.

[6] KURATA G,XIANG B,ZHOU B. Improved Neural Network-based Multi-label Classification with Better Initialization Leveraging Label Co-occurrence [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.San Diego:Association for Computational Linguistics,2016:521-526.

[7] CHEN G B,YE D H,XING Z C,et al.Ensemble application of convolutional and recurrent neural networks for multi-label text categorization [C]//2017 International Joint Conference on Neural Networks(IJCNN).Anchorage:IEEE,2017:2377-2383.

[8] NAM J,MENC?A E L,KIM H J,et al. Maximizing subset accuracy with recurrent neural networks in multi-label classification [C]//NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc.2017:5419-5429.

[9] YANG P C,SUN X,LI W,et al.SGM:Sequence Generation Model for Multi-label Classification [J/OL]. arXiv:1806.04822 [cs.CL].(2018-06-13).https://arxiv.org/abs/1806.04822.

[10] LIN J Y,SU Q,YANG P C,et al.Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification [J/OL]. arXiv:1808.08561 [cs.CL].(2018-8-26).https://arxiv.org/abs/1808.08561.

[11] YANG Z,LIU G J. Hierarchical Sequence-to-Sequence Model for Multi-Label Text Classification [J].IEEE Access,2019(7):153012-153020.

[12] HINTON G E,SALAKHUTDINOV RR. Reducing the Dimensionality of Data With Neural Networks [J].Science,2006,313(5786):504-507.

[13] PETERS M E,NEUMANN M,IYYER M,et al. Deep contextualized word representations [J/OL].arXiv:1802.05365 [cs.CL].(2018-02-15).https://arxiv.org/abs/1802.05365.

[14] RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving Language Understanding by Generative Pre-Training [EB/OL].[2021-05-20].https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf.

[15] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].(2018-10-11).https://arxiv.org/abs/1810.04805.

[16] ZHANG Z Y,HAN X,LIU Z Y,et al. ERNIE: Enhanced language representation with informative entities [J/OL].arXiv:1905.07129 [cs.CL].(2019-05-17).https://arxiv.org/abs/1905.07129v1.

[17] SUN Y,WANG S H,LI Y K,et al.ERNIE 2.0:A Continual Pre-training Framework for Language Understanding [J/OL].rXiv:1907.12412 [cs.CL].(2019-07-29).https://arxiv.org/abs/1907.12412v2.

[18] SUN S Q,CHENG Y,GAN Z,et al.Patient Knowledge Distillation for BERT Model Compression [J/OL].arXiv:1908.09355 [cs.CL].(2019-08-25).https://arxiv.org/abs/1908.09355v1.

[19] LI Z Y,DING X,LIU T. Story ending prediction by transferable bert [J/OL].arXiv:1905.07504 [cs.CL].(2019-05-17).https://arxiv.org/abs/1905.07504v2.

[20] LIU X D,HE P C,CHEN W Z,et al.Multi-Task Deep Neural Networks for Natural Language Understanding [J/OL].arXiv:1901.11504 [cs.CL].(2019-01-31).https://arxiv.org/abs/1901.11504v1.

[21] GOYAL P,DOLL?R P,GIRSHICK R,et al.Accurate, Large Minibatch SGD:Training ImageNet in 1 Hour [J/OL].arXiv:1706.02677 [cs.CV].(2017-06-08).https://arxiv.org/abs/1706.02677.

[22] HOWARD J,RUDER S.Universal Language Model Fine-tuning for Text Classification [J/OL].arXiv:1801.06146 [cs.CL].(2018-01-18).https://arxiv.org/abs/1801.06146v5.

[23] 周志華.機器學習 [M].北京:清華大學出版社,2016:33-35.

作者簡介:孟曉龍(1988—),男,漢族,上海人,講師,碩士學歷,主要研究方向:數據挖掘與機器學習。

主站蜘蛛池模板: 成人欧美在线观看| 永久在线精品免费视频观看| 精品国产自| 午夜国产精品视频| 国产在线观看一区精品| 乱色熟女综合一区二区| 国产女人综合久久精品视| 中文字幕在线看| 日本国产一区在线观看| 婷婷色一区二区三区| 麻豆精选在线| 2021天堂在线亚洲精品专区| 国产亚洲现在一区二区中文| 国产精品免费福利久久播放| 国产成人三级| 特级精品毛片免费观看| 久久这里只有精品2| 五月激情婷婷综合| 亚洲综合九九| 国产亚洲精品自在久久不卡 | 精品少妇人妻无码久久| 自拍亚洲欧美精品| 亚洲最大福利视频网| 国产在线第二页| 91成人在线观看| 亚洲va在线观看| 日本一区二区三区精品国产| 亚洲一区二区无码视频| 国产精品亚洲一区二区三区z| 中文字幕在线播放不卡| 国产日本一区二区三区| 日韩中文字幕免费在线观看| 日韩一区二区在线电影| 国产午夜一级淫片| 国产Av无码精品色午夜| 国产成人麻豆精品| 免费播放毛片| 国产亚洲视频中文字幕视频| 九九这里只有精品视频| 免费激情网址| 超碰91免费人妻| 伊人久综合| 国产区福利小视频在线观看尤物| 一区二区无码在线视频| 日韩小视频在线播放| 91精品亚洲| 亚洲精品国产成人7777| 国产91精品最新在线播放| 在线观看免费人成视频色快速| 成人另类稀缺在线观看| 91国内视频在线观看| 国产黑丝视频在线观看| 久久亚洲综合伊人| 日本精品视频一区二区| 国产粉嫩粉嫩的18在线播放91| 免费一级毛片在线观看| 国产成人久久综合一区| 国产色图在线观看| 97精品伊人久久大香线蕉| 欧美日韩国产在线播放| 一级毛片免费观看不卡视频| 国产精品丝袜视频| 在线观看91香蕉国产免费| 亚洲日本在线免费观看| 一本久道热中字伊人| 久久精品国产999大香线焦| 激情无码字幕综合| 久久精品只有这里有| 免费国产高清视频| 都市激情亚洲综合久久| 亚洲国内精品自在自线官| 亚洲国产午夜精华无码福利| 久草视频福利在线观看| 国产呦精品一区二区三区网站| 色综合久久88| 一级爆乳无码av| 99热最新网址| 中国黄色一级视频| 精品人妻AV区| 国产99视频精品免费视频7| 狠狠色香婷婷久久亚洲精品| 蝴蝶伊人久久中文娱乐网|