









摘 要: 少樣本文本分類中,原型網絡對語義利用不足、可遷移特征挖掘不夠,導致模型泛化能力不強,在新任務空間中分類性能不佳。從模型結構、編碼網絡、度量網絡等角度提高模型泛化性,提出多任務原型網絡(multiple-task prototypical network,MTPN)。結構上,基于原型網絡度量任務增加輔助分類任務約束訓練目標,提高了模型的語義特征抽取能力,利用多任務聯合訓練,獲得與輔助任務更相關的語義表示。針對編碼網絡,提出LF-Transformer編碼器,使用層級注意力融合底層通用編碼信息,提升特征的可遷移性。度量網絡使用基于BiGRU的類原型生成器,使類原型更具代表性,距離度量更加準確。實驗表明,MTPN在少樣本文本情感分類任務中取得了91.62%的準確率,比現有最佳模型提升了3.5%以上;在新領域的情感評論中,基于五條參考樣本,模型對查詢樣本可獲得超過90%的分類準確率。
關鍵詞: 少樣本學習; 原型網絡; 文本分類; 多任務學習
中圖分類號: TP183"" 文獻標志碼: A
文章編號: 1001-3695(2022)05-014-1368-06
doi:10.19734/j.issn.1001-3695.2021.11.0463
Multiple-task prototypical network for few-shot text classification
Yu Junjie, Cheng Hua, Fang Yiquan
(School of Information Science amp; Engineering, East China University of Science amp; Technology, Shanghai 200237, China)
Abstract: Since the prototype network cannot make full use of samples’ semantic information,it’s difficult for model to fully excavate the transferable features in training data.As the result,the model underperforms when it is facing unfamiliar data in a new domain.To this end,this paper made improvements from three perspectives:model structure,encoding network,and metric network,and proposed a multiple-task prototypical network MTPN.In terms of model structure,on the basis of the prototype network’s metric task,it added an auxiliary classification task to constrain the training target,which could improve the semantic feature extraction ability of the model.By using multi-task learning,model obtained a semantic representation that was more relevant to the auxiliary task.In order to improve feature transferability,this paper also proposed the LF-Transformer encoder which used hierarchical attention to fuse the underlying general encoding information.The metric network used the BiGRU-based class prototype generator to make the class prototype more representative and the distance measurement more accurate.Experiments show that MTPN achieves an accuracy of 91.62% in the sentiment classification task with few samples,which is 3.5% higher than the existing best model.For samples in new field that have not appeared in training state,by using 5 references,the model can still obtain a classification accuracy of more than 90% on query samples.
Key words: few shot learning; prototypical network; text classification; multi-task learning
0 引言
深度學習往往需要大量的數據用于訓練更新,但實際工作中存在某些類別數據量不足的情況,如電商評論中新品或冷門商品僅有數條評論、信息安全日志中攻擊樣本少等。少樣本學習[1](few-shot learning,FSL)利用有限的參考數據使模型迅速學習并得到穩定的分類效果,已經成為研究熱點。少樣本學習中目標任務數據量少,利用相似任務的大量數據學習模型,并遷移至目標任務中完成特征抽取和分類預測,遷移特征的有效性和通用性影響模型在新領域下的分類性能。原型網絡作為一種度量學習模型,通過建立類原型,最小化樣本和同類別原型間的距離,獲得通用嵌入空間,使模型具有泛化性。Snell等人[2]于2017年首次提出基于度量的原型網絡,用于圖像少樣本分類,Fritzler等人[3]將原型網絡用于文本分類的命名實體識別。
Geng等人[4,5]提出的Induction網絡通過動態路由算法迭代計算類原型,改進了原型網絡的類原型生成方法;Gao等人[6]通過注意力加權生成更好的類原型;BERT作為優秀的文本預訓練模型,于2021年被Sui等人[7]用于對原型網絡的編碼,并融合了原型網絡和關系網絡,提出知識指導的關系網絡(knowledge-guided relation network,KGRN),用先驗知識指導關系網絡更新。上述研究都著重于改進原型網絡的度量方式,改變其類原型生成器或距離計算方式,在面向文本任務時未直接利用其語義信息;此類模型的泛化性能始終存在瓶頸,在面對新領域數據和極少(如五個)的參考樣本時,僅能達到接近88%的準確率[7]。
本文提出多任務原型網絡(multiple-task prototypical network,MTPN),從模型結構、編碼網絡、度量網絡等角度提升模型對相似任務的泛化能力。考慮到模型要利用樣本語義信息,因此為編碼器增加語義輔助分類任務,指導編碼器定向訓練,使其著重學習與輔助任務相關的語義特征。為確保編碼網絡中抽取的語義特征具有遷移性,提出層級融合transformer編碼器(level fusion transformer,LF-Transformer),基于注意力機制融合多層編碼輸出,更多地提取具有通用性的底層特征。度量網絡使用基于BiGRU類原型生成器,利用多領域數據的持續訓練,使其可以生成更具代表性的類原型,提升類原型更好的歸納能力。MTPN在2-way 5-shot任務上的準確率為91.62%,比當前最佳的原型網絡方法(KGRN)提高了3.5%以上;同時在語義輔助分類任務上獲得了92.1%的分類準確率,表明編碼器挖掘了有效的語義特征;訓練中未出現過的新任務,MTPN僅需要參考正負情感各五個樣本就可獲得90%左右的準確率,表明MTPN具有較強的泛化性,能有效地遷移至新任務。
1 少樣本文本分類
深度學習用于分類任務,常依賴大量的標簽數據,但在實際情況中,對數據的標注代價很大,數量上往往不足或不平衡,導致標簽數據極少,模型無法充分訓練,限制了模型性能。
針對少樣本環境下的文本分類任務,主要從度量學習[4~7]、數據增強[8,9]、元學習[8,10]三個角度進行研究。由于文本數據是離散的,語義信息受到極小的擾動也會產生較大的偏差,對于文本的數據增強難度更高,所以大多數研究[6,11]都從度量學習的角度出發,依靠元學習中多個子任務切換訓練的方式,使模型能在少樣本環境下遷移達到較好的效果。
度量學習是一種學習空間映射的方法,通過生成一個嵌入空間,令樣本在該空間上的特征向量與同類樣本更近而不同類樣本更遠,從而實現數據分類。基于該思想,度量學習包括一系列基礎網絡模型,如孿生網絡[12]、原型網絡[2]、關系網絡[13]、匹配網絡[14]等。
其中原型網絡具有不易被樣本噪聲干擾和易與其他模型融合的優點,因此有更多研究[15~17]針對其進行了改良。
2 多任務原型網絡
2.1 原型網絡
原型網絡用標簽數據生成包含類特征的類原型向量(class vector)。在模型對無標簽數據分類時,計算其與類原型向量間的距離,最小化與其同類向量間的距離,通過相似度比較得到預測分類,如圖1所示。
3 實驗
3.1 數據集及實驗方法
采用亞馬遜評論情感分類數據集(ARSC)[21],包含23種商品評論,每種評論按分數分為5、4、2 三檔。每檔都包含積極和消極評論,共有69個子數據集。取四種商品共12個子數據集作為測試集,其余57個子數據集作為訓練集。
對訓練集和測試集中的每個子數據集構造2-way 5-shot任務,反復構造后得到訓練任務和測試任務,如圖7所示。模型共訓練10 000輪,每訓練500輪將進行一次測試。
每次測試過程也包含500輪,定義單輪2-way 5-shot任務的評價為該次的分類準確率Acctask,測試的平均準確率作為模型的階段準確率Accphase,取最佳的階段準確率作為模型最好成績。
AccPhase=∑500Acctask500×100%(11)
3.2 模型對比
選取少樣本分類的多個模型,即原型網絡prototypical network[2]、匹配神經網絡matching network[14]、關系網絡relation network[13]、基于原型網絡改良的induction network[4]和基于關系網絡改良的knowledge-guided relation network(KGRN) [7] 用于對比實驗。
為體現編碼器對網絡的貢獻,從本文的模型組合中構建基準網絡(MTPN-Basic),采用領域預訓練BERT、Transformer編碼器、平均法類原型生成器和單任務學習模式。用2-way 5-shot分類任務來對比上述七個模型在少樣本環境下的分類性能。
由表2可知,原始的少樣本學習網絡(模型1、2)結構簡單、缺乏先驗知識,效果上遠不及新近的網絡模型。模型3、4基于模型2分別從度量模塊、類原型生成模塊進行改進,使用可學習的神經網絡和動態路由算法,提高網絡面向少樣本任務的度量與歸納能力,使準確率取得極大的提升,分別為15%和17%。模型5在模型3基礎上采用BERT預訓練模型,其包含的大量語義信息為模型提供了先驗知識,提升了模型在少樣本任務下的性能,令準確率提高了4.86%。
模型6是MTPN的基準版本,旨在突出編碼器對模型的提升效果,在使用BERT和Transformer進行編碼后,模型準確率就已經比當前的最佳模型KGRN提高了1.23%。
模型7與基準版本(模型6)相比,提升了2.46%,這是由于其使用了多任務學習模式,增加了針對編碼器的輔助分類任務,能為模型提供更多語義信息。
從表3可以看出,輔助分類任務在參考樣本不足時能更好地維持模型的分類性能,而使用單任務學習模式的模型6則由于參考樣本數量下降導致明顯的性能下滑。
此外,模型7采用BiGRU類原型生成器使模型在樣本量不足的情況下得到更有代表性的類向量,確保模型準確的度量能力。由表4可知,BiGRU類原型生成器在不同數據量下均比使用均值法[2]有更好的表現。
3.3 模型泛化性能
為研究MTPN對陌生領域樣本的泛化性能,調整了原始隨機搭配的訓練集和測試集產品類別構成,有偏向性地使用daily necessities(生活用品)類的產品評論做訓練集,包括apparel(服飾)、baby(嬰兒用品)、beauty(化妝品)、sports outdoors(體育用品)等10種產品。測試集用三大類產品用于模型的泛化性能對比,包括daily necessities(生活用品) 、literature(文學) 、electronic products(電子用品),如表5所示。
由表5可知,模型在測試類與訓練類同屬一個大類(daily necessities)時表現優秀,遷移至其他商品大類(literature、electronic products)后也取得90%左右的準確率,尤其是camera photo(相機)和electronics(電子產品)兩類產品的表現甚至超過了與訓練類同屬的outdoor living(戶外用品)。其表明MTPN在僅用某一些領域樣本訓練后,可以獲得很好的遷移性能,滿足少樣本任務所需的泛化性能。
為了直觀體現MTPN的泛化性,表6為部分評論數據。評論關鍵詞(粗體)根據商品類別的不同存在較大差別:daily necessities(生活用品)關注“大小”“外觀”等;literature(文學)關注 “學習”“廣告”等;electronic products(電子用品)則出現產品型號、廠家等。但模型對該三類產品的分類表現基本一致,表明模型能準確識別任務相關的情感特征,而不關注與商品類別有關的無效特征,即模型可以將學習到的任務相關的經驗泛化至陌生領域中。
3.4 多任務學習模式
MTPN通過多任務聯合訓練的方式從空間和語義角度對模型約束使其能針對性地挖掘可用特征。控制MTPN(圖3)中情感分類損失和距離度量損失的加權系數σ和τ可以研究不同任務對模型訓練的影響,當系數置零時則表示不使用對應任務。
由表7可知,僅使用度量分類任務(MTPN-M),模型將完全關注于生成合適的嵌入空間,度量分類準確率較好(90.12%),但該模型不關心情感分類任務(51.20%),說明數據本身的高級語義信息未被充分利用,這對少樣本問題是不利的。
僅使用輔助分類任務(MTPN-A),導致模型不再關心樣本在嵌入空間上的分布模式(52.10%),只依靠情感特征進行分類,情感分類任務準確率為88.4%,卻低于多任務模型MTPN(92.10%)。這是因為在訓練數據和測試數據屬于不同領域時,情感分類特征存在差異,如電子設備和服飾的評論關鍵詞有較大差異,此時MTPN-A不能保證模型的基本泛化性能。
MTPN在輔助分類任務和度量分類任務中都取得了最好成績(92.10%和91.62%),兩者分別指導模型從情感分類和嵌入空間的角度對網絡訓練更新,在特征提取上互補,也確保了其有效性。實驗表明,多任務學習模式顯式地指導模型訓練,情感分類任務令其嵌入空間考慮情感分類要求,而度量分類任務又要求模型根據對類別數據距離約束進一步調整嵌入空間。
3.5 編碼網絡對比
3.5.1 詞嵌入層對比
少樣本任務中詞向量應當盡可能多地包含先驗知識,有利于模型在資源較少下迅速學習到文本語義語法特征。本文比較了GLoVe、BERT、帶句向量的BERT方法、再次預訓練的BERT-pretrained模型。選用BERT-base版本作為基礎預訓練模型。
由表8可知,對BERT在現有數據集上再訓練并使用句向量補充全局信息,能使模型表現達到最佳,再預訓練可以在詞嵌入層就為模型提供更多針對任務領域的先驗語義知識,令模型在訓練過程中能更專注于任務相關特征的抽取,而不會受到由于任務領域偏差所帶來的干擾。
3.5.2 編碼層對比
由于不同編碼器的特征映射能力存在差異,僅對MTPN的編碼器進行替換比較,對比如表9所示。
LF-Transformer比BiGRU和Transformer編碼器在2-way 5-shot任務上分別提高了0.82%和1.12%的準確率。LF-Transformer在參考樣本較少(5-shot)時具有更好的表現,而Transformer在參考樣本較多(50-shot)時表現更好。因為層級注意力機制能融合任務相關的語義信息和低層次通用信息,間接減少了模型對高級特征的依賴,LF-Transformer在參考樣本較少、高級特征難以提取時更好,而Transformer在參考樣本較多、高級特征更易被利用時效果更好。
編碼器的非線性變化層用于過濾無用信息,減少對模型訓練的干擾。圖8體現了非線性變換層對模型提升有較大幫助。
3.6 類向量生成模塊
不同的類原型生成方式,對模型度量的準確性有較大的影響。選取了不同類向量生成方法對比,分為兩大類,即無參歸納方法(1~3)和有參生成方法(4~7)。由表10可知,有參生成方法比無參歸納方法具有更好的效果,可學習的有參生成方法更加靈活,能更加主動地運用訓練過程中得到的經驗來調整自身參數,與編碼器的關系也更加緊密,生成的類原型向量比無參歸納方法更具有針對性。
Transformer在結構和性能上比BiGRU更優秀,但Transformer參數量過多,導致其不適合輸入數據較少、任務簡單的類原型生成模塊。BiGRU結合注意力機制已經足夠生成合適的類原型向量,過多的參數和網絡深度反而會影響模塊訓練。
為了比較不同生成方法得到的類原型的質量,定義類原型的統計真值:從正負情感評論樣本向量中分別取50個,用平均法得到代表正負情感的類向量,該向量視為類原型統計真值。
表11比較了模型使用不同生成方法得到的類原型向量與統計真值間的歐氏距離。BiGRU結合注意力機制生成的類原型與統計真值最接近,即本文方法的類原型更具有代表性。
4 結束語
本文提出了一種基于原型網絡的改進模型MTPN,通過為編碼器增加輔助任務從結構上解決原型網絡對樣本語義利用不足的問題,提出LF-Transformer融合多層編碼信息令提取的特征通用性更高,利于模型在少樣本任務背景下更好地遷移。對于模型的度量網絡,則使用BiGRU獲得更具代表性的類向量,提高模型的泛化性。MTPN在少樣本任務中具有出色的性能,對于未知領域,僅需每類樣本各五個即可達到超過90%的平均分類準確率,在ARSC數據集下與當前多個成績優秀的模型進行對比實驗,取得了
91.62%的最好分類效果。
參考文獻:
[1]
Wang Yaqing,Yao Quanming,Kwok J T,et al.Generalizing from a few examples:a survey on few-shot learning[J].ACM Computing Surveys,2020,53(3):1-34.
[2]Snell J,Swersky K,Zemel R.Prototypical networks for few-shot lear-ning[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:4080-4090.
[3]Fritzler A,Logacheva V,Kretov M.Few-shot classification in named entity recognition task[C]//Proc of the 34th ACM/SIGAPP Sympo-sium on Applied Computing.New York:ACM Press,2019:993-1000.
[4]Geng Ruiying,Li Binhua,Li Yongbin,et al.Induction networks for few-shot text classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:3904-3913.
[5]Geng Ruiying,Li Binhua,Li Yongbin,et al.Dynamic memory induction networks for few-shot text classification[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2020:1087-1094.
[6]Gao Tianyu,Han Xu,Liu Zhiyuan,et al.Hybrid attention-based prototypical networks for noisy few-shot relation classification[J].AAAI Technical Track:Natural Language Processing,2019,33(1):6407-6414.
[7]Sui Dianbo,Chen Yubo,Mao Binjie,et al.Knowledge guided metric learning for few-shot text classification[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2021:3266-3271.
[8]Sun Pengfei,Ouyang Yawen,Zhang Wenming.et al.MEDA:meta-learning with data augmentation for few-shot text classification[C]//Proc of the 30th International Joint Conference on Artificial Intelligence.2021:3929-3935.
[9]Pahde F,Jhnichen P,Klein T,et al.Cross-modal hallucination for few-shot fine-grained recognition[EB/OL].(2018-06-14).https://arxiv.org/abs/1806.05147.
[10]Wang Yong,Wu Xiaoming,Li Qimai,et al.Large margin meta-lear-ning for few-shot classification[C]//Proc of the 2nd Workshop on Meta-Learning[S.l.]:Neural Information Processing Systems Foundation,2018.
[11]Sun Shengli,Sun Qingfeng,Zhou K,et al.Hierarchical attention prototypical networks for few-shot text classification[C]//Proc of Confe-rence on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:476-485.
[12]Chopra S,Hadsell R,LeCun Y.Learning a similarity metric discriminatively,with application to face verification[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:539-546.
[13]Hu Han,Gu Jiayuan,Zhang Zhang,et al.Relation networks for object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3588-3597.
[14]Vinyals O,Blundell C,Lillicrap T,et al.Matching networks for one shot learning[EB/OL].(2017-12-29).https://arxiv.org/abs/1606.04080.
[15]冀中,柴星亮.基于自注意力和自編碼器的少樣本學習[J].天津大學學報:自然科學與工程技術版,2021,54(4):338-345. (Ji Zhong,Chai Xingliang.Few-shot learning based on self-attention and Auto-Encoder[J].Journal of Tianjin University:Science and Technology,2021,54(4):338-345.)
[16]韋世紅,劉紅梅,唐宏,等.多級度量網絡的小樣本學習[J/OL].計算機工程與應用.(2021-12-11).http://kns.cnki.net/kcms/detail/11.2127.TP.20211012.1508.008.html.(Wei Shihong,Liu Hongmei,Tang Hong,et al.Multilevel metric networks for few shot learning[J/OL].Computer Engineering and Applications.(2021-12-11).http://kns.cnki.net/kcms/detail/11.2127.TP.20211012.1508.008.html.)
[17]線巖團,相艷,余正濤,等.用于文本分類的均值原型網絡[J].中文信息學報,2020,34(6):73-80,88. (Xian Yantuan,Xiang Yan,Yu Zhengtao,et al.Mean prototypical networks for text classification[J].Journal of Chinese Information Processing,2020,34(6):73-80,88.)
[18]Dou Ziyi,Tu Zhaopeng,Wang Xing,et al.Exploiting deep representations for neural machine translation[C]//Proc ofConference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:4253-4262.
[19]Devlin J,Chang Mingwei,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:4171-4186.
[20]Chen Ting,Kornblith S,Norouzi M,et al.A simple framework for con-trastive learning of visual representations[C]//Proc of International Conference on Machine Learning.2020:1597-1607.
[21]Xia Congying,Zhang Chenwei,Yan Xiaohui,et al.Zero-shot user intent detection via capsule neural networks[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:3090-3099.