















摘 要:針對短文本缺乏足夠共現(xiàn)信息所產(chǎn)生的詞與詞之間弱連接,且難以獲取主題詞的情況,導(dǎo)致面向短文本分類工作需要人工標(biāo)注大量的訓(xùn)練樣本,以及產(chǎn)生特征稀疏和維度爆炸的問題,提出了一種基于注意力機(jī)制和標(biāo)簽圖的單詞共生短文本分類模型(WGA-BERT)。首先利用預(yù)先訓(xùn)練好的BERT模型計算上下文感知的文本表示,并使用WNTM對每個單詞的潛在單詞組分布進(jìn)行建模,以獲取主題擴(kuò)展特征向量;其次提出了一種標(biāo)簽圖構(gòu)造方法捕獲主題詞的結(jié)構(gòu)和相關(guān)性;最后,提出了一種注意力機(jī)制建立主題詞之間,以及主題詞和文本之間的聯(lián)系,解決了數(shù)據(jù)稀疏性和主題文本異構(gòu)性的問題。實驗結(jié)果表明,WGA-BERT模型對于新聞評論類的短文本分類,比傳統(tǒng)的機(jī)器學(xué)習(xí)模型在分類精度上平均提高了3%。
關(guān)鍵詞:短文本分類;詞嵌入;單詞網(wǎng)絡(luò)主題模型;注意力機(jī)制
中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2022)03-011-0711-05
doi:10.19734/j.issn.1001-3695.2021.08.0359
基金項目:國家自然科學(xué)基金資助項目(61975124);上海自然科學(xué)基金資助項目(20ZR1438500);上海市科委科技行動計劃資助項目(20DZ2308700);上海市經(jīng)信委軟件和集成電路產(chǎn)業(yè)發(fā)展專項(RX-RJJC-02-20-4212)
作者簡介:楊陽(1997-),女,河南平頂山人,碩士研究生,主要研究方向為自然語言處理;劉恩博(1995-),男,河南周口人,碩士研究生,主要研究方向為推薦系統(tǒng);顧春華(1970-),男,江蘇常熟人,教授,博導(dǎo),博士,主要研究方向為強(qiáng)智能計算系統(tǒng)等;裴頌文(1981-),男(通信作者),湖南邵東人,教授,博導(dǎo),博士,主要研究方向為計算機(jī)體系結(jié)構(gòu)、智能計算等(swpei@usst.edu.cn).
Research on short text classification model combined with word vector for sparse data
Yang Yang,Liu Enbo,Gu Chunhua,Pei Songwen?
(School of Optical-Electrical amp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200082,China)
Abstract:Due to the lack of sufficient co-occurrence information in short text,
weak connections between words,and it is difficult to obtain subject words,which leads to the need to manually label a large number of training samples for short text classification,and the problems of sparse features and dimension explosion.This paper proposed a word symbiotic short text classification model based on attention mechanism and label graph(WGA-BERT).Firstly,this paper used the pretrained BERT model to calculate the context aware text representation,and used WNTM to model the potential word group distribution of each word to obtain the topic expansion feature vector.Secondly,this paper used a tag graph construction method to capture the structure and relevance of subject words.Finally,this paper used an attention mechanism to establish the relationship between subject words and between subject words and text,which solved the problems of data sparsity and subject text heterogeneity.The experimental results show that the WGA-BERT model improves the classification accuracy by an average of 3% compared with the traditional machine learning model.
Key words:short text classification;word embedding;word network topic model(WNTM);attention mechanism
0 引言
文本分類是自然語言處理(NLP)中的一個經(jīng)典問題,它也是信息過濾、信息檢索、用戶推薦等領(lǐng)域一項基本的自然語言處理任務(wù),其中最具有挑戰(zhàn)性的是多標(biāo)簽文本分類。多標(biāo)簽文本分類[1]區(qū)別于單標(biāo)簽文本分類,旨在用一系列標(biāo)簽來標(biāo)記文檔。多標(biāo)簽文本分類廣泛應(yīng)用于情感分析、推薦系統(tǒng)和意圖識別等,比如將一篇新聞分為教育和金融兩個類別。文本分類是在預(yù)先定義主題類別的基礎(chǔ)上確定未標(biāo)記文本類別的一種方法,在數(shù)學(xué)中,它實際上是一個映射:
f:A→B(1)
其中:A是需要分類的文本集;B是類別集;f是分類過程的分類器。
新聞文本分類是新聞信息處理的一項關(guān)鍵技術(shù),它能有效地組織信息,并能根據(jù)用戶的需要快速區(qū)分信息類別。隨著大量新聞短文本信息的爆炸式增長,由于沒有足夠的上下文導(dǎo)致信息模糊,訓(xùn)練模型的泛化能力大大降低。通過以上分析,新聞短文本分類的主要難點在于:a)文本長度過短導(dǎo)致特征提取稀疏,傳統(tǒng)的向量空間模型和機(jī)器分類算法直接應(yīng)用于短文本分類時效果并不理想;b)各個信息類別標(biāo)簽之間以及標(biāo)簽與文本之間往往存在復(fù)雜的依賴關(guān)系,從而給文本分類帶來了很大的挑戰(zhàn)。
當(dāng)前解決多標(biāo)簽文本分類的方法可以歸納為問題轉(zhuǎn)換方法、算法改進(jìn)方法和神經(jīng)網(wǎng)絡(luò)方法三種。文本分類的中間步驟是文本表示,傳統(tǒng)的方法通常基于手工制作的特征,這些方法都存在特征稀疏和數(shù)據(jù)稀疏的問題。近年來基于深度學(xué)習(xí)的文本表示方法有CNN、RNN、LSTM等。但上述模型旨在關(guān)注文本的順序性和局部性,在解決文本統(tǒng)計信息的同時忽略了全局文本的共現(xiàn)信息。自從Bruna等人[2]首次提出圖上的基于頻域(spectral-domain)和基于空域(spatial-domain)的卷積神經(jīng)網(wǎng)絡(luò)以來,基于文本分類問題的圖神經(jīng)網(wǎng)絡(luò)方法不斷涌現(xiàn),為圖神經(jīng)網(wǎng)絡(luò)解決文本分類問題的探索提供了更多的思路和可能性。
針對傳統(tǒng)文本分類中新聞標(biāo)題稀疏難以取得較好的分類效果等特點,本文采用WNTM模型[3]對新聞文本語料庫的主題進(jìn)行建模,得到主題擴(kuò)展特征向量。之后將圖卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制(attention)[4]相結(jié)合,提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的混合模型,利用新聞數(shù)據(jù)的文本、實體和主題標(biāo)簽進(jìn)行構(gòu)圖,并通過調(diào)整注意機(jī)制結(jié)合標(biāo)簽語義。此外,為了從每個文檔中捕獲與標(biāo)簽相關(guān)的識別信息,使用來自變換器的雙向編碼表示,在模型的第一層采用單詞嵌入層,通過BERT機(jī)制將訓(xùn)練序列轉(zhuǎn)換為單詞向量,有效獲得文本中每個單詞的上下文表示,模型的輸出為文本中各個字或詞融合了全文語義信息后的向量表示,大大地提高了模型的有效性。
本文利用能夠有效基于節(jié)點進(jìn)行建模的圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在TextGCN模型的基礎(chǔ)上轉(zhuǎn)換為半監(jiān)督圖學(xué)習(xí)任務(wù),以減少對樣本的依賴。提出一種基于圖神經(jīng)網(wǎng)絡(luò)的混合模型WGA-BERT,能夠?qū)γ總€單詞的潛在單詞組分布進(jìn)行建模,有效解決了傳統(tǒng)的LDA(latent Dirichlet allocation)[5]難以提取短文本主題詞的問題。加入一種新的注意力機(jī)制來衡量調(diào)節(jié)注意,用于捕捉語義模糊等不同問題的不同信息的重要性,能夠在模型基礎(chǔ)上降低噪聲信息的權(quán)重。在一個真實的新聞數(shù)據(jù)集上對該方法進(jìn)行了評估,證明所提方法在處理短文本時優(yōu)于傳統(tǒng)模型和單一分類模型,需要較少的標(biāo)記文章且能達(dá)到更高的分類精度。
1 傳統(tǒng)的短文本分類方法
傳統(tǒng)的新聞文本分類中,首先要進(jìn)行數(shù)據(jù)集的預(yù)處理,包括標(biāo)簽的預(yù)處理、文本信息的處理。目前對于文本的經(jīng)典預(yù)處理方法有one-hot、world2vec等,但對于任務(wù)相關(guān)的數(shù)據(jù)集較大導(dǎo)致的訓(xùn)練時間長,要在短時間內(nèi)、特別是有限計算資源下解決sequence to sequence [6]等問題,Google于2018年提出了基于transformer[7]構(gòu)建的BERT模型,BERT模型通過Mask語言模型和下一句預(yù)測的方法使其具有較強(qiáng)的泛化能力,刷新了多項NLP任務(wù)的記錄,并且使得NLP無監(jiān)督預(yù)訓(xùn)練技術(shù)有了較大的提升。BERT模型[8]將預(yù)訓(xùn)練模型和下游任務(wù)模型結(jié)合在一起,對于短文本預(yù)測具有較大的優(yōu)勢,將BERT運用于文本分類以提高分類性能是當(dāng)下的一個研究熱點。除此之外,模型的構(gòu)建對于新聞文本分類至關(guān)重要。近幾年來興起的基于深度學(xué)習(xí)的文本分類比如FastText、word2vec和text2vec等方法可以將其映射到一個低維度空間從而得到較好的分類效果。經(jīng)研究發(fā)現(xiàn),較短的新聞文本通常沒有共同的標(biāo)簽或只有少量標(biāo)簽,僅基于傳統(tǒng)表示方法或傳統(tǒng)的深度學(xué)習(xí)模型分類比較困難。現(xiàn)有的半監(jiān)督文本分類方法是使用有標(biāo)簽的數(shù)據(jù)做預(yù)訓(xùn)練,以對模型調(diào)優(yōu),用于預(yù)測目標(biāo)數(shù)據(jù)。在訓(xùn)練的過程中采用迭代的方式挑選出置信度較高的數(shù)據(jù)作為訓(xùn)練集,逐步優(yōu)化分類模型,從而實現(xiàn)自監(jiān)督學(xué)習(xí)。但該方法的問題在于初期的錯誤難以被關(guān)注,從而在訓(xùn)練過程中逐步顯現(xiàn)并導(dǎo)致誤差增大。深度學(xué)習(xí)模型中卷積神經(jīng)網(wǎng)絡(luò)[9]以及相關(guān)模型在解決文本分類問題中具有較好的表現(xiàn),但是傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在解決社交網(wǎng)絡(luò)節(jié)點的劃分等非歐氏結(jié)構(gòu)的數(shù)據(jù)時表現(xiàn)較差[10]。為了得到社交網(wǎng)絡(luò)、信息網(wǎng)絡(luò)的空間特征,有學(xué)者使用圖卷積神經(jīng)網(wǎng)絡(luò)來處理,同一般的卷積神經(jīng)網(wǎng)絡(luò)不同,圖神經(jīng)網(wǎng)絡(luò)[11](GCN)輸入的數(shù)據(jù)是一個圖拓?fù)渚仃嚕@個拓?fù)渚仃囈话闶菆D的鄰接矩陣。因此GCN在結(jié)構(gòu)數(shù)據(jù)處理上的成功吸引了許多研究者將GNN應(yīng)用到傳統(tǒng)的NLP應(yīng)用中,但是針對短文本文本稀疏的問題,需要針對傳統(tǒng) GCN構(gòu)圖作進(jìn)一步研究。
在相關(guān)的研究中,短文本分類大致上可以分為兩類方法[12]:a)利用搜索引擎[13]來豐富和擴(kuò)展文本的特征上下文。具體方法為通過搜索引擎來對短文本的特征上下文進(jìn)行擴(kuò)充和完善,并對搜索引擎返回的結(jié)果分析并計算相似度,但由于從搜索引擎獲取和搜索文本片段非常耗時耗力,且當(dāng)搜索引擎的質(zhì)量不高的時候此種方法并不適用;b)使用Wikipedia等Web數(shù)據(jù)庫作為外部的知識源。如Bouaziz等人[14]在Wikipedia中使用 LDA主題模型訓(xùn)練語料庫,得到主題和主題的分布,然后通過主題分布擴(kuò)展短文本的特征,并結(jié)合語義隨機(jī)林選擇特征擴(kuò)展;Xuan等人[15]提出了一個使用外部數(shù)據(jù)集構(gòu)建短文本分類器的具有潛在主題的通用框架;Zuo等人[3]提出了詞網(wǎng)三角主題模型,通過詞對的共現(xiàn)關(guān)系生成詞網(wǎng),通過詞網(wǎng)對偽文檔進(jìn)行分類,與傳統(tǒng)的LDA解決方案不同,其從詞共現(xiàn)網(wǎng)絡(luò)中挖掘主題,成功地緩解了逐詞文檔空間的數(shù)據(jù)稀疏性和主題文檔的異構(gòu)性。但是這些模型并不能很好地應(yīng)用到文本量稀疏的短文本中。對于短文本帶來的主題不平衡的問題[16],如果每個主題的文檔分布嚴(yán)重偏斜,那么從少量文本中識別主題是極其困難的;部分模型方法假設(shè)每個文檔只包含一個主題,但更多的短文本不止包含一種主題,因此這種模式具有局限性。
2 WGA-BERT文本分類混合模型
為了解決部分文本分類模型在對文本進(jìn)行建模時只適用于文本量豐富的長文本的缺陷,本文模型結(jié)合了WNTM模型以便從詞語網(wǎng)絡(luò)中選擇特定的詞三角結(jié)構(gòu)來挖掘文本主題,克服數(shù)據(jù)稀疏的問題。本文模型還利用注意力機(jī)制來合并文檔的標(biāo)簽表示和細(xì)粒度的詞語級表示,并在TextGCN的基礎(chǔ)上作進(jìn)一步優(yōu)化,主要分為WNTM主題模型詞嵌入層、GCN標(biāo)簽圖構(gòu)造層和調(diào)節(jié)型注意機(jī)制層。以本文WGA-BERT模型進(jìn)行新聞文本分類的具體流程如圖1所示。
2.1 WNTM主題模型詞嵌入層
本文模型利用WNTM挖掘潛在主題詞來豐富短文本的語義,在預(yù)處理測試集中使用BERT訓(xùn)練詞向量模型以獲得融合上下文的文本表示,并訓(xùn)練WNTM以獲得主題特征擴(kuò)展向量。
每個主題ti=(θ1,…,θw)(w表示詞匯量大小) 由單詞的概率分布表示,可將每個文檔分配給概率最大的前P個主題,如果文檔被分配給該主題,文檔和主體之間的邊界就建立起來了。
主題建模常用的模型是LDA,但是通過實驗發(fā)現(xiàn),LDA雖然在長文本方面取得了很大的成功,但是在短文本上的處理效果甚微。WNTM是一種用于改善LDA模型在短文本上表現(xiàn)的模型。在短文本中,文檔—詞的空間是很稀疏的,但詞—詞空間卻不稀疏,同時,由于每個主題在文檔上的分布是不均衡的,所以類似LDA的模型往往會忽略稀有主題。WNTM將LDA中文檔—詞的空間轉(zhuǎn)換到詞—詞的空間,詞—詞空間中豐富的上下文信息有助于WNTM在World共現(xiàn)網(wǎng)絡(luò)中發(fā)現(xiàn)主題,而不是直接從文檔集合中發(fā)現(xiàn)主題。為了推斷文檔中的主題,假設(shè)文檔生成單詞的主題比例的期望值等于文檔的主題比例,具體方法如下:
其中:z表示潛在詞組;設(shè)d是由i個單詞組成的輸入文檔,表示為[w1,w2,w3,…,wi],其中wi表示文檔中的第i個單詞;P(z|Wi)等于θi,z。在WNTM中,θ分布表示每個詞的相鄰詞表中出現(xiàn)潛在詞組的概率。對于P(Wi|d),可以簡單地將文檔中單詞的經(jīng)驗分布作為一個估計,即
其中:nd(wi)是文檔d中wi的詞頻;len(d)是d的長度。與以往的LDA方法不同,WNTM對每個單詞的潛在單詞組分布建模,而不是對每個文檔的主題分部建模。在得到語料庫的詞向量后,基于吉布斯抽樣的WNTM模型對訓(xùn)練集進(jìn)行訓(xùn)練,得到訓(xùn)練集的文本主題[17]分布矩陣。主題詞文件是與主題最相關(guān)的前n個主題詞的選擇,其中n是可以根據(jù)需要調(diào)整的值,之后選擇概率最大的詞作為主題詞。
2.2 GCN標(biāo)簽圖構(gòu)造層
GCN標(biāo)簽圖構(gòu)造層以標(biāo)簽圖為輸入,學(xué)習(xí)標(biāo)簽的embedding,對標(biāo)簽間的語義關(guān)聯(lián)進(jìn)行編碼。
該模型使用BERT和GCN來共同構(gòu)建上下文感知的短文本分類模型,通過預(yù)先訓(xùn)練的BERT來實現(xiàn)上下文句子的學(xué)習(xí)呈現(xiàn)。首先利用上下文數(shù)據(jù)對每個編碼器進(jìn)行預(yù)訓(xùn)練,以獲得文本數(shù)據(jù)的學(xué)習(xí)表示,并通過上文所述的WNTM模型獲得主題詞數(shù)據(jù),使用GCN來構(gòu)造標(biāo)簽圖。 GCN是一種基于圖的神經(jīng)網(wǎng)絡(luò),在圖像處理方面的應(yīng)用已有很多。近幾年,GCN在建立圖的頂點間關(guān)系方面取得了廣泛的成功并逐漸應(yīng)用于NLP領(lǐng)域,其主要應(yīng)用于句法依賴圖的建模中。本文根據(jù)標(biāo)簽在數(shù)據(jù)中集中的分布來構(gòu)造標(biāo)簽圖,并利用GCN將標(biāo)簽圖中的節(jié)點映射到同一空間,標(biāo)簽在空間中的距離取決于分布的相似度,分布越相似的標(biāo)簽在空間中就越接近。此處采用余弦相似度衡量主題標(biāo)簽間的關(guān)聯(lián),具體方法如下:
其中:dedgeweight(Wi,Wj)表示單詞Wi與Wj這一對單詞之間的邊緣的權(quán)重,如果兩個主題標(biāo)簽的相似度超過設(shè)定的閾值,就表示這兩個主題標(biāo)簽具有一定的語義關(guān)系;Nsemantic(wi,wj)表示所構(gòu)造的語義圖中每一對主題標(biāo)簽在語料庫中具有語義關(guān)系的總次數(shù),其中語料庫包含所有的句子或文檔;Ntotal(wi,wj)是主題標(biāo)簽Wi與Wj在整個語料庫中的同一個句子或同一個文檔中出現(xiàn)的總次數(shù)。
此外,還設(shè)計了一種新的損耗函數(shù)來約束空間中的節(jié)點,可以利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來捕捉標(biāo)簽間的高階語義關(guān)聯(lián)。具體方法是:將每個標(biāo)簽視為一個節(jié)點,每個節(jié)點收集所有鄰居特征來形成其表示,標(biāo)簽間的邊反映了節(jié)點的語義關(guān)聯(lián),如果標(biāo)簽共存,就會形成一個邊緣。用固定寬度的滑動窗口對標(biāo)簽樣本內(nèi)容進(jìn)行平行滑動,以此計算兩個單詞的關(guān)系,具體實現(xiàn)為
其中:Cij表示所有的滑窗中同時包含標(biāo)簽λi和λj的個數(shù);I是單位矩陣,這意味著每個節(jié)點都與其自身相連;Aij值為正則說明兩個標(biāo)簽語義相關(guān)度高,為負(fù)說明語義相關(guān)度不高,因此最終的標(biāo)簽圖中只保留具有正值的標(biāo)簽對組成的邊。還用同樣的方式構(gòu)造了另一個主題標(biāo)簽的鄰接矩陣,新矩陣用來表示另一個新樣本wi與λj的關(guān)系和共現(xiàn)情況。該模型的GCN層計算式為
該模型由兩個GCN層組成。GCN層使用單位矩陣X和鄰接矩陣A兩個矩陣作為輸入,矩陣的大小為N×N,其中N是輸入主題詞樣本的數(shù)量。通過第一個GCN層的學(xué)習(xí),使用層參數(shù)W0作為第二層的權(quán)值矩陣,每一層都分層傳播擴(kuò)展。其中是基于對角矩陣D的標(biāo)準(zhǔn)化鄰接矩陣,計算公式為
2.3 調(diào)節(jié)型注意機(jī)制層
調(diào)整注意模塊的作用為:對生成的標(biāo)簽進(jìn)行篩選,過濾掉不必要的標(biāo)簽,并減少文檔內(nèi)容的無關(guān)性和冗余性。該模塊通過調(diào)整注意力動態(tài)地分配標(biāo)簽的權(quán)重,避免實體的模糊性或者構(gòu)圖時的噪聲而引入的一些不恰當(dāng)?shù)母拍顜淼挠绊懬揖哂屑?xì)粒度的分類信息的單詞(比如單詞“水果”比“食物”)更適用。實驗中使用調(diào)整注意力機(jī)制用于計算單詞和標(biāo)簽之間的注意分?jǐn)?shù),生成特定于標(biāo)簽的單詞表示,并捕獲單詞標(biāo)記的全局重要性。由于單詞標(biāo)記和類標(biāo)簽之間的關(guān)聯(lián)程度會影響它們的注意得分,所以調(diào)整注意可以分為兩個階段。第一階段的任務(wù)是判斷主題詞之間的相關(guān)性,相關(guān)標(biāo)簽的權(quán)重會增大,同時不相關(guān)標(biāo)簽的權(quán)重應(yīng)該相應(yīng)減小,因此采用softmax計算相關(guān)注意分?jǐn)?shù),softmax可將概率分布標(biāo)準(zhǔn)化。為了衡量概念的相對重要性,首先提出了基于source2token自我注意機(jī)制衡量每個主題標(biāo)簽相對于整個主題合集的重要性,每個主題標(biāo)簽的C-CS[18]注意定義如下:
從WNTM主題模型中得到表示為(c1,c2,c3,…,ci)的主題集合。其中ci表示是第i個主題標(biāo)簽;αi表示從第i個主題標(biāo)簽到整個主題集的注意力的權(quán)重;W1∈?db×d是一個權(quán)向量,其中db是超參數(shù);b2是偏移量。C-CS注意機(jī)制與特征選擇的效果相似。這是一種軟特征選擇,它為更重要的特征賦予較大的權(quán)重,為次重要的標(biāo)簽賦予較小甚至接近于零的權(quán)重。
第二階段的任務(wù)是判斷單詞和主題標(biāo)簽之間的相關(guān)性,將此任務(wù)視為一個二元分類任務(wù),因此采用了sigmod函數(shù)。如果一些相關(guān)分?jǐn)?shù)的值小于閾值τ,則認(rèn)為單詞與這些標(biāo)簽無關(guān)。之后利用調(diào)整注意對詞i的標(biāo)簽嵌入進(jìn)行加權(quán)平均。為了減少文檔的無關(guān)性和冗余性,使用C-ST[19]注意力概念來衡量第i個主題詞與短文本表征之間的語義相似度,該方法通過調(diào)整注意動態(tài)地分配標(biāo)簽的權(quán)重。具體方法如下:
其中:βi表示從第i個主題詞到短文本的注意力權(quán)重,βi越大代表第i個主題詞在語義上與短文本更接近;f(·)是一個非線性激活函數(shù),如雙曲正切變換,并使用sigmod規(guī)范化每個概念的注意力權(quán)重;W2∈?da×(2u+d)是一個權(quán)重矩陣;w2∈?da是一個權(quán)向量,其中da是超參數(shù);b2是偏移量。
通過以下公式將ai和βi結(jié)合起來,得到每個主題標(biāo)簽的最終注意分?jǐn)?shù):
其中:ai表示從第i個主題標(biāo)簽到短文本的最終注意權(quán)重;γ∈[0,1]是一個軟開關(guān),用來調(diào)整兩個注意權(quán)重的重要性,將其視為一個超參數(shù),并手動調(diào)整以獲得最佳性能。
最后采用雙向時記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)[20]作為文檔編碼器來生成文檔表示,BiLSTM可以通過正向和反向?qū)W習(xí)每個輸入文本的單詞嵌入,將處理后的前向網(wǎng)絡(luò)和后向網(wǎng)絡(luò)連接起來得到隱藏狀態(tài)hk,并輸入由全連接層和sigmod函數(shù)組成的分類器進(jìn)行分類,以預(yù)測文檔中每個主題標(biāo)簽的置信度,形式如下:
在模型訓(xùn)練過程中,利用L2范數(shù)對訓(xùn)練數(shù)據(jù)進(jìn)行交叉熵?fù)p失,具體如下:
其中:C是類數(shù);Dtrain是用于訓(xùn)練的短文本索引集;Y是相應(yīng)的便簽指引符矩陣;θ是模型參數(shù);η是正則化因子,模型優(yōu)化采用梯度下降法。之后新聞文本的embedding與處理后的標(biāo)簽圖embedding自適應(yīng)融合,并使用BiLSTM對融合后的向量矩陣進(jìn)行分類,用測試集對結(jié)果進(jìn)行測試。
3 實驗結(jié)果及分析
為驗證上述模型的有效性,本章將在2003—2017年澳大利亞廣播公司發(fā)布的130萬條新聞的標(biāo)題數(shù)據(jù)集上評估WGA-BERT模型,并通過多方面的性能驗證確定該模型是否優(yōu)于其他模型。
3.1 數(shù)據(jù)集
短文本數(shù)據(jù)集可以從很多來源選取或者構(gòu)建,比如新聞標(biāo)題、網(wǎng)絡(luò)評論、用戶的推特等。實驗從澳大利亞著名新聞來源ABC(澳大利亞廣播公司)選取了部分新聞標(biāo)題,該新聞以平均每天200篇的篇幅記錄具有重大意義的國際新聞,比如阿富汗戰(zhàn)爭、金融危機(jī)、多次選舉、生態(tài)災(zāi)難、恐怖主義、名人、犯罪活動等。數(shù)據(jù)集包含了18年來新聞標(biāo)題的數(shù)據(jù),每條標(biāo)題的平均長度不大于20個單詞。以英文、小寫形式顯示的標(biāo)題文本,整合所有語料庫,將其劃分為訓(xùn)練集和測試集,其中的80%作為驗證集,20%作為測試集。之后對數(shù)據(jù)集進(jìn)行預(yù)處理操作,包括刪除非英語字符、停用詞,刪除出現(xiàn)次數(shù)少于5次的低頻詞等。
3.2 比較方法
為了證明WGA-BERT模型的有效性,首先在兩種經(jīng)典的單一方法模型上進(jìn)行實驗,利用經(jīng)典的LDA特征擴(kuò)展模型結(jié)合支持向量分類方法處理上述數(shù)據(jù)集,之后利用同樣采用節(jié)點構(gòu)圖方法并取得成功的Text GCN模型進(jìn)行分類,采用控制變量的方法以及多種組合方法模型利用同樣的數(shù)據(jù)集進(jìn)行比較,用于證明所提出的模型優(yōu)于其他方法。
1)Text GCN[11] 基于詞共現(xiàn)和文檔詞關(guān)系為語料建立一個單獨的文本圖,然后聯(lián)合學(xué)習(xí)詞和文檔的embedding進(jìn)行多分類任務(wù)[9]。
2)WNTM[3] 基于WNTM的單一模型,其中構(gòu)造單詞共現(xiàn)網(wǎng)絡(luò)的節(jié)點是出現(xiàn)在語料庫中的單詞,為了限制詞網(wǎng)絡(luò)的大小,采用一個固定大小的滑動窗口作為上下文。
3)LDA[5]+GCN 基于LDA主題提取和GCN組合模型的分類方法。使用句子LDA模型結(jié)合詞和主題向量擴(kuò)展新聞標(biāo)題的特征,GCN的構(gòu)圖方法與本文的方法保持一致,最后利用支持向量機(jī)對新聞標(biāo)題進(jìn)行分類。
4)WNTM+GCN 基于WNTM主題提取和GCN組合模型的分類方法。首先,利用word2vec工具對短文本語料庫中的詞向量進(jìn)行訓(xùn)練,并采用加法平均法合成平均詞向量。然后利用WNTM對短文本語料庫的主題進(jìn)行建模,得到主題擴(kuò)展特征向量。最后,將平均詞向量和主題擴(kuò)展特征向量進(jìn)行融合,同樣采用GCN對標(biāo)簽進(jìn)行構(gòu)圖以衡量主題標(biāo)簽的關(guān)聯(lián),并在融合后進(jìn)行分類。
5)WGA-BERT 基于WNTM主題提取和GCN組合模型的基礎(chǔ)上,在預(yù)處理測試集中使用BERT[8]訓(xùn)練詞向量模型以獲得融合上下文的文本表示,并訓(xùn)練WNTM以獲得主題特征擴(kuò)展向量,以標(biāo)簽圖為輸入,學(xué)習(xí)標(biāo)簽的embedding,對標(biāo)簽間的語義關(guān)聯(lián)進(jìn)行編碼,之后使用調(diào)整注意模塊把對生成的標(biāo)簽進(jìn)行篩選,過濾掉不必要的標(biāo)簽,并減少文檔內(nèi)容的無關(guān)性和冗余性,該模塊通過調(diào)整注意動態(tài)地分配標(biāo)簽的權(quán)重,最后新聞文本的embedding與處理后的標(biāo)簽圖embedding自適應(yīng)融合并使用BilSTM對融合后的向量矩陣進(jìn)行分類。
3.3 實驗參數(shù)設(shè)置
首先選擇了12層12個自我注意頭的預(yù)訓(xùn)練模型,其中以H=768作為初始化值,然后在BERT中用Adam對WGA-BERT進(jìn)行微調(diào)和優(yōu)化。對于Adam優(yōu)化器,設(shè)置初始學(xué)習(xí)率為2E-5,批大小設(shè)置為8。在構(gòu)造WNTM的共現(xiàn)網(wǎng)絡(luò)時,兩個單詞之間的邊緣表示連接的兩個單詞至少在固定大小的文檔或者滑動窗口出現(xiàn)過。該數(shù)據(jù)集使用的短文本平均長度在15~20個單詞,理論上來說更大的滑動窗口有利于捕捉主題詞之間的相似度,但是為了降低計算復(fù)雜度,將滑動窗口的大小設(shè)置為10。節(jié)點的度為其相鄰鏈路上的權(quán)重之和,節(jié)點的活動定義為其相鄰鏈路的平均權(quán)重。圖2為滑動窗口和單詞成對加權(quán)模式圖示。
GCN只需要一層卷積就可以捕捉到相鄰鄰居的信息。當(dāng)多個GCN層被堆疊時,較大的領(lǐng)域信息則會被集成,此處將構(gòu)建好的標(biāo)簽圖輸入到一個簡單的兩層GCN中,設(shè)置第一層卷積的embedding大小為200,并將滑動窗口大小設(shè)置為20,實驗發(fā)現(xiàn)將滑動窗口的數(shù)值大小進(jìn)行較小的調(diào)整并不會對結(jié)果產(chǎn)生太大的影響,這與Kipf和Welling2016[21]的實驗結(jié)果相似。實驗將dropout設(shè)置為0.3以防止過度擬合,并將下降梯度調(diào)整為最大范數(shù)5,模型中的其他參數(shù)是隨機(jī)初始化的。
算法1 BERT的預(yù)訓(xùn)練,訓(xùn)練參數(shù)
輸入:數(shù)據(jù)集的訓(xùn)練文本數(shù)據(jù)。
輸出:對mask的詞的預(yù)測值以及對分類的推斷。
input_tensor = gather_indexes()
從transformer最后一層的輸出取出被mask的詞的向量
Xhidden:[batch_size,seq_len,embedding_dim]
做MLM任務(wù):讓模型預(yù)測和還原被掩蓋或替換掉的部分
Wvocab=[embeddin_dim,vocab_size]
用Wvocab完成隱藏維度到字向量數(shù)量的映射
XhiddenWvocab:[batch_size,seq_len,vocab_size]
得到矩陣乘積,之后獲取二分類的損失函數(shù)
構(gòu)建next sentence prediction的損失函數(shù)
cls_vector=Xhidden[:,0,:],cls_victor∈?batch_size,embedding_dim
取出[cls]token所對應(yīng)的一條向量,并運用邏輯回歸
=sigmod(linear(cls_vector))//得到分類的推斷
算法2 兩層GCN的構(gòu)建
輸入: 一個輸入維度為N×F0的特征矩陣X,其中N是圖網(wǎng)絡(luò)中的節(jié)點數(shù),而F0是每個節(jié)點的輸入特征數(shù)。
輸出:一個圖結(jié)構(gòu)的維度為N×N的矩陣表征。
文本數(shù)據(jù)的維度:n*n(n=trainsize+vocabsize+text_size))
gcn1=GCNLayer(in_feats,hidden_size);
將上一層的輸出作為當(dāng)前層的輸入,計算當(dāng)前層的輸出hidden
gcn2=GCNLayer(hidden_size,num_classes);
該模型的輸出為最后一層的輸出
3.4 實驗分析
對澳大利亞廣播公司發(fā)布的新聞標(biāo)題數(shù)據(jù)進(jìn)行了實驗,研究WNTM從具有不平衡特征的短文本中提取高質(zhì)量主題詞的能力,隨機(jī)選取該新聞數(shù)據(jù)集中的100萬條文檔進(jìn)行實驗,該100萬條數(shù)據(jù)集包含約45萬個不同的單詞,文檔中tokens的平均數(shù)量為10.4。在所有實驗中,主題數(shù)被設(shè)置為100,WNTM的滑動窗口長度設(shè)置為10,每個模型的Gibbs抽樣被執(zhí)行2 000次迭代。模型的訓(xùn)練過程如表1所示。
表1是文本數(shù)據(jù)集的訓(xùn)練過程。表中的epoch指輸入的文本數(shù)據(jù)在WGA-BERT模型中進(jìn)行一次前向傳播和反向傳播的計算過程。train_loss是訓(xùn)練損失,val_loss表示實際損失,acc表示精確度,time表示訓(xùn)練時長。由表1可知,損失值在不斷降低,同時兩者的精確度在不斷升高。根據(jù)表1可以得出本文模型訓(xùn)練的損失曲線如圖3所示。
之后進(jìn)行了不同主流模型的仿真實驗,本文模型與3.2節(jié)中所列舉的模型對比如表2所示。為了選擇適當(dāng)數(shù)量的主題Z,訓(xùn)練集被隨機(jī)分成五個相等的分區(qū),設(shè)置了LDA模型參數(shù)α=0.1和β=0.01,主題相似度閾值γ=0.05,主題的數(shù)量設(shè)置為150,并采用控制變量法與WNTM進(jìn)行對比。由于WNTM 并沒有對文檔的生成過程進(jìn)行建模,常規(guī)的困惑度評價法并不適用,因此實驗利用主題連貫性[22]作為提取的主題質(zhì)量評價指標(biāo),其中當(dāng)每個主題中頂部單詞集T=5和9時WNTM的平均主題一致性略高于LDA,而T=18時略低于LDA。由此可見在長文本中,由于每個文檔空間不存在稀疏性問題,LDA可以利用逐個文檔中豐富的上下文信息來學(xué)習(xí)高質(zhì)量的主題詞,但是在短文本中,LDA對于主題詞的提取從字詞空間學(xué)習(xí)主題的效果明顯更好,這一點與Zuo等人[3]的研究一致。
為了更清晰地展示實驗結(jié)果,本文模型訓(xùn)練測試集實驗結(jié)果如圖4所示。其中Hamming損失、精確度、召回率和F1值是在文本分類問題中用來衡量模型優(yōu)劣性的主要指標(biāo)。
結(jié)果表明本文WGA-BERT模型性能優(yōu)于其他四種已有模型。與Text GCN相比,本文的模型取得了較好的性能,其中WGA-BERT的Hamming損失減少了20.1%,精準(zhǔn)度提升4%,召回率增加了10.6%,F(xiàn)1值提升了7.0%。這是因為該模型利用WNTM來擴(kuò)展新聞標(biāo)題的特征,實驗結(jié)果表明,該機(jī)制可以將單詞和主題詞特征融入到分類過程中。由于LDA不適合短文本建模,所以在使用BERT進(jìn)行預(yù)處理后,采用的WNTM生成特征擴(kuò)展詞集后實驗結(jié)果較為理想,但BERT的學(xué)習(xí)速率值不宜調(diào)得過高,否則會導(dǎo)致較差的訓(xùn)練效果。通過實驗表明,對標(biāo)簽語義關(guān)聯(lián)進(jìn)行建模也能帶來一定程度的性能提升,與單單使用WNTM模型進(jìn)行分類相比,WGA-BERT的Hamming損失減少了25.6%,精準(zhǔn)度提升了4.5%,召回率增加了6.2%,F(xiàn)1值提升了6.0%,因為標(biāo)簽間的語義關(guān)聯(lián)可以有效捕獲有用的標(biāo)簽特定信息并抑制噪聲;與LDA+GCN相比,WGA-BERT的Hamming損失減少了14.1%,精準(zhǔn)度提升了2.7%,召回率增加了4.7%,F(xiàn)1值提升了5.5%,證明了WNTM相較于LDA能夠更加有效地提取短文本的主題詞;與WNTM+GCN相比,WGA-BERT的Hamming 損失減少了7.9%,精準(zhǔn)度提升了0.9%,召回率增加了4.3%,F(xiàn)1值提升了1.1%,但是BERT在訓(xùn)練的過程中較消耗資源,所以訓(xùn)練時間有所延長。綜合上述分析可以得出結(jié)論,WGA-BERT模型在短文本分類中效果更好。
4 結(jié)束語
本文針對新聞類短文本數(shù)據(jù)量稀疏,難以獲取單詞上下文信息以及深層語義信息問題提出了基于WGA-BERT的短文本分類混合模型,該模型通過WNTM模型以可接受的代價在簡短且不平衡的文本中進(jìn)行主題建模,并利用得到的主題詞來構(gòu)造標(biāo)簽圖,以獲得標(biāo)簽的語義嵌入。為了更好地增強(qiáng)上下文語義之間的關(guān)系,引入了BERT進(jìn)行上下文編碼,從而提高分類效果。在一個短文本數(shù)據(jù)集上進(jìn)行實驗,與現(xiàn)有的基線方法相比,準(zhǔn)確率、召回率和F1值都有所提高,證明了該方法在處理短文本分類中處理數(shù)據(jù)稀疏和不平衡問題具有出色的性能,在分類精度等方面均獲得了顯著的提升。在今后的工作中,本文方法將在其他領(lǐng)域的數(shù)據(jù)集上進(jìn)行實驗,比如用于對社交媒體上的話題或短評論進(jìn)行分類,并進(jìn)一步研究如何提高模型用更短的訓(xùn)練時長高質(zhì)量捕捉稀有主題的能力。
參考文獻(xiàn):
[1]Zhang Minling,Zhou Zhihua.A review on multi-label learning algorithms[J].IEEE Trans on Knowledge and Data Engineering,2014,26(8):1819-1837.
[2]Bruna J,Zaremba W,Szlam A,et al.Spectral networks and locally connected networks on graphs[EB/OL].(2014-05-21).https://arxiv.org/abs/1312.6203.
[3]Zuo Yuan,Zhao Jichang,Xu Ke.Word network topic model:a simple but general solution for short and imbalanced texts[J].Knowledge and Information Systems,2016,48(2):379-398.
[4]申靜波,李井輝,孫麗娜.注意力機(jī)制在評論文本情感分析中的應(yīng)用研究[J].計算機(jī)技術(shù)與發(fā)展,2020,30(7):169-173.(Shen Jingbo,Li Jinghui,Sun Lina.Application of attention mechanism in emotion analysis of critical texts[J].Computer Technology and Development,2020,30(7):169-173.
[5]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[C]//Proc of Neural Information Processing Systems:Natural and Synthetic.British Columbia:Journal of Machine Learning Research.[S.l.] :NIPS Press,2001:601-608.
[6]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[C]//Proc of the 34th International Conference on Machine Learning.[S.l.] :JMLR.org,2017:1243-1252.
[7]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY :Curran Associates Inc.,2017:6000-6010.
[8]Devlin J,Chang Mingwei,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Annual Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics ,2019:4171-4186.
[9]藍(lán)雯飛,徐蔚,王濤.基于卷積神經(jīng)網(wǎng)絡(luò)的中文新聞文本分類[J].中南民族大學(xué)學(xué)報:自然科學(xué)版,2018,37(1):138-143.(Lan Wenfei,Xu Wei,Wang Tao.Text classification of Chinese news based on convolutional neural network[J].Journal of South-Central University for Nationalities:Natural Science Edition,2018,37(1):138-143.)
[10]Liu Yinhan,Ott M,Goyal N,et al.RoBERTa:a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26).https://arxiv.org/pdf/1907.11692.pdf.
[11]代寒靜,涂新輝.基于Pre-RoBERTa-MTL的中文機(jī)器閱讀理解模型[J].計算機(jī)應(yīng)用,2020,40(S2):12-18.(Dai Hanjing,Tu Xinhui.Chinese machine reading comprehension model based on Pre-RoBERTa-MTL[J].Journal of Computer Applications,2020,40(S2):12-18.)
[12]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].(2014-09-03).https://arxiv.org/abs/1406.1078.
[13]Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:3104-3112.
[14]Lewis P,Perez E,Piktus A,et al.Retrieval-augmented generation for knowledge-intensive NLP tasks[EB/OL].(2021-04-12).https://arxiv.org/abs/2005.11401.
[15]Karpukhin V,Ogˇuz B,Min S,et al.Dense passage retrieval for open-domain question answering[EB/OL].(2020-09-30).https://arxiv.org/abs/2004.04906.
[16]Lewis M,Liu Yinhan,Goyal N,et al.BART:denoising sequence-to-sequence pre-training for natural language generation,translation,and comprehension[EB/OL].(2019-10-29).https://arxiv.org/abs/1910.13461.
[17]See A,Liu P J,Manning C D.Get to the point:summarization with pointer-generator networks[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017.
[18]譚金源,刁宇峰,祁瑞華,等.基于BERT-PGN模型的中文新聞文本自動摘要生成[J].計算機(jī)應(yīng)用,2021,41(1):127-132.(Tan Jinyuan,Diao Yufeng,Qi Ruihua,et al.Automatic summary generation of Chinese news text based on BERT-PGN model[J].Journal of Computer Applications,2021,41(1):127-132.)
[19]Lample G,Conneau A.Cross-lingual language model pretraining[EB/OL].(2019-01-22).https://arxiv.org/pdf/1901.07291.pdf.
[20]Joshi M,Chen Danqi,Liu Yinhan,et al.SpanBERT:improving pretraining by representing and predicting spans[EB/OL].[2020-01-12].https://arxiv.org/pdf/1907.10529.pdf.
[21]Yang Zhilin,Dai Zihang,Yang Yiming,et al.XLNet:generalized autoregressive pretraining for language understanding[EB/OL].(2020-01-02).https://arxiv.org/abs/1906.08237.
[22]Vinyals O,F(xiàn)ortunato M,Jaitly N.Pointer networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:2692-2700.