










收稿日期:2022-03-01;修回日期:2022-04-20" 基金項目:國家自然科學基金資助項目(61873068)
作者簡介:周玄郎(1996-),男,江西撫州人,碩士研究生,主要研究方向為自然語言處理(1305291858@qq.com);邱衛(wèi)根(1968-),男,江西臨川人,教授,碩導,博士,主要研究方向為人工智能、計算機圖形圖像學;張立臣(1962-),男,吉林吉林人,教授,博導,博士,主要研究方向為大數(shù)據(jù)、信息物理融合系統(tǒng)研究.
摘 要:
為了提高文本分類的準確率并解決文本圖卷積神經(jīng)網(wǎng)絡對節(jié)點特征利用不足的問題,提出了一種新的文本分類模型,其內在融合了文本圖卷積和Stacking集成學習方法的優(yōu)點。該模型首先通過文本圖卷積神經(jīng)網(wǎng)絡學習文檔和詞的全局表達以及文檔的語法結構信息,再通過集成學習對文本圖卷積提取的特征進行二次學習,以彌補文本圖卷積節(jié)點特征利用不足的問題,提升單標簽文本分類的準確率以及整個模型泛化能力。為了降低集成學習的時間消耗,移除了集成學習中的k折交叉驗證機制,融合算法實現(xiàn)了文本圖卷積和Stacking集成學習方法的關聯(lián)。在R8、R52、MR、Ohsumed、20NG等數(shù)據(jù)集上的分類效果相對于傳統(tǒng)的分類模型分別提升了1.5%、2.5%、11%、12%、7%以上,該方法在同領域的分類算法比較中表現(xiàn)優(yōu)異。
關鍵詞:文本表示; 文本分類; 文本圖卷積; 集成學習; 融合模型
中圖分類號:TP391.1"" 文獻標志碼:A"" 文章編號:1001-3695(2022)09-009-2621-05
doi: 10.19734/j.issn.1001-3695.2022.03.0066
Text classification combining text graph convolution and ensemble learning
Zhou Xuanlang, Qiu Weigen, Zhang Lichen
(School of Computer Science amp; Technology, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:In order to improve the accuracy of text classification and solve the problem of insufficient utilization of node features by text graph convolution neural network,this paper proposed a new text classification model,which integrated the advantages of text graph convolution and Stacking integrated learning method. The model firstly learned the global expression of documents and words and the grammatical structure information of documents through text graph convolution neural network,and then secondary learned the features extracted by text graph convolution through integrated learning,so as to make up for the insufficient utilization of text graph convolution node features,and improved the accuracy of single label text classification and the generalization ability of the whole model. In order to reduce the time consumption of ensemble learning,the fusion algorithm removed the k-fold cross verification mechanism in ensemble learning. The fusion algorithm realized the correlation between text graph convolution and Stacking integrated learning method. The classification effect on R8,R52,MR,Ohsumed,20NG and other datasets is improved by more than 1.5%,2.5%,11%,12% and 7% respectively compared with the traditional classification model. This method performs well in the comparison of classification algorithms in the same field.
Key words:text representation; text classification; Text GCN; ensemble learning; fusion model
0 引言
大數(shù)據(jù)時代,網(wǎng)絡文本數(shù)據(jù)日益增長,數(shù)據(jù)量越來越龐大,科學管理和組織這些數(shù)據(jù)變得尤其重要,因此許多文本處理方法[1]應運而生。文本分類是自然語言處理中非常重要的研究領域之一,大量的應用使用了文本分類技術,如垃圾郵件檢測、新聞過濾、計算表型、觀點挖掘、情感分析和文檔的組織[1,2]等。
文本分類方法可分為傳統(tǒng)方法和深度方法。傳統(tǒng)文本分類方法主要采用的是機器學習方法,對文本的表示及分類進行研究。傳統(tǒng)的文本特征提取方法如n-gram法,得到文本的表示不夠充分,缺少文本的詞序關系[2],這使得文本的表示受到限制,處理方式也不夠靈活,且在分類方面只是采用單個分類器進行分類,分類精度不高。深度學習的文本表示方法,如利用卷積神經(jīng)網(wǎng)絡(CNN)[3]和基于BiLSTM[4]的循環(huán)神經(jīng)網(wǎng)絡(RNN)[5]學習局部連續(xù)的單詞序列對文本進行表示學習,使文本的表示更加靈活,提升了文本分類的效果。然而這類文本表示方法無法獲取句子的語法結構信息以及全局信息,使得分類效果受到限制。另外,CNN和RNN等深度學習模型受限于歐氏結構數(shù)據(jù),對于文本這類原本就屬于非歐氏結構的數(shù)據(jù)來說則需要做更多的處理。隨著深度學習的進一步發(fā)展,圖神經(jīng)網(wǎng)絡的研究得到越來越多的關注。研究人員發(fā)現(xiàn),圖神網(wǎng)絡非常適合文本這類非歐氏結構數(shù)據(jù)的處理[6],如文本圖卷積模型[7],能夠在訓練中自動學習單詞和文檔的嵌入;并且圖神經(jīng)網(wǎng)絡能夠整合文本的結構信息,提升文本的表征能力。然而在最終的分類方面,圖神經(jīng)網(wǎng)絡模型并沒有充分利用神經(jīng)網(wǎng)絡學習到的特征。
為了解決以上問題并提升文本分類的效果,本文提出了新的文本分類模型TGCN-S(text GCN-Stacking),通過使用Stacking集成學習方法,對文本圖卷積得到的特征進行擬合訓練,解決文本圖卷積特征利用不足的問題,提高了分類效果和模型的泛化能力;為了提高集成學習的速度,移除了集成學習中的交叉驗證機制。該模型的有效性在R8、R52、MR、Ohsumed和20NG等數(shù)據(jù)集的實驗上得到驗證。
綜上所述,本文提出了新的文本分類模型TGCN-S,主要貢獻和創(chuàng)新點概括如下:a)本文利用文本圖卷積獲取文本的全局信息和文本的結構信息,解決傳統(tǒng)模型無法獲取文本的結構信息的問題,提升文本的特征表達;b)優(yōu)化Stacking集成學習模塊,移除k折交叉驗證,在保證分類效率的同時降低Stacking學習過程的時間消耗,將softmax分類器替換為Stacking集成學習分類器,有效地解決了文本圖卷積特征利用不充分的問題,提升了整個模型的分類效果和泛化能力;c)融合文本圖卷積和集成學習的優(yōu)點,提出新的文本分類模型TGCN-S,提高文本分類的準確率。
1 相關工作
1.1 傳統(tǒng)的文本分類
傳統(tǒng)的文本分類方法有很多,如支持向量機(SVM)[2]、K最近鄰(KNN)和隨機森林(RF)[1]等,這些文本分類方法主要聚焦于文本的表示以及相應算法的研究,例如詞袋法和n-grams表示法。詞袋法將文檔劃分為一個單詞集合,并確定它們在文檔中出現(xiàn)的頻率;n-gram法[8]將文本中連續(xù)的n個詞語作為一個對象,再將所有的對象放在一起形成一個集合。詞袋法中,文本的最終表示結果與集合中單詞順序無關[2],這將導致句子語法特性以及單詞間的相關性丟失,使得文本表示不夠充分,無法得到文本全局信息;相比于詞袋法,n-gram能夠得到單詞的相關性,但忽略了句子的句法特性,對文本的表示不夠充分且缺乏靈活性,同樣地,使得文本的全局信息丟失。
1.2 基于深度學習的文本分類
目前,大多數(shù)的文本分類方法是基于深度學習的,其中具有代表性的如應用于語句分類的CNN[3]、基于雙向長短期記憶BiLSTM[4]的RNN以及BERT模型[9]等。Kim[3]于2014年提出了基于CNN的語句分類,它將一維卷積應用在文本語句上,在分類準確度上取得了比較好的結果。Liu等人[5]通過將LSTM應用在文本分類中,以學習文本表示,保留文本更長的單詞信息,提高了文本的表達能力。Devlin等人[9]提出了BERT模型,是一種預訓練語言的文本表示模型,在大量文本語料中訓練了一個通用的語言表示模型,能夠捕獲單詞間更長的依賴。這些模型的出現(xiàn)很大程度上解決了傳統(tǒng)分類方法文本表征不足的問題,但是沒有捕獲文本的結構信息和全局信息。CNN與RNN都主要是針對局部連續(xù)的單詞序列,能夠很好地捕獲文本中的局部信息,但無法得到語料庫中單詞的全局共現(xiàn)信息以及文本的結構信息。并且以上模型都局限于歐氏結構數(shù)據(jù)的學習,對于非歐氏結構數(shù)據(jù)的處理則會顯得捉襟見肘,例如文本數(shù)據(jù),如果不進行特殊處理,很難捕獲文本的結構信息。
隨著深度學習技術的發(fā)展,圖神經(jīng)網(wǎng)絡的研究得到越來越多的關注。GNN不僅具有參數(shù)共享、降低計算量的優(yōu)點,而且非常適合文本中單詞之間非歐氏結構數(shù)據(jù)的處理,取得了機器學習領域的突破;GNN還能夠提取多尺度的局部空間特征并抽象組合成高層特征,通過圖嵌入,GNN能夠學習圖的節(jié)點、邊以及子圖的低維度向量表示[8],突破了一般機器學習需要依賴手工的網(wǎng)絡結構設計問題,提高了學習的靈活性。Cai等人[8]證明了圖神經(jīng)網(wǎng)絡能夠很好地處理具有豐富關系的結構任務能夠在圖嵌入的過程中保留圖的全局信息;Kipf等人[10]對圖神經(jīng)網(wǎng)絡進行了簡化,提出了一種圖卷積神經(jīng)網(wǎng)絡模型GCN,該模型可以捕獲高階鄰域特征,提升文本分類的準確率;Yao等人[7]將GCN運用到文本分類中并提出了Text GCN模型,對語料庫構建大型的異構圖,以句子和單詞作為圖中的節(jié)點,通過GCN學習單詞和句子嵌入,獲取文本中單詞的全局信息以及整個文本的結構信息,最后得到文本的特征。
1.3 分類器
目前,不管是傳統(tǒng)的文本分類還是基于深度學習的文本分類方法,在提取文本的特征后,使用單一的分類器進行分類,如使用softmax得到每個類別的概率,并選擇概率最大分類作為文本最終的分類。單一的分類器直接進行分類使得分類結果一次就確定下來,在出現(xiàn)分類失誤的情況下,無法對分類結果進行修正調整。集成學習是由多個弱分類器組成的一個強分類器,可以作為一個整體的分類器用于分類,能夠很好地解決單個分類器分類能力不足的問題[11]。集成學習可以分為Boosting算法、Bagging算法以及Stacking算法[12]三類。其中具有代表性的是Stacking算法,在靈活性和擴展性方面,Stacking算法比其他兩個算法都要好[13,14],更具效率優(yōu)勢。Stacking模型能夠靈活高效地對文本進行分類,然而,其分類效果依賴于傳入Stacking模型的文本特征。
基于以上問題,本文提出了一種融合文本圖卷積和Stacking集成學習的文本分類方法TGCN-S,利用文本圖卷積提取文本特征,通過集成學習彌補原圖卷積特征利用不足的問題,提升文本分類的準確性以及模型的泛化能力。為了降低集成學習的擬合時間,移除了Stacking集成學習中的交叉驗證機制,以提升集成學習部分的擬合速度。
2 TGCN-S算法
本文通過融合文本圖卷積和Stacking集成學習方法提出了一種新的文本分類算法TGCN-S,結合了文本圖卷積和Stacking的優(yōu)點,解決了文本圖卷積特征利用不足的問題,提高了文本分類準確度和模型的泛化能力。為了降低集成學習部分的時間消耗,移除了Stacking集成學習中的交叉驗證機制以提升集成學習的擬合速度,提高文本分類的效率。
2.1 TGCN-S模型結構
本文提出的TGCN-S模型如圖1所示,將模型分為特征提取和Stacking集成分類兩部分。TGCN-S由Text GCN和Stacking兩個部分連接而成,將Text GCN提取的特征作為Stacking集成學習的輸入,并將Text GCN分類結果與Stacking第一層分類結果拼接作為Stacking第二層的輸入,形成殘差連接。這種跳躍式連接的方式提升了兩個模型之間的關聯(lián),增強了Stacking第二層輸入的特征表達。最終通過Stacking的第二部分進行分類,得到文本最后的分類結果。在圖1中,文本異構圖的黑點表示文檔,白點表示單詞,實線表示文檔與單詞的聯(lián)系,虛線表示單詞之間的聯(lián)系,根據(jù)文本異構圖計算得到的鄰接矩陣作為Text GCN的輸入。
2.2 特征提取
本文主要使用Text GCN作為特征提取器,作為整個模型的第一部分。在對文本進行構圖的過程中,將單詞和文檔作為圖的節(jié)點,單詞與文檔之間的連接權值用詞頻逆文檔頻率(TF-IDF)表示,單詞與單詞之間的連接權值使用逐點互信息(PMI)表示。PMI的計算方式如下:
PMI(i,j)=logP(i,j)P(i)×P(j), P(i,j)=N(i,j)N,
P(i)=N(i)N(1)
其中:N是滑動窗口總數(shù);N(i,j)表示同時包含節(jié)點i、j的滑動窗口數(shù);N(i)表示包含節(jié)點i的滑動窗口數(shù);P(i,j)表示同時包含節(jié)點i、j的概率;P(i)表示滑動窗口包含節(jié)點i的概率。由此得到節(jié)點i、j之間邊的權重Aij,定義如下:
Aij=PMI(i,j)"" i,j are w,PMI(i,j)gt;0
TF-IDFij i is doc,j is w
1 i=j
0 others (2)
其中:w表示單詞;doc表示一個文檔。當PMI為正值時,表示語料庫中單詞的語義相關性較高;當PMI為負值時,表示語料庫中單詞的語義相關性很低或者沒有。在構建異構圖時,只在PMI為正值的節(jié)點對直接添加邊;之后再將帶權圖輸入到一個簡單的兩層GCN進行學習。在GCN第二層得到詞文檔嵌入,嵌入的維度與標簽類別數(shù)大小相同。提取的特征Z可以用式(3)計算。最后將節(jié)點的嵌入送到softmax函數(shù)中,得到臨時的分類輸出Y,如式(4)所示。
Z=A^ReLU(A^XW0)W1(3)
Y=softmax(Z)(4)
其中:A^=D^-12A^D^-12,而A^=A+IN;A是n階鄰接矩陣;IN是n階單位矩陣,n是頂點個數(shù);D^是A^對應的度矩陣,其中D^ij=∑jA^ij;X是由n個節(jié)點的特征構成的特征矩陣;W0、W1分別是特定于第一層和第二層的可訓練的權重矩陣;ReLU是層間的激活函數(shù)。
2.3 集成學習部分
TGCN-S的第二個部分就是Stacking集成學習,傳統(tǒng)的Stacking集成模型如圖2所示。
傳統(tǒng)的Stacking集成學習模型(圖2)對多個基分類器(Ck,(k=1,2,…,m))進行訓練,然后將多個訓練好的基分類器對訓練集中的數(shù)據(jù)進行預測得到訓練集的預測值Pi(i=1,2,…,m),再對測試集中的數(shù)據(jù)進行預測得到測試集對應的預測值pj(j=1,2,…,m),最后將多個基分類器得到的預測結果組合在一起拼接成新數(shù)據(jù)集,各個基分類器對同一個樣本的預測結果組合在一起作為該樣本的新特征,訓練集得到的預測值組合在一起作為新的訓練集特征(P1,P2,…,Pm),測試集得到的預測值組合在一起形成新的測試集特征(p1,p2,…,pm);然后將得到的兩組特征集通過Stacking第二層融合分類器進行訓練和預測,得到最后的分類。
一般地,Text GCN直接利用softmax對GCN中得到的特征進行分類,并以此作為最終輸出,其對訓練的特征并沒有很好地利用。TGCN-S模型融合了Stacking集成分類以及Text GCN優(yōu)點,在使用softmax對GCN中得到的特征進行分類的過程中,還利用Stacking集成學習中各基分類器對GCN學習到的特征進行二次擬合,最后進行融合分類,獲得文本最終分類結果。
與傳統(tǒng)的Stacking集成學習不同,TGCN-S中Stacking集成學習部分包含基分類層和融合層。第一層基分類層由五個基分類器組成,第二層融合層除了直接使用各基分類器的分類結果和數(shù)據(jù),還整合了Text GCN分類的輸出結果和數(shù)據(jù),即特征提取過程中的訓練和預測結果Y(式(4)),形成跳躍式連接。這種跳躍式連接不僅增強了文本圖卷積和Staking集成模型之間的聯(lián)系,而且將Text GCN預測效果代入Stacking第二層,提升了融合層的分類效果。為了降低集成學習部分的時間消耗,去除Stacking的交叉驗證機制以提高模型的擬合速度。模型的特征組合過程如圖3所示,其中Ci (i=1,2,3,4,5)為基分類器,Tri為基分類器得到的訓練結果,Tei (i=1,2,3,4,5)為基分類器的預測結果,train_set是由各個Tri組成的訓練集,test_set是由各個Tei組成的測試集。
Stacking第一層是由多個基分類器組成,對于基分類器的選擇,主要遵循的原則是“各個基分類器準而不同”,不同的基分類器之間要有所差異[12]。本文Stacking集成學習的基分類層采用了五種基分類器:支持向量機(SVM)、決策樹(DT)、隨機森林(RF)、K最近鄰(KNN)以及高斯樸素貝葉斯(Gaussian NB)。一般認為,這五種分類器具有基礎性的作用,其他大多數(shù)分類方法基本上都是基于這五種分類器中的某一個或多個進行改進優(yōu)化的。另外隨著模型復雜性和模型數(shù)量的增加,模型整體訓練的時間必然增加,模型訓練擬合開銷也會隨之增加。基于以上考慮,TGCN-S模型Stacking第一層的基分類器以上述五種為主;第二層分類器在單個機器學習分類器預測的基礎上采用投票法給出最終分類結果。
3 實驗結果和分析
3.1 數(shù)據(jù)集
主要使用R8、Ohsumed、MR、R52和20NG五個數(shù)據(jù)集對本文TGCN-S模型進行實驗對比,分析TGCN-S的分類效果。
a)R8數(shù)據(jù)集。該數(shù)據(jù)集分離自路透社語料庫,只有八個類別,其中有5 485個訓練文檔和2 189個測試文檔。
b)Ohsumed數(shù)據(jù)集。它是由國家醫(yī)學圖書館維護的重要的醫(yī)學文獻數(shù)目的數(shù)據(jù)庫。提取其中只有單一分類的數(shù)據(jù),構成本實驗的訓練測試用例,其中3 357個文檔用于訓練,4 043個文檔用于測試,總共7 400個數(shù)據(jù)。
c)MR數(shù)據(jù)集。MR是一個電影評論數(shù)據(jù)集,每個評論只包含一句話,其中有5 331篇正面評論,5 331篇負面評論。
d)R52數(shù)據(jù)集。它也是分離自路透社語料庫,有52個類別,有6 532個訓練數(shù)據(jù)和2 568個測試數(shù)據(jù)。
e)20NG。它是一個含有20個類別的新聞組數(shù)據(jù)集,訓練集有11 314個文檔,測試集有7 532個文檔。
這些數(shù)據(jù)由于是文本數(shù)據(jù),并不能直接用于模型的訓練,需要對其進行預處理[7]。通過預處理,得到表1的統(tǒng)計信息,從中可以看到每個數(shù)據(jù)集的訓練集和測試集的大小。
3.2 對比模型實驗數(shù)據(jù)
1)CNN 針對文本分類的卷積神經(jīng)網(wǎng)絡,由Kim[3]于2014年提出,通過在預訓練的詞向量之上訓練的卷積神經(jīng)網(wǎng)絡進行句子級的分類任務。
2)LSTM 由Liu等人[5]于2016年提出的基于長短期記憶文本分類模型,通過使用最后一個隱藏狀態(tài)作為整個文本的表示形式。
3)Bi-LSTM 雙向長短期記憶文本分類模型,是LSTM的改版,以預訓練的詞嵌入作為Bi-LSTM[4]的輸入。
4)FastText 由Joulin等人[15]于2017年提出的簡單有效的文本分類模型,通過將單詞n-gram嵌入的平均值作為文檔的嵌入,再將得到的文檔嵌入送入線性分類器進行分類。
5)Text GCN 由Yao等人[7]于2019年提出的基于圖卷積的文本分類方法,該方法基于單詞共現(xiàn)和文檔單詞關系為整個語料庫構建大型異構文本圖,再使用圖卷積神經(jīng)網(wǎng)絡和softmax進行學習分類。
通過本文模型與上述幾個模型的實驗對比得到不同模型在不同數(shù)據(jù)集上的準確率,結果如表2所示。
如表2所示,本文提出的TGCN-S在五個數(shù)據(jù)集上的測試精度都表現(xiàn)得最好,且有著不同程度的提升。針對R8數(shù)據(jù)集,TGCN-S的表現(xiàn)比其中最好的Text GCN高出了1.5個百分點,比其他文本分類算法的精度高出了至少2個百分點[7];對于R52數(shù)據(jù)集,本文模型比其他模型高出了2.5個百分點以上,相比于CNN模型,分類效果提高了13個百分點;在Ohsumed數(shù)據(jù)集,TGCN-S的表現(xiàn)比Text GCN模型的表現(xiàn)高出了12個百分點,比其他分類模型高出了20個百分點以上[7];對于MR數(shù)據(jù)集,TGCN-S模型在測試精度上比Text GCN模型高出了接近11個百分點[7],比其他模型都高出了接近14個百分點[7];在20NG這種較大數(shù)據(jù)集上,TGCN-S也比TextGCN模型高出7個百分點,比其他模型高出12個百分點以上。圖4直觀地展示了各個模型在所用數(shù)據(jù)集的預測結果。從圖4可以看出,本文模型的分類效果都優(yōu)于對比模型。圖上的數(shù)據(jù)充分說明,Stacking集成學習能夠對文本圖卷積學習到的文本特征進行更高效的利用,能夠在不同程度上提升分類效果。
從表2的數(shù)據(jù)中可以發(fā)現(xiàn),本文模型對不同的數(shù)據(jù)集的分類效果有著不同的提升,但對于Ohsumed和MR兩個數(shù)據(jù)集的分類效果沒有其他數(shù)據(jù)集的結果好,原因在于MR數(shù)據(jù)中存在多個極性評論,如“這部電影故事很豐富,但是太恐怖了”;同樣地,在Ohsumed數(shù)據(jù)集中各種醫(yī)學文獻之間的描述是相互關聯(lián)的,在描述某種病例時會提及與病例有關的藥物和信息。圖神經(jīng)網(wǎng)絡雖然能捕獲文本全局信息,但是無法獲取文本內的詞序特征,以至于無法提取文本的詳細特征,進而導致分類效果欠佳。即便如此,本文方法相對于其他單個分類器來說仍有非常大的提升。這也說明融合Stacking集成學習后的模型,通過投票機制能夠有效地提高文本分類的效果,即便文本中存在多極性的描述,也能得到較高的準確率。這些實驗數(shù)據(jù)也證明了本文模型的有效性,可以在很大程度上提升文本分類的準確率。
單一的準確率并不能很好地確定模型的質量,為此,本文采用對比各個模型的宏觀F1(macro-F1)和微觀F1(micro-F1)來評估模型的性能,它們是綜合考慮了模型的查準率和查全率的計算結果,macro-F1與micro-F1的值越大,說明模型的質量越高、分類性能越好。文獻[4]指出,Text GCN的模型分類效果和模型質量都優(yōu)于CNN、LSTM、BiLSTM、FastText等,因此,本文主要對Text GCN與TGCN-S-vote模型的macro-F1與micro-F1值進行比較,以對比判斷本文模型TCGN-S-vote的性能。各個數(shù)據(jù)集在兩個模型的macro-F1與micro-F1值如表3所示。
由表3可以看出,本文模型總體上的macro-F1與micro-F1的得分都比Text GCN模型的要高,說明本文模型相比于Text GCN模型的質量更高,模型的分類效果也更好。為了對比模型的收斂情況,將Text GCN與本文模型進行比較,通過每個epoch的準確率以及達到穩(wěn)定時的狀態(tài)來確定模型的收斂能力,實驗結果用折線統(tǒng)計圖來表示。圖5分別畫出了MR、R52、R8數(shù)據(jù)集在Text GCN和TGCN-S-vote模型的各個epoch的準確率。從圖中可以看到,本文模型在各個數(shù)據(jù)集上的收斂速度都比Text GCN要快,都能更早地達到穩(wěn)定狀態(tài)。同時從分類準確率的角度來看,本文模型最終的分類準確率都比Text GCN要高。
3.3 去交叉驗證的集成學習
為了簡化集成學習模塊、提高整個模型的訓練預測速度,去除了Stacking中所有基分類器的交叉驗證機制,只通過隨機打亂的方式對訓練集和測試集進行處理,并在各個數(shù)據(jù)集上進行了對比實驗。實驗結果如表4所示。
表4中,Kfoldt和KP分別表示使用k折交叉驗證Stacking模型所花費的時間及分類準確率,nKfoldt和nKP分別表示未使用k折交叉驗證Stacking部分的耗時及對應的分類準確率。從表4中可以發(fā)現(xiàn),不使用k折交叉驗證的時間消耗低于使用k折交叉驗證的時間消耗,因為在Stacking部分少了k-1次的模型的擬合,所以時間有所減少。并且不使用k折交叉驗證的分類準確率也表現(xiàn)出不低于使用k折交叉驗證的分類準確率。這是因為,k折交叉驗證原本用于數(shù)據(jù)集較少的情況,以提高模型的泛化能力,對于數(shù)據(jù)集較多的情況,進行交叉驗證的效果收益甚微,還會影響模型的擬合速度,本實驗的數(shù)據(jù)集就是如此。因此,本文模型去除了Stacking集成學習交叉驗證機制,以降低模型的時間花費,提升模型訓練預測速度的同時保持良好的分類準確率。
3.4 集成學習融合層的對比實驗
為了分析Stacking模型中第二層融合分類器Vote對最終模型分類效果的影響,本實驗通過選擇九種常用機器學習方法作為Stacking第二層的融合分類法,并分別在R8、R52、Ohsumed、MR以及20NG這五個數(shù)據(jù)集進行對比實驗。九種分類器如下:高斯貝葉斯分類器(GaussianNB)、線性回歸(Linear-Regression)、邏輯回歸(LogisticRegression)、決策樹(DecisionTree)、LightGBM[16]、支持向量機(SVM)、AdaBoost[17]、Bagging[18]以及Voting投票法。實驗結果如表5所示。
從表5中可以看出,使用不同的分類方法作為融合層的分類器會有不同的分類效果。在這五個數(shù)據(jù)集中,除了在Ohsumed數(shù)據(jù)集上以LightGBM作為融合分類器的測試精度略大于投票法之外,其他數(shù)據(jù)集中投票法的測試精度都優(yōu)于其他分類器。這體現(xiàn)了投票法的通用性,且投票法思想簡單、易于實現(xiàn)。因此本文模型以投票法作為Stacking模型第二層的融合分類器。
4 結束語
本文提出了一種融合文本圖卷積和Stacking集成學習的文本分類方法(TGCN-S),以解決Text GCN特征利用不足的問題,提高文本分類準確率。不同于傳統(tǒng)方法使用單個分類器對文本分類或者深度學習使用softmax直接對Text GCN提取的特征進行分類,TGCN-S采用Stacking集成學習,對Text GCN得到的特征進行二次學習,同時,去除Stacking集成學習中基分類器的交叉驗證機制,加速模型擬合,最后通過融合層得到樣本最后的分類。本文TGCN-S模型在R8、R52、MR、Ohsumed以及20NG等數(shù)據(jù)集上的準確率分別達到了98.58%、96.04%、88.28%、80.90%、93.02%,相對于其他模型有著很大的提升。實驗結果表明,本文模型在文本分類方面具有較高的識別效果,同時也證明了本文方法的可行性。
本文對于Stacking的基分類器參數(shù)只是憑借經(jīng)驗設置,并沒有對這些參數(shù)進行優(yōu)化,未來研究方向可以對這些基分類器的參數(shù)進行優(yōu)化,以進一步提高整個模型的分類效果,提高模型的分類精度。同時圖卷積學習到的特征表達缺少語句中的詞序關系,因此豐富文本的特征表達也是未來研究方向之一。
參考文獻:
[1]Kowsari K,Meimandi K J,Heidarysafa M,et al. Text classification algorithms: a survey [J/OL]. Information,2019,10(4). https://doi.org/10.3390/info10040150.
[2]Li Qian,Peng Hao,Li Jianxin,et al. A survey on text classification: from shallow to deep learning [EB/OL]. (2021-12-22). https://arxiv.org/pdf/2008.00364v5.pdf.
[3]Kim Y. Convolutional neural networks for sentence classification [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2014: 1746-1751.
[4]金宸,李維華,姬晨,等. 基于雙向LSTM神經(jīng)網(wǎng)絡模型的中文分詞 [J]. 中文信息學報,2018,32(2): 29-37. (Jin Chen,Li Weihua,Ji Chen,et al. Bi-directional long short-term memory neural networks for Chinese word segmentation [J]. Journal of Chinese Information Processing,2018,32(2): 29-37. )
[5]Liu Pengfei,Qiu Xipeng,Huang Xuanjing. Recurrent neural network for text classification with multi-task learning [C]// Proc of the 25th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2016,2873-2879.
[6]Zhou Jie,Cui Ganqu,Hu Shengding,et al. Graph neural networks: a review of methods and applications [J]. AI Open,2020,1: 57-81.
[7]Yao Liang,Mao Chengsheng,Luo Yuan. Graph convolutional networks for text classification [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Pola Alto,CA: AAAI Press,2019: 7370-7377.
[8]Cai Hongyun,Zheng V W,Chang Chenchuan. A comprehensive survey of graph embedding: problems,techniques and applications [J]. IEEE Trans on Knowledge amp; Data Engineering,2018,30(9): 1616-1637.
[9]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4171-4186.
[10]Kipf T N,Welling M. Semi-supervised classification with graph con-volutional networks [EB/OL]. (2017-02-22). https://arxiv.org/pdf/1609.02907.pdf.
[11]Mehrotra K G,Mohan C K,Huang Huaming. Ensemble methods [M]// Anomaly Detection Principles and Algorithms. Cham: Springer,2017: 135-152.
[12]徐繼偉,楊云. 集成學習方法: 研究綜述 [J]. 云南大學學報: 自然科學版,2018,40(6): 1082-1092. (Xu Jiwei,Yang Yun. A survey of ensemble learning approaches [J]. Journal of Yunnan University: Natural Sciences Edition,2018,40(6): 1082-1092.)
[13]冉亞鑫,韓紅旗,張運良,等. 基于Stacking集成學習的大規(guī)模文本層次分類方法 [J]. 情報理論與實踐,2020,43(10): 171-176,182. (Ran Yaxin,Han Hongqi,Zhang Yunliang, et al. Large scale text hierarchical classification method based on stacking ensemble learning [J]. Information Studies:Theory amp; Application,2020,43(10): 171-176,182. )
[14]吳擋平,張忠林,曹婷婷. 基于Stacking策略的穩(wěn)定性分類器組合模型研究 [J]. 小型微型計算機系統(tǒng),2019,40(5): 1045-1049. (Wu Dangping,Zhang Zhonglin,Cao Tingting. Research on stability classifier combination algorithm based on stacking strategy [J]. Journal of Chinese Computer Systems,2019,40(5): 1045-1049.)
[15]Joulin A,Grave E,Bojanowski P,et al. Bag of tricks for efficient text classification [C]// Proc of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2017: 427-431.
[16]Ke Guolin,Meng Qi,F(xiàn)inley T,et al. LightGBM: a highly efficient gradient boosting decision tree [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 3149-3157.
[17]Javed R A,Jalil Z,Moqurrab A S,et al. Ensemble AdaBoost classifier for accurate and fast detection of botnet attacks in connected vehicles [J/OL]. Trans on Emerging Telecommunications Technologies.(2020-08-13). https://doi.org/10.1002/ett.4088.
[18]Wang Qi,Luo Zhihao,Huang Jincai,et al. A novel ensemble method for imbalanced data learning: bagging of extrapolation-SMOTE SVM [J/OL]. Computational Intelligence and Neuroscience.(2017-01-30). https://doi: 10.1155/2017/1827016.