摘要:針對傳統深度文本聚類方法僅利用中間層的文本語義表示進行聚類,沒有考慮到不同層次的神經網絡學習到的不同文本語義表示以及中間層低維表示的特征稠密難以有效區分類簇的問題,提出一種基于多層次子空間語義融合的深度文本聚類(deep document clustering via muti-layer subspace semantic fusion,DCMSF)模型。該模型首先利用深度自編碼器提取出文本不同層次的潛在語義表示;其次,設計一種多層子空間語義融合策略將不同層的語義表示非線性映射到不同子空間以得到融合語義,并用其進行聚類。另外,利用子空間聚類的自表示損失設計一種聯合損失函數,用于監督模型參數更新。實驗結果表明,DCMSF方法在性能上優于當前已有的多種主流深度文本聚類算法。
關鍵詞:文本聚類;深度聚類;自編碼器;語義表示
中圖分類號:TP391.1文獻標志碼:A
文章編號:1001-3695(2023)01-011-0070-05
doi:10.19734/j.issn.1001-3695.2022.06.0285
Deep document clustering model via multi-layer subspace semantic fusion
Ren Li’na1,2,3,Qin Yongbin2,3,Huang Ruizhang2,3,Yao Maoxuan1
(1.Dept.of Information Engineering,Guizhou Light Industry Technical College,Guiyang 550025,China;2.College of Computer Science amp; Technology,Guizhou University,Guiyang 550025,China;3.State Key Laboratory of Public Big Data,Guiyang 550025,China)
Abstract:The traditional deep document clustering methods only use the document semantic representation of the middle layer for clustering,and neglect the problem of the different semantic representation learned by the neural network at different layers and the problem of the feature density of the low-dimensional representation of the middle layer,which is difficult to effectively classify clusters.This paper proposed a deep document clustering model via multi-layer subspace semantic fusion(DCMSF) model.Firstly,the DCMSF model used the autoencoder to extract the latent document semantic representation of different layers.Secondly,this model designed a semantic fusion strategy to map semantic representation of different layers to different subspace to obtain fusion semantics and then clustered them.In addition,this model used the self-representation loss structure of subspace clustering to design a joint loss function to monitor the updating of model parameters.Experimental results show that DCMSF is superior to many mainstream deep document clustering algorithms.
Key words:text clustering;deep clustering;autoencoder;semantic representation
0引言
隨著互聯網的迅速發展,海量文本數據的涌現為文本分析工作帶來了新的挑戰。文本聚類作為文本分析工作的重要步驟,在新聞熱點挖掘、輿情識別等實際工作中具有舉足輕重的作用。近年來,隨著深度學習在各個領域的不斷拓展,深度聚類成為文本聚類的一個熱門研究方向。傳統的深度文本聚類旨在通過深度自編碼器將原始文檔數據投映射到潛在空間獲取文本的低維語義表示,即利用一個非線性映射對數據進行變換,將原始的高維數據映射到一個子空間中,既完成了數據降維,也能夠更好地提取出數據特征并以此為基礎發現文本類簇。因此,如何準確快速地從文本中提取出更多有用的語義特征信息尤為重要。
深度神經網絡在將原始文本映射到潛在空間的過程中,不同層次的神經網絡能夠學習到文本不同的潛在子空間語義信息。然而傳統深度文本聚類方法目前雖取得了較好的聚類效果,但其還存在聚類時依賴的語義表示單一的問題,以及只利用了中間層最低維的潛在語義表示而忽略了不同層具有的其他的有效信息,即僅利用中間層一層的文本語義表示進行聚類,沒有考慮到不同層次的神經網絡學習到的不同文本潛在子空間語義表示的問題;另外,傳統深度文本聚類方法中間層低維表示的特征稠密難以有效劃分類簇的問題,限制了聚類效果的提升。因此,如何獲取融合了不同層次的文本潛在子空間語義信息以及如何解決低維語義特征稠密難以有效劃分類簇的問題成為目前文本聚類亟需解決的問題。
為解決上述問題,本文提出了一種多層子空間語義融合的深度文本聚類(deep document clustering via muti-layer subspace semantic fusion,DCMSF)模型。首先,DCMSF模型通過深度編碼器提取文本不同層次的語義表示;其次,為獲取融合了不同層次的文本語義信息,設計了一種多層子空間語義融合策略,該策略將文本語義編碼模塊每一層學習得到的潛在語義表示通過非線性映射方法轉換到不同的子空間,然后通過融合方法將不同子空間的語義表示進行融合以得到增強的高維語義表示;再次,為解決低維語義特征稠密難以有效劃分類簇的問題,DCMSF模型利用多層子空間語義融合策略學習到的高維語義表示代替了原本的低維語義表示用于聚類劃分。為更好地監督處理高維融合的高維文本語義信息,獲得融合了自表示語義的增強語義信息,DCMSF模型采用自表示層模仿子空間聚類中的自表示。另外,模型還設計了一種聯合損失函數,用于指導模型參數更新。
本文的主要貢獻包括三個方面:
a)提出了一種多層子空間語義融合的深度文本聚類(DCMSF)模型,用于解決傳統深度文本聚類方法沒有考慮到不同層次的神經網絡學習到的不同文本語義表示以及中間層低維表示的特征稠密難以有效區分類簇的問題。
b)設計了一種多層子空間語義融合策略,通過非線性轉換方法獲取不同層次的子空間語義表示,并通過融合方法得到多層子空間語義融合增強的高維文本語義信息。
c)設計了一種增強語義的子空間自表示層,結合子空間聚類中的自表示以獲得融合了自表示語義的增強語義信息。另外,還設計了一種結合自表示損失的聯合損失函數,用于指導模型參數更新。
在四個公開文本數據集上進行了一系列的實驗,實驗結果表明本文方法相較其他模型聚類效果均有所提升,驗證了DCMSF模型的合理性。
1相關工作
1.1深度聚類算法
深度聚類方法的思想是將聚類目標和深度表示學習相結合,用于學習適合聚類任務的語義表示,再根據習得的語義表示計算聚類結果。2017年Yang等人[1]提出的深度聚類網絡(DCN)模型是一個聯合深度自編碼器[2]降維和K-means聚類[3]框架,其基于深度神經網絡研究降維模型。2016年,Xie等人[4]提出的深度嵌入聚類(DEC)模型旨在學習從數據空間到低維嵌入空間的映射,用KL散度代替傳統K-means聚類方法,將聚類與特征學習相結合。2017年,Guo等人[5]提出的改進提升深度嵌入聚類(IDEC)模型是在DEC的基礎上增加局部結構設計的。2016年,Jiang等人[6]提出了一種變分深度嵌入(VAE)方法,能夠近似地學習數據生成過程指定的潛在語義表示,然后可以在學習語義表示的幫助下進行數據聚類。同樣,還有許多其他模型[7~11]被提出來學習語義文檔表示,以應用于聚類任務。
總的來說,以上算法為傳統的深度文本聚類模型,在聚類模塊均只利用了文本低維語義表示這一單一層次的語義表示,而忽略了深度學習中其他層次的不同語義信息,缺乏本文提出的兩個關鍵問題的研究。
1.2基于增強語義表示的聚類算法
傳統的深度聚類模型只考慮了數據自身內部內容語義來學習語義數據表示。除了內部語義之外,還有一些其他有用的信息可以用于增強語義表示的學習。近年來,圖結構信息常用來學習數據的結構語義表示,典型的傳統方法是譜聚類[12],它將樣本作為加權圖中的節點,使用數據的圖結構聚類。隨著深度神經網絡的發展,近年來圖卷積神經網絡(GCN)[13]在深度語義表示學習方面表現優異,它不但包含圖結構語義信息還具有樣本數據自身的特征。基于GCN成功的啟發,有許多研究已經成功地使用 GCN 模型對圖聚類的數據結構表示進行建模,利用圖結構語義表示實現深度語義增強。其中2018年,Kipf等人[14]提出的圖自編碼器(GAE)模型和圖變分自編碼器(VGAE)模型使用兩層圖卷積學習數據語義表示,并分別使用自動編碼器和變分自動編碼器重建每個節點的鄰接矩陣。為進一步增強語義表示的學習,2020年Bo等人[15]提出的圖深度聚類網絡(SDCN)模型將結構信息整合到深度聚類中,并設計了一個雙重監督機制用于同時監督模型的參數更新。雖然SDCN模型考慮到了不同層次的文本語義信息對于語義信息的補充增強作用,但是只是用了簡單的融合策略,并且沒有解決低維語義特征稠密難以有效劃分類簇的問題。除利用圖結構信息的語義增強方法外,2022年李靜楠等人[16]提出挖掘和補充用戶意圖的半監督深度文本聚類(SDDCS)模型,其在DEC模型的基礎上通過構造意圖矩陣挖掘用戶意圖,根據矩陣分解與補充算法對意圖矩陣中的未知元素進行補充,進而最大程度地學習用戶意圖,但SDDCS只利用了文本低維語義表示這一單一層次的語義表示,同樣缺乏對本文提出的兩個問題的研究。
2模型設計
本文提出的DCMSF模型的總體框架由五個模塊組成,即文本語義編碼模塊、多層子空間語義融合模塊、子空間語義自表示模塊、增強語義解碼模塊和文本聚類模塊。首先,對于文本數據集X,DCMSF模型通過文本語義編碼器模塊提取文本不同層次的語義表示He;其次,多層子空間語義融合模塊通過多層子空間語義融合策略得到融合增強的高維文本語義信息F;再次,子空間語義自表示模塊通過語義自表示層對文本語義信息進行監督處理,獲得融合了自表示語義的增強語義信息S;增強語義解碼模塊以子空間語義自表示模塊輸出的增強的語義表示S作為輸入,重構文本數據X;最后,文本聚類模塊利用K-means方法在融合增強的語義表示上進行文本聚類。模型的整體結構如圖1所示。
2.1文本語義編碼模塊
為學習文本語義,DCMSF模型在本模塊使用深度自動編碼器的多層編碼層作為文本語義編碼的網絡結構,用于學習到不同層次的文本數據的潛在語義表示。編碼層學習的表示如下所示:
H(l)e=(W(l)eH(l-1)e+b(l)e)(1)
其中:是激活函數;W(l)e和b(l)e分別是編碼器中第l層的權重矩陣和偏置矩陣。
由于該模塊編碼第1層的輸入為文本數據X,所以第1層編碼可以表示為
H(1)e=(W(1)eX+b(1)e)(2)
該模塊編碼第L層作為最后一層,輸出的低維潛在語義表示為
H(L)e=(W(L)eH(L-1)e+b(L)e)(3)
2.2多層子空間語義融合模塊
為獲取不同層次的文本語義信息,DCMSF模型設計了一種多層子空間語義融合策略。該策略將文本語義編碼模塊每一層學習得到的潛在語義表示通過非線性映射方法轉換到不同的子空間,然后通過融合方法將不同子空間的語義表示進行融合以得到增強的高維語義表示。如圖2所示,具體的策略可以分為語義表示的非線性映射方法和融合方法。其中,語義表示的非線性映射方法如下所示:
Fl =φ(H(l)e · H(l)eT)(4)
其中:φ是非線性函數。通過非線性映射,可以將不同層次的不同維度的文本語義映射到相同維度的子空間,以獲取到子空間語義。
語義表示的融合方法將得到的不同層次的子空間文本語義表示Fl進行融合,以得到增強的文本語義表示。具體的融合方法如下所示:
F=∑Ll=1Fl(5)
通過多層子空間語義融合策略,可以獲得語義信息更豐富的特征表示。
2.3子空間語義自表示模塊
為更好地監督處理高維的融合的高維文本語義信息,獲得融合了自表示語義的增強語義信息,本文采用了深度子空間的自表示層對多層子空間語義融合學到的融合語義表示F進行處理。如圖3所示,子空間語義融合模塊的具體網絡結構如下所示。
S=F+λFC(6)
其中:C為自表示矩陣;λ為自表示語義融入增強語義的融合比例。
自表示損失構建如下:
Ls=‖F-FC‖2F+λ1‖C‖2F(7)
其中:λ1為自表示的控制參數。
2.4增強語義解碼模塊
為更好地監督指導模型參數更新,DCMSF模型設計了增強語義解碼模塊,如圖1所示,增強語義解碼模塊對子空間語義自表示模塊輸出的增強語義表示S進行解碼操作,用于重構文本數據X。解碼層模塊網絡結構如下:
D(l)d=(W(l)dD(l-1)d+b(l)d)(8)
其中:是激活函數;W(l)d和b(l)d分別是解碼模塊中第l層的權重矩陣和偏置矩陣。由于該模塊編碼第1層的輸入為增強的語義表示S,所以第1層編碼可以表示為
D(1)d=(W(1)dX+b(1)d)(9)
最后一層編碼可以表示為
X^=φ(W(L)dD(L-1)d+b(L)d)(10)
其中:X^為重構的文本數據,通過縮小文檔數據集X與X^的差距,學習到最能表達數據特征的神經網絡層參數。因此,該部分的損失函數定義為
Lres=12N‖X-X^‖2F(11)
其中:‖·‖2F是二范數公式,用來保證非零分量盡可能地密集。
2.5文本聚類模塊
為了獲取文本的類簇信息,解決低維語義特征稠密難以有效區分類簇的問題。DCMSF模型在文本聚類模塊用多層子空間語義融合學到的高維融合語義表示F,代替文本語義編碼模塊中低維的中間層語義表示H(L)e進行聚類。本模塊采用了經典的聚類算法K-means算法來自動劃分文本類簇。
模型的總體損失函數如下所示:
L=Lres+λ2Ls(12)
其中:λ2gt;0是一個平衡自表示損失的超參數以平衡原始數據的優化和自表示學習。
基于多層子空間語義融合的深度文本聚類算法過程如算法1所示。
算法1基于多層子空間語義融合的深度文本聚類算法
輸入:文本數據集X;聚類個數K;最大迭代次數M。
輸出:文本聚類結果R。
使用K-means初始化聚類中心μ;
隨機初始化W(l)e,b(l)e,W(l)d和b(l)d;
for iter∈0,1,…,M do
for l∈0,1,…,L do
獲取特征表示H(l)e;
使用式(3)生成子空間語義表示Fl;
end
通過式(6)重構原始數據;
計算損失函數Lres,Ls;
使用式(12)計算總體損失函數;
更新模型整體參數;
end
將F用K-means算法計算聚類結果R
3實驗與分析
3.1實驗數據
為驗證本文提出的DCMSF模型的有效性,本文選擇了四個公開文本數據集進行實驗分析。數據集的詳細表述如表1所示。
a)Wiki[17]:來自Wiki網站的Web文本數據集,包含2 405個網頁和17 981條網頁之間的鏈接關系。
b)Abstract[18]:由Aminer網站出版的論文摘要構成,主要包含信息通信、數據庫和圖形三個研究領域。
c)BBC[19]:來自BBC新聞網站的Web文本文檔數據集,該數據集共有2004—2005年針對經典領域的2 225條文檔,可分為商業、娛樂、政治、科技、運動五大類。
d)BBCSPORT[19]:由來自BBC網站的737條文本文檔構成。該數據集可分為田徑、板球、足球、橄欖球和網球運動五類。
3.2對比方法
為驗證DCMSF模型的性能,本文將其與三類聚類方法進行了對比分析,分別包括傳統聚類方法、深度聚類方法和基于增強語義表示的聚類方法。
1)傳統聚類方法
K-means[3]:傳統聚類方法利用歐氏距離獲得類簇劃分。
2)基于深度語義表示的聚類方法
AE[2]:經典的特征學習方法。
VAE[6]:在自動編碼器的基礎上增加了變分推斷。
DEC[4]:由前后對稱的自動編碼器和聚類優化目標構成。
IDEC[5]:在DEC的基礎上增加重構損失以學習更好的聚類表示。
3)基于增強語義表示的聚類方法
GAE[14]:使用自動編碼器重建每個節點的鄰接矩陣。
VGAE[14]:使用變分自動編碼器重建每個節點的鄰接矩陣。
SDCN[15]:將結構信息與深度聚類相融合。
SDDCS[16]:在DEC模型的基礎上通過構造意圖矩陣挖掘用戶意圖,用于指導聚類過程;
DCMSF:本文提出的方法。
3.3評價指標
本文使用兩個常用的聚類指標評估聚類性能,分別是聚類精度(ACC)、正則互信息量(NMI)[20]與調整蘭德系數(ARI)[21]。ACC、NMI、ARI三個取值均為[0,1],且數值越大表示聚類效果越好。
3.4參數設置
為更好地比較,本文將自動編碼器的維度設置與DEC相同,具體為d-500-500-2000-10-2000-500-500-d,其中d是輸入數據的維度。實驗使用Adam優化器進行優化。對于含有AE的模型(AE、DEC、IDEC、SDCN、SDDCS),對每個數據集進行30次迭代訓練。參數λ、λ1、λ2分別設置為2、1、0.1。針對數據集BBC、Wiki設置的學習率為5E-4,針對數據集Aminer-s、BBCSPORT設置的學習率為1E-3。K-means算法初始化20次。
3.5對比實驗結果分析
本節將DCMSF模型與傳統聚類方法、基于深度語義表示的聚類方法和基于增強語義表示的聚類方法三類共計10個模型分別在四個真實數據集(Wiki、BBC、Abstract、BBCSports)上進行了對比,具體實驗結果如表2所示。通過表2可以觀察到:
a)本文提出的DCMSF模型在全部數據集上均表現優異,相較于其他對比模型,DCMSF模型在三個指標上均有明顯提升,特別是在BBCSPORT數據集上,DCMSF模型相較于最優的對比模型在ACC、NMI、ARI上分別相對提升了22.73%、23.05%、52.24%。實驗結果驗證了本文提出的DCMSF模型有效地提取了融合多層子空間語義信息。
b)通過實驗結果可以發現,深度模型的聚類結果均高于傳統聚類模型。原因是深度模型通過深度神經網絡學習到的文本潛在語義表示可以有效地提升文本聚類效果。基于增強語義表示的聚類方法的聚類結果大多高于深度聚類模型,證明了增強語義表示對聚類效果提升的作用。
c)對比模型SDCN和SDDCS可以發現,雖然本文提出的DCMSF模型沒有利用圖結構信息和用戶意圖信息,但是實驗結果依然高于兩個模型,由此可以進一步驗證DCMSF模型的有效性。
3.6消融實驗結果分析
DCMSF模型主要設計了多層子空間語義融合模塊F和子空間語義自表示模塊S兩大模塊,用于解決獲取融合了不同層次的文本語義信息以及低維語義特征稠密難以有效區分類簇的問題,成為目前文本聚類亟需解決的問題。因此為了探究兩個模塊的有效性,本文設置了以下消融模型:
a)AE:僅利用自編碼器的低維語義表示進行聚類。
b)AE+F:在AE的基礎上增加多層子空間語義融合模塊。
c)AE+S:在AE的基礎上增加子空間語義自表示模塊。
d)DCMSF:本文模型,融合了F和S兩個模塊。
消融模型在四個真實文本數據集上的實驗結果如表3所示。為了更加直觀地表現模型性能,各指標對比的柱狀圖如圖4所示。
從表3和圖4可以發現,模型AE+F相比AE在四個數據集上各評價指標均有顯著提升,證明聚類過程得到了融合不同層次的文本語義信息的幫助;模型AE+S相比AE在四個數據集上各評價指標同樣均有明顯提升,證明了子空間子表示模塊的有效性,聚類過程得到了子表示損失的指導。從DCMSF與AE+F、AE+S的實驗對比結果可看出,兩個模塊的融合可以解決獲取融合了不同層次的文本語義信息以及低維語義特征稠密難以有效區分類簇的問題,從而獲得更優的聚類效果。
3.7具體樣例語義增強分析
為了更直觀地展示文本語義增強的效果,本部分設計了具體樣例語義增強分析的實驗。具體地,在BBC數據集上,模型通過不同的迭代學習重構的主題詞,迭代次數被設置為M={50,100,150,200,250}。選取了一個商業新聞為例,在表4中列出了該新聞的前30個主題詞,其中標粗的單詞為前面迭代次數中沒有出現過的主題詞。
從表4中可以發現,通過增加迭代次數大大增強了文本樣本的語義表示。很明顯,當M=100時,DCMSF模型重構的主題比M=50時DCMSF模型重構的主題更有效,如“dollar”“market”等更能代表商業特征的主題詞。當M=250時,DCMSF比其他重構迭代次數學習到了最多的商業主題詞。例如,“dollar”“govern”“rate”等具有商業特征的主題詞所排的位置更靠前。另外,具有重要商業領域意義的主題詞“job”,除了M=250之外,從未出現在其他結果中。實驗證明,通過DCMSF模型可以學習到更多增強有用的文本語義表示。
3.8聚類可視化結果分析
為了更加直觀地展示聚類效果,本文在BBC數據集上利用t-SNE方法[22]對原始數據和不同的消融模型進行了可視化。圖5展示了DCMSF模型的聚類分布情況。其中(a)為原始文本分布情況;(b)為AE模型聚類后文本的分布情況;(c)為AE+F模型聚類后文本的分布情況;(d)為AE+S模型聚類后文本的分布情況;(e)是DCMSF模型的聚類情況。
從圖5中可以發現,通過多層子空間語義融合模塊和子空間語義自表示模塊聚類后,數據集相交原始數據和經AE模型聚類后的數據集有了明顯的類簇劃分;而DCMSF模型聚類優化后的數據集,各類簇內部更加稠密,簇與簇之間的距離更大,類簇分類更明顯,從而證明了本模型的有效性。
4結束語
本文提出了一種基于多層次子空間語義融合的深度文本聚類(DCMSF)模型,解決了傳統深度文本聚類方法沒有考慮到不同層次的神經網絡學習到的不同文本語義表示以及中間層低維表示的特征稠密難以有效區分類簇的問題。該模型設計了一種多層子空間語義融合策略將不同層的語義表示非線性映射到不同子空間以得到融合語義,并用其進行聚類。實驗結果表明了DCMSF模型的有效性。
為了更好地提升文本聚類效果,未來還可以從如下兩個方面著手:
a)考慮增加圖結構等其他語義信息用于增強文本語義,進一步提升模型的聚類效果;
b)實時數據分析是未來文本數據處理中不可或缺的能力,如何增加模型處理動態文本數據的能力也是后續的研究方向之一。
參考文獻:
[1]Yang Bo,Fu Xiao,Sidiropoulos N D,et al.Towards K-means-friendly spaces:simultaneous deep learning and clustering[C]//Proc of the 24th International Conference on Machine Learning.[S.l.]:JMLR.org,2017:3861-3870.
[2]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[3]Hartigan J A,Wong M A.Algorithm AS 136:a K-means clustering algorithm[J].Journal of the Royal Statistical Society,Series C:Applied Statistics,1979,28(1):100-108.
[4]Xie Junyuan,Girshick R,Farhadi A.Unsupervised deep embedding for clustering analysis[C]//Proc of the 33rd International Conference on Machine Learning.[S.l.]:JMLR.org,2016:478-487.
[5]Guo Xifeng,Gao Long,Liu Xinwang,et al.Improved deep embedded clustering with local structure preservation[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1753-1759.
[6]Jiang Zhuxi,Zheng Yin,Tan Huachun,et al.Variational deep embedding:an unsupervised and generative approach to clustering[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.2017:1965-1972.
[7]Dizaji K G,Herandi A,Deng Cheng,et al.Deep clustering via joint convolutional autoencoder embedding and relative entropy minimization[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5747-5756.
[8]McConville R,Santos-Rodriguez R,Piechocki R J,et al.N2D:(not too) deep clustering via clustering the local manifold of an autoenco-der embedding[C]//Proc of the 25th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2021:5145-5152.
[9]Ji Qiang,Sun Yanfeng,Hu Yongli,et al.Variational deep embedding clustering by augmented mutual information maximization[C]//Proc of the 25th International Conference on Pattern Recognition.Pisca-taway,NJ:IEEE Press,2021:2196-2202.
[10]Xia Wei,Zhang Xiangdong,Gao Quanxue,et al.Adversarial self-supervised clustering with cluster-specificity distribution[J].Neurocomputing,2021,449:38-47.
[11]Wang Ru,Li Lin,Wang Peipei,et al.Feature-aware unsupervised learning with joint variational attention and automatic clustering[C]//Proc of the 25th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2021:923-930.
[12]Jordan M I,Weiss Y.On spectral clustering:analysis and an algorithm[J].Advances in Neural Information Processing Systems,2002,14:849-856.
[13]Welling M,Kipf T N.Semi-supervised classification with graph convolutional networks[C]//Proc of International Conference on Learning Representations.2016.
[14]Kipf T N,Welling M.Variational graph auto-encoders[EB/OL].(2016-11-21).http://doi.org/10.48550/arxiv.1611.07308.
[15]Bo Deyu,Wang Xiao,Shi Chuan,et al.Structural deep clustering network[C]//Proc of Web Conference.New York:ACM Press,2020:1400-1410.
[16]李靜楠,黃瑞章,任麗娜.用戶意圖補充的半監督深度文本聚類[J/OL].計算機科學與探索.(2022-06-04).http://kns.cnki.net/kcms/detail/11.5602.TP.20220426.1913.004.html.(Li Jingnan,Huang Ruizhang,Ren Lina.Semi-supervised deep document clustering model with supplemented user intention[J/OL].Journal of Frontiers of Computer Science amp; Technology.(2022-06-04).http://kns.cnki.net/kcms/detail/11.5602.TP.20220426.1913.004.html.)
[17]Cui Ganqu,Zhou Jie,Yang Cheng,et al.Adaptive graph encoder for attributed graph embedding[C]//Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2020:976-985.
[18]Bai Ruina,Huang Ruizhang,Chen Yanping,et al.Deep multi-view document clustering with enhanced semantic embedding[J].Information Sciences,2021,564:273-287.
[19]Kadhim A I,Cheah Y N,Ahamed N H.Text document preprocessing and dimension reduction techniques for text document clustering[C]//Proc of the 4th International Conference on Artificial Intelligence with Applications in Engineering and Technology.Piscataway,NJ:IEEE Press,2014:69-73.
[20]Estévez P A,Tesmer M,Perez C A,et al.Normalized mutual information feature selection[J].IEEE Trans on Neural Networks,2009,20(2):189-201.
[21]Xia Rongkai,Pan Yan,Du Lei, et al.Robust multi-view spectral clustering via low-rank and sparse decomposition[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2145-2155 .
[22]Van Der Maaten L.Accelerating t-SNE using tree-based algorithms[J].Journal of Machine Learning Research,2014,15(1):3221-3245.
收稿日期:2022-06-05;修回日期:2022-08-03基金項目:國家自然科學基金通用聯合基金重點資助項目(U1836205);國家自然科學基金資助項目(62066007,62066008);貴州輕工職業技術學院院級課題資助項目(21QY07)
作者簡介:任麗娜(1987-),女(通信作者),遼寧人,博士研究生,主要研究方向為自然語言處理、文本挖掘和機器學習(renlina111@163.com);秦永彬(1980-),男,山東人,教授,博導,博士,主要研究方向為智能計算、機器學習和算法設計;黃瑞章(1979-),女,天津人,教授,博導,博士,主要研究方向為數據挖掘、文本挖掘、機器學習和信息檢索;姚茂宣(1986-),男,貴州人,軟件設計師,碩士,主要研究方向為數據挖掘、文本挖掘、機器學習和軟件開發.