999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關鍵語義信息補足的深度文本聚類算法

2023-01-01 00:00:00鄭璐依黃瑞章任麗娜白瑞娜林川
計算機應用研究 2023年6期

摘 要:針對大多數現有的深度文本聚類方法在特征映射過程中過于依賴原始數據質量以及關鍵語義信息丟失的問題,提出了一種基于關鍵語義信息補足的深度文本聚類算法(DCKSC)。該算法首先通過提取關鍵詞數據對原始文本數據進行數據增強;其次,設計了一個關鍵語義信息補足模塊對傳統的自動編碼器進行改進,補足映射過程中丟失的關鍵語義信息;最后,通過綜合聚類損失與關鍵詞語義自動編碼器的重構損失學習適合于聚類的表示特征。實驗證明,提出算法在五個現實數據集上的聚類效果均優于當前先進的聚類方法。聚類結果證明了關鍵語義信息補足方法和文本數據增強方法對深度文本聚類的重要性。

關鍵詞: 深度文本聚類; 表征學習; 自動編碼器; 自監督聚類; 數據增強

中圖分類號: TP183 文獻標志碼: A 文章編號: 1001-3695(2023)06-008-1653-07

doi: 10.19734/j.issn.1001-3695.2022.10.0555

Deep document clustering method via key semantic information complementation

Zheng Luyi Huang Ruizhang Ren Lina Bai Ruina Lin Chuan

(a.State Key Laboratory of Public Big Data, b.College of Computer Science amp; Technology, Guizhou University, Guiyang 550025, China)

Abstract:The most existing deep text clustering methods only use traditional autoencoder to learn representation for clustering, and neglect the problems with over-reliance on raw data quality and loss of key semantic information during feature mapping. This paper proposed a deep document clustering method via key semantic information complementation (DCKSC) mo-del. The DCKSC model firstly enriched the original text data by extracting keyword data. Secondly, this model designed a key semantic information complement module which used data enhancement representation to improve the traditional autoencoder, and compensated for the key semantic information lost in the mapping process. Finally, the algorithm synthesized the clustering loss and the reconstruction loss of the keyword semantic autoencoder, optimized the cluster label assignment and learned the presentation characteristics suitable for clustering. Experimental results show that DCKSC is superior to many mainstream deep document clustering algorithms.

Key words:deep text clustering; representative learning; autoencoder; self-supervised clustering; data argumentation

0 引言

近年來,隨著互聯網的發展,對海量無標簽文本數據進行智能分析與處理的需求日益增大。在實際應用中,人工為這些數據標記標簽費時費力且成本巨大,如何快速有效地處理和分析這些無標簽文本數據尤為重要。文本聚類[1]任務便是在這種背景下產生的。文本聚類作為一種無監督數據分析技術,其主要目標是將未標記的文本數據分成若干個簇,使簇內文本的相似性盡可能大,而簇間文本的相似性盡可能小[2]。通過文本聚類,人們可以分析文本數據之間的相互關系,從這些數據中自動挖掘有效信息,從而服務于諸如自然語言處理[3]、社交網絡分析[4]等各類下游任務。

隨著大數據和人工智能的發展,深度學習[5]已在各行各業證明了其強大的特征學習能力與處理高維數據的能力,如何將深度神經網絡的方法應用到聚類任務中,即深度聚類[6],是最近熱門的研究方向。相較于傳統聚類算法,深度聚類的方法更適合處理高維稀疏的文本數據,且能有效地將聚類目標融入到神經網絡學習中,習得更適合聚類任務的特征表示。例如,以DEC[7]為代表的深度聚類算法的基本思想就是通過構造自動編碼器的重構損失和自監督機制的聚類損失,以習得適應聚類任務的低維特征表示。由于深度聚類方法的結果通常是通過自動編碼器的中間層特征表示計算得到的,所以習得高質量的特征表示對深度聚類算法至關重要。

雖然現有的深度聚類算法已在文本數據集上取得了較好的成果,但由于文本的數據特點使得現有方法仍存在以下不足。一方面,現有深度聚類方法在使用自動編碼器將原始高維稀疏的文本數據壓縮到低維空間的過程中,會造成部分關鍵語義信息的丟失,使得中間層特征表示含有的語義信息不完整。一篇文本數據通常含有不同重要程度的語義信息,有能對聚類結果產生重要指導作用的主題語義信息、關鍵詞語義信息等,也有在很多類別中都有出現因而對聚類結果的貢獻不多的普通語義信息。自動編碼器沒有鑒別語義信息重要性的能力,在壓縮過程中會隨機丟失語義信息,使得指導性很強的關鍵語義信息也會丟失,壓縮成本很高。另一方面,現有自動編碼器習得的中間層特征表示的質量過于依賴原始文本數據的語義信息含量,常見的改善原始數據質量的數據增強方法在文本聚類中較難應用。自動編碼器作為無監督算法[8],其損失是通過重構原始數據得到的,因而原始數據語義信息的豐富程度很大程度上決定了中間層特征表示的語義信息含量。為了豐富原始數據信息以獲得更高質量的低維表示,在有監督模型[9]和圖像聚類的相關問題中常常使用數據增強[10]的方法。但在無監督深度文本聚類方法研究中,文本數據增強方法因為通常采取手工設置的方法以及難以與原始數據進行聯系的原因,應用較少。因此如何在無監督文本聚類任務中提取出對文本聚類起重要導向作用的關鍵的語義信息并在學習特征的過程中保存好這部分關鍵語義信息,對最終的聚類結果能起到重要作用。

針對上述問題,本文提出一種基于關鍵語義信息補足的深度文本聚類算法(deep document clustering method via key semantic information complementation,DCKSC)。具體地,為了改善傳統自動編碼器習得的特征質量過于依賴原始數據質量的問題,同時提取出文本中對聚類結果產生重要影響的信息,本文首先挑選出文檔的關鍵詞作為原始數據的數據增強表示,以得到該文檔的關鍵語義信息。其次,使用自動編碼器對原始數據進行初步的表征學習,得到語義信息缺失的中間層特征表示。為了解決傳統自動編碼器習得的特征表示存在的隨機丟失語義信息的問題,本文使用關鍵語義信息補足模塊,在保留全局語義信息的基礎上用關鍵詞語義信息對中間層特征表示進行語義補足。最后,為了使習得的中間層特征表示適應聚類任務,本文采用自監督聚類模塊對關鍵詞編碼器進行微調,指導優化聚類過程。

本文的貢獻主要有:

a)本文提出了基于關鍵語義信息補足的深度文本聚類算法,該算法通過關鍵語義信息補足方法和文本數據增強方法較好地改善了現有深度文本聚類方法在特征映射過程中存在的關鍵語義信息丟失問題與中間層特征表示過于依賴原始數據質量問題。

b)本文算法中的關鍵語義信息補足策略,通過使用數據增強過程中自動篩選的關鍵詞語義對傳統自動編碼器在特征學習時丟失的關鍵語義信息進行了補足,使得用于聚類的中間層特征表示語義信息更加完整。

c)本文在多個文本數據集上做了大量實驗,結果證明了關鍵語義信息補足方法和文本數據增強方法對深度文本聚類的重要性。本文算法提升了深度嵌入式文本聚類的性能。

1 相關工作

傳統的聚類方法[11]依賴于手工設計的特征,大致可分為基于劃分的聚類方法、基于層次的聚類方法、基于分布的聚類方法、基于密度的聚類方法五種。基于劃分的聚類方法是通過迭代更新數據中心的方式將每個樣本劃分給特定的類別,代表算法有K-means[12]、K-medoids[13]等。基于層次的聚類方法是通過構造數據中的層次結構以聚類,代表算法有AGNES[14]和CURE[15]等。基于分布的聚類方法是通過發現原始數據的不同分布來確定簇,代表算法有高斯混合模型GMM[16]、DBCLASD[17]等。基于密度的聚類方法認為具有高密度的數據區域內的數據點屬于同一簇,典型算法有DBSCAN[18]、OPTICS[19]和Mean-Shift[20]等。基于圖的聚類方法例如譜聚類[21]是通過對相似度矩陣的拉普拉斯矩陣進行特征分解,實現聚類。傳統聚類方法主要針對數據的原始數據空間進行手工設計與處理。在處理高維復雜的文本數據與學習數據的抽象特征表示上有所欠缺。

深度聚類方法的思想是將聚類目標和深度表示學習結合起來,以習得適應聚類任務的特征表示,再根據特征表示計算聚類結果。例如,Yang等人[22]提出了利用K-means方法輔助自動編碼器學習的深度聚類方法;以DEC[7]為代表的深度嵌入式聚類方法通過設置KL散度損失使自動編碼器學習到的表示更貼近聚類中心,從而提高聚類內聚性。IDEC[23]在DEC[7]的基礎上增加了重構損失以幫助自動編碼器習得更好的數據表示。變分深度嵌入式聚類方法[24]能夠使用深度變分編碼器將數據生成過程和聚類任務協同起來訓練,以達到更好的聚類結果。深度子空間聚類方法[25]提出了一種在編碼器和解碼器之間增加一層自我表示層的深度子空間聚類方法,這一操作可以模仿子空間聚類中的自我表示屬性。文獻[26]提出了基于MapReduce和改進密度峰值的劃分聚類算法以解決基于劃分的聚類算法隨機選取初始聚類中心導致初始中心敏感與聚類結果不穩定等問題。文獻[27]設置了DCMSF模型,通過一種多層子空間語義融合策略將不同層的語義表示非線性映射到不同子空間以得到融合語義,并用其進行聚類。此外,為了引入結構語義信息,一些基于GCN的聚類方法得到了廣泛的應用。例如,圖自編碼器(GAE)和圖變分自編碼器(VGAE)[28],通過使用GCN作為編碼器將圖結構集成到節點屬性中。之后,ARGA[29]和ARVGA[29]將對抗方法與GAE和VGAE模型相結合,以得到更好的聚類表示。SDCN[30]集成了自動編碼器和GCN模塊進行學習,以同時習得文本語義信息和結構信息。DFCN[31]設置了一個深度融合聚類網絡來更好地融合語義信息和結構信息。SEDCN[32]通過提出一種結構增強的深度聚類模型來解決結構語義信息在特征學習過程中消失的問題。

然而,現有深度聚類算法仍有以下不足:首先,在使用自動編碼器將高維稀疏的原始數據進行特征映射與壓縮時,會造成對聚類結果產生重要影響的關鍵語義信息的丟失,一篇文檔中通常含有對聚類結果產生不同影響的語義信息,自動編碼器無差別地對待這些信息,很有可能造成關鍵語義信息的丟失,導致壓縮成本巨大;其次,現有的自動編碼器使用原始數據作為特征映射的輸入與輸出,使得特征學習過于依賴于原始數據的質量。

針對現有方法沒有考慮到壓縮過程中造成的關鍵語義信息丟失的問題,以及自動編碼器特征表示學習過程中過于依賴原始數據信息含量的問題,本文提出關鍵語義信息補足的深度聚類方法,并分別用關鍵詞語義信息補足的策略和文本數據增強的方法解決這兩個問題,以獲得更高質量的特征表示與聚類結果,方便下游任務的執行。

2 基于關鍵語義信息補足的深度文本聚類方法

2.1 預訓練模塊為了獲取初步聚類結果和文檔的全文語義信息,本文對原始數據應用自動編碼器進行初步的表征學習。現有的自動編碼器有多種形式,為了普遍性和適應文本數據集,本文選擇基礎的由全連接層構成的自動編碼器。自動編碼器由前后對稱的編碼器和解碼器組成。編碼器的目的是將原始高維稀疏數據映射為低維稠密的特征表示,并通過多層神經網絡的學習習得原始數據的深層潛在信息。假設編碼器有L層,那么編碼器第l層習得的低維特征可表示為

2.2 關鍵語義信息補足模塊

通過預訓練模塊,目前已初步獲得原始數據的特征表示,但存在兩個問題:a)自動編碼器在特征學習過程中存在關鍵語義信息丟失的現象,使習得的語義信息不完整;b)此時特征表示的語義信息完全從原始數據中獲得,特征質量也由原始數據的語義信息含量決定,若原始數據的語義信息不豐富,特征表示的學習也會變得困難。為了解決這兩個問題,本文設置了關鍵語義信息補足模塊。該模塊包含文本數據增強部分和關鍵語義信息補足部分。文本數據增強部分的目的是擴充原始數據的信息含量,使習得的特征表示語義信息更豐富。具體地,該部分使用關鍵詞提取算法,從原始數據中篩選出合適數量的、能夠對聚類結果產生重要影響的關鍵詞,作為該數據集的數據增強表示。關鍵語義信息補足部分對原始語義信息進行關鍵語義信息補足,目的是克服自動編碼器關鍵語義信息丟失的問題,與無監督模型中數據增強后的數據和原始數據無法進行聯系的缺點。下面是兩個部分的詳細介紹。

2.2.1 文本數據增強部分

數據增強作為有監督算法或對圖像相關問題進行效果增強的常用手段,已經在多個應用場景中取得了良好效果,但在文本聚類問題中應用較少。其主要原因是無監督學習中沒有明顯的“類別標簽”,如何將增強后的數據和原始數據進行聯系是一大難點;其次,現有文本增強方法大多采用手工制作文本數據集的方法,耗時耗力。如何自動實現文本數據的數據增強也是一個難點。

2.2.2 關鍵語義信息補足部分

2.3 自監督聚類模塊

3 實驗

3.1 實驗數據

3.2 比較方法

3.3 評價指標

3.4 參數設置

本文針對原始數據的自編碼器和關鍵詞數據動編碼器的尺寸都設置為d-500-500-2000-10-2000-500-500-d,其中d是輸入數據的尺寸。除了輸入、輸出和中間層表示層,內部層都由ReLU激活,并使用Adam優化器進行優化,批處理大小設置為256。對于K-means算法生成聚類分配時的操作初始化20次計算結果,最后運行方法10次,并報告平均結果,以防止極端情況。

在對比模型的設置中,本文對所有基于編碼器的對比模型(AE、VAE、DEC、IDEC、SDCN)的編碼器維度都設置為d-500-500-2000-10-2000-500-500-d,其中d是輸入數據的維度。對于基于GCN的方法(GAE、VGAE、ARGA、ARVGA、SDCN),將其維度設置為d-256-16-256-d。學習率都置為10-3,并為所有數據集訓練30個epoch。激活函數與優化器與每個對比實驗的開源代碼的設置保持一致。本文所有的實驗都是在NVIDIA Tesla A100 GPU,顯存40 GB平臺上進行實驗的。深度學習算法的編程基于PyTorch和Python 實現。

由于本文的預訓練模塊、關鍵語義信息補足模塊與自監督聚類模塊都涉及到了對自動編碼器的訓練,且每個模塊的訓練目標與輸入數據都有所不同,所以為每個模塊設置了不同的學習率與訓練次數。具體如表2所示。其中,在篩選關鍵詞階段,本文根據不同數據集原始數據的維度合理地選擇關鍵詞的數量。原始數據特征大于5 000維的數據集選擇1 000個關鍵詞,原始數據特征小于5 000維的數據集選擇500個關鍵詞。其次,LR1與N1表示預訓練模塊采取的學習率與訓練次數,LR2與N2表示關鍵語義信息補足模塊的學習率與訓練次數,LR3 與N3表示自監督聚類模塊的學習率與訓練次數。從表中可以發現,N2遠遠大于N1和N3,這是為了克服關鍵詞數據的稀疏性,并在缺失語義信息的基礎上進一步習得關鍵詞信息,因而用2 000次迭代訓練關鍵詞數據的自動編碼器。

3.5 實驗結果分析

表3列出了5個數據集上的聚類結果。可以看到,本文方法的評估指標明顯優于大多數方法。可以從這些結果中觀察到:

a)基于深度學習的聚類方法往往好過基于傳統聚類的方法,例如 AE和VAE的結果優于K-means,這說明將原始數據降維到低維特征空間的深度聚類算法較傳統聚類方法能夠學到更好的表示。

b)對比AE、DEC與IDEC可以發現,通過式(9)定義的聚類損失函數在提高深度聚類性能方面起著非常重要的作用。因為DEC與IDEC可以看做聚類損失與AE的重構損失的組合。聚類損失通過提高簇的內聚性,使數據更接近聚類中心,從而改善了聚類結果。

c)對于純文本數據集,本文模型明顯優于其他對比方法,其原因可能是純文本數據集更依賴于語義信息的獲取。本文采取的關鍵語義信息補足策略提取了數據集的關鍵語義信息,為依賴于語義信息的純文本數據集補足了更多的適應聚類任務的關鍵信息,使得純文本數據集的聚類效果有較大的提升。具體提升顯著地,在BBC數據集上,本文方法相對于最佳基線方法的ACC、NMI和ARI分別提高了7.95%、8.92%和18.06%;在BBCSport數據集上ACC、NMI和 ARI分別提高15.6%,15.41%和10%;在Aminer-s數據集上分別提高1.32%,4.63%和2.15%。

3.6 模型不同部分對聚類結果的影響

本節主要分析模型子部分對實驗結果的貢獻與影響,主要包含數據增強和關鍵語義信息補足部分。為了體現數據增強和關鍵語義信息補足的有效性,減少結構信息的影響,本文選取兩個純文本數據集Aminer-s、BBC進行消融實驗,結果如表4所示。其中,模型變量中,R表示自動編碼器的重構損失,KL表示聚類損失,R+KL表示模型既有重構損失又有聚類損失。輸入數據中,O表示沒有經過處理的原始數據,K表示經過TF-IDF處理過的關鍵詞語義增強數據,O+K表示輸入數據既有原始數據又有關鍵詞數據。注意,輸入數據是O+K時才代表本文提出的共享初始化參數的關鍵詞語義信息補足編碼器,輸入數據只有K時代表的是只基于關鍵詞語義的自動編碼器,沒有初始化參數的部分。而當模型變量是R+KL、輸入數據是O+K時代表本文模型。從表4可以發現,首先,使用數據增強過的關鍵詞表示進行學習(d)相較于用原始數據進行學習(b)已經取得了提升。其中Aminer-s數據集的ACC和NMI分別提高1.38%和4.42%,BBC數據集的ACC和NMI分別提高8.58%和14.00%,初步說明選取關鍵詞作為增強后數據的有效性,且數據增強后的數據具有比原始數據更豐富、更具有辨別性的語義信息,習得的中間層表示更適合聚類任務。其次,本文基于關鍵語義信息補足的深度聚類方法的實驗結果同時優于基于原始數據的深度聚類方法(b)與單純使用數據增強后關鍵詞數據(d)的深度聚類方法,說明本文使用參數共享的方法能夠同時利用關鍵詞數據提高聚類結果并利用原始數據補足關鍵詞數據丟失的全局語義信息,得到最優的聚類結果。本文認為,BBC原始數據集的質量較低于Aminer-s數據集的質量,且關鍵詞語義對聚類結果有更重要的影響,使得BBC數據集的實驗結果的提升優于Aminer-s數據集。

3.7 聚類可視化分析

在實驗過程中,分別對Aminer-s數據集針對原始數據(a)、基于原始數據的自動編碼器的中間層表示(b)、基于原始數據進行關鍵詞語義補足后的自動編碼器的中間層表示(c)、聚類優化后的中間層表示(d)使用t-SNE [35]方法進行二維可視化。圖2的結果表明,針對原始數據的自動編碼器得到的中間層表示(b)較原始數據(a)已經起到了初步效果,自動編碼器初步習得了低維的特征表示,聚類效果初步顯現。對原始數據進行關鍵詞語義補足的自動編碼器(c)相較于原始數據自動編碼器得到的中間層表示聚類效果有提升,但聚類邊界仍不明顯,這是由于關鍵語義信息補足策略將原始數據自動編碼器丟失的部分關鍵語義信息進行了補足,但由于聚類損失的缺失,簇與簇之間沒有被明顯分割。聚類優化后的中間層(d)結果中,數據之間的重疊更小,簇與簇之間的距離更大,分類更明顯。該可視化證明本文方法的重構損失和聚類損失都對最終的聚類結果起重要作用。

3.8 關鍵詞數量影響分析在使用關鍵詞對原始數據進行增強時,以及對原始語義特征進行關鍵語義信息補足時,關鍵詞數量是非常重要的參數。為了尋找本文在關鍵詞語義信息補足模型中的最佳關鍵詞數量,同時證明本文模型具有良好的魯棒性,本文針對BBC與BBCSports數據集使用不同關鍵詞數量探索關鍵詞語義對聚類結果的影響,分別如圖3、4所示。從圖中可以看出,模型結果隨著關鍵詞數量的提高而提高,這是因為關鍵詞數量的提高有助于數據增強的質量,以及在關鍵語義信息補足策略中補到更多的關鍵語義信息。當關鍵詞數量上升到一定程度時,聚類結果不再有明顯提升而是趨于平緩,代表關鍵詞數量對聚類結果不再起明顯作用,且關鍵詞選取過多會帶來更多噪聲,自動編碼器不能分辨出哪些數據是對聚類結果起重要作用的數據,極端情況是將所有關鍵詞提取方法計算得到的詞作為關鍵詞,此時模型將退化為使用關鍵詞提取方法進行數據預處理的普通自動編碼器。

4 結束語

本文提出的基于關鍵語義信息補足的深度聚類方法(DCKSC)從數據增強與關鍵詞語義的角度對傳統的深度文本聚類模型進行語義補足。該方法由預訓練模塊、關鍵語義信息補足模塊和自監督聚類模塊構成,通過關鍵語義信息補足的方式較好地改進了傳統自動編碼器在訓練過程中語義信息丟失的問題以及特征表示的學習過于依賴原始數據質量的問題。在多個開放數據集中,本文模型優于現有的其他深度聚類方法。

考慮到對比學習提供了一種將數據增強表示與原始數據對齊的一種方式,在未來的工作中將嘗試把關鍵語義增強編碼器和原始數據自動編碼器應用到對比學習中,并將其作為下一步工作的重點。

參考文獻:

[1]Aggarwal C C,Zhai Chengxiang. A survey of text clustering algorithms [M]// Aggarwal C C,Zhai Chengxiang. Mining Text Data. Boston,MA: Springer,2012: 77-128.

[2]楊博,劉大有,金弟,等. 復雜網絡聚類方法[J]. 軟件學報,2009,20(1): 54-66. (Yang Bo,Liu Dayou,Jin Di,et al. Complex network clustering algorithms[J]. Journal of Software,2009,20(1): 54-66.)

[3]趙京勝,宋夢雪,高祥,等. 自然語言處理中的文本表示研究[J]. 軟件學報,2022,33(1): 102-128. (Zhao Jingsheng,Song Meng-xue,Gao Xiang,et al. Research on text representation in natural language processing [J]. Journal of Software,2022,33(1): 102-128.)

[4]尚敬文,王朝坤,辛欣,等. 基于深度稀疏自動編碼器的社區發現算法[J]. 軟件學報,2017,28(3): 648-662. (Shang Jingwen,Wang Chaokun,Xin Xin,et al. Community detection algorithm based on deep sparse autoencoder[J]. Journal of Software,2017,28(3): 648-662.)

[5]Pouyanfar S,Sadiq S,Yan Yilin,et al. A survey on deep learning: algorithms,techniques,and applications[J]. ACM Computing Surveys,2018,51(5): article No. 92.

[6]Wang Rui,Wang Jinguo,Wang Na. Research on clustering algorithm[C]// Proc of International Conference on Engineering and Advanced Technology. [S.l.]: Atlantis Press,2016: 14-17.

[7]Xie Junyuan,Girshick R,Farhadi A. Unsupervised deep embedding for clustering analysis[C]// Proc of the 33rd International Conference on International Conference on Machine Learning. 2016: 478-487.

[8]Solorio-Fernández S,Carrasco-Ochoa J A,Martínez-Trinidad J F. A review of unsupervised feature selection methods[J]. Artificial Intel-ligence Review,2020,53(2): 907-948.

[9]Hastie T,Tibshirani R,Friedman J. Overview of supervised learning [M]// The Elements of Statistical Learning. New York: Springer,2009: 9-41.

[10]Shorten C,Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data,2019,6(1): 1-48.

[11]Xu Rui,Wunsch D. Survey of clustering algorithms[J]. IEEE Trans on Neural Networks,2005,16(3): 645-678.

[12]Hartigan J A,Wong M A. Algorithm AS 136: a K-means clustering algorithm[J]. Journal of the Royal Statistical Society,1979,28(1): 100-108.

[13]Park H S,Jun C H. A simple and fast algorithm for K-medoids clustering[J]. Expert Systems with Applications,2009,36(2): 3336-3341.

[14]Johnson S C. Hierarchical clustering schemes[J]. Psychometrika,1967,32(3): 241-254.

[15]Guha S,Rastogi R,Shim K. CURE: an efficient clustering algorithm for large databases[J]. ACM SIGMOD Record,1998,27(2):73-84.

[16]Reynolds D A. Gaussian mixture models[J]. Encyclopedia of Biometrics,2009,741: 659-663.

[17]Xu Xiaowei,Ester M,Kriegel H P,et al. A distribution-based clustering algorithm for mining in large spatial databases[C]// Proc of the 14th International Conference on Data Engineering. Piscataway,NJ: IEEE Press,1998: 324-331.

[18]Schubert E,Sander J,Ester M,et al. DBSCAN revisited,revisited: why and how you should (still) use DBSCAN[J]. ACM Trans on Database Systems,2017,42(3): 1-21.

[19]Ankerst M,Breunig M M,Kriegel H P,et al. OPTICS: ordering points to identify the clustering structure[J]. ACM SIGMOD Record,1999,28(2): 49-60.

[20]Cheng Yizong. Mean-Shift,mode seeking,and clustering[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,1995,17(8): 790-799.

[21]Jordan M I,Weiss Y. On spectral clustering: analysis and an algorithm[J]. Advances in Neural Information Processing Systems,2002,14: 849-856.

[22]Yang Bo,Fu Xiao,Sidiropoulos N D,et al. Towards K-means-friendly spaces: simultaneous deep learning and clustering[C]// Proc of the 34th International Conference on Machine Learning.2017:3861-3870.

[23]Guo Xifeng,Gao Long,Liu Xinwang,et al. Improved deep embedded clustering with local structure preservation[C]// Proc of the 26th International Joint Conference on Artificial Intelligence. 2017: 1753-1759.

[24]Jiang Zhuxi,Zheng Yin,Tan Huachun,et al. Variational deep embedding: a generative approach to clustering[EB/OL]. (2016-11-16). https://arxiv.org/abs/1611.05148.

[25]Ji Pan,Zhang Tong,Li Hongdong,et al. Deep subspace clustering networks[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 23-32.

[26]黃學雨,向馳,陶濤. 基于MapReduce和改進密度峰值的劃分聚類算法[J]. 計算機應用研究,2021,38(10): 2988-2993,3024. (Huang Xueyu,Xiang Chi,Tao Tao. Partition clustering algorithm based on MapReduce and improved density peak[J]. Application Research of Computers,2021,38(10): 2988-2993,3024.)

[27]任麗娜,秦永彬,黃瑞章,等. 基于多層子空間語義融合的深度文本聚類[J].計算機應用研究,2023,40(1): 70-74,79. (Ren Lina,Qin Yongbin,Huang Ruizhang,et al. Deep document clustering model via multi-layer subspace semantic fusion[J]. Application Research of Computers,2023,40(1): 70-74,79.)

[28]Kipf T N,Welling M. Variational graph auto-encoders [EB/OL]. (2016-11-21). https://arxiv.org/abs/1611.07308.

[29]Pan Shirui,Hu Ruiqi,Fung S F,et al. Learning graph embedding with adversarial training methods[J]. IEEE Trans on Cybernetics,2020,50(6): 2475-2487.

[30]Bo Deyu,Wang Xiao,Shi Chuan,et al. Structural deep clustering network[C]// Proc of the Web Conference 2020. 2020: 1400-1410.

[31]Tu Wenxuan,Zhou Sihang,Liu Xinwang,et al. Deep fusion clustering network[C]// Proc of AAAI Conference on Artificial Intelligence. 2021: 9978-9987.

[32]Bai Ruina,Huang Ruizhang,Zheng Luyi,et al. Structure enhanced deep clustering network via a weighted neighbourhood auto-encoder[J]. Neural Networks,2022,155: 144-154.

[33]Bai Ruina,Huang Ruizhang,Chen Yanping,et al. Deep multi-view document clustering with enhanced semantic embedding[J]. Information Sciences,2021,564: 273-287.

[34]Kadhim A I,Cheah Y N,Ahamed N H. Text document preprocessing and dimension reduction techniques for text document clustering[C]// Proc of the 4th International Conference on Artificial Intelligence with Applications in Engineering and Technology. Piscataway,NJ: IEEE Press,2014: 69-73.

[35]Luo Chunjie,Zhan Jianfeng,Xue Xiaohe,et al. Cosine normalization: using cosine similarity instead of dot product in neural networks[C]// Proc of International Conference on Artificial Neural Networks. Berlin: Springer: 2018: 382-391.

[36]Van Der Maaten L,Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research,2008,9(86): 2579-2605.

主站蜘蛛池模板: 不卡色老大久久综合网| 亚洲色成人www在线观看| 日韩成人免费网站| 亚洲欧美一区二区三区麻豆| 2021亚洲精品不卡a| 91系列在线观看| 麻豆国产精品| 五月婷婷伊人网| 浮力影院国产第一页| 国产剧情一区二区| 全午夜免费一级毛片| 日韩精品无码一级毛片免费| 四虎永久在线精品国产免费| 国产免费羞羞视频| 日韩毛片在线播放| 国内精品久久久久鸭| 狠狠色噜噜狠狠狠狠色综合久| 成人a免费α片在线视频网站| 伊人久久大香线蕉影院| 久热中文字幕在线| 亚洲视频在线青青| 亚洲综合第一页| 国产成人精品一区二区秒拍1o| 538国产在线| 亚洲色图在线观看| 久久香蕉国产线看观看式| 中字无码av在线电影| 97在线碰| 国产av剧情无码精品色午夜| 欧美特黄一级大黄录像| 欧美午夜在线观看| 国产电话自拍伊人| 五月婷婷丁香综合| 国产精品亚洲五月天高清| 夜夜操狠狠操| 免费国产不卡午夜福在线观看| 精品欧美日韩国产日漫一区不卡| 国产凹凸视频在线观看| 伊人天堂网| 国产无码在线调教| 亚洲男女在线| 亚洲欧美日本国产专区一区| 97人人模人人爽人人喊小说| 午夜影院a级片| 国产福利免费在线观看| 国产精品福利导航| 亚洲精品成人7777在线观看| 青青草一区| 三级国产在线观看| 亚洲欧美在线综合一区二区三区 | 天堂网亚洲系列亚洲系列| 亚洲无码视频一区二区三区| 国产视频欧美| 成人精品视频一区二区在线| 久久精品国产精品青草app| 性欧美久久| 99色亚洲国产精品11p| 国产精品入口麻豆| 亚洲一级毛片免费观看| 久久精品视频亚洲| 色婷婷成人| 国模沟沟一区二区三区 | 国产精品页| 国产视频 第一页| 99爱在线| 亚洲欧美成人网| 亚洲精品另类| 亚洲精品国产综合99| 成年av福利永久免费观看| 国产99热| 亚洲成年人网| 日韩经典精品无码一区二区| 亚洲欧美日韩中文字幕在线一区| 99精品高清在线播放| 亚洲精品午夜天堂网页| 亚洲中文字幕在线观看| 午夜视频免费试看| 成年A级毛片| 亚洲中文制服丝袜欧美精品| 日韩在线视频网| 婷婷伊人五月| 国产呦精品一区二区三区下载|