基于VSM和LDA混合模型的文本聚類研究

2018-02-02 05:39:21劉曉蒙熊海濤

電腦知識與技術 2018年1期

劉曉蒙+熊海濤

摘要：在當今的時代，網絡文本的數量正在迅速增長。文本的分析仍然是當今一個熱門話題。由于傳統的VSM模型在使用時會出像數據的緯度太高，缺乏對潛在語意理解等問題，導致最終的聚類結果的精確度不夠高。鑒于此，提出了VSM和LDA的文本聚類的混合模型，通過對文本的處理，篩選，統計的方法得到特征詞權重的集合，隨后分別計算VSM模型和LDA模型相似度，通過將兩個相似度進行線性相加的方法相結合，得到混合相似度，然后通過K-means算法進行文本聚類，分別得到VSM模型、LDA模型和混合模型的聚類結果，通過統計與分析得到最后的實驗結果。實驗結果表明，該混合模型是有效。

關鍵詞：聚類；相似度； LDA； VSM； K-means

中圖分類號：TP312 文獻標識碼：A 文章編號：1009-3044（2018）01-0035-04

Abstract：In today's world， the number of online texts is rapidly growing. Text analysis is still a hot topic today. As the traditional VSM model will appear as the data latitude is too high， the lack of potential semantic understanding and other issues， resulting in the accuracy of the final clustering results are not high enough. In view of this， a hybrid model of text clustering of VSM and LDA is proposed， and a set of feature weights is obtained through text processing， screening and statistics， and then the similarity between the VSM model and the LDA model is calculated respectively. Degree of linear sum of the method to get mixed similarity， and then through the K-means algorithm text clustering， respectively， the VSM model， LDA model and the hybrid model of the clustering results obtained by statistical analysis and the final experimental results. Experimental results show that the hybrid model is effective.

Key words： Clustering； Similarity； VSM； LDA； K-means

1 概述

隨著21世紀科技的飛速發展，人們日常生活中的信息呈現一種爆炸式的增長方式，同時大量的信息開始堆積。對于這些大規模且無序的文本信息，如何挖掘出其中的最有價值的信息一直是自然語言處理領域的一個重點研究課題。作為一種無監督的學習方法，聚類[1-2]可以將大量未知文本信息按照一定的方式劃分為最理想的簇。它使在同一個簇的對象盡可能的相似，不同集群簇中的對象盡可能地增加。通過從文本集合中找到這些信息的分布，就可以大規模的減少搜索的范圍。最后通過篩選可以找到目標信息。

早期使用最多的文本模型是模型矢量空間模型（VSM），使用詞作為特征項，使用TF-IDF值來加權特征詞，將文本轉換成一個，緯度高，稀疏性強的矩陣。雖然這種模型可以很方便地提取文本特征，但是問題也隨之出現，高緯度和高稀疏性也產生了嚴重的效率問題，同時該模型在使用時也忽略了文本中潛在的含義，導致可能有內在聯系的文本無法被發現，從而減少了信息的價值。

隨著越來越多的研究者的對文本聚類的研究，近年來，已經有不少的研究這將潛在狄利克雷模型（LDA）用在文本聚類中。LDA模型的優點首先在于它具有極其豐富的內部結構，使用的是概率算法來訓練模型。第二LDA可以起到很好的降維作用，適合大規模語料庫。所以，LDA模型在許多領域都被使用[3-6]。在本文中，LDA模型用于對主題進行建模，并將語料庫映射到每個主題空間，以便我們可以在文本中找到主題與單詞之間的關系。然后獲取文本的主題分布，并將分布用作傳統向量空間模型中的特征值，以計算相似度。最后，獲得文檔集的相似矩陣，并將其聚類。由于LDA模型的優勢，已經有不少的研究者提出了他們的方法。王鵬[7]等人提出使用JS作為文本相似度的距離，采用LDA模型進行聚類。李國[8]等人提出了一種基于加權LDA模型的方法進行聚類。王振振[9]等人提出不同主題內詞語的分布作為特征項的聚類方法。胡秀麗等人提出將VSM模型與LDA模型相結合的方法[10]。本文針對以上所使用的方法，進行了進一步的改進，首先根據文檔-主題分布和主題-詞語的矩分布發掘出文本中的潛在的信息，分別計算二者的相似度，之后通過加權的方法得到LDA模型最終的相似度。之后通過改進TF-IDF的計算方式，提高VSM模型的相似度精確性，計算VSM模型相似度，之后再對兩個模型的相似度進行加權，得到混合后的相似度。使用這種方法可以在考慮文本潛在信息的情況下充分的挖掘文本的價值，實驗的結果表明本文所用的方法是有效的。

2 模型

2.1 Vector Space Model（VSM）endprint

在20世紀60年代末，Salton等人首次提出了向量空間模型（VSM）[5]。VSM模型具有完整和易于實施的特點，隨后被廣泛應用于相關領域。它以向量的方式表示文本。文檔被描述成為一系列由關鍵詞組成的向量。

每個文本被抽象成一個個單獨的向量，可以用于判斷一個文本是否是你最喜歡的文本。文檔由許多關鍵詞組成，每個單詞都有一個權重。不同的單詞根據文檔中自己的權重影響文檔。文本被轉換之后，就可以用關鍵詞來代替。當選擇關鍵詞時，應該選擇具有代表性的關鍵詞。其表現形式為：

文檔 = {關鍵詞1，關鍵詞2， … ，關鍵詞N}

文檔向量 = {權重1，權重2，… ，權重N}

V（d）={ t1w1（d）；…tnwn（d）}

ti（i=1…n）是一系列不同的詞，wi （d）是每個詞在文檔D中的權重。當選擇特征詞時，我們需要減小范圍以選擇代表性特征詞。

2.2 TF-IDF

TF-IDF[11]是信息處理和數據挖掘中常用的加權技術。該方法基于統計學，用于計算語料庫中單詞的重要性。它的優點是可以過濾出一些常見但不重要的單詞，并保留影響整個文本的最重要的單詞。

通常，文檔中的單詞數量表示為單詞頻率，但是對于不同長度的文檔集合的統計方法將導致一些誤差。本文選擇了標準化方法。這樣做的優點在于它可以減少文檔不同長度帶來的錯誤。以下是公式：

tfi，j表示文檔i中的第j個詞。tfimax表示文檔i中出現次數最多的詞的數量統計。

2.3 Latent Dirichlet Allocation（LDA）

LDA模型由Blei[12]于2002年提出，它是一種概率生成模型，用于解決潛在語義分析的問題[13]。其基本假設是文本是由某些主題中選出的詞所組成的，同時文本中的具體詞可以反映具體主題。因此，LDA將每個文本視為文本集中幾個主題的概率分布，并且每個主題被認為是所有關鍵詞的概率分布。對LDA模型的描述為：

選擇參數 θ ～p（θ）；

對于每個文本的詞wn

選擇一個主題 zn～p（z|θ）；

選擇一個詞 wn～p（w|z）；

α和β是語料級的參數。向量α反映隱性主題之間相對強度。矩陣β用于描述所有隱含主題的概率分布。θ是表示主題上每個文本分布的文本級別參數。w和z是字級參數。z表示主題的概率分布，w表示單詞的分布。N表示字數，M表示文本數。

計算公式如下：

2.4 Gibbs Sampling（吉布斯采樣）

在LDA模型中需要對參數進行大概的估計，而Gibbs抽樣就是一種實用而且高效的抽樣方法，它可以有效的從文本中抽取與文本相關的主題，且精確度也相當的不錯，所以Gibbs抽樣也就成為了LDA模型常用的抽樣方法。

LDA模型最重要的兩個參數分別是主題下的詞的概率和每個文本中主題的概率。使用這種方法可以看成是產生文本的逆過程即先選擇主題，然后再從主題中選擇詞，從而生成文本的過程。得到一篇文章的概率公式如下：

一旦確定每個單詞的主題，可以在統計后計算參數。因此，參數估計問題成為主題的條件概率。

一旦獲得每個單詞的主題標簽，參數計算公式如下：

Φk，t 代表特征詞t在主題k中的概率。θm，k 代表主題k在文本m中的概率。

2.5 基于VSM和LDA的相似度計算

由于VSM模型在計算相似度時忽略了文本中的潛在語意，所以在進行聚類時會導致一定的誤差，LDA模型則是可以將文檔的潛在主題映射到詞語的特征空間上，但在單獨使用LDA模型進行聚類實驗，LDA模型的精確度也無法達到一個令人滿意的結果，所以本文在前人的研究的基礎上提出一種更加的精確的VSM模型和LDA模型的混合相似度值計算方法。通過實驗證明這種方法是有效的。

VSM模型：對于每個文檔di。與TF-IDF權重的矢量表示相結合為di_v=（w1，w2，…，wn）。N表示VSM模型中選擇的特征詞。定義 Simv是VSM模型的相似度。相似度計算公式為：

LDA模型：同樣采用TF-IDF計算權重，結合文檔-主題，進行線性的加權，有效的提高相似度的質量。文檔di的在主題-詞的向量形式可以表示為：di_LDA1=（w1，w2，…wn），n為主題中選擇的詞數，計算方式如下：

文檔di在文本-主題的向量表示為di_LDA2=（l1，l2，…ln）其中K代表主題數，相似度為Sim_LDA2，最終的相似度計算公式為：

λ是一個參數，表示文檔-主題，主題-詞在選擇時的權重。

在分別得到VSM模型和LDA模型的相似度后，就可以進行最后一步，進行混合相似度計算，同樣采用加權的方法。計算公式如下：

k 是一個參數。它表示這兩個模型在選擇時的權重。

3 實驗步驟

在這部分我們將詳細介紹聚類過程的實現，通過這部分介紹可以對實驗的整個過程進行基本的了解。

l Step0，準備實驗所需的相關材料，并安裝配置所需的軟件。

l Step1數據抓取和數據處理：我們使用文本材料是來自復旦語料，并使用Python軟件進行正常處理。處理完畢后，我們可以獲得文檔集合。

l Step2計算所需數據：本部分的主要任務是為計算文檔所需的數據建模。

n Step2.1 計算 TF-IDF

u Step2.1.1向量化文本，提取關鍵詞，獲取矩陣，統計TF值。

u Step2.1.2根據TF值和TF-IDF公式，得到最終的TF-IDF值。endprint

n Step2.2計算 Simv 和 Siml值

u Step2.2.1進行VSM和LDA的建模。

u Step2.2.2 Simv的值是根據步驟2.1中獲得的數據和上述公式計算的。 Siml的計算與Simv的計算相似。這兩個計算是相互獨立的。

n Step2.3 計算混合相似度 Sim的值

u Step2.3.1根據步驟2.2獲得的值，Sim的值根據上述公式計算。

l Step3該部分由步驟2中計算的數據聚類，并且將聚類的結果進行可視化處理以獲得直觀圖。最后比較結果并得出結論。

n Step3.1使用K-means [14]算法進行聚類計算。

u Step3.2.1根據簇的數量將值分配給K值，然后運行算法。

u Step3.2.2根據標簽對每個群集的文本數進行計數。獲取聚類結果。

n Step3.2根據聚類結果，得到一個直觀圖。

n Step3.3進行多次實驗以選擇最佳效果。

n Step3.4研究人員進行結果描述并得出結論。

圖2是該過程的直觀顯示。

4 實驗結果分析

實驗數據來復旦語料，皆為中文語料。它們是C3-Art，C5-Education，C11-Space和C16-Electronics。每種類型都有500個文本，分別用top1～top4表示。在本文中，K-means算法用于聚類，評估標準為F值，用于測量文本的相似度值。F值是信息檢索中精度和回歸指數的組合的標準。

我們通過處理文本，獲得空間模型，通過使用VSM模型來計算Simv（di，dj）的相似度，使用LDA模型計算Siml（di，dj）的相似度。最后，我們可以通過線性相加的方法得到混合相似度的值。

在LDA建模過程中，我們使用吉布斯抽樣得到參數估計。在本文中，通過實驗得到在K值為50時聚類的效果最好，所以我們選擇K = 50。超參數α= 50 / K，β= 0.01。選擇k值= 0.85。

在本文中，我們做了兩個實驗。分別與LDA模型和VSM模型相比較，然后對其結果進行了描述。

從實驗結果看出，在單獨使用LDA模型時，由于K值較小的緣故其精確度是最差，而VSM模型的精確度雖然達到了90%以上，但是由于其忽略了文本中潛在的語意，所以在想進一步提高是很困難的，而在使用VSM模型+LDA模型后，精確度又得到了一個提升，說明本文提出的方法是有效的。圖2顯示logP（w|K）隨K值的變化的折線圖，圖4和圖5分別顯示了每個類別的F和模型精度：

5 結束語

通過使用VSM模型和LDA模型，既克服了VSM模型無法發現潛在語意的缺點，又彌補了LDA模型在簇數過少時精確度不足的問題。通過改進TF-IDF的計算方法精確特征詞的權重，將文本-主題和主題-詞進行線性的結合，使得文本的語意得到了增強，同時進行降維，使得計算所花的時間和金錢減少。使用本文的方法有以下好處：

1）混合相似度比單獨使用任何一個模型的精確度都高，聚類效果更好。

2）充分利用兩種模型的特點，改進權重的計算方法，使得統計的結果更精確。

3）利用LDA模型的特點進行降維處理，大大縮短了計算所花的時間和金錢。

LDA模型雖然在發現潛在語意時是一種很高效的手段，但其本身也存在一些問題，當文本較短時LDA模型的效果特別差，日后的研究會向著如何提高LDA模型在處理短文本時的效果。

參考文獻：

[1] Salton G.Automatic.， Text Processing.Boston：Addison[M].Wesley Longman Publishing Company，1998.

[2] Thomas Hofmann.， Unsupervised Learning by Probabilistic Latenr Semantic Analysis[R].JASIS，1990，41（6）：391-407.

[3] Bhattacharya，Indrani，Sil，Jaya，Sparse representation based query classification using LDA topic modeling[J].Advances in Intelligent Systems and Computing，2016（469）：621-629.

[4] Liu Q，Chen E，Xiong H，et al.A Cocktail Approach for Travel Package Recommendation[R].IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING，2014，26（2）：278-293.

[5] Yue Liu，Shimin Wang， Qian Cao.Research on Commodities Classification Based on LDA IMM 2015[R].Lancaster：DEStech Publivations，2015：189-191.

[6] Wang C，Blei D.Collaborative Topic Modeling for Recommending Scientific Articles.Proc.ACM 17th ACM SIGKDD Int'l Conf[J].Knowledge Discovery and Data Mining，2011：488-456.

[7] 王鵬，高鋮，陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學.2015，33（1）：63-68.

[8] 李國，張春杰，張志遠. 一種基于加權 LDA 模型的文本聚類方法[J]. 中國民航大學學報.2016，34（2）：46-51.

[9] 王振振，何明，杜永萍.基于LDA主題模型的文本相似度計算[J]. 計算機科學.2013，40（12）：229-232.

[10] 胡秀麗. 基于VSM和LDA模型相結合的微博話題漂移檢測[J]. 蘭州理工大學學報，2015，41（5）：104-109.

[11] 趙士杰，陳秋. 基于語義和TF-IDF的項目相似度計算方法[J]. 計算機時代.2015（5）：1-3+6.

[12] Blei D M， Ng A Y， Jordan M I.Latent Dirichlet Allocation[C]. Journal of Machine Learning Research 3，2003： 993-1022.

[13] Salton G，Wong A，Yang C S.A vector space model for automatic indexing[J].Communications of the ACM，1975，18（11）：613-620.

[14] 王春龍，張敬旭. 基于 LDA 的改進 K-means 算法在文本聚類中的應用[J].計算機應用.2014，34（1）：249-254.endprint

電腦知識與技術2018年1期

電腦知識與技術的其它文章: 一種改進的RDF數據k—hop劃分算法; 嵌入式系統中操作系統調度算法講解探討; 云計算下大數據均衡調度方法研究; 大數據分析的分布式MOLAP技術要點; 關于Hadoop中HDFS的研究; 基于高校圖書館數字資源推介的大學生信息素養教育