李 晶 秦永彬 黃瑞章
(1.貴州省公共大數據重點實驗室 貴陽 550025)(2.貴州大學計算機科學與技術學院 貴陽 550025)
一種具有降噪能力的概率主題模型
李 晶1,2秦永彬1,2黃瑞章1,2
(1.貴州省公共大數據重點實驗室 貴陽 550025)(2.貴州大學計算機科學與技術學院 貴陽 550025)
大數據時代的到來使得文本數據的數據量暴增,因此準確而高效地識別和分析文本數據的潛在結構變得越來越重要。要從海量的數據中挖掘模式和知識,需要借助于強大的計算工具,所以機器學習科學家提出了概率主題模型。當前,以隱含狄利克雷分布(LDA)模型為代表的經典概率主題模型已經被廣泛地應用到數據挖掘的各個方面。由于LDA模型對區分相似主題的能力非常差,影響了LDA的實際應用性能,為解決這一重要問題,論文基于LDA模型提出了一種名為NRLDA的新模型。考慮到相似主題的文本中存在大量的對區分不同主題沒有貢獻的噪音詞語,在NRLDA中引入了相關變量來區分有用詞和噪音詞,使噪音詞從一個噪音主題的詞分布中產生,而有用詞從多個特征主題的詞分布中產生,從而削弱噪音詞所帶來的不良影響。此外,我們還使用吉布斯抽樣方法對NRLDA的參數進行了推斷,這些參數對分析文本數據中潛藏的結構有至關重要的作用。實驗結果表明我們的NRLDA模型有較強的區分相似主題的能力,這同時也驗證了我們建模思想的正確性。
概率主題模型; 隱含狄利克雷分布; 吉布斯抽樣; 降噪
Class Number TP181
大數據時代的到來使得各種類型數據的數據量急劇增加,而文本作為承載人類知識的最主要媒介,其增加的速度和幅度是其他類型的數據所不能比擬的,更好地把握和理解文本數據的潛在結構就變得越來越重要。人工去整理某文本語料庫的文本結構所需要的時間開銷是巨大的。當前,查找和管理文本數據的常見方法是搜索和鏈接,但這種方法只對詞句做字面上是否全等的比對而忽略了潛藏在詞句之下的文本結構,所以這種方法并不能幫助我們把握文本數據的結構。我們需要一種新的計算工具來幫助發現潛在的文本結構。基于這種需要,機器學習科學家提出了主題模型(Topic Model)[1],它是一類通過發現文本數據下潛藏的主題信息來呈現文本數據的結構的機器學習算法。這種挖掘出文本中的主題信息,然后利用主題信息來體現文本結構的方法非常符合人類對文本數據的認知習慣[2]。
主題模型經歷了一個從簡單到復雜的發展過程,其間誕生的比較著名的模型有概率的隱含語義分析(probabilistic Latent Semantic Analysis,pLSA)[3]和隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)[4]等。迄今為止,LDA仍是最為經典、應用領域最廣泛的主題模型。然而,LDA在某些情況下的性能表現不能讓人滿意,比如,其無監督機器學習模型[5]的天性決定了它不能對珍貴的監督信息加以利用;其基于大量詞語的統計信息來挖掘主題信息的特點致使其針對短文本的主題信息挖掘的效果很差;其對文本挖掘主題信息前必須提前指定主題個數并且不能動態調整也給其帶來了一定的局限性等。正是因為LDA算法優秀的同時又有許多有待進一步改進的地方,許多學者基于LDA提出了一些新的類LDA模型[6~9]來解決LDA所不能解決的問題。比如,針對LDA不能利用監督信息的缺陷,文獻[6~7]分別在LDA模型的基礎上提出了Labeled LDA和PLDA模型,這些模型能夠利用文本的標簽信息作為監督信息來幫助主題信息的挖掘;類似的,文獻[8]提出的SCLDA模型把先驗知識作為監督信息來指導主題信息的挖掘。并且這些文獻中給出的實驗結果均表明主題信息的挖掘效果均優于原始的LDA。再如,針對LDA對短文本的主題信息挖掘效果很差的問題,文獻[9]基于LDA模型提出的DLDA模型采用長文本輔助短文本的方法,使對短文本主題信息的挖掘效果明顯改善。
我們發現LDA模型區分相似主題的能力很差。假設某個文本語料庫中的所有文檔均來源于三個相似但又互不相同的主題,可以認為所有文檔同屬于一個大范疇下。使用LDA模型對該語料庫進行主題信息的挖掘,并根據每篇文檔中三個主題的概率分布情況對所有文章進行聚類,最后發現聚類結果很差。這是因為非常相似的主題會有許多共享的詞語,這些共享的詞語在這些相似的主題中都會頻繁出現,即它們不是某一個主題下的特異性詞語,而是這些相似主題所屬的大范疇下的常見詞語,例如,三個相似而又不同的主題分別是Linux操作系統、Windows操作系統和計算機操作系統,這三個主題同屬于計算機這個大范疇下,那么經常出現于計算機這個主題下的詞語,像“計算機”、“操作系統”、“用戶界面”等,會頻繁出現在這三個相似的主題下,這些詞語并不是這三個主題中的某一個所特有的,它們并不會為區分這三個主題做貢獻,則對于這三個主題而言,這些共享詞語就是噪音詞語。這些噪音詞語對區分相似的主題不但沒有貢獻,反而會使得相似主題之間的界限變得更加模糊。LDA沒有考慮噪音詞語大量存在的情況,這導致它區分相似主題的能力很差,所以我們有必要削弱噪音詞語帶來的不良影響,即降噪。我們尚未見到有針對LDA的這一缺陷而提出解決方案的相關文獻。
本文基于LDA模型提出一種具有降噪能力的新模型NRLDA(Noise Reduction LDA)。此模型中在NRLDA中引入了相關變量來區分有用詞和噪音詞,使噪音詞從一個噪音主題的詞分布中產生,而有用詞則遵循LDA中詞的生成過程從多個特征主題的詞分布中產生,從而削弱噪音詞所帶來的不良影響;使用吉布斯抽樣[10]的方法求解了NRLDA模型中的參數,并給出了詳細、具體的吉布斯抽樣公式;最后,在真實數據集上的對比實驗表明,我們提出的NRLDA模型在區分相似主題上的表現上明顯優于LDA,有較強的降噪能力。
LDA模型是一個貝葉斯概率圖模型[11],其將每個文檔視為潛在主題的混合分布來建模,每篇文檔中的每個詞都是由某個主題的詞分布生成的。LDA的圖模型如圖1所示,圖中用兩個圓圈表示的節點是證據節點,代表可見的變量或參數,是已知的;圖中用一個圓圈表示的節點是隱藏節點,代表隱含的變量或參數,是未知待求的;對應的生成過程如下所示。


圖1 LDA的圖模型表示
3.1 NRLDA模型
本文在LDA的基礎上提出了NRLDA模型,其圖模型如圖2所示,對應的生成過程如下:

2) 對每一篇文檔m∈{1,…,M}


圖2 NRLDA的圖模型表示

3.2 NRLDA模型的參數推斷
根據NRLDA的圖模型和生成過程,可以得到生成某一文檔的似然函數,即給定超參數時,所有已知變量和隱含變量的聯合分布:
(1)
(2)

(3)
(4)

再由狄利克雷分布的期望公式可得:
(5)
(6)
4.1 數據集
在實驗中使用到兩個數據集,分別是News-sim-3和News-diff-3。這兩個數據集都來源于經典的文本語料數據集20newsgroup[16],此數據集由20個類別的新聞文章構成,每個新聞類別下均包含大約1000篇新聞文章。我們從20個類別中選取3個彼此非常相似的類別,然后把這3個類別下的所有文章組成一個數據集,即News-sim-3;再從20個類別中選取3個彼此差異非常大的類別,然后把這3個類別下的所有文章組成一個數據集,即News-diff-3。
實驗之前,先對這兩個數據集做了一定的文本預處理,包括去除停用詞,剔除詞頻過高或過低的詞,過濾文章中的一些說明信息,排除過長和過短的文章等,以盡可能提高文本結構分析的效果。因為進行了文本預處理,所以News-sim-3和News-diff-3這兩個數據集中的文章個數并不是三個類別中的文章數相加,事實上,這兩個數據集中的文章數目均小于3000。數據集的基本信息如表3所示。

表3 數據集的基本信息
4.2 實驗設計和評判標準
分別使用LDA和NRLDA分析News-sim-3和News-diff-3這兩個數據集的文本結構。在得到數據集中每篇文章的主題分布情況后,依據出現概率最高的主題來對數據集中的文章進行聚類,然后檢驗聚類的效果。聚類效果越好說明模型對文本結構分析的能力越強。
因為事先已經知道了數據集中每篇文章所屬的真實類別,所以就可以通過比對聚類結果和每篇文章的真實類別來評判聚類的效果。具體為通過計算數據集中所有文章的聚類結果和文章真實類別的NMI(正則化的互信息)值[17]來評判聚類結果的好壞。NMI是用來衡量兩個分布的相似程度的,其值介于0和1之間,NMI的值越大,說明兩個分布越相似,聚類效果越好。NMI的定義式如式(7)所示:
(7)
其中d表示數據集中的文章數量,dh表示真實類別是h的文章數量,cl表示實驗結果中類l中的文章數量。
4.3 實驗結果與分析
首先,將LDA模型和NRLDA模型分別應用到對數據集News-sim-3和News-diff-3的文本結構分析中,在每個數據集上都運行10次LDA算法和10次NRLDA算法,并記錄每次實驗結果的NMI值,最后求NMI的平均值,實驗結果如表4所示。
表4中的結果顯示,LDA模型分析數據集News-diff-3的結果較好,而分析數據集News-sim-3的結果則非常差。考慮到數據集News-sim-3中的文章來源于三個非常相似的主題,所以這個實驗結果說明了LDA模型對相似主題的區分能力很差。表四中,NRLDA在兩個數據集上的NMI結果是在NRLDA的參數b最優時得到的,下文中有針對參數b的取值對結果好壞影響的討論。

表4 LDA和NRLDA分析不同數據集的結果

圖3 LDA和NRLDA對News-sim-3分析結果對比

(8)
另外,可以通過調整γ0和γ1的值將b的方差控制得較小,以使整個語料庫中所有的文章對應的b的取值相對集中。
因為p(xi=1)=b,則E(b)越大說明語料庫中的每個詞語wm,n對應的xi取值為1的可能性就越大,同時也意味著模型認為的噪音詞語在語料庫的所有詞語中所占的比重越小。從圖3可知,當E(b)的取值非常小時,NRLDA的NMI值甚至低于LDA的NMI值,這是因為此時模型認為的噪音詞語所占比重非常大,而事實上語料庫中噪音詞語所占的真實比重并沒有那么大,結果是,模型會把大量非噪音詞語當成噪音詞語來處理,使得大量原本帶有明顯主題傾向的詞語被當成了無用的噪音詞,文本結構的分析效果不如LDA是正常的;隨著E(b)不斷增大,模型認為的噪音詞語所占的比重不斷減小,NRLDA文本結構分析的效果逐漸改善并優于LDA模型;當E(b)增大到一定程度時,NMI取到最大值,文本結構分析效果達到最好,說明此時模型認為的噪音詞語所占的比重和語料庫中噪音詞語所占的真實比重最接近;隨著E(b)進一步增大,模型認為的噪音詞語所占比重進一步減小,和語料庫中噪音詞語的真實比重相差越來越大,則文本結構分析的效果逐漸變差,反映到圖3上就是NMI的值逐漸減小;直到E(b)增大到1時,模型認為的噪音詞語所占比重非常小,此時NMLDA已經基本退化成了LDA,反映到圖3上就是二者NMI的取值幾乎相同。這個對比實驗表明,在區分相似主題的能力上,NRLDA模型明顯要優于LDA模型,證明了NRLDA有較強的降噪能力。表4中NRLDA在兩個數據集上取得的NMI值,就是在E(b)最優時得到的;NRLDA在News-diff-3上的實驗結果表明NRLDA區分互相之間差別很大的主題的能力和LDA相當。
本文針對LDA模型區分相似主題能力差的缺陷,在LDA模型的基礎上,提出了一種具有一定降噪能力的新主題模型NRLDA,并通過在真實數據集上的一系列實驗對NRLDA分析文本結構的效果進行了分析,證明了NRLDA模型有較強的區分相似主題的能力。與基于LDA模型做改進的其他模型相比,NRLDA模型對LDA模型的改進簡潔而清晰,但效果卻比較明顯。盡管LDA是最為經典的主題模型,但其仍然存在許多缺陷,值得我們去改進,比如將個人的喜好作為監督信息融入到模型中去,我們正在進行這方面的工作。另外,相對于LDA模型,該模型雖然取得了較明顯的性能改善,但如何更大程度地提高文本結構分析的能力,還有待進一步研究。
[1] Blei D M. Probabilistic topic models[J]. Communications of the ACM, 2012, 55(4): 77-84.
[2] Chang J, Gerrish S, Wang C, et al. Reading tea leaves: How humans interpret topic models[C]//Advances in neural information processing systems. Cambridge: MIT press, 2009: 288-296.
[3] Hofmann T. Probabilistic latent semantic indexing[C]//Proc of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. New York: ACM, 1999:50-57.
[4] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation [J]. The Journal of machine learning research, 2003,3:993-1022.
[5] Murphy K P. Machine learning: a probabilistic perspective [M]. Cambridge: MIT press,2012:9-16
[6] Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]//Proc of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Stroudsburg: Association for Computational Linguistics,2009:248-256.
[7] Ramage D, Manning C D, Dumais S. Partially labeled topic models for interpretable text mining[C]//Proc of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM,2011:457-465.
[8] Yang Y, Downey D, Boyd-Graber J, et al. Efficient Methods for Incorporating Knowledge into Topic Models[C]//Proc of the 2015 conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics,2015:308-317.
[9] Jin O, Liu N N, Zhao K, et al. Transferring topical knowledge from auxiliary long texts for short text clustering[C]//Proc of the 20th ACM international conference on Information and knowledge management. New York: ACM,2011:775-784.
[10] Resnik P, Hardisty E. Gibbs sampling for the uninitiated[R]. Maryland Univ College Park Inst for Advanced Computer Studies,2010.
[11] Koller D, Friedman N. Probabilistic graphical models: principles and techniques [M]. Cambridge: MIT press,2009.
[12] Griffiths T L, Steyvers M. Finding scientific topics [J]. Proc of the National Academy of Sciences,2004,101(suppl 1):5228-5235.
[13] Murphy K P. Machine learning: a probabilistic perspective [M]. Cambridge: MIT press,2012:841-844.
[14] Jordan M I, Ghahramani Z, Jaakkola T S, et al. An introduction to variational methods for graphical models[J]. Machine learning,1999,37(2):183-233.
[15] Andrieu C, De Freitas N, Doucet A, et al. An introduction to MCMC for machine learning [J]. Machine learning,2003,50(1-2):5-43.
[16] UCI KDD 20 newsgroups entry [DB/OL]. [2013-05-10]. Http://Kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html
[17] Strehl A, Ghosh J, Mooney R. Impact of similarity measures on web-page clustering[C]//Proc of Workshop on Artificial Intelligence for Web Search Austin: AAAI Press. 2000:58-64.
A Probabilistic Topic Model with Noise Reduction Ability
LI Jing1,2QIN Yongbin1,2HUANG Ruizhang1,2
(1. Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025) (2. College of Computer Science and Technology, Guizhou University, Guiyang 550025)
With the arrival of big data era, recognizing and analyzing the hidden structure of text data efficiently has been more and more important. Powerful computational tools are needed to help understand text data better. Probabilistic topic models, especially the Latent Dirichlet Allocation (referred as LDA) model, have been proposed and applied in machine learning and text mining widely. Because the LDA model has very poor ability to distinguish similar topics, which has a bad influence on its practical performance. In order to solve this important problem, a new topic model named Noise Reduction Latent Dirichlet Allocation (referred as NRLDA) is proposed on the basis of LDA. There are a lot noise words making no contribution to discriminating similar topics, so this phenomenon is taken into consideration by introducing new variables to distinguish the different generative processes of noise words and non-noise words, which is absolutely beyond LDA’s ability. Besides, a gibbs sampler is developed to infer NRLDA’s parameters which is critical to investigating the structure of text corpus. Experimental results show that NRLDA model has a much stronger ability to differentiate similar topics, which proves that the idea in our model is reasonable.
probabilistic topic model, LDA, gibbs sampling, noise reduction
2016年8月4日,
2016年9月20日
國家自然科學基金項目(編號:61540050;61462011);貴州省重大應用基礎研究項目(編號:黔科合JZ字[2014]2001);貴州省科技廳聯合基金(編號:黔科合LH字[2014]7636號);貴州大學研究生創新基金項目(編號:研理工2016051)資助。
李晶,男,碩士研究生,研究方向:機器學習與文本挖掘,數據庫技術與應用系統。秦永彬,男,博士,副教授,碩士生導師,研究方向:智能計算與智慧計算,大數據分析與應用。黃瑞章,女,博士,副教授,碩士生導師,研究方向:機器學習,數據挖掘,自然語言理解。
TP181
10.3969/j.issn.1672-9722.2017.02.032