一種改進的Supervised-LDA文本模型及其應用

2018-01-18 09:19:20,

計算機工程 2018年1期

(蘭州財經大學統計學院,蘭州 730020)

0 概述

隨著計算機技術的不斷發展,各式各樣的文本數據大量產生。據相關統計資料顯示,社交網站Twitter每天新出現推文數量達到5億條[1]。傳統的文本分析方法是基于詞典對文檔進行分類,但是在數據量龐大的現今社會,這種方法無法完成數據的降維和分析數據潛在的語意[2],因此不能滿足人們的需求。隨著大數據技術的發展,文本分類方法結合計算機技術開始逐漸受到廣大學者的關注。如何從海量信息中提取有用的文本數據成為目前數據分析的迫切需求,這一現實問題也促使了文本分類技術的不斷發展[3]。

目前,文本分析的主流方法主要有基于規則和基于統計這兩大類[4-5]。但是,網絡文本具有表達方式多樣、表達形式不規范等特點,以及基于規則的分析方法在規則的總結和制定上成本高,耗時長,并且不具有良好的可擴展性。因此,在海量網絡文本作為數據基礎的背景下,越來越多的學者傾向于采用基于統計的方法。統計方法的基本思路是挖掘文本的主題信息,典型代表有隱語義索引(LSI)方法及其概率化的PLSI[6]。LSI方法在文本分類中的應用得到了深入的研究,盡管其降維作用較為顯著,但是分類精度較低。另外,這類模型的參數空間和訓練數據呈正比,不利于對大規模或動態增長的語料庫進行建模。文獻[7]提出的帶標簽的有監督LDA(sl-LDA)模型是基于L-LDA模型進行的改進,并對L-LDA模型存在的不足提出改進,提高了模型的分類精度。本文提出的帶標簽的有監督隱狄里克雷分配模型(sl-LDA)是在文獻[8]提出有監督的LDA(s-LDA)主題模型基礎上進行的改進。由于s-LDA模型存在特殊類別標記方式,在進行分類時不能夠處理多標簽問題[2],并且s-LDA模型在分類時還存在主題未正確分配的問題。

為解決s-LDA模型存在的上述問題,本文在s-LDA模型基礎上加入類別標簽,并對改進模型進行實驗驗證。

1 相關工作

LDA模型是文獻[9]提出的一種概率生成模型,它的基本出發點是認為文檔是一個詞包(bag of word)的集合,即認為文檔是詞的集合,忽略任何語法或者詞匯出現的順序關系。而且LDA模型的參數空間不會隨著訓練文檔數量增加而增加。因此,它具有優良的語義挖掘和主題分析能力,尤其適用于含有大量文檔數據的挖掘分析。文獻[10]的研究表明,在文本分類上面LDA模型的分類效果表現并不突出。因此,LDA模型在主題分類精度上有不足之處。

目前,人們對LDA模型提出較多改進的應用模型[11-17]。一些無監督LDA模型、有監督LDA模型相繼被提出。

文獻[18]提出基于帶標簽的LDA(L-LDA)模型,在傳統的LDA模型基礎上加入標簽因素,從而解決LDA強制分配隱主題的問題。但是加入類別信息,必須考慮到標簽與主題之間的聯系,L-LDA模型定義了主題和類別標簽之間一一對應的關系,并將每一個文檔分配到預先定義的標簽集合,這種方式使得該模型缺乏處理潛在類別標簽以及含有共同語義文檔的機制,同時在含有最小基數的文本集合中分類效果不佳[7]。為了改變主題和類別標簽之間一一對應的關系,文獻[2]提出用于多標簽分類的改進Labeled LDA模型,對文檔加入文檔類別、作者等信息。該模型在文檔類別判定過程中通過聯合獨享主題和共享主題對類別進行預測,從而提高了多標簽主題分類的精度。從文檔內容方面考慮,文獻[19]提出連續的LDA(SeqLDA)模型,該模型基于文檔內容的興趣點等進行分析,此外采用分層雙參數泊松-狄里克雷分布進行建模,表現出良好的分類精度。

為了提高LDA模型的分類精度,文獻[8]提出有監督的LDA主題模型(s-LDA)。該模型通過對文檔類別標記將對應的連續變量映射為由主題混合方式產生的響應變量來實現文檔的類別判定和連續數據的回歸分析,并構造響應變量分析潛在主題。

基于以上描述,考慮到對LDA模型改進主要是加入標簽因素以及進行有監督或者無監督建模的優點和缺點,本文基于s-LDA模型提出帶標簽的有監督的隱狄里克雷分配(sl-LDA)模型。

2 sl-LDA主題模型

2.1 s-LDA主題模型存在的問題

文獻[9]提出的s-LDA模型是一種有監督的主題模型分類方法。與傳統LDA模型不同的是,s-LDA模型對LDA模型中的每一個文檔加入響應變量,這個變量可以適應許多變量類型。舉例來講,變量是某部電影中明星的數量,也可以是論壇用戶對某一篇文章中訪問次數的統計[8]。而且s-LDA模型改進了lasso回歸方法,可以進一步提高分類的精度。s-LDA圖模型如圖1所示。

圖1 s-LDA圖模型

文獻[9]提出的s-LDA模型在LDA模型的基礎上加入響應變量,而且s-LDA模型改進了lasso回歸方法。然而s-LDA模型對文檔進行主題分配過程中存在一些問題:一方面,只能處理含有一個類別標記的文檔[2];另一方面,從實驗分析角度看,s-LDA模型在進行主題分配時,部分主題未進行正確分配,從而導致了文檔分配主題精確度下降。

2.2 sl-LDA主題模型的改進

鑒于s-LDA模型存在的問題,本文對s-LDA模型進行改進,從而嘗試解決s-LDA模型在進行主題分配時,部分主題未進行正確分配的問題。本文在s-LDA模型基礎上加入標簽因素,提出帶標簽的有監督的隱狄里克雷分配(sl-LDA)模型。該模型對s-LDA模型主題層與文檔層的映射關系進行了改進,通過加入類別標簽降低主題被錯誤分配的可能性,提高了分類的精確度。同時加入類別標簽也可以提高文本分類的性能[18]。在第3節對本文的模型進行實例驗證,并與s-LDA模型比較。從比較結果來看,本文的模型能夠提高文本分類精確度。

具體來講,在對文檔中主題進行分類時,若所分配的主題存在于訓練過程中所選擇的主題,則保留該主題,否則拋棄。即在分配主題時加入狄拉克函數δ(x),該函數在x=0時函數值為1,在x≠0時函數值為0。為此,本文的sl-LDA圖模型形式如圖2所示。

圖2 sl-LDA圖模型

參數的分布表示形式如下:

1)對于每個主題θ有θ|αl～Dirichlet(αl)(l=1,2,…,C)。

2)對于每個詞w中的主題z有zn|θ～Multnormal(θ)。

3)對于每個詞w有wn|zn,βl,1∶K～Multnormal(β)(l=1,2,…,C)。

s-LDA模型的概率模型為:

(1)

通過最大化證據下界l(g)構造變分函數,對于每一個文檔有:

logap(w,y|α,β)≥(γ,φ,α,β)=

E[logap(y|Z1∶N)]+H(q)

(2)

其中,q表示變分分布函數,且:

(3)

其中,γ為變分Dirichlet參數。

E步:

由式(1)～式(3)得到:

[logap(y|Z1∶N)]=

(4)

其中:

由式(2)可知,變分Dirichlet參數γ與響應變量y無關,對式(4)采用坐標上升法[8]得到:

(5)

φl,j∝exp(E[logaθ|γ]+

E[logap(wj|βl,1∶K)(δC-l(d))]+

(6)

M步:

(7)

(8)

利用E步選擇的變分分布參數,求矩陣A的期望,通過擴展內積,利用線性期望和η的一階條件,可以得到:

E[ATA]=E[A]Ty?

(9)

(10)

本文在參數估計E步中,在s-LDA模型參數估計的基礎上對參數γnew和φj分別加入類別標簽c,并使用狄拉克函數δ(x)。具體而言,當文檔集合上隱主題與文檔類別匹配時,δC-l(d)的值為1,否則為0,這使得s-LDA模型對訓練主題進行分配時主題未正確分配這一問題得以改善。在M步估計中,由于β=(β1,β2,…,βC),則對β的估計與s-LDA模型也不同,加入類別標簽后,文檔中的詞在進行主題選擇時會有區別地選擇主題。比如“引力波”這個詞,它會傾向于選擇“科技”這類主題。對“引力波”加入類別標簽“科技”,可以使其更準確地選擇正確的主題,從而改善文本主題分類的精度。

3 應用示例

3.1 實驗

為驗證sl-LDA模型的分類精度,本文使用復旦大學中文新聞語料庫和英文新聞語料庫進行實驗。其中中文新聞語料庫包含2 815篇文章,共10個主題;英文新聞語料庫包含18 744篇文章,共20個主題。匯總結果如表1～表3所示。

表1 中文新聞語料庫

表2 英文新聞語料庫

表3 英文新聞語料庫詞條統計

本文利用R語言中的LDA包和topicmodels包對數據進行建模。首先對原始語料庫進行數據清洗,為了便于建模,本文在建模過程中利用正則表達式進行數據的預處理。數據清洗完成后,利用R語言中的rJava、Rwordseg包對每一篇文檔進行分詞和詞頻統計,統計部分結果見表4,最后依據新聞語料庫中的主題類型對每個詞進行分類。

表4 中文新聞詞頻統計結果(部分)

本文從中文新聞語料庫抽取75%作為訓練集,25%作為測試集進行實驗。實驗分兩組進行,采用的模型分別是s-LDA模型和sl-LDA模型,參數估計方法采用變分EM算法。本文利用建立混淆矩陣(confused matrix)[20]的方法來計算s-LDA模型和sl-LDA模型的精確度。

3.2 實驗結果

分詞過程完成后,本文利用R語言對這2個模型進行編程,并改變迭代次數以分別統計每次迭代混淆矩陣計算的精確度。s-LDA模型與sl-LDA模型中文新聞語料庫迭代次數對比結果見表5,模型迭代次數對比見圖3,其中,橫坐標表示迭代次數,縱坐標表示精確度。sl-LDA模型與sl-LDA模型英文新聞語料庫迭代次數對比結果見表6,模型迭代次數對比見圖4,其中,橫坐標表示迭代次數,縱坐標表示精確度。從圖3和圖4的結果可以看出:在迭代次數相同情況下,sl-LDA模型的預測精確度高于s-LDA模型的預測結果,隨著迭代次數的增加,兩者的預測精度趨于近似。

表5 中文新聞精確度對比

圖3 中文新聞模型精確度對比

迭代次數s-LDA模型預測精確度sl-LDA模型預測精確度E∶5,M∶20.5320.618E∶10,M∶40.6730.708E∶15,M∶90.6870.719E∶20,M∶140.7380.768E∶25,M∶190.7380.780E∶30,M∶240.7620.785E∶35,M∶290.7730.793

圖4 英文新聞模型精確度對比

從圖3中的中文新聞語料庫和圖4中的英文新聞語料庫的對比分析看出,本文提出的sl-LDA模型與s-LDA模型相比,在迭代次數相同的情況下,精確度要優于s-LDA模型。隨著迭代次數的增加,兩者分配精度都有所提升,但是本文提出的sl-LDA模型依然保持較好的分配精度。這說明在有監督的情況下,相對于未加入標簽因素,加入標簽因素在模型分類精度上有所提升。針對s-LDA模型在對主題進行分配過程中只能處理含有一個類別標記的文檔[2]及通過s-LDA模型分配的部分主題不存在于訓練過程中所選擇的主題,從而導致了對文檔分配主題精確度下降等問題。本文提出的sl-LDA模型通過增加類別信息來解決這些問題。為了驗證模型的主題分類精度,本文分別就中文新聞語料庫和英文新聞語料庫進行主題分類實驗,并通過建立混淆矩陣來計算每次迭代下模型的分類精確性。從上文的實驗結果來看,在中文和英文新聞語料庫的對比實驗中,英文新聞語料庫分類精度提高了約3.80%,中文新聞語料庫分類精度提高了約1.77%。

4 結束語

本文針對s-LDA模型在主題分配過程中只能處理含有一個類別標記的文檔[2]及s-LDA模型部分主題未進行正確分配,從而導致文檔分配主題精確度下降的問題,提出一種帶標簽的有監督的隱狄里克雷分配(sl-LDA)模型。首先介紹s-LDA主題模型的分類方法,隨后分析了s-LDA主題模型存在只能處理含有一個類別標記文檔等問題。為驗證模型的主題分類精度,本文分別對中文新聞語料庫和英文新聞語料庫進行主題分類實驗,并通過建立混淆矩陣計算每次迭代下模型的分類精確性。實驗結果表明,在中文和英文新聞語料庫的對比實驗中,英文新聞語料庫分類精度提高了約3.80%,中文新聞語料庫分類精度提高了約1.77%。下一步將研究改進s-LDA模型對其他類型文本的分類效果,在無監督學習下,分析主題模型的分類精度并與本文的改進模型進行對比。

[1] SEBASTIANI F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.

[2] 江雨燕,李平,王清.用于多標簽分類的改進Labeled LDA模型[J].南京大學學報(自然科學版),2013,49(4):425-432.

[3] STEYVERS M,GRIFFITHS T.Probabilistic Topic Models[J].Handbook of Latent Semantic Analysis,2007,427(7):424-440.

[4] MEDHAT W,HASSAN A,KORASHY H.Sentiment Analysis Algorithms and Applications:A Survey[J].Ain Shams Engineering Journal,2014,5(4):1093-1113.

[5] TANEJA H,DHURIA S.A Survey on Sentiment Analysis and Opinion Mining[J].Journal of Emerging Technologies in Web Intelligence,2013,5(4):53-65.

[6] DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.

[7] LI Ximing,OUYANG Jihong,ZHOU Xiaotang,et al.Supervised Labeled Latent Dirichlet Allocation for Document Categorization[J].Applied Intelligence,2015,42(3):581-593.

[8] BLEI D M,MCAULIFFE J D.Supervised Topic Models[J].Advances in Neural Information Processing Systems,2010,3(1):327-332.

[9] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.

[10] LI W,MCCALLUM A.DAG-structured Mixture Models of Topic Correlations[C]//Proceedings of International Conference on Machine Learning.Washington D.C.,USA:IEEE Press,2006:577-584.

[11] TADDY M,GARDNER M,CHEN L,et al.A Nonparametric Bayesian Analysis of Heterogeneous Treatment Effects in Digital Experimentation[J].Journal of Business & Economic Statistics,2016,65(3):193-211.

[12] 宋鈺婷,徐德華.基于LDA和SVM的中文文本分類研究[J].現代計算機,2016(5):18-23.

[13] 陳攀,楊浩,呂品,等.基于LDA模型的文本相似度研究[J].計算機技術與發展,2016,26(4):82-85.

[14] 李博,陳志剛,黃瑞,等.基于LDA模型的音樂推薦算法[J].計算機工程,2016,42(6):175-179.

[15] 李琮,袁方,劉宇,等.基于LDA模型和T-OPTICS算法的中文新聞話題檢測[J].河北大學學報(自然科學版),2016,36(1):106-112.

[16] 張亮.基于LDA主題模型的標簽推薦方法研究[J].現代情報,2016,36(2):53-56.

[17] 石晶,李萬龍.基于LDA模型的主題詞抽取方法[J].計算機工程,2010,36(19):81-83.

[18] 李文波,孫樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學報,2008,31(4):620-627.

[19] DU L,BUNTINNE W,JIN H,et al.Sequential Latent Dirichlet Allocation[J].Knowledge & Information Systems,2012,31(3):475-503.

[20] FORBES A D.Classification-algorithm Evaluation:Five Performance Measures Based on Confusion Matrices[J].Journal of Clinical Monitoring and Computing,1995,11(3):189-206.