摘要:針對當前主要的CTM模型只能分析公共話題的缺陷,提出一種PCCMix混合模型來實現跨文本集的話題分析.該模型把多個文本集中的話題劃分為公共話題和文本集特有話題,首先根據文本數據建立這兩類話題在所有詞上的概率分布,再使用期望最大化算法進行模型的參數估計.實驗結果表明,該模型不僅能夠發現公共話題在不同文本集中的差異,而且能分析各文本集特有的話題.模型能更精確地對文本建模,具有良好的性能.
關鍵詞:概率分布;比較性文本挖掘;部分可比性;PCCMix模型; 混合模型
中圖分類號:TP39文獻標識碼:A
時空演化、跨文化等比較性文本挖掘旨在發現可比文本集之間語義結構之間的差異[1-6],如話題在不同時間、地域、文化的人群中所表現出來的差異,所謂可比文本集是指討論類似話題的多個文本集.傳統文本挖掘模型主要通過向量空間模型、潛在語義索引(Latent Semantic Index, LSI) [7]、概率潛在語義分析(Probabilistic Latent Semantic Analysis, PLSA)[8]等模型分析文本集的語義結構.隨著概率圖模型的發展,以LDA (Latent Dirichlet Allocation)為代表的話題模型得到了越來越多的重視[9].研究人員在LDA之后又提出了PAM[10],CTM[11],RTM[12]等話題模型.但大部分話題模型都只面向單一文本集,不適用于跨文本集的比較性文本挖掘,如:時空演化文本挖掘[11]、跨文化文本挖掘[2]等.
在互聯網飛速發展的今天,比較性文本挖掘具有十分重要的現實意義.科研人員可通過它分析某個領域的研究熱點在幾年之間的變化趨勢;決策者則需要了解在有關措施實施之前與之后民眾態度的變化;企業通過分析相關用戶的博客可以了解不同地區的人對于同一個產品評價的不同,不同年齡階段的人消費觀念的差異等.當前比較性文本挖掘的模型主要有:CCMix (CrossCollection Mixture )模型[1,4-5]和CCLDA (CrossCollection LDA)模型[2-3].CCMix模型實際上是多個PLSA的混合,它采用期望最大法求解.該模型簡單易于實現,但也繼承了PLSA的缺點,參數數量隨著文本增加呈線性增長;CCLDA模型基于LDA模型,假設一個話題與2個詞的分布關聯,其中一個是多個文本集共享的,即話題的公共部分,另外一個與具體的文本集相關.該模型在對詞進行抽樣時加了一個擲硬幣的過程,該過程決定要抽樣的詞從該話題的哪一個分布生成.
兩個模型在一定程度上解決了跨文本集的比較性文本挖掘問題,但是它們都只適用于文本集之間相似度較高即各文本集都討論相同話題的情況.而不同的文本集可能具有一些特有的話題,這些話題可能在其他文本集中并沒有出現,如由于觀點、立場或者新聞來源不同,網站會有一些特有的報道或評論;學術上突然出現的新的研究方向等.上述兩個模型并不能解決此類問題,有時出現兩個不相干的話題進行比較的情況[2].針對此,本文提出一種兼顧二者的部分比較性的跨文本集混合模型PCCMix,所謂部分比較性是指文本集中只有部分話題是可做比較性分析的.PCCMix模型把所有文本集中的話題分為2種,一種是公共話題,即所有文本集都討論的話題;另外一種是文本集特有話題,模型只在公共話題上進行比較性分析.根據詞的涌現規律[13],本文借鑒文檔頻率逆文本頻率(term frequencyinverse document frequency,tfidf)的思想,通過文本集頻率和逆文本集頻率來建立詞屬于特有話題的概率分布,把話題劃分為兩個部分,基于此建立一個混合模型來分析文本集之間的差異.
1PCCMix模型及參數估計算法
1.1PCCMix模型
PCCMix模型把話題分為3類,第1類為背景話題,代表停用詞等噪音,如果事先過濾停用詞,一般可不考慮背景模型[2-3].第2類為公共話題,即所有文本集都涉及的話題.第3類為文本集特有話題.模型生成過程如圖1所示.相對于LDA和CCLDA模型,本文與CCMix模型一樣,選擇較為簡單易于實現的PLSA模型作為本文模型的基礎.模型中一個話題是一個所有詞的二項式分布,一個文本由多個話題混合而成.
由表2可知,路透社在2004年的有關報道是在事件發生不久,根據當時的現狀做出的報道,而2005年則回顧性地結合實時新聞進行報道.在話題1中,2004年的報道偏向國際社會對于海嘯的反映,2005年則側重于海嘯對周邊國家的影響、規模和國際社會的援助.話題2主要是討論人員的傷亡和各國政府的反映,從2004年可以看出,當時媒體的報道重點在于傷亡人員的搜救工作和各國政府對海嘯采取的行動,而2005年則更偏向總結地震本身帶來的人員傷亡和紀念活動.話題3則討論當地的生活狀況,2004年的報道側重食物、水、傷病、交通等,而2005年則側重災后當地的生活.
由表3可知,2004年的2個特有話題分別討論災后出現的一些犯罪活動和一些體育明星有關賑災募捐的事跡,而2005年中則討論了災后的一些紀念活動和有關北歐的報道.
2.2.2地域比較性分析
本節從lonelyplanet數據集中抽取部分作為實驗數據,包括已經去過或者準備去英國和新加坡兩地旅游的用戶寫的博客.博客內容涉及用戶在該地方旅游的見聞和感受,以及準備去旅游的用戶關心的一些問題.參數設置與上節相同,實驗結果如表4和表5所示.本文選擇其中3個話題作為代表,話題1則討論了兩地旅游的多個方面,著名景點、音樂等藝術、街道、食物等,而到新加坡的游客關注一些花園、游樂場、酒吧等娛樂場所.從表4可看出,英國游客游覽的更多是名勝古跡如博物館等,還關注了英國的音樂表演.在話題2中兩地游客都討論了在兩地旅游的消費與支付、價格等問題,包括信用卡、小費等方面;話題3主要討論了旅游的交通工具,兩個文本集分別從倫敦和新加坡的角度介紹了兩地出行的交通問題.特有話題方面,由表5可知,兩者都由當地特有的一些地點、風景、風俗習慣等構成,這些話題可解釋性略低,但對于跨文本集的文本摘要等很有幫助[14-18].
3結論
本文針對多文本集文本挖掘提出一種部分可比的混合話題模型PCCMix,首先該模型把可比的多個文本集中話題劃分為公共話題和文本集特有話題,通過統計建立文本集中的一個詞屬于該文本集特有話題的概率分布,基于該分布建立PCCMix模型;然后采用EM算法來推導模型參數.實驗證明,在多個數據集上PCCMix模型能夠發現同一話題之間的相似與差別,同時發現各文本集所特有的話題.實驗結果顯示模型得到的話題具有較好的可解釋性,參數估計算法的收斂性較好;對數似然指標顯示PCCMix模型能更好地對文本集建模.
參考文獻
[1]ZHAI C, VELIVELLI A, YU B. A crosscollection mixture mode for momparative text mining[C]// Proceedings of the KDD. Seattle: ACM, 2004: 743-748.
[2]PAUL M, GIRJU R. Crosscultural analysis of Blogs and forums with mixedcollection topic models[C]// Proceedings of the Conference on EMNLP. Singapore: ACL, 2009:1408-1417.
[3]PAUL M G. Comparative scientific research analysis with a languageindependent crosscollection model[C]// Proceedings of SEPLN. Valencia, Spain, 2010:153-160.
[4]MEI Q, LIU C, SU H, et al. A probabilistic approach to spatiotemporal theme pattern mining on weblogs[C]// Proceedings of the WWW. Edinburgh: ACM, 2006: 533-542.
[5]MEI Q, ZHAI C. Discovering evolutionary theme patterns from textAn exploration of temporal text mining[C]// Proceedings of the KDD. Chicago: ACM, 2005: 198-207.
[6]YIN Z, CAO L, HAN J,et al. Geographical topic discovery and comparison[C]//Proceedings of the WWW. Hyderabad: ACM, 2011: 247-256.
[7]DEERWESTER S, DUMAIS S, FURNAS G,et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science,1990,41: 391-407.
[8]HOFMANN T. Probabilistic latent semantic indexing[C]// Proceedings of SIGIR. New York: ACM, 1999:50-57.
[9]BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3: 993-1022.
[10]LI W, MCCALLUM A. Pachinko allocation: DAGstructured mixture models of topic correlations[C]// Proceedings of the ICML. New York: ACM, 2006: 577-584.
[11]BLEI D M,LAFFERTY J D. Correlated topic models[C]// Proceedings of the NIPS. Cambridge :MIT Press, 2006.
[12]CHANG J, BLEI D M. Relational topic models for document networks[C]// Proceedings of the AISTATS. Cambridge: MIT Press, 2009:81-90.
[13]MADSEN R E, KAUCHAK D, ELKAN C. Modeling word burstiness using the dirichlet distribution[C]// Proceedings of the ICML. New York: ACM, 2005: 545-552.
[14]PAUL M, GIRJU R. A twodimensional topicaspect model for discovering multifaceted topics[C]// Proceedings of the AAAI. Atlanta: AAAI Press, 2010:545-550.
[15]PAUL M, ZHAI C, GIRJU R. Summarizing contrastive viewpoints in opinionated text[C]// Proceedings of the Conference on EMNLP. Massachusetts:ACL, 2010:66-76.
[16]KIM H, ZHAI C. Generating comparative summaries of contradictory opinions in text[C]//Proceedings of the CIKM. Hong Kong:ACM, 2009:385-394.
[17]WANG D, MITSUNORI O, LI T. Summarizing the differences from Microblogs[C]// Proceedings of the SIGIR. Portland: ACM, 2012:1147-1148.
[18]GAO W, LI P, DARWISH K. Joint topic modeling for event summarization across news and social media streams[C]//Proceedings of the CIKM. Hawaii: ACM, 2012: 1173-1182.