999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向多文本集的部分比較性混合模型

2013-12-31 00:00:00譚文堂王楨殷風景葛斌肖衛東
湖南大學學報·自然科學版 2013年11期

摘要:針對當前主要的CTM模型只能分析公共話題的缺陷,提出一種PCCMix混合模型來實現跨文本集的話題分析.該模型把多個文本集中的話題劃分為公共話題和文本集特有話題,首先根據文本數據建立這兩類話題在所有詞上的概率分布,再使用期望最大化算法進行模型的參數估計.實驗結果表明,該模型不僅能夠發現公共話題在不同文本集中的差異,而且能分析各文本集特有的話題.模型能更精確地對文本建模,具有良好的性能.

關鍵詞:概率分布;比較性文本挖掘;部分可比性;PCCMix模型; 混合模型

中圖分類號:TP39文獻標識碼:A

時空演化、跨文化等比較性文本挖掘旨在發現可比文本集之間語義結構之間的差異[1-6],如話題在不同時間、地域、文化的人群中所表現出來的差異,所謂可比文本集是指討論類似話題的多個文本集.傳統文本挖掘模型主要通過向量空間模型、潛在語義索引(Latent Semantic Index, LSI) [7]、概率潛在語義分析(Probabilistic Latent Semantic Analysis, PLSA)[8]等模型分析文本集的語義結構.隨著概率圖模型的發展,以LDA (Latent Dirichlet Allocation)為代表的話題模型得到了越來越多的重視[9].研究人員在LDA之后又提出了PAM[10],CTM[11],RTM[12]等話題模型.但大部分話題模型都只面向單一文本集,不適用于跨文本集的比較性文本挖掘,如:時空演化文本挖掘[11]、跨文化文本挖掘[2]等.

在互聯網飛速發展的今天,比較性文本挖掘具有十分重要的現實意義.科研人員可通過它分析某個領域的研究熱點在幾年之間的變化趨勢;決策者則需要了解在有關措施實施之前與之后民眾態度的變化;企業通過分析相關用戶的博客可以了解不同地區的人對于同一個產品評價的不同,不同年齡階段的人消費觀念的差異等.當前比較性文本挖掘的模型主要有:CCMix (CrossCollection Mixture )模型[1,4-5]和CCLDA (CrossCollection LDA)模型[2-3].CCMix模型實際上是多個PLSA的混合,它采用期望最大法求解.該模型簡單易于實現,但也繼承了PLSA的缺點,參數數量隨著文本增加呈線性增長;CCLDA模型基于LDA模型,假設一個話題與2個詞的分布關聯,其中一個是多個文本集共享的,即話題的公共部分,另外一個與具體的文本集相關.該模型在對詞進行抽樣時加了一個擲硬幣的過程,該過程決定要抽樣的詞從該話題的哪一個分布生成.

兩個模型在一定程度上解決了跨文本集的比較性文本挖掘問題,但是它們都只適用于文本集之間相似度較高即各文本集都討論相同話題的情況.而不同的文本集可能具有一些特有的話題,這些話題可能在其他文本集中并沒有出現,如由于觀點、立場或者新聞來源不同,網站會有一些特有的報道或評論;學術上突然出現的新的研究方向等.上述兩個模型并不能解決此類問題,有時出現兩個不相干的話題進行比較的情況[2].針對此,本文提出一種兼顧二者的部分比較性的跨文本集混合模型PCCMix,所謂部分比較性是指文本集中只有部分話題是可做比較性分析的.PCCMix模型把所有文本集中的話題分為2種,一種是公共話題,即所有文本集都討論的話題;另外一種是文本集特有話題,模型只在公共話題上進行比較性分析.根據詞的涌現規律[13],本文借鑒文檔頻率逆文本頻率(term frequencyinverse document frequency,tfidf)的思想,通過文本集頻率和逆文本集頻率來建立詞屬于特有話題的概率分布,把話題劃分為兩個部分,基于此建立一個混合模型來分析文本集之間的差異.

1PCCMix模型及參數估計算法

1.1PCCMix模型

PCCMix模型把話題分為3類,第1類為背景話題,代表停用詞等噪音,如果事先過濾停用詞,一般可不考慮背景模型[2-3].第2類為公共話題,即所有文本集都涉及的話題.第3類為文本集特有話題.模型生成過程如圖1所示.相對于LDA和CCLDA模型,本文與CCMix模型一樣,選擇較為簡單易于實現的PLSA模型作為本文模型的基礎.模型中一個話題是一個所有詞的二項式分布,一個文本由多個話題混合而成.

由表2可知,路透社在2004年的有關報道是在事件發生不久,根據當時的現狀做出的報道,而2005年則回顧性地結合實時新聞進行報道.在話題1中,2004年的報道偏向國際社會對于海嘯的反映,2005年則側重于海嘯對周邊國家的影響、規模和國際社會的援助.話題2主要是討論人員的傷亡和各國政府的反映,從2004年可以看出,當時媒體的報道重點在于傷亡人員的搜救工作和各國政府對海嘯采取的行動,而2005年則更偏向總結地震本身帶來的人員傷亡和紀念活動.話題3則討論當地的生活狀況,2004年的報道側重食物、水、傷病、交通等,而2005年則側重災后當地的生活.

由表3可知,2004年的2個特有話題分別討論災后出現的一些犯罪活動和一些體育明星有關賑災募捐的事跡,而2005年中則討論了災后的一些紀念活動和有關北歐的報道.

2.2.2地域比較性分析

本節從lonelyplanet數據集中抽取部分作為實驗數據,包括已經去過或者準備去英國和新加坡兩地旅游的用戶寫的博客.博客內容涉及用戶在該地方旅游的見聞和感受,以及準備去旅游的用戶關心的一些問題.參數設置與上節相同,實驗結果如表4和表5所示.本文選擇其中3個話題作為代表,話題1則討論了兩地旅游的多個方面,著名景點、音樂等藝術、街道、食物等,而到新加坡的游客關注一些花園、游樂場、酒吧等娛樂場所.從表4可看出,英國游客游覽的更多是名勝古跡如博物館等,還關注了英國的音樂表演.在話題2中兩地游客都討論了在兩地旅游的消費與支付、價格等問題,包括信用卡、小費等方面;話題3主要討論了旅游的交通工具,兩個文本集分別從倫敦和新加坡的角度介紹了兩地出行的交通問題.特有話題方面,由表5可知,兩者都由當地特有的一些地點、風景、風俗習慣等構成,這些話題可解釋性略低,但對于跨文本集的文本摘要等很有幫助[14-18].

3結論

本文針對多文本集文本挖掘提出一種部分可比的混合話題模型PCCMix,首先該模型把可比的多個文本集中話題劃分為公共話題和文本集特有話題,通過統計建立文本集中的一個詞屬于該文本集特有話題的概率分布,基于該分布建立PCCMix模型;然后采用EM算法來推導模型參數.實驗證明,在多個數據集上PCCMix模型能夠發現同一話題之間的相似與差別,同時發現各文本集所特有的話題.實驗結果顯示模型得到的話題具有較好的可解釋性,參數估計算法的收斂性較好;對數似然指標顯示PCCMix模型能更好地對文本集建模.

參考文獻

[1]ZHAI C, VELIVELLI A, YU B. A crosscollection mixture mode for momparative text mining[C]// Proceedings of the KDD. Seattle: ACM, 2004: 743-748.

[2]PAUL M, GIRJU R. Crosscultural analysis of Blogs and forums with mixedcollection topic models[C]// Proceedings of the Conference on EMNLP. Singapore: ACL, 2009:1408-1417.

[3]PAUL M G. Comparative scientific research analysis with a languageindependent crosscollection model[C]// Proceedings of SEPLN. Valencia, Spain, 2010:153-160.

[4]MEI Q, LIU C, SU H, et al. A probabilistic approach to spatiotemporal theme pattern mining on weblogs[C]// Proceedings of the WWW. Edinburgh: ACM, 2006: 533-542.

[5]MEI Q, ZHAI C. Discovering evolutionary theme patterns from textAn exploration of temporal text mining[C]// Proceedings of the KDD. Chicago: ACM, 2005: 198-207.

[6]YIN Z, CAO L, HAN J,et al. Geographical topic discovery and comparison[C]//Proceedings of the WWW. Hyderabad: ACM, 2011: 247-256.

[7]DEERWESTER S, DUMAIS S, FURNAS G,et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science,1990,41: 391-407.

[8]HOFMANN T. Probabilistic latent semantic indexing[C]// Proceedings of SIGIR. New York: ACM, 1999:50-57.

[9]BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3: 993-1022.

[10]LI W, MCCALLUM A. Pachinko allocation: DAGstructured mixture models of topic correlations[C]// Proceedings of the ICML. New York: ACM, 2006: 577-584.

[11]BLEI D M,LAFFERTY J D. Correlated topic models[C]// Proceedings of the NIPS. Cambridge :MIT Press, 2006.

[12]CHANG J, BLEI D M. Relational topic models for document networks[C]// Proceedings of the AISTATS. Cambridge: MIT Press, 2009:81-90.

[13]MADSEN R E, KAUCHAK D, ELKAN C. Modeling word burstiness using the dirichlet distribution[C]// Proceedings of the ICML. New York: ACM, 2005: 545-552.

[14]PAUL M, GIRJU R. A twodimensional topicaspect model for discovering multifaceted topics[C]// Proceedings of the AAAI. Atlanta: AAAI Press, 2010:545-550.

[15]PAUL M, ZHAI C, GIRJU R. Summarizing contrastive viewpoints in opinionated text[C]// Proceedings of the Conference on EMNLP. Massachusetts:ACL, 2010:66-76.

[16]KIM H, ZHAI C. Generating comparative summaries of contradictory opinions in text[C]//Proceedings of the CIKM. Hong Kong:ACM, 2009:385-394.

[17]WANG D, MITSUNORI O, LI T. Summarizing the differences from Microblogs[C]// Proceedings of the SIGIR. Portland: ACM, 2012:1147-1148.

[18]GAO W, LI P, DARWISH K. Joint topic modeling for event summarization across news and social media streams[C]//Proceedings of the CIKM. Hawaii: ACM, 2012: 1173-1182.

主站蜘蛛池模板: 丰满人妻中出白浆| 在线欧美a| 91精品国产自产在线观看| 免费在线观看av| AV无码无在线观看免费| 久久精品无码一区二区日韩免费| 国产情侣一区二区三区| 色天堂无毒不卡| 无码福利日韩神码福利片| 毛片网站在线看| 国产在线拍偷自揄观看视频网站| 国产剧情一区二区| 青青操国产| 国产99精品久久| a级毛片毛片免费观看久潮| 久久96热在精品国产高清| 日韩毛片免费| 不卡视频国产| 亚洲一级毛片在线观播放| 日本在线欧美在线| 九色国产在线| 日韩免费无码人妻系列| 日韩色图在线观看| 国产资源免费观看| 国产丰满大乳无码免费播放| 色综合a怡红院怡红院首页| 亚洲人免费视频| 国产福利小视频高清在线观看| 99无码熟妇丰满人妻啪啪| 日韩成人在线一区二区| 国产成人av一区二区三区| 女人18毛片水真多国产| a在线亚洲男人的天堂试看| 久久精品丝袜| 久久精品国产免费观看频道 | 亚洲va视频| 国产免费久久精品99re不卡| 日韩精品专区免费无码aⅴ| 91外围女在线观看| 思思热精品在线8| 中文字幕亚洲电影| 国产精品白浆在线播放| 91最新精品视频发布页| 欧美一道本| 亚洲精品手机在线| 丰满人妻被猛烈进入无码| 色亚洲激情综合精品无码视频 | 在线va视频| 91探花在线观看国产最新| 福利一区三区| 久久香蕉国产线| 青草视频网站在线观看| 久久综合AV免费观看| 精品国产香蕉在线播出| 国产美女免费| 欧美区一区| 久久久久免费精品国产| 视频一本大道香蕉久在线播放| 亚洲综合专区| 中文字幕人妻av一区二区| 国产欧美亚洲精品第3页在线| 欧美国产综合视频| 99热这里只有精品免费国产| 九九线精品视频在线观看| 熟妇丰满人妻av无码区| 欧美国产日韩在线| 第一页亚洲| 国产杨幂丝袜av在线播放| 国产欧美日本在线观看| 久久网欧美| 欧美日一级片| 在线日韩日本国产亚洲| 第一页亚洲| 综合五月天网| 欧美一级在线播放| 无码乱人伦一区二区亚洲一| 2022精品国偷自产免费观看| 亚洲人成日本在线观看| 欧美在线一级片| 中文无码伦av中文字幕| 久久香蕉国产线看观看亚洲片| 亚洲乱码精品久久久久..|