基于DTM-LPA的突發(fā)事件話題演化方法研究*——以H 7 N 9微博為例

2015-03-09 07:41:02吳小蘭章成志

圖書與情報(bào) 2015年3期

關(guān)鍵詞：文本方法模型

吳小蘭章成志

（1.南京理工大學(xué)信息管理系江蘇南京 210094）

（2.安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院安徽蚌埠 233030）

（3.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室（南京大學(xué)）江蘇南京 210093）

1 引言

截止2015年3月，新浪微博月均活躍用戶數(shù)（Mau’s）為 1.98 億。盡管每個(gè)用戶允許發(fā)布的微博文本通常受限制于140字以內(nèi)，但規(guī)模如此龐大的微博群體所發(fā)布的言論在引發(fā)公共議題和公眾情緒等方面體現(xiàn)出了強(qiáng)大的輿論引導(dǎo)作用和傳播效果。有時(shí)微博上一些過激的言論被盲目地操縱或利用，如果不能積極控制與回應(yīng)，可能小的負(fù)面情緒會(huì)滾雪球式地被放大，將政府、企業(yè)或其他機(jī)構(gòu)推向風(fēng)口浪尖，因此，研究微博平臺(tái)上民眾對(duì)公共突發(fā)事件的討論、跟蹤突發(fā)事件的事態(tài)發(fā)展等工作變得尤為重要。

話題演化的首先任務(wù)是話題發(fā)現(xiàn)，有研究中有專門針對(duì)微博上話題識(shí)別的研究，如文獻(xiàn)［2-4］，也有專門研究話題演化的，如文獻(xiàn)［5-6］，但這些方法主要針對(duì)的是新聞?lì)惢蚩萍嘉墨I(xiàn)類的數(shù)據(jù)上，并不一定適合于微博這樣的短文本。為此，本文提出了一種結(jié)合動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)的DTM-LPA話題演化方法。而自2013年3月4日上海第一例人感染禽流感病毒患者死亡開始，H7N9禽流感疫情長(zhǎng)時(shí)間處于網(wǎng)絡(luò)輿論的核心，也成為我國(guó)微博廣泛使用后遇到的第一個(gè)全國(guó)性突發(fā)公共衛(wèi)生事件，因此本文采用所提出的DTM-LPA方法，以新浪微博（Sina Weibo）上H7N9禽流感事件為例進(jìn)行研究，重點(diǎn)關(guān)注H7N9中民眾所關(guān)心的話題與話題的演化。

2 話題演化相關(guān)研究概述

話題演化衡量的是同一話題隨時(shí)間推移表現(xiàn)出的動(dòng)態(tài)性、發(fā)展性和差異性。在話題檢測(cè)與跟蹤(Topic Detect ion and Tracking,簡(jiǎn)稱TDT)中,話題被定義為一個(gè)種子事件或活動(dòng)以及與之相關(guān)的所有事件或活動(dòng)。但是TDT并沒有有效利用語(yǔ)料中的時(shí)間信息，隨著話題模型的興起，借助話題模型，引入語(yǔ)料中的時(shí)間信息，研究話題隨時(shí)間的演化，逐漸成為在機(jī)器學(xué)習(xí)領(lǐng)域、文本挖掘領(lǐng)域研究的熱點(diǎn)。

根據(jù)文獻(xiàn)［7］的總結(jié)，現(xiàn)有以下三類基于話題模型的話題演化方法：（1）將時(shí)間信息融入LDA（Latent Dirichlet Allocation）模型中的方法；（2）后離散分析(Post-discretized Analysis)的方法；（3）按時(shí)間先離散(Pre-discretized)方法。其中，第一類方法是將文本的時(shí)間信息作為可觀測(cè)變量結(jié)合到LDA話題模型中去訓(xùn)練文本集合上話題的分布，如Topic Over Time（TOT) 模型；第二類方法先忽略時(shí)間，再在整個(gè)文本集合上運(yùn)用LDA或者LDA的改進(jìn)模型獲取話題，最后利用文本的時(shí)間信息檢查話題在離散時(shí)間上的分布來衡量演化，如2004年Griffiths等人提出的方法、2008年Hall等人提出的方法等；第三類方法先根據(jù)其時(shí)間信息將文本離散到時(shí)間序列上對(duì)應(yīng)的時(shí)間窗口內(nèi)，然后依次地處理每個(gè)時(shí)間窗口上的文本集合，最終形成話題隨時(shí)間的演化，如動(dòng)態(tài)話題模型(Dynamic Topic Mo del，DTM）、連續(xù)時(shí)間的動(dòng)態(tài)話題模型(Continuous Time Dynamic Topic Model，CT-DT M)、動(dòng)態(tài)混合模型（Dynamic Mixture Model，DMM）、Multiscale Topic Tomography 模型(MTTM)、增量 LDA(Incremental Latent Dirichlet Allocation，ILDA)等。

上述話題模型中，除了ILDA外，其余方法都假設(shè)話題數(shù)目是固定不變的，顯然這不符合現(xiàn)實(shí)。在現(xiàn)實(shí)中，隨著時(shí)間的推移，會(huì)產(chǎn)生新話題，也會(huì)有舊話題的消亡和分裂。除此之外，利用LDA模型時(shí)，話題的表示和話題可解釋性也存在比較大的爭(zhēng)議。為了提升LDA建模時(shí)話題的表示，文獻(xiàn)［20］中通過對(duì)表示話題的詞語(yǔ)進(jìn)行分析組合，用更有意義的詞組(ngram)代替單個(gè)詞語(yǔ)來表示話題。因此本文也利用話題模型進(jìn)行話題演化分析，但是本文利用話題模型的主要目的不是得到各個(gè)話題內(nèi)容，而是得到各個(gè)時(shí)間窗口上有價(jià)值的演化詞，因此本文可以不受話題模型話題數(shù)目不變的限制。另外，在得到有價(jià)值的演化詞后，本文從詞語(yǔ)的關(guān)系特性（即語(yǔ)義特征）入手去挖掘各個(gè)話題和解釋各個(gè)話題，并根據(jù)不同時(shí)間窗口的對(duì)比來追蹤各個(gè)話題的演化。

3 基于DTM-LPA的微博話題演化分析方法

3.1 基本框架

微博具有與傳統(tǒng)長(zhǎng)文本不同的特點(diǎn)，即內(nèi)容短小、格式雜亂等，這使得話題演化模型DTM在微博上的運(yùn)用很不理想，得到的話題很難解釋和被理解，為此，本文在不固定話題數(shù)目時(shí)利用DTM獲得高價(jià)值的演化詞，然后結(jié)合這些高價(jià)值演化詞的共現(xiàn)關(guān)系來表征詞之間的語(yǔ)義關(guān)系，并借用社區(qū)發(fā)現(xiàn)技術(shù)挖掘出的詞之間語(yǔ)義關(guān)系來解釋話題模型結(jié)果。在詞的語(yǔ)義關(guān)系挖掘方面，史劍虹等使用了頻繁項(xiàng)集算法FP-growth來挖掘詞之間語(yǔ)義關(guān)系，但由于FP-growth算法時(shí)間復(fù)雜度過高，因此該方法不適用于大量微博數(shù)據(jù)集上使用，本文使用了具有線性時(shí)間復(fù)雜度算法的標(biāo)簽傳播算法（Label Propagation Algorithm，LPA）來實(shí)現(xiàn)。本文將基于動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)想結(jié)合的話題演化方法，簡(jiǎn)稱為DTM-LPA微博話題演化分析（基本框架見圖1）。

話題演化部分主要利用DTM生成各個(gè)時(shí)間窗口中高價(jià)值的演化詞。首先進(jìn)行數(shù)據(jù)采集及數(shù)據(jù)處理，這里的數(shù)據(jù)處理主要包括數(shù)據(jù)噪聲處理等清洗工作、中文分詞、停用詞過濾、詞大小寫的預(yù)處理（如“H7N9禽流感”處理成“h7n9禽流感”）；然后根據(jù)微博發(fā)布的月份劃分微博，形成各個(gè)月份的微博數(shù)據(jù)集，處理成DTM所需的格式，利用DTM進(jìn)行話題演化建模；本文演化結(jié)果解釋部分主要利用社區(qū)發(fā)現(xiàn)技術(shù)LPA挖掘DTM演化詞中隱含的社區(qū)。為此，文文先根據(jù)DTM得到的結(jié)果，抽取每個(gè)時(shí)間窗口中高價(jià)值的演化詞，同時(shí)根據(jù)這些詞在各個(gè)時(shí)間片上的微博原文生成詞共現(xiàn)網(wǎng)絡(luò)；然后利用LPA發(fā)現(xiàn)演化詞的之間社區(qū)，并根據(jù)各個(gè)社區(qū)話題追蹤各個(gè)時(shí)間片上的話題給出演化分析。

圖1 基于DTM-LPA的微博話題演化分析流程圖

3.2 關(guān)鍵技術(shù)描述

3.2.1 各個(gè)時(shí)間窗口中演化詞生成及其關(guān)鍵技術(shù)

根據(jù)文獻(xiàn)［22］的分析，從較短時(shí)間周期上來看，所有以網(wǎng)絡(luò)為載體的內(nèi)容存在著積累性和變革性，存在一個(gè)主題內(nèi)容的 “產(chǎn)生”、“生長(zhǎng)”、“成熟”、“分化”、“消退”等階段，同樣承載著這些主題內(nèi)容的這些詞也會(huì)出現(xiàn)一個(gè)“生長(zhǎng)”、“爆發(fā)”、“流行”、“消退”、“再增長(zhǎng)”等不同的階段。因此，本文使用這類具有生命特征的演化詞（見定義1）來進(jìn)行話題演化分析。

定義1：演化詞是指具備自然衰減特征能代表話題內(nèi)容的重要詞。所謂自然衰減特征是指詞在第一次出現(xiàn)后可能在后續(xù)文檔中不再出現(xiàn)、再次出現(xiàn)、多次出現(xiàn)或一段時(shí)間內(nèi)的頻繁出現(xiàn)。

為了生成各個(gè)時(shí)間窗口中高價(jià)值的演化詞，本文首先收集了事件生后一年（2013.3-2014.2）的所有相關(guān)微博言語(yǔ)文本，并以月為時(shí)間粒度劃分?jǐn)?shù)據(jù)集，借用DTM獲取話題在各個(gè)時(shí)間窗口上的分布強(qiáng)度和話題的內(nèi)容演化。在DTM模型中，文本先根據(jù)其時(shí)間信息離散到時(shí)間序列上對(duì)應(yīng)的時(shí)間窗口內(nèi)，然后依次地處理每個(gè)時(shí)間窗口上的文本集合，最終形成話題隨時(shí)間的演化。DTM模型中下一時(shí)刻模型參數(shù)往往依賴于當(dāng)前時(shí)刻模型參數(shù)的后驗(yàn) （模型見圖2），且前后事件參數(shù)之間存在以下關(guān)聯(lián):

（1）β|β～N（β，σI）；

圖2 動(dòng)態(tài)話題模型圖模型［15］

（2）α|α～N（β，δI）。

其中，α,β分別是自然參數(shù)。

3.2.2 演化詞詞網(wǎng)絡(luò)構(gòu)建及其社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)

在利用DTM生成各個(gè)時(shí)間窗口的演化詞后，本文利用各個(gè)時(shí)間窗口上的微博來構(gòu)建詞網(wǎng)絡(luò)。本文主要用共現(xiàn)性方式來構(gòu)建演化詞網(wǎng)絡(luò)。本文定義演化詞的共現(xiàn)為：若演化詞Term和Term同時(shí)出現(xiàn)在某一條微博中，則稱Term和Term共現(xiàn)。這樣，演化詞共現(xiàn)關(guān)系網(wǎng)可以使用一個(gè)無(wú)向帶權(quán)圖（見定義2）來表示。

定義2：演化詞關(guān)系網(wǎng)絡(luò)是由演化詞及演化詞共現(xiàn)關(guān)系構(gòu)成的無(wú)向帶權(quán)圖，表示為G=（G，E，W），其中 G為演化詞集，E為演化詞共現(xiàn)關(guān)系集，W為演化詞共現(xiàn)次數(shù)集。如果兩個(gè)演化詞出現(xiàn)在一條微博中，則它們之間存在一條邊，邊的權(quán)值也增加1。

在演化詞共現(xiàn)關(guān)系網(wǎng)構(gòu)建完成后，由于微博條數(shù)較多，構(gòu)建出的演化詞網(wǎng)絡(luò)規(guī)模將很大，本文將使用具有線性時(shí)間復(fù)雜度的LPA算法找出演化詞的社區(qū)。LPA（Label Propagation Algorithm，標(biāo)簽傳播算法）是 Zhu等人于2002年提出的一種基于圖的半監(jiān)督學(xué)習(xí)方法，其基本思想是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測(cè)未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。2007年，Raghavan等首次將LPA應(yīng)用于社區(qū)發(fā)現(xiàn)，并在Zachary Karate 網(wǎng) 絡(luò)、College Football網(wǎng) 絡(luò)等真實(shí)基準(zhǔn)網(wǎng)上進(jìn)行了測(cè)試，結(jié)果表明LPA的社區(qū)結(jié)構(gòu)檢測(cè)效果良好。LPA應(yīng)用于社區(qū)發(fā)現(xiàn)的步驟為：（1）初始化網(wǎng)絡(luò)中所有節(jié)點(diǎn)的標(biāo)簽，依次為每個(gè)節(jié)點(diǎn)分配唯一的標(biāo)簽；（2）令迭代次數(shù) t=1；（3）隨機(jī)排列網(wǎng)絡(luò)中的節(jié)點(diǎn)，生成序列X；（4）按照序列X中的順序，對(duì)X中的每個(gè)節(jié)點(diǎn) v，使用來更新自身的標(biāo)簽，其中是擁有l(wèi)標(biāo)簽的v的鄰居節(jié)點(diǎn)集。如果存在多個(gè)標(biāo)簽數(shù)量最多時(shí)，則隨機(jī)選擇其中一個(gè)；（5）如果每個(gè)節(jié)點(diǎn)具有的標(biāo)簽都是其鄰居節(jié)點(diǎn)中出現(xiàn)次數(shù)最多的標(biāo)簽，那么算法停止，否則令t=t+1，轉(zhuǎn)到步驟（3）。

在衡量社區(qū)劃分質(zhì)量時(shí)，通常使用的一個(gè)指標(biāo)是模塊度（modularity），其計(jì)算公式是：

其中，A是網(wǎng)絡(luò)圖的鄰接矩陣，m是網(wǎng)絡(luò)圖的邊數(shù)，P表示空模型中節(jié)點(diǎn)i和j之間邊的期望值，如果節(jié)點(diǎn) i和 j在同一個(gè)社區(qū)，δ（C，C）=1，否則為 0。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)集概述

H7N9禽流感疫情屬于突發(fā)公共衛(wèi)生事件，在社交媒體上有大量的相關(guān)用戶生成內(nèi)容產(chǎn)生和傳播。文本使用新浪微博上有關(guān)H7N9的微博作為本文實(shí)驗(yàn)的數(shù)據(jù)集。自2013年3月開始，項(xiàng)目組采集集了隨后1年時(shí)間內(nèi)有關(guān)H7N9的微博數(shù)據(jù) （使用結(jié)巴分詞包分詞、停用詞過濾后得到的各個(gè)月份的微博數(shù)見表1）。

表1 新浪H7N9微博數(shù)據(jù)集統(tǒng)計(jì)

4.2 結(jié)果分析

4.2.1 基于DTM的演化詞抽取與演化詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建

本文僅僅是為了獲得各個(gè)時(shí)間窗口上高價(jià)值的演化詞，在利用DTM建模時(shí)不需要關(guān)心文本內(nèi)的話題數(shù)目，為此本文將話題數(shù)目設(shè)置為1進(jìn)行DTM建模。

DTM建模過程如下：編譯Blei的DTM模型；②自編程序?qū)㈩A(yù)處理后的微博文檔處理成ldac格式，ldac格式要求按時(shí)間先后順序排列各個(gè)時(shí)段微博，一行一條微博，每一行形式為“詞數(shù) 詞1編號(hào)：詞1頻次詞2編號(hào)：詞2頻次……詞n編號(hào)：詞n頻數(shù)”（詞數(shù)只指該微博內(nèi)不同詞的個(gè)數(shù)，詞的編號(hào)指該詞在整個(gè)微博語(yǔ)料集中的編號(hào)；③生成微博時(shí)間信息文檔，文檔里包括總的時(shí)間窗口數(shù)和各個(gè)時(shí)間窗口上對(duì)應(yīng)的微博數(shù)；④設(shè)置主題數(shù)及最大EM迭代次數(shù)進(jìn)行模型訓(xùn)練。

在利用DTM將訓(xùn)練模型后，最初本文選取了各個(gè)時(shí)間窗口中前1000個(gè)作為有價(jià)值的演化詞，并根據(jù)這些演化詞在各個(gè)時(shí)間窗口的共現(xiàn)關(guān)系去了解這些詞之間的關(guān)系。但是發(fā)現(xiàn)每個(gè)時(shí)間窗口若只根據(jù)當(dāng)前窗口上DTM得到的前1000個(gè)詞構(gòu)造出的網(wǎng)絡(luò)非常稀疏，如根據(jù)2013年4月份336177條微博利用DTM上前1000個(gè)詞構(gòu)造的加權(quán)網(wǎng)絡(luò)的邊數(shù)為2815，節(jié)點(diǎn)數(shù)僅為217，利用其他微博數(shù)規(guī)模小的月份甚至都難以得到一個(gè)完整的網(wǎng)絡(luò)。上述問題極有可能是由于以下原因?qū)е碌模孩傥⒉┒涛谋颈旧砭拖∈瑁虎贒TM模型中下一時(shí)間窗口的模型參數(shù)依賴于前一時(shí)間窗口的結(jié)果，因此不能僅僅根據(jù)當(dāng)前時(shí)間窗口中的價(jià)值較高的演化詞來構(gòu)造詞網(wǎng)絡(luò)。所以，本文采用了增量式的方法構(gòu)造重要演化詞：當(dāng)前一個(gè)時(shí)間窗口的演化詞由該時(shí)間窗口DTM的前1000個(gè)演化詞與前面所有時(shí)間窗口的所有演化詞共同構(gòu)成。根據(jù)增量式的方法得到每個(gè)時(shí)間窗口的重要演化詞后，我們根據(jù)在各個(gè)時(shí)間窗口上的微博文本中的共現(xiàn)構(gòu)造出了這些演化詞的共現(xiàn)網(wǎng)絡(luò) （結(jié)果見表2）。

表2 各個(gè)時(shí)間窗口上演化詞共現(xiàn)網(wǎng)絡(luò)規(guī)模

從結(jié)果中可以看出，盡管隨著時(shí)間的推移，重要演化詞的數(shù)目在逐漸增加，但是最終得到的共現(xiàn)網(wǎng)絡(luò)規(guī)模并不一直逐漸增大，這主要是因?yàn)楦鲿r(shí)間窗口上微博條數(shù)不一樣所導(dǎo)致的。

4.2.2 共現(xiàn)網(wǎng)絡(luò)上的社區(qū)發(fā)現(xiàn)與微博話題演化結(jié)果生成

在得到重要演化詞的共現(xiàn)網(wǎng)絡(luò)后，本文利用LPA算法進(jìn)行了社區(qū)發(fā)現(xiàn)，并選取LPA多次執(zhí)行中模塊度最大的結(jié)果作為社區(qū)劃分結(jié)果，直到舍棄到在規(guī)模小于6的無(wú)意義社區(qū)后，并按照節(jié)點(diǎn)度數(shù)從大到小的順序給出了得到的各個(gè)時(shí)間窗口中前三個(gè)規(guī)模大的社區(qū)的結(jié)果（見圖3），其中在2013.04這個(gè)月份僅僅得到一個(gè)社區(qū)，所以只給出了一個(gè)社區(qū)的結(jié)果。

從演化結(jié)果可以看出：（1）在這1年的有關(guān)H7N9的微博上，H7N9相關(guān)的話題還是占主要部分，在每個(gè)時(shí)間窗口上最大的社區(qū)總是“H7N9禽流感”。但對(duì)比各個(gè)時(shí)間窗口“H7N9禽流感”這個(gè)話題其結(jié)果，可以看出還是存在一個(gè)大致演化，尤其是在2013.07月，其最大社區(qū)內(nèi)容演化為 “新聞通報(bào)”與“北京患者研究”相關(guān)的2個(gè)主要社區(qū)，這個(gè)“北京”出現(xiàn)與高頻詞統(tǒng)計(jì)結(jié)果（見下圖4）極為相似；（2）在2013.04月所有的節(jié)點(diǎn)都被劃分進(jìn)一個(gè)社區(qū)，這說明在這個(gè)月大家的注意力都集中在“H7N9”方面，討論的其他話題相對(duì)減弱，這也可以從2013.04這一個(gè)月的微博數(shù)占據(jù)量（336177/446126=75%）能得到進(jìn)一步的驗(yàn)證；（3）除了2013.04外，在其余各個(gè)窗口上用戶也都會(huì)討論一些日常討論的內(nèi)容,如2013.10月的“娛樂”、2013.11 月的“金融”、2014.01 月的“驅(qū)寒”、“過年”、2014.02 月的“臘味”（表明強(qiáng)烈過年的氛圍）、2014.02 月的“中國(guó)好聲音”（“畢夏”為參加“中國(guó)好聲音”的學(xué)員）；（4）從整體上來看，“H7N9 禽流感”話題的討論也引發(fā)了大家對(duì)“養(yǎng)鴨”等家禽業(yè)、“個(gè)人衛(wèi)生”、“醫(yī)藥產(chǎn)業(yè)”、“非典”等話題的討論。

圖3 基于DTM-LPA的微博話題演化結(jié)果

4.2.3 結(jié)果比較分析

最后，在實(shí)驗(yàn)中本文使用了基于DTM方法和常用的詞頻統(tǒng)計(jì)方法作為Baseline，得到基于DTM的微博演化結(jié)果（見圖4），其中，話題數(shù)設(shè)置為3，第1、2、3列分別對(duì)應(yīng)圖3第一、二、三個(gè)話題）和基于高頻詞統(tǒng)計(jì)的微博演化結(jié)果（見表五）。

可以發(fā)現(xiàn)這種DTM結(jié)果不太理想：2013.07窗口上有2個(gè)話題基本相近，2013.08窗口上也有2個(gè)話題基本一樣，2013.11窗口上甚至3個(gè)話題都是一樣。除此之外，整體上各個(gè)窗口的差異性很小，微博都在討論“禽流感”、“死亡”等相關(guān)話題，很難細(xì)辨出各個(gè)窗口討論的差異。經(jīng)過多次設(shè)置不同的主題數(shù)進(jìn)行DTM建模，其結(jié)果可讀性均不強(qiáng)。

通過高頻詞演化結(jié)果，直觀上每個(gè)時(shí)間窗口得到的結(jié)果極為相似，各個(gè)時(shí)間窗口的差異性不明顯，除了一些“上海”、“北京”、“廣東”、“浙江”、“疫苗”詞存在差異外，其余高頻詞都大致一樣。可見，在這種只涉

圖4 基于DTM的微博演化結(jié)果

圖5 基于高頻詞統(tǒng)計(jì)的微博演化結(jié)果

及H7N9一個(gè)事件的微博文本上，詞頻統(tǒng)計(jì)方法得到的話題可區(qū)分性較差，很難識(shí)別出各個(gè)階段的話題。

對(duì)比三種方法得到的演化結(jié)果，可以發(fā)現(xiàn)本文提出的基于DTM-LPA方法相對(duì)來說更適合分析H7N9事件的演化：能清晰地看出各個(gè)時(shí)段文本內(nèi)容演化，更能區(qū)分出文本內(nèi)容演化中詞的出現(xiàn)、發(fā)展、流行、成熟、消退等階段（例如，2014.01月“驅(qū)寒”、“過年”、2014.02月“臘味”等詞的出現(xiàn)）。分析其中的原因，主要在于：本文所用的突發(fā)事件語(yǔ)料比較單一（僅僅只選用H7N9這一個(gè)突發(fā)事件的微博），這樣各個(gè)時(shí)間窗口話題差異性不大，話題太接近，導(dǎo)致DTM和基于詞頻方法效果差。這也進(jìn)一步說明DTM方法和基于詞頻統(tǒng)計(jì)方法可能更適合處理話題差異性大的語(yǔ)料上。

5 結(jié)語(yǔ)

突發(fā)事件話題追蹤研究對(duì)我國(guó)經(jīng)濟(jì)、軍事和政府部門都有著極大的現(xiàn)實(shí)意義和應(yīng)用需求，因此本文提出了一種結(jié)合動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)方法的話題追蹤分析的方法，并以微博上H7N9禽流感事件為例進(jìn)行了分析。結(jié)果顯示本文提出的方法較詞頻統(tǒng)計(jì)法與單純的動(dòng)態(tài)話題模型方法要好，也能基本呈現(xiàn)出各個(gè)時(shí)段民眾在H7N9禽流感事件期間所討論的話題。但是，本文同樣會(huì)存在一個(gè)比較大眾的問題，即無(wú)法給出一個(gè)話題演化的評(píng)判標(biāo)準(zhǔn)。

盡管本文所提方法能對(duì)微博話題進(jìn)行演化分析，但是對(duì)不同時(shí)間窗口上的各個(gè)話題所處的生命周期（如“新生”、“生長(zhǎng)”、“分化”、“消退”）并沒有進(jìn)行深入研究，這將是未來下一步的一個(gè)研究工作。除此之外，利用規(guī)模更大的其他突發(fā)事件語(yǔ)料庫(kù)進(jìn)行測(cè)試及探索更加合理的話題演化分析評(píng)估方法也是本文后續(xù)的研究工作。

［1］ 2015年第一季度財(cái)務(wù)報(bào)告：微博Q1凈營(yíng)收達(dá)9630萬(wàn)美元[EB/OL].[2015-06-18].http://www.chinabgao.com/stat/stats/42373.html.

［2］史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發(fā)現(xiàn)［J］.計(jì)算機(jī)應(yīng)用研究，2014,31(3):700-704.

［3］米文麗,孫曰昕.利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法［J］.計(jì)算機(jī)系統(tǒng)應(yīng)用，2014,23(8):163-167.

［4］鄭斐然,苗奪謙,張志飛.一種中文微博新聞話題檢測(cè)的方法［J］.計(jì)算機(jī)科學(xué)，2012,39(1):138-141.

［5］楚克明,李芳.基于 LDA話題關(guān)聯(lián)的話題演化［J］.上海交通大學(xué)學(xué)報(bào)，2010,44(11):1496-1500.

［6］趙旭劍.中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)研究［D］.合肥:中國(guó)科學(xué)技術(shù)大學(xué),2012.

［7］單斌,李芳.基于 LDA話題演化研究方法綜述［J］.中文信息學(xué)報(bào)，2010,24(6):43-49.

［8］洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述［J］.中文信息學(xué)報(bào)，2007,21(6):71-87.

［9］ Hofmann T,editor Probabilistic latent semantic indexing ［C］.Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,1999:50-57.

［10］ Griffiths T,Steyvers M.A probabilistic approach to semantic representation ［C］.Proceedings of the 24th annual conference of the cognitive science society,2002:381-386.

［11］ Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation［J］.the Journal of machine Learning research，2003（3）:993-1022.

［12］ Wang X,McCallum A,editors.Topics over time:a non-Markov continuous-time model of topical trends［C］.Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006:424-433.

［13］ Griffiths TL,Steyvers M.Finding scientific topics ［J］.Proceedings of the National Academy of Sciences.2004,101(suppl 1):5228-5235.

［14］ Hall D,Jurafsky D,Manning CD.Studying the history of ideas using topic models ［C］.Proceedings of the conference on empirical methods in natural language processing,2008:363-371.

［15］ Blei DM,Lafferty JD.Dynamic topic models ［C］.Proceedings of the 23rd international conference on Machine learning,2006:113-120.

［16］ Wang C,Blei D,Heckerman D.Continuous time dynamic topic models［J］.arXiv preprint arXiv:12063298.2012.

［17］ Wei X,Sun J,Wang X.Dynamic Mixture Models for Multiple Time-Series ［C］.Proceedings of the International Joint Conference on Artificial Intelligence(IJCAI),2007:2909-2914.

［18］ Nallapati RM,Ditmore S,Lafferty JD,etal.Multiscale topic tomography ［C］.In:Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining,2007:520-529.

［19］ Song X,Lin C-Y,Tseng BL,etal.Modeling and predicting personal information dissemination behavior ［C］.Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,2005:479-488.

［20］ Blei DM,Lafferty JD.Visualizing topics with multi-word expressions［J］.arXiv preprint arXiv:09071013.2009.

［21］ Raghavan UN,Albert R,Kumara S.Near linear time algorithm to detect community structures in large-scale networks［J］.Physical Review E.2007,76(3):036106.

［22］洪娜,錢慶,李亞子,等.網(wǎng)絡(luò)內(nèi)容演化趨勢(shì)影響因素分析——從詞的生命周期和背景詞簇環(huán)境中挖掘演化線索［J］.情報(bào)理論與實(shí)踐，2012,35(6):44-48.

［23］ Zhu X,Ghahramani Z.Learning from labeled and unlabeled data with label propagation ［R］.Technical Report CMUCALD-02-107,Carnegie Mellon University,2002.

［24］ Zachary WW.An information flow model for conflict and fission in small groups ［J］.Journal of anthropological research.1977(33):452-473.

［25］ Girvan M,Newman ME.Community structure in social and biological networks［C］.Proceedings of the National Academy of Sciences，2002:821–7826.

［26］ Newman ME,Girvan M.Finding and evaluating community structure in networks ［J］.Physical review E.2004,69(2):026113.