吳小蘭 章成志
(1.南京理工大學(xué)信息管理系 江蘇南京 210094)
(2.安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院 安徽蚌埠 233030)
(3.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 江蘇南京 210093)
截止2015年3月,新浪微博月均活躍用戶數(shù)(Mau’s)為 1.98 億。 盡管每個(gè)用戶允許發(fā)布的微博文本通常受限制于140字以內(nèi),但規(guī)模如此龐大的微博群體所發(fā)布的言論在引發(fā)公共議題和公眾情緒等方面體現(xiàn)出了強(qiáng)大的輿論引導(dǎo)作用和傳播效果。有時(shí)微博上一些過激的言論被盲目地操縱或利用,如果不能積極控制與回應(yīng),可能小的負(fù)面情緒會(huì)滾雪球式地被放大,將政府、企業(yè)或其他機(jī)構(gòu)推向風(fēng)口浪尖,因此,研究微博平臺(tái)上民眾對(duì)公共突發(fā)事件的討論、跟蹤突發(fā)事件的事態(tài)發(fā)展等工作變得尤為重要。
話題演化的首先任務(wù)是話題發(fā)現(xiàn),有研究中有專門針對(duì)微博上話題識(shí)別的研究,如文獻(xiàn)[2-4],也有專門研究話題演化的,如文獻(xiàn)[5-6],但這些方法主要針對(duì)的是新聞?lì)惢蚩萍嘉墨I(xiàn)類的數(shù)據(jù)上,并不一定適合于微博這樣的短文本。為此,本文提出了一種結(jié)合動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)的DTM-LPA話題演化方法。而自2013年3月4日上海第一例人感染禽流感病毒患者死亡開始,H7N9禽流感疫情長(zhǎng)時(shí)間處于網(wǎng)絡(luò)輿論的核心,也成為我國(guó)微博廣泛使用后遇到的第一個(gè)全國(guó)性突發(fā)公共衛(wèi)生事件,因此本文采用所提出的DTM-LPA方法,以新浪微博(Sina Weibo)上H7N9禽流感事件為例進(jìn)行研究,重點(diǎn)關(guān)注H7N9中民眾所關(guān)心的話題與話題的演化。
話題演化衡量的是同一話題隨時(shí)間推移表現(xiàn)出的動(dòng)態(tài)性、發(fā)展性和差異性。在話題檢測(cè)與跟蹤(Topic Detect ion and Tracking,簡(jiǎn)稱TDT)中,話題被定義為一個(gè)種子事件或活動(dòng)以及與之相關(guān)的所有事件或活動(dòng)。但是TDT并沒有有效利用語(yǔ)料中的時(shí)間信息,隨著話題模型的興起,借助話題模型,引入語(yǔ)料中的時(shí)間信息,研究話題隨時(shí)間的演化,逐漸成為在機(jī)器學(xué)習(xí)領(lǐng)域、文本挖掘領(lǐng)域研究的熱點(diǎn)。
根據(jù)文獻(xiàn)[7]的總結(jié),現(xiàn)有以下三類基于話題模型的話題演化方法:(1)將時(shí)間信息融入LDA(Latent Dirichlet Allocation)模型中的方法;(2)后離散分析(Post-discretized Analysis)的方法;(3)按時(shí)間先離散(Pre-discretized)方法。其中,第一類方法是將文本的時(shí)間信息作為可觀測(cè)變量結(jié)合到LDA話題模型中去訓(xùn)練文本集合上話題的分布,如Topic Over Time(TOT) 模型;第二類方法先忽略時(shí)間,再在整個(gè)文本集合上運(yùn)用LDA或者LDA的改進(jìn)模型獲取話題,最后利用文本的時(shí)間信息檢查話題在離散時(shí)間上的分布來衡量演化,如2004年Griffiths等人提出的方法、2008年Hall等人提出的方法等;第三類方法先根據(jù)其時(shí)間信息將文本離散到時(shí)間序列上對(duì)應(yīng)的時(shí)間窗口內(nèi),然后依次地處理每個(gè)時(shí)間窗口上的文本集合,最終形成話題隨時(shí)間的演化,如動(dòng)態(tài)話題模型(Dynamic Topic Mo del,DTM)、連續(xù)時(shí)間的動(dòng)態(tài)話題模型(Continuous Time Dynamic Topic Model,CT-DT M)、動(dòng)態(tài)混合模型(Dynamic Mixture Model,DMM)、Multiscale Topic Tomography 模型(MTTM)、增量 LDA(Incremental Latent Dirichlet Allocation,ILDA)等。
上述話題模型中,除了ILDA外,其余方法都假設(shè)話題數(shù)目是固定不變的,顯然這不符合現(xiàn)實(shí)。在現(xiàn)實(shí)中,隨著時(shí)間的推移,會(huì)產(chǎn)生新話題,也會(huì)有舊話題的消亡和分裂。除此之外,利用LDA模型時(shí),話題的表示和話題可解釋性也存在比較大的爭(zhēng)議。為了提升LDA建模時(shí)話題的表示,文獻(xiàn)[20]中通過對(duì)表示話題的詞語(yǔ)進(jìn)行分析組合,用更有意義的詞組(ngram)代替單個(gè)詞語(yǔ)來表示話題。因此本文也利用話題模型進(jìn)行話題演化分析,但是本文利用話題模型的主要目的不是得到各個(gè)話題內(nèi)容,而是得到各個(gè)時(shí)間窗口上有價(jià)值的演化詞,因此本文可以不受話題模型話題數(shù)目不變的限制。另外,在得到有價(jià)值的演化詞后,本文從詞語(yǔ)的關(guān)系特性(即語(yǔ)義特征)入手去挖掘各個(gè)話題和解釋各個(gè)話題,并根據(jù)不同時(shí)間窗口的對(duì)比來追蹤各個(gè)話題的演化。
微博具有與傳統(tǒng)長(zhǎng)文本不同的特點(diǎn),即內(nèi)容短小、格式雜亂等,這使得話題演化模型DTM在微博上的運(yùn)用很不理想,得到的話題很難解釋和被理解,為此,本文在不固定話題數(shù)目時(shí)利用DTM獲得高價(jià)值的演化詞,然后結(jié)合這些高價(jià)值演化詞的共現(xiàn)關(guān)系來表征詞之間的語(yǔ)義關(guān)系,并借用社區(qū)發(fā)現(xiàn)技術(shù)挖掘出的詞之間語(yǔ)義關(guān)系來解釋話題模型結(jié)果。在詞的語(yǔ)義關(guān)系挖掘方面,史劍虹等使用了頻繁項(xiàng)集算法FP-growth來挖掘詞之間語(yǔ)義關(guān)系,但由于FP-growth算法時(shí)間復(fù)雜度過高,因此該方法不適用于大量微博數(shù)據(jù)集上使用,本文使用了具有線性時(shí)間復(fù)雜度算法的標(biāo)簽傳播算法 (Label Propagation Algorithm,LPA)來實(shí)現(xiàn)。本文將基于動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)想結(jié)合的話題演化方法,簡(jiǎn)稱為DTM-LPA微博話題演化分析(基本框架見圖1)。
話題演化部分主要利用DTM生成各個(gè)時(shí)間窗口中高價(jià)值的演化詞。首先進(jìn)行數(shù)據(jù)采集及數(shù)據(jù)處理,這里的數(shù)據(jù)處理主要包括數(shù)據(jù)噪聲處理等清洗工作、中文分詞、停用詞過濾、詞大小寫的預(yù)處理(如“H7N9禽流感”處理成“h7n9禽流感”);然后根據(jù)微博發(fā)布的月份劃分微博,形成各個(gè)月份的微博數(shù)據(jù)集,處理成DTM所需的格式,利用DTM進(jìn)行話題演化建模;本文演化結(jié)果解釋部分主要利用社區(qū)發(fā)現(xiàn)技術(shù)LPA挖掘DTM演化詞中隱含的社區(qū)。為此,文文先根據(jù)DTM得到的結(jié)果,抽取每個(gè)時(shí)間窗口中高價(jià)值的演化詞,同時(shí)根據(jù)這些詞在各個(gè)時(shí)間片上的微博原文生成詞共現(xiàn)網(wǎng)絡(luò);然后利用LPA發(fā)現(xiàn)演化詞的之間社區(qū),并根據(jù)各個(gè)社區(qū)話題追蹤各個(gè)時(shí)間片上的話題給出演化分析。

圖1 基于DTM-LPA的微博話題演化分析流程圖
3.2.1 各個(gè)時(shí)間窗口中演化詞生成及其關(guān)鍵技術(shù)
根據(jù)文獻(xiàn)[22]的分析,從較短時(shí)間周期上來看,所有以網(wǎng)絡(luò)為載體的內(nèi)容存在著積累性和變革性,存在一個(gè)主題內(nèi)容的 “產(chǎn)生”、“生長(zhǎng)”、“成熟”、“分化”、“消退”等階段,同樣承載著這些主題內(nèi)容的這些詞也會(huì)出現(xiàn)一個(gè)“生長(zhǎng)”、“爆發(fā)”、“流行”、“消退”、“再增長(zhǎng)”等不同的階段。因此,本文使用這類具有生命特征的演化詞(見定義1)來進(jìn)行話題演化分析。
定義1:演化詞是指具備自然衰減特征能代表話題內(nèi)容的重要詞。所謂自然衰減特征是指詞在第一次出現(xiàn)后可能在后續(xù)文檔中不再出現(xiàn)、再次出現(xiàn)、多次出現(xiàn)或一段時(shí)間內(nèi)的頻繁出現(xiàn)。
為了生成各個(gè)時(shí)間窗口中高價(jià)值的演化詞,本文首先收集了事件生后一年(2013.3-2014.2)的所有相關(guān)微博言語(yǔ)文本,并以月為時(shí)間粒度劃分?jǐn)?shù)據(jù)集,借用DTM獲取話題在各個(gè)時(shí)間窗口上的分布強(qiáng)度和話題的內(nèi)容演化。在DTM模型中,文本先根據(jù)其時(shí)間信息離散到時(shí)間序列上對(duì)應(yīng)的時(shí)間窗口內(nèi),然后依次地處理每個(gè)時(shí)間窗口上的文本集合,最終形成話題隨時(shí)間的演化。DTM模型中下一時(shí)刻模型參數(shù)往往依賴于當(dāng)前時(shí)刻模型參數(shù)的后驗(yàn) (模型見圖2),且前后事件參數(shù)之間存在以下關(guān)聯(lián):
(1)β|β~N(β,σI);

圖2 動(dòng)態(tài)話題模型圖模型[15]
(2)α|α~N(β,δI)。
其中,α,β分別是自然參數(shù)。
3.2.2 演化詞詞網(wǎng)絡(luò)構(gòu)建及其社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)
在利用DTM生成各個(gè)時(shí)間窗口的演化詞后,本文利用各個(gè)時(shí)間窗口上的微博來構(gòu)建詞網(wǎng)絡(luò)。本文主要用共現(xiàn)性方式來構(gòu)建演化詞網(wǎng)絡(luò)。本文定義演化詞的共現(xiàn)為:若演化詞Term和Term同時(shí)出現(xiàn)在某一條微博中,則稱Term和Term共現(xiàn)。這樣,演化詞共現(xiàn)關(guān)系網(wǎng)可以使用一個(gè)無(wú)向帶權(quán)圖(見定義2)來表示。
定義2:演化詞關(guān)系網(wǎng)絡(luò)是由演化詞及演化詞共現(xiàn)關(guān)系構(gòu)成的無(wú)向帶權(quán)圖,表示為G=(G,E,W),其中 G為演化詞集,E為演化詞共現(xiàn)關(guān)系集,W為演化詞共現(xiàn)次數(shù)集。如果兩個(gè)演化詞出現(xiàn)在一條微博中,則它們之間存在一條邊,邊的權(quán)值也增加1。
在演化詞共現(xiàn)關(guān)系網(wǎng)構(gòu)建完成后,由于微博條數(shù)較多,構(gòu)建出的演化詞網(wǎng)絡(luò)規(guī)模將很大,本文將使用具有線性時(shí)間復(fù)雜度的LPA算法找出演化詞的社區(qū)。LPA(Label Propagation Algorithm,標(biāo)簽傳播算法)是 Zhu等人于2002年提出的一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思想是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測(cè)未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。2007年,Raghavan等首次將LPA應(yīng)用于社區(qū)發(fā)現(xiàn),并在Zachary Karate 網(wǎng) 絡(luò)、College Football網(wǎng) 絡(luò)等 真實(shí)基準(zhǔn)網(wǎng)上進(jìn)行了測(cè)試,結(jié)果表明LPA的社區(qū)結(jié)構(gòu)檢測(cè)效果良好。LPA應(yīng)用于社區(qū)發(fā)現(xiàn)的步驟為:(1)初始化網(wǎng)絡(luò)中所有節(jié)點(diǎn)的標(biāo)簽,依次為每個(gè)節(jié)點(diǎn)分配唯一的標(biāo)簽;(2)令迭代次數(shù) t=1;(3)隨機(jī)排列網(wǎng)絡(luò)中的節(jié)點(diǎn),生成序列X;(4)按照序列X中的順序,對(duì)X中的每個(gè)節(jié)點(diǎn) v,使用來更新自身的標(biāo)簽,其中是擁有l(wèi)標(biāo)簽的v的鄰居節(jié)點(diǎn)集。如果存在多個(gè)標(biāo)簽數(shù)量最多時(shí),則隨機(jī)選擇其中一個(gè);(5)如果每個(gè)節(jié)點(diǎn)具有的標(biāo)簽都是其鄰居節(jié)點(diǎn)中出現(xiàn)次數(shù)最多的標(biāo)簽,那么算法停止,否則令t=t+1,轉(zhuǎn)到步驟(3)。
在衡量社區(qū)劃分質(zhì)量時(shí),通常使用的一個(gè)指標(biāo)是模塊度(modularity),其計(jì)算公式是:

其中,A是網(wǎng)絡(luò)圖的鄰接矩陣,m是網(wǎng)絡(luò)圖的邊數(shù),P表示空模型中節(jié)點(diǎn)i和j之間邊的期望值,如果節(jié)點(diǎn) i和 j在同一個(gè)社區(qū),δ(C,C)=1,否則為 0。
H7N9禽流感疫情屬于突發(fā)公共衛(wèi)生事件,在社交媒體上有大量的相關(guān)用戶生成內(nèi)容產(chǎn)生和傳播。文本使用新浪微博上有關(guān)H7N9的微博作為本文實(shí)驗(yàn)的數(shù)據(jù)集。自2013年3月開始,項(xiàng)目組采集集了隨后1年時(shí)間內(nèi)有關(guān)H7N9的微博數(shù)據(jù) (使用結(jié)巴分詞包分詞、停用詞過濾后得到的各個(gè)月份的微博數(shù)見表1)。

表1 新浪H7N9微博數(shù)據(jù)集統(tǒng)計(jì)
4.2.1 基于DTM的演化詞抽取與演化詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建
本文僅僅是為了獲得各個(gè)時(shí)間窗口上高價(jià)值的演化詞,在利用DTM建模時(shí)不需要關(guān)心文本內(nèi)的話題數(shù)目,為此本文將話題數(shù)目設(shè)置為1進(jìn)行DTM建模。
DTM建模過程如下:編譯Blei的DTM模型;②自編程序?qū)㈩A(yù)處理后的微博文檔處理成ldac格式,ldac格式要求按時(shí)間先后順序排列各個(gè)時(shí)段微博,一行一條微博,每一行形式為“詞數(shù) 詞1編號(hào):詞1頻次 詞2編號(hào):詞2頻次……詞n編號(hào):詞n頻數(shù)”(詞數(shù)只指該微博內(nèi)不同詞的個(gè)數(shù),詞的編號(hào)指該詞在整個(gè)微博語(yǔ)料集中的編號(hào);③生成微博時(shí)間信息文檔,文檔里包括總的時(shí)間窗口數(shù)和各個(gè)時(shí)間窗口上對(duì)應(yīng)的微博數(shù);④設(shè)置主題數(shù)及最大EM迭代次數(shù)進(jìn)行模型訓(xùn)練。
在利用DTM將訓(xùn)練模型后,最初本文選取了各個(gè)時(shí)間窗口中前1000個(gè)作為有價(jià)值的演化詞,并根據(jù)這些演化詞在各個(gè)時(shí)間窗口的共現(xiàn)關(guān)系去了解這些詞之間的關(guān)系。但是發(fā)現(xiàn)每個(gè)時(shí)間窗口若只根據(jù)當(dāng)前窗口上DTM得到的前1000個(gè)詞構(gòu)造出的網(wǎng)絡(luò)非常稀疏,如根據(jù)2013年4月份336177條微博利用DTM上前1000個(gè)詞構(gòu)造的加權(quán)網(wǎng)絡(luò)的邊數(shù)為2815,節(jié)點(diǎn)數(shù)僅為217,利用其他微博數(shù)規(guī)模小的月份甚至都難以得到一個(gè)完整的網(wǎng)絡(luò)。上述問題極有可能是由于以下原因?qū)е碌模孩傥⒉┒涛谋颈旧砭拖∈瑁虎贒TM模型中下一時(shí)間窗口的模型參數(shù)依賴于前一時(shí)間窗口的結(jié)果,因此不能僅僅根據(jù)當(dāng)前時(shí)間窗口中的價(jià)值較高的演化詞來構(gòu)造詞網(wǎng)絡(luò)。所以,本文采用了增量式的方法構(gòu)造重要演化詞:當(dāng)前一個(gè)時(shí)間窗口的演化詞由該時(shí)間窗口DTM的前1000個(gè)演化詞與前面所有時(shí)間窗口的所有演化詞共同構(gòu)成。根據(jù)增量式的方法得到每個(gè)時(shí)間窗口的重要演化詞后,我們根據(jù)在各個(gè)時(shí)間窗口上的微博文本中的共現(xiàn)構(gòu)造出了這些演化詞的共現(xiàn)網(wǎng)絡(luò) (結(jié)果見表2)。

表2 各個(gè)時(shí)間窗口上演化詞共現(xiàn)網(wǎng)絡(luò)規(guī)模
從結(jié)果中可以看出,盡管隨著時(shí)間的推移,重要演化詞的數(shù)目在逐漸增加,但是最終得到的共現(xiàn)網(wǎng)絡(luò)規(guī)模并不一直逐漸增大,這主要是因?yàn)楦鲿r(shí)間窗口上微博條數(shù)不一樣所導(dǎo)致的。
4.2.2 共現(xiàn)網(wǎng)絡(luò)上的社區(qū)發(fā)現(xiàn)與微博話題演化結(jié)果生成
在得到重要演化詞的共現(xiàn)網(wǎng)絡(luò)后,本文利用LPA算法進(jìn)行了社區(qū)發(fā)現(xiàn),并選取LPA多次執(zhí)行中模塊度最大的結(jié)果作為社區(qū)劃分結(jié)果,直到舍棄到在規(guī)模小于6的無(wú)意義社區(qū)后,并按照節(jié)點(diǎn)度數(shù)從大到小的順序給出了得到的各個(gè)時(shí)間窗口中前三個(gè)規(guī)模大的社區(qū)的結(jié)果(見圖3),其中在2013.04這個(gè)月份僅僅得到一個(gè)社區(qū),所以只給出了一個(gè)社區(qū)的結(jié)果。
從演化結(jié)果可以看出:(1)在這1年的有關(guān)H7N9的微博上,H7N9相關(guān)的話題還是占主要部分,在每個(gè)時(shí)間窗口上最大的社區(qū)總是“H7N9禽流感”。但對(duì)比各個(gè)時(shí)間窗口“H7N9禽流感”這個(gè)話題其結(jié)果,可以看出還是存在一個(gè)大致演化,尤其是在2013.07月,其最大社區(qū)內(nèi)容演化為 “新聞通報(bào)”與“北京患者研究”相關(guān)的2個(gè)主要社區(qū),這個(gè)“北京”出現(xiàn)與高頻詞統(tǒng)計(jì)結(jié)果(見下圖4)極為相似;(2)在2013.04月所有的節(jié)點(diǎn)都被劃分進(jìn)一個(gè)社區(qū),這說明在這個(gè)月大家的注意力都集中在“H7N9”方面,討論的其他話題相對(duì)減弱,這也可以從2013.04這一個(gè)月的微博數(shù)占據(jù)量(336177/446126=75%)能得到進(jìn)一步的驗(yàn)證;(3)除了2013.04外,在其余各個(gè)窗口上用戶也都會(huì)討論一些日常討論的內(nèi)容,如2013.10月的“娛樂”、2013.11 月的“金融”、2014.01 月的“驅(qū)寒”、“過年”、2014.02 月的“臘味”(表明強(qiáng)烈過年的氛圍)、2014.02 月的“中國(guó)好聲音”(“畢夏”為參加“中國(guó)好聲音”的學(xué)員);(4)從整體上來看,“H7N9 禽流感”話題的討論也引發(fā)了大家對(duì)“養(yǎng)鴨”等家禽業(yè)、“個(gè)人衛(wèi)生”、“醫(yī)藥產(chǎn)業(yè)”、“非典”等話題的討論。

圖3 基于DTM-LPA的微博話題演化結(jié)果
4.2.3 結(jié)果比較分析
最后,在實(shí)驗(yàn)中本文使用了基于DTM方法和常用的詞頻統(tǒng)計(jì)方法作為Baseline,得到基于DTM的微博演化結(jié)果(見圖4),其中,話題數(shù)設(shè)置為3,第1、2、3列分別對(duì)應(yīng)圖3第一、二、三個(gè)話題)和基于高頻詞統(tǒng)計(jì)的微博演化結(jié)果(見表五)。
可以發(fā)現(xiàn)這種DTM結(jié)果不太理想:2013.07窗口上有2個(gè)話題基本相近,2013.08窗口上也有2個(gè)話題基本一樣,2013.11窗口上甚至3個(gè)話題都是一樣。除此之外,整體上各個(gè)窗口的差異性很小,微博都在討論“禽流感”、“死亡”等相關(guān)話題,很難細(xì)辨出各個(gè)窗口討論的差異。經(jīng)過多次設(shè)置不同的主題數(shù)進(jìn)行DTM建模,其結(jié)果可讀性均不強(qiáng)。
通過高頻詞演化結(jié)果,直觀上每個(gè)時(shí)間窗口得到的結(jié)果極為相似,各個(gè)時(shí)間窗口的差異性不明顯,除了一些“上海”、“北京”、“廣東”、“浙江”、“疫苗”詞存在差異外,其余高頻詞都大致一樣。可見,在這種只涉

圖4 基于DTM的微博演化結(jié)果

圖5 基于高頻詞統(tǒng)計(jì)的微博演化結(jié)果
及H7N9一個(gè)事件的微博文本上,詞頻統(tǒng)計(jì)方法得到的話題可區(qū)分性較差,很難識(shí)別出各個(gè)階段的話題。
對(duì)比三種方法得到的演化結(jié)果,可以發(fā)現(xiàn)本文提出的基于DTM-LPA方法相對(duì)來說更適合分析H7N9事件的演化:能清晰地看出各個(gè)時(shí)段文本內(nèi)容演化,更能區(qū)分出文本內(nèi)容演化中詞的出現(xiàn)、發(fā)展、流行、成熟、消退等階段(例如,2014.01月“驅(qū)寒”、“過年”、2014.02月“臘味”等詞的出現(xiàn))。分析其中的原因,主要在于:本文所用的突發(fā)事件語(yǔ)料比較單一(僅僅只選用H7N9這一個(gè)突發(fā)事件的微博),這樣各個(gè)時(shí)間窗口話題差異性不大,話題太接近,導(dǎo)致DTM和基于詞頻方法效果差。這也進(jìn)一步說明DTM方法和基于詞頻統(tǒng)計(jì)方法可能更適合處理話題差異性大的語(yǔ)料上。
突發(fā)事件話題追蹤研究對(duì)我國(guó)經(jīng)濟(jì)、軍事和政府部門都有著極大的現(xiàn)實(shí)意義和應(yīng)用需求,因此本文提出了一種結(jié)合動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)方法的話題追蹤分析的方法,并以微博上H7N9禽流感事件為例進(jìn)行了分析。結(jié)果顯示本文提出的方法較詞頻統(tǒng)計(jì)法與單純的動(dòng)態(tài)話題模型方法要好,也能基本呈現(xiàn)出各個(gè)時(shí)段民眾在H7N9禽流感事件期間所討論的話題。但是,本文同樣會(huì)存在一個(gè)比較大眾的問題,即無(wú)法給出一個(gè)話題演化的評(píng)判標(biāo)準(zhǔn)。
盡管本文所提方法能對(duì)微博話題進(jìn)行演化分析,但是對(duì)不同時(shí)間窗口上的各個(gè)話題所處的生命周期(如“新生”、“生長(zhǎng)”、“分化”、“消退”)并沒有進(jìn)行深入研究,這將是未來下一步的一個(gè)研究工作。除此之外,利用規(guī)模更大的其他突發(fā)事件語(yǔ)料庫(kù)進(jìn)行測(cè)試及探索更加合理的話題演化分析評(píng)估方法也是本文后續(xù)的研究工作。
[1] 2015年第一季度財(cái)務(wù)報(bào)告:微博Q1凈營(yíng)收達(dá)9630萬(wàn)美元[EB/OL].[2015-06-18].http://www.chinabgao.com/stat/stats/42373.html.
[2] 史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2014,31(3):700-704.
[3] 米文麗,孫曰昕.利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(8):163-167.
[4] 鄭斐然,苗奪謙,張志飛.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141.
[5] 楚克明,李芳.基于 LDA話題關(guān)聯(lián)的話題演化[J].上海交通大學(xué)學(xué)報(bào),2010,44(11):1496-1500.
[6] 趙旭劍.中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)研究 [D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2012.
[7] 單斌,李芳.基于 LDA話題演化研究方法綜述[J].中文信息學(xué)報(bào),2010,24(6):43-49.
[8] 洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71-87.
[9] Hofmann T,editor Probabilistic latent semantic indexing [C].Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,1999:50-57.
[10] Griffiths T,Steyvers M.A probabilistic approach to semantic representation [C].Proceedings of the 24th annual conference of the cognitive science society,2002:381-386.
[11] Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].the Journal of machine Learning research,2003(3):993-1022.
[12] Wang X,McCallum A,editors.Topics over time:a non-Markov continuous-time model of topical trends[C].Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006:424-433.
[13] Griffiths TL,Steyvers M.Finding scientific topics [J].Proceedings of the National Academy of Sciences.2004,101(suppl 1):5228-5235.
[14] Hall D,Jurafsky D,Manning CD.Studying the history of ideas using topic models [C].Proceedings of the conference on empirical methods in natural language processing,2008:363-371.
[15] Blei DM,Lafferty JD.Dynamic topic models [C].Proceedings of the 23rd international conference on Machine learning,2006:113-120.
[16] Wang C,Blei D,Heckerman D.Continuous time dynamic topic models[J].arXiv preprint arXiv:12063298.2012.
[17] Wei X,Sun J,Wang X.Dynamic Mixture Models for Multiple Time-Series [C].Proceedings of the International Joint Conference on Artificial Intelligence(IJCAI),2007:2909-2914.
[18] Nallapati RM,Ditmore S,Lafferty JD,etal.Multiscale topic tomography [C].In:Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining,2007:520-529.
[19] Song X,Lin C-Y,Tseng BL,etal.Modeling and predicting personal information dissemination behavior [C].Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,2005:479-488.
[20] Blei DM,Lafferty JD.Visualizing topics with multi-word expressions[J].arXiv preprint arXiv:09071013.2009.
[21] Raghavan UN,Albert R,Kumara S.Near linear time algorithm to detect community structures in large-scale networks[J].Physical Review E.2007,76(3):036106.
[22] 洪娜,錢慶,李亞子,等.網(wǎng)絡(luò)內(nèi)容演化趨勢(shì)影響因素分析——從詞的生命周期和背景詞簇環(huán)境中挖掘演化線索[J].情報(bào)理論與實(shí)踐,2012,35(6):44-48.
[23] Zhu X,Ghahramani Z.Learning from labeled and unlabeled data with label propagation [R].Technical Report CMUCALD-02-107,Carnegie Mellon University,2002.
[24] Zachary WW.An information flow model for conflict and fission in small groups [J].Journal of anthropological research.1977(33):452-473.
[25] Girvan M,Newman ME.Community structure in social and biological networks[C].Proceedings of the National Academy of Sciences,2002:821–7826.
[26] Newman ME,Girvan M.Finding and evaluating community structure in networks [J].Physical review E.2004,69(2):026113.