999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DTM-LPA的突發(fā)事件話題演化方法研究*——以H 7 N 9微博為例

2015-03-09 07:41:02吳小蘭章成志
圖書與情報(bào) 2015年3期
關(guān)鍵詞:文本方法模型

吳小蘭 章成志

(1.南京理工大學(xué)信息管理系 江蘇南京 210094)

(2.安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院 安徽蚌埠 233030)

(3.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 江蘇南京 210093)

1 引言

截止2015年3月,新浪微博月均活躍用戶數(shù)(Mau’s)為 1.98 億。 盡管每個(gè)用戶允許發(fā)布的微博文本通常受限制于140字以內(nèi),但規(guī)模如此龐大的微博群體所發(fā)布的言論在引發(fā)公共議題和公眾情緒等方面體現(xiàn)出了強(qiáng)大的輿論引導(dǎo)作用和傳播效果。有時(shí)微博上一些過激的言論被盲目地操縱或利用,如果不能積極控制與回應(yīng),可能小的負(fù)面情緒會(huì)滾雪球式地被放大,將政府、企業(yè)或其他機(jī)構(gòu)推向風(fēng)口浪尖,因此,研究微博平臺(tái)上民眾對(duì)公共突發(fā)事件的討論、跟蹤突發(fā)事件的事態(tài)發(fā)展等工作變得尤為重要。

話題演化的首先任務(wù)是話題發(fā)現(xiàn),有研究中有專門針對(duì)微博上話題識(shí)別的研究,如文獻(xiàn)[2-4],也有專門研究話題演化的,如文獻(xiàn)[5-6],但這些方法主要針對(duì)的是新聞?lì)惢蚩萍嘉墨I(xiàn)類的數(shù)據(jù)上,并不一定適合于微博這樣的短文本。為此,本文提出了一種結(jié)合動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)的DTM-LPA話題演化方法。而自2013年3月4日上海第一例人感染禽流感病毒患者死亡開始,H7N9禽流感疫情長(zhǎng)時(shí)間處于網(wǎng)絡(luò)輿論的核心,也成為我國(guó)微博廣泛使用后遇到的第一個(gè)全國(guó)性突發(fā)公共衛(wèi)生事件,因此本文采用所提出的DTM-LPA方法,以新浪微博(Sina Weibo)上H7N9禽流感事件為例進(jìn)行研究,重點(diǎn)關(guān)注H7N9中民眾所關(guān)心的話題與話題的演化。

2 話題演化相關(guān)研究概述

話題演化衡量的是同一話題隨時(shí)間推移表現(xiàn)出的動(dòng)態(tài)性、發(fā)展性和差異性。在話題檢測(cè)與跟蹤(Topic Detect ion and Tracking,簡(jiǎn)稱TDT)中,話題被定義為一個(gè)種子事件或活動(dòng)以及與之相關(guān)的所有事件或活動(dòng)。但是TDT并沒有有效利用語(yǔ)料中的時(shí)間信息,隨著話題模型的興起,借助話題模型,引入語(yǔ)料中的時(shí)間信息,研究話題隨時(shí)間的演化,逐漸成為在機(jī)器學(xué)習(xí)領(lǐng)域、文本挖掘領(lǐng)域研究的熱點(diǎn)。

根據(jù)文獻(xiàn)[7]的總結(jié),現(xiàn)有以下三類基于話題模型的話題演化方法:(1)將時(shí)間信息融入LDA(Latent Dirichlet Allocation)模型中的方法;(2)后離散分析(Post-discretized Analysis)的方法;(3)按時(shí)間先離散(Pre-discretized)方法。其中,第一類方法是將文本的時(shí)間信息作為可觀測(cè)變量結(jié)合到LDA話題模型中去訓(xùn)練文本集合上話題的分布,如Topic Over Time(TOT) 模型;第二類方法先忽略時(shí)間,再在整個(gè)文本集合上運(yùn)用LDA或者LDA的改進(jìn)模型獲取話題,最后利用文本的時(shí)間信息檢查話題在離散時(shí)間上的分布來衡量演化,如2004年Griffiths等人提出的方法、2008年Hall等人提出的方法等;第三類方法先根據(jù)其時(shí)間信息將文本離散到時(shí)間序列上對(duì)應(yīng)的時(shí)間窗口內(nèi),然后依次地處理每個(gè)時(shí)間窗口上的文本集合,最終形成話題隨時(shí)間的演化,如動(dòng)態(tài)話題模型(Dynamic Topic Mo del,DTM)、連續(xù)時(shí)間的動(dòng)態(tài)話題模型(Continuous Time Dynamic Topic Model,CT-DT M)、動(dòng)態(tài)混合模型(Dynamic Mixture Model,DMM)、Multiscale Topic Tomography 模型(MTTM)、增量 LDA(Incremental Latent Dirichlet Allocation,ILDA)等。

上述話題模型中,除了ILDA外,其余方法都假設(shè)話題數(shù)目是固定不變的,顯然這不符合現(xiàn)實(shí)。在現(xiàn)實(shí)中,隨著時(shí)間的推移,會(huì)產(chǎn)生新話題,也會(huì)有舊話題的消亡和分裂。除此之外,利用LDA模型時(shí),話題的表示和話題可解釋性也存在比較大的爭(zhēng)議。為了提升LDA建模時(shí)話題的表示,文獻(xiàn)[20]中通過對(duì)表示話題的詞語(yǔ)進(jìn)行分析組合,用更有意義的詞組(ngram)代替單個(gè)詞語(yǔ)來表示話題。因此本文也利用話題模型進(jìn)行話題演化分析,但是本文利用話題模型的主要目的不是得到各個(gè)話題內(nèi)容,而是得到各個(gè)時(shí)間窗口上有價(jià)值的演化詞,因此本文可以不受話題模型話題數(shù)目不變的限制。另外,在得到有價(jià)值的演化詞后,本文從詞語(yǔ)的關(guān)系特性(即語(yǔ)義特征)入手去挖掘各個(gè)話題和解釋各個(gè)話題,并根據(jù)不同時(shí)間窗口的對(duì)比來追蹤各個(gè)話題的演化。

3 基于DTM-LPA的微博話題演化分析方法

3.1 基本框架

微博具有與傳統(tǒng)長(zhǎng)文本不同的特點(diǎn),即內(nèi)容短小、格式雜亂等,這使得話題演化模型DTM在微博上的運(yùn)用很不理想,得到的話題很難解釋和被理解,為此,本文在不固定話題數(shù)目時(shí)利用DTM獲得高價(jià)值的演化詞,然后結(jié)合這些高價(jià)值演化詞的共現(xiàn)關(guān)系來表征詞之間的語(yǔ)義關(guān)系,并借用社區(qū)發(fā)現(xiàn)技術(shù)挖掘出的詞之間語(yǔ)義關(guān)系來解釋話題模型結(jié)果。在詞的語(yǔ)義關(guān)系挖掘方面,史劍虹等使用了頻繁項(xiàng)集算法FP-growth來挖掘詞之間語(yǔ)義關(guān)系,但由于FP-growth算法時(shí)間復(fù)雜度過高,因此該方法不適用于大量微博數(shù)據(jù)集上使用,本文使用了具有線性時(shí)間復(fù)雜度算法的標(biāo)簽傳播算法 (Label Propagation Algorithm,LPA)來實(shí)現(xiàn)。本文將基于動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)想結(jié)合的話題演化方法,簡(jiǎn)稱為DTM-LPA微博話題演化分析(基本框架見圖1)。

話題演化部分主要利用DTM生成各個(gè)時(shí)間窗口中高價(jià)值的演化詞。首先進(jìn)行數(shù)據(jù)采集及數(shù)據(jù)處理,這里的數(shù)據(jù)處理主要包括數(shù)據(jù)噪聲處理等清洗工作、中文分詞、停用詞過濾、詞大小寫的預(yù)處理(如“H7N9禽流感”處理成“h7n9禽流感”);然后根據(jù)微博發(fā)布的月份劃分微博,形成各個(gè)月份的微博數(shù)據(jù)集,處理成DTM所需的格式,利用DTM進(jìn)行話題演化建模;本文演化結(jié)果解釋部分主要利用社區(qū)發(fā)現(xiàn)技術(shù)LPA挖掘DTM演化詞中隱含的社區(qū)。為此,文文先根據(jù)DTM得到的結(jié)果,抽取每個(gè)時(shí)間窗口中高價(jià)值的演化詞,同時(shí)根據(jù)這些詞在各個(gè)時(shí)間片上的微博原文生成詞共現(xiàn)網(wǎng)絡(luò);然后利用LPA發(fā)現(xiàn)演化詞的之間社區(qū),并根據(jù)各個(gè)社區(qū)話題追蹤各個(gè)時(shí)間片上的話題給出演化分析。

圖1 基于DTM-LPA的微博話題演化分析流程圖

3.2 關(guān)鍵技術(shù)描述

3.2.1 各個(gè)時(shí)間窗口中演化詞生成及其關(guān)鍵技術(shù)

根據(jù)文獻(xiàn)[22]的分析,從較短時(shí)間周期上來看,所有以網(wǎng)絡(luò)為載體的內(nèi)容存在著積累性和變革性,存在一個(gè)主題內(nèi)容的 “產(chǎn)生”、“生長(zhǎng)”、“成熟”、“分化”、“消退”等階段,同樣承載著這些主題內(nèi)容的這些詞也會(huì)出現(xiàn)一個(gè)“生長(zhǎng)”、“爆發(fā)”、“流行”、“消退”、“再增長(zhǎng)”等不同的階段。因此,本文使用這類具有生命特征的演化詞(見定義1)來進(jìn)行話題演化分析。

定義1:演化詞是指具備自然衰減特征能代表話題內(nèi)容的重要詞。所謂自然衰減特征是指詞在第一次出現(xiàn)后可能在后續(xù)文檔中不再出現(xiàn)、再次出現(xiàn)、多次出現(xiàn)或一段時(shí)間內(nèi)的頻繁出現(xiàn)。

為了生成各個(gè)時(shí)間窗口中高價(jià)值的演化詞,本文首先收集了事件生后一年(2013.3-2014.2)的所有相關(guān)微博言語(yǔ)文本,并以月為時(shí)間粒度劃分?jǐn)?shù)據(jù)集,借用DTM獲取話題在各個(gè)時(shí)間窗口上的分布強(qiáng)度和話題的內(nèi)容演化。在DTM模型中,文本先根據(jù)其時(shí)間信息離散到時(shí)間序列上對(duì)應(yīng)的時(shí)間窗口內(nèi),然后依次地處理每個(gè)時(shí)間窗口上的文本集合,最終形成話題隨時(shí)間的演化。DTM模型中下一時(shí)刻模型參數(shù)往往依賴于當(dāng)前時(shí)刻模型參數(shù)的后驗(yàn) (模型見圖2),且前后事件參數(shù)之間存在以下關(guān)聯(lián):

(1)β|β~N(β,σI);

圖2 動(dòng)態(tài)話題模型圖模型[15]

(2)α|α~N(β,δI)。

其中,α,β分別是自然參數(shù)。

3.2.2 演化詞詞網(wǎng)絡(luò)構(gòu)建及其社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)

在利用DTM生成各個(gè)時(shí)間窗口的演化詞后,本文利用各個(gè)時(shí)間窗口上的微博來構(gòu)建詞網(wǎng)絡(luò)。本文主要用共現(xiàn)性方式來構(gòu)建演化詞網(wǎng)絡(luò)。本文定義演化詞的共現(xiàn)為:若演化詞Term和Term同時(shí)出現(xiàn)在某一條微博中,則稱Term和Term共現(xiàn)。這樣,演化詞共現(xiàn)關(guān)系網(wǎng)可以使用一個(gè)無(wú)向帶權(quán)圖(見定義2)來表示。

定義2:演化詞關(guān)系網(wǎng)絡(luò)是由演化詞及演化詞共現(xiàn)關(guān)系構(gòu)成的無(wú)向帶權(quán)圖,表示為G=(G,E,W),其中 G為演化詞集,E為演化詞共現(xiàn)關(guān)系集,W為演化詞共現(xiàn)次數(shù)集。如果兩個(gè)演化詞出現(xiàn)在一條微博中,則它們之間存在一條邊,邊的權(quán)值也增加1。

在演化詞共現(xiàn)關(guān)系網(wǎng)構(gòu)建完成后,由于微博條數(shù)較多,構(gòu)建出的演化詞網(wǎng)絡(luò)規(guī)模將很大,本文將使用具有線性時(shí)間復(fù)雜度的LPA算法找出演化詞的社區(qū)。LPA(Label Propagation Algorithm,標(biāo)簽傳播算法)是 Zhu等人于2002年提出的一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思想是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測(cè)未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。2007年,Raghavan等首次將LPA應(yīng)用于社區(qū)發(fā)現(xiàn),并在Zachary Karate 網(wǎng) 絡(luò)、College Football網(wǎng) 絡(luò)等 真實(shí)基準(zhǔn)網(wǎng)上進(jìn)行了測(cè)試,結(jié)果表明LPA的社區(qū)結(jié)構(gòu)檢測(cè)效果良好。LPA應(yīng)用于社區(qū)發(fā)現(xiàn)的步驟為:(1)初始化網(wǎng)絡(luò)中所有節(jié)點(diǎn)的標(biāo)簽,依次為每個(gè)節(jié)點(diǎn)分配唯一的標(biāo)簽;(2)令迭代次數(shù) t=1;(3)隨機(jī)排列網(wǎng)絡(luò)中的節(jié)點(diǎn),生成序列X;(4)按照序列X中的順序,對(duì)X中的每個(gè)節(jié)點(diǎn) v,使用來更新自身的標(biāo)簽,其中是擁有l(wèi)標(biāo)簽的v的鄰居節(jié)點(diǎn)集。如果存在多個(gè)標(biāo)簽數(shù)量最多時(shí),則隨機(jī)選擇其中一個(gè);(5)如果每個(gè)節(jié)點(diǎn)具有的標(biāo)簽都是其鄰居節(jié)點(diǎn)中出現(xiàn)次數(shù)最多的標(biāo)簽,那么算法停止,否則令t=t+1,轉(zhuǎn)到步驟(3)。

在衡量社區(qū)劃分質(zhì)量時(shí),通常使用的一個(gè)指標(biāo)是模塊度(modularity),其計(jì)算公式是:

其中,A是網(wǎng)絡(luò)圖的鄰接矩陣,m是網(wǎng)絡(luò)圖的邊數(shù),P表示空模型中節(jié)點(diǎn)i和j之間邊的期望值,如果節(jié)點(diǎn) i和 j在同一個(gè)社區(qū),δ(C,C)=1,否則為 0。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)集概述

H7N9禽流感疫情屬于突發(fā)公共衛(wèi)生事件,在社交媒體上有大量的相關(guān)用戶生成內(nèi)容產(chǎn)生和傳播。文本使用新浪微博上有關(guān)H7N9的微博作為本文實(shí)驗(yàn)的數(shù)據(jù)集。自2013年3月開始,項(xiàng)目組采集集了隨后1年時(shí)間內(nèi)有關(guān)H7N9的微博數(shù)據(jù) (使用結(jié)巴分詞包分詞、停用詞過濾后得到的各個(gè)月份的微博數(shù)見表1)。

表1 新浪H7N9微博數(shù)據(jù)集統(tǒng)計(jì)

4.2 結(jié)果分析

4.2.1 基于DTM的演化詞抽取與演化詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建

本文僅僅是為了獲得各個(gè)時(shí)間窗口上高價(jià)值的演化詞,在利用DTM建模時(shí)不需要關(guān)心文本內(nèi)的話題數(shù)目,為此本文將話題數(shù)目設(shè)置為1進(jìn)行DTM建模。

DTM建模過程如下:編譯Blei的DTM模型;②自編程序?qū)㈩A(yù)處理后的微博文檔處理成ldac格式,ldac格式要求按時(shí)間先后順序排列各個(gè)時(shí)段微博,一行一條微博,每一行形式為“詞數(shù) 詞1編號(hào):詞1頻次 詞2編號(hào):詞2頻次……詞n編號(hào):詞n頻數(shù)”(詞數(shù)只指該微博內(nèi)不同詞的個(gè)數(shù),詞的編號(hào)指該詞在整個(gè)微博語(yǔ)料集中的編號(hào);③生成微博時(shí)間信息文檔,文檔里包括總的時(shí)間窗口數(shù)和各個(gè)時(shí)間窗口上對(duì)應(yīng)的微博數(shù);④設(shè)置主題數(shù)及最大EM迭代次數(shù)進(jìn)行模型訓(xùn)練。

在利用DTM將訓(xùn)練模型后,最初本文選取了各個(gè)時(shí)間窗口中前1000個(gè)作為有價(jià)值的演化詞,并根據(jù)這些演化詞在各個(gè)時(shí)間窗口的共現(xiàn)關(guān)系去了解這些詞之間的關(guān)系。但是發(fā)現(xiàn)每個(gè)時(shí)間窗口若只根據(jù)當(dāng)前窗口上DTM得到的前1000個(gè)詞構(gòu)造出的網(wǎng)絡(luò)非常稀疏,如根據(jù)2013年4月份336177條微博利用DTM上前1000個(gè)詞構(gòu)造的加權(quán)網(wǎng)絡(luò)的邊數(shù)為2815,節(jié)點(diǎn)數(shù)僅為217,利用其他微博數(shù)規(guī)模小的月份甚至都難以得到一個(gè)完整的網(wǎng)絡(luò)。上述問題極有可能是由于以下原因?qū)е碌模孩傥⒉┒涛谋颈旧砭拖∈瑁虎贒TM模型中下一時(shí)間窗口的模型參數(shù)依賴于前一時(shí)間窗口的結(jié)果,因此不能僅僅根據(jù)當(dāng)前時(shí)間窗口中的價(jià)值較高的演化詞來構(gòu)造詞網(wǎng)絡(luò)。所以,本文采用了增量式的方法構(gòu)造重要演化詞:當(dāng)前一個(gè)時(shí)間窗口的演化詞由該時(shí)間窗口DTM的前1000個(gè)演化詞與前面所有時(shí)間窗口的所有演化詞共同構(gòu)成。根據(jù)增量式的方法得到每個(gè)時(shí)間窗口的重要演化詞后,我們根據(jù)在各個(gè)時(shí)間窗口上的微博文本中的共現(xiàn)構(gòu)造出了這些演化詞的共現(xiàn)網(wǎng)絡(luò) (結(jié)果見表2)。

表2 各個(gè)時(shí)間窗口上演化詞共現(xiàn)網(wǎng)絡(luò)規(guī)模

從結(jié)果中可以看出,盡管隨著時(shí)間的推移,重要演化詞的數(shù)目在逐漸增加,但是最終得到的共現(xiàn)網(wǎng)絡(luò)規(guī)模并不一直逐漸增大,這主要是因?yàn)楦鲿r(shí)間窗口上微博條數(shù)不一樣所導(dǎo)致的。

4.2.2 共現(xiàn)網(wǎng)絡(luò)上的社區(qū)發(fā)現(xiàn)與微博話題演化結(jié)果生成

在得到重要演化詞的共現(xiàn)網(wǎng)絡(luò)后,本文利用LPA算法進(jìn)行了社區(qū)發(fā)現(xiàn),并選取LPA多次執(zhí)行中模塊度最大的結(jié)果作為社區(qū)劃分結(jié)果,直到舍棄到在規(guī)模小于6的無(wú)意義社區(qū)后,并按照節(jié)點(diǎn)度數(shù)從大到小的順序給出了得到的各個(gè)時(shí)間窗口中前三個(gè)規(guī)模大的社區(qū)的結(jié)果(見圖3),其中在2013.04這個(gè)月份僅僅得到一個(gè)社區(qū),所以只給出了一個(gè)社區(qū)的結(jié)果。

從演化結(jié)果可以看出:(1)在這1年的有關(guān)H7N9的微博上,H7N9相關(guān)的話題還是占主要部分,在每個(gè)時(shí)間窗口上最大的社區(qū)總是“H7N9禽流感”。但對(duì)比各個(gè)時(shí)間窗口“H7N9禽流感”這個(gè)話題其結(jié)果,可以看出還是存在一個(gè)大致演化,尤其是在2013.07月,其最大社區(qū)內(nèi)容演化為 “新聞通報(bào)”與“北京患者研究”相關(guān)的2個(gè)主要社區(qū),這個(gè)“北京”出現(xiàn)與高頻詞統(tǒng)計(jì)結(jié)果(見下圖4)極為相似;(2)在2013.04月所有的節(jié)點(diǎn)都被劃分進(jìn)一個(gè)社區(qū),這說明在這個(gè)月大家的注意力都集中在“H7N9”方面,討論的其他話題相對(duì)減弱,這也可以從2013.04這一個(gè)月的微博數(shù)占據(jù)量(336177/446126=75%)能得到進(jìn)一步的驗(yàn)證;(3)除了2013.04外,在其余各個(gè)窗口上用戶也都會(huì)討論一些日常討論的內(nèi)容,如2013.10月的“娛樂”、2013.11 月的“金融”、2014.01 月的“驅(qū)寒”、“過年”、2014.02 月的“臘味”(表明強(qiáng)烈過年的氛圍)、2014.02 月的“中國(guó)好聲音”(“畢夏”為參加“中國(guó)好聲音”的學(xué)員);(4)從整體上來看,“H7N9 禽流感”話題的討論也引發(fā)了大家對(duì)“養(yǎng)鴨”等家禽業(yè)、“個(gè)人衛(wèi)生”、“醫(yī)藥產(chǎn)業(yè)”、“非典”等話題的討論。

圖3 基于DTM-LPA的微博話題演化結(jié)果

4.2.3 結(jié)果比較分析

最后,在實(shí)驗(yàn)中本文使用了基于DTM方法和常用的詞頻統(tǒng)計(jì)方法作為Baseline,得到基于DTM的微博演化結(jié)果(見圖4),其中,話題數(shù)設(shè)置為3,第1、2、3列分別對(duì)應(yīng)圖3第一、二、三個(gè)話題)和基于高頻詞統(tǒng)計(jì)的微博演化結(jié)果(見表五)。

可以發(fā)現(xiàn)這種DTM結(jié)果不太理想:2013.07窗口上有2個(gè)話題基本相近,2013.08窗口上也有2個(gè)話題基本一樣,2013.11窗口上甚至3個(gè)話題都是一樣。除此之外,整體上各個(gè)窗口的差異性很小,微博都在討論“禽流感”、“死亡”等相關(guān)話題,很難細(xì)辨出各個(gè)窗口討論的差異。經(jīng)過多次設(shè)置不同的主題數(shù)進(jìn)行DTM建模,其結(jié)果可讀性均不強(qiáng)。

通過高頻詞演化結(jié)果,直觀上每個(gè)時(shí)間窗口得到的結(jié)果極為相似,各個(gè)時(shí)間窗口的差異性不明顯,除了一些“上海”、“北京”、“廣東”、“浙江”、“疫苗”詞存在差異外,其余高頻詞都大致一樣。可見,在這種只涉

圖4 基于DTM的微博演化結(jié)果

圖5 基于高頻詞統(tǒng)計(jì)的微博演化結(jié)果

及H7N9一個(gè)事件的微博文本上,詞頻統(tǒng)計(jì)方法得到的話題可區(qū)分性較差,很難識(shí)別出各個(gè)階段的話題。

對(duì)比三種方法得到的演化結(jié)果,可以發(fā)現(xiàn)本文提出的基于DTM-LPA方法相對(duì)來說更適合分析H7N9事件的演化:能清晰地看出各個(gè)時(shí)段文本內(nèi)容演化,更能區(qū)分出文本內(nèi)容演化中詞的出現(xiàn)、發(fā)展、流行、成熟、消退等階段(例如,2014.01月“驅(qū)寒”、“過年”、2014.02月“臘味”等詞的出現(xiàn))。分析其中的原因,主要在于:本文所用的突發(fā)事件語(yǔ)料比較單一(僅僅只選用H7N9這一個(gè)突發(fā)事件的微博),這樣各個(gè)時(shí)間窗口話題差異性不大,話題太接近,導(dǎo)致DTM和基于詞頻方法效果差。這也進(jìn)一步說明DTM方法和基于詞頻統(tǒng)計(jì)方法可能更適合處理話題差異性大的語(yǔ)料上。

5 結(jié)語(yǔ)

突發(fā)事件話題追蹤研究對(duì)我國(guó)經(jīng)濟(jì)、軍事和政府部門都有著極大的現(xiàn)實(shí)意義和應(yīng)用需求,因此本文提出了一種結(jié)合動(dòng)態(tài)話題模型與社區(qū)發(fā)現(xiàn)方法的話題追蹤分析的方法,并以微博上H7N9禽流感事件為例進(jìn)行了分析。結(jié)果顯示本文提出的方法較詞頻統(tǒng)計(jì)法與單純的動(dòng)態(tài)話題模型方法要好,也能基本呈現(xiàn)出各個(gè)時(shí)段民眾在H7N9禽流感事件期間所討論的話題。但是,本文同樣會(huì)存在一個(gè)比較大眾的問題,即無(wú)法給出一個(gè)話題演化的評(píng)判標(biāo)準(zhǔn)。

盡管本文所提方法能對(duì)微博話題進(jìn)行演化分析,但是對(duì)不同時(shí)間窗口上的各個(gè)話題所處的生命周期(如“新生”、“生長(zhǎng)”、“分化”、“消退”)并沒有進(jìn)行深入研究,這將是未來下一步的一個(gè)研究工作。除此之外,利用規(guī)模更大的其他突發(fā)事件語(yǔ)料庫(kù)進(jìn)行測(cè)試及探索更加合理的話題演化分析評(píng)估方法也是本文后續(xù)的研究工作。

[1] 2015年第一季度財(cái)務(wù)報(bào)告:微博Q1凈營(yíng)收達(dá)9630萬(wàn)美元[EB/OL].[2015-06-18].http://www.chinabgao.com/stat/stats/42373.html.

[2] 史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2014,31(3):700-704.

[3] 米文麗,孫曰昕.利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(8):163-167.

[4] 鄭斐然,苗奪謙,張志飛.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141.

[5] 楚克明,李芳.基于 LDA話題關(guān)聯(lián)的話題演化[J].上海交通大學(xué)學(xué)報(bào),2010,44(11):1496-1500.

[6] 趙旭劍.中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)研究 [D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2012.

[7] 單斌,李芳.基于 LDA話題演化研究方法綜述[J].中文信息學(xué)報(bào),2010,24(6):43-49.

[8] 洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71-87.

[9] Hofmann T,editor Probabilistic latent semantic indexing [C].Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,1999:50-57.

[10] Griffiths T,Steyvers M.A probabilistic approach to semantic representation [C].Proceedings of the 24th annual conference of the cognitive science society,2002:381-386.

[11] Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].the Journal of machine Learning research,2003(3):993-1022.

[12] Wang X,McCallum A,editors.Topics over time:a non-Markov continuous-time model of topical trends[C].Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006:424-433.

[13] Griffiths TL,Steyvers M.Finding scientific topics [J].Proceedings of the National Academy of Sciences.2004,101(suppl 1):5228-5235.

[14] Hall D,Jurafsky D,Manning CD.Studying the history of ideas using topic models [C].Proceedings of the conference on empirical methods in natural language processing,2008:363-371.

[15] Blei DM,Lafferty JD.Dynamic topic models [C].Proceedings of the 23rd international conference on Machine learning,2006:113-120.

[16] Wang C,Blei D,Heckerman D.Continuous time dynamic topic models[J].arXiv preprint arXiv:12063298.2012.

[17] Wei X,Sun J,Wang X.Dynamic Mixture Models for Multiple Time-Series [C].Proceedings of the International Joint Conference on Artificial Intelligence(IJCAI),2007:2909-2914.

[18] Nallapati RM,Ditmore S,Lafferty JD,etal.Multiscale topic tomography [C].In:Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining,2007:520-529.

[19] Song X,Lin C-Y,Tseng BL,etal.Modeling and predicting personal information dissemination behavior [C].Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,2005:479-488.

[20] Blei DM,Lafferty JD.Visualizing topics with multi-word expressions[J].arXiv preprint arXiv:09071013.2009.

[21] Raghavan UN,Albert R,Kumara S.Near linear time algorithm to detect community structures in large-scale networks[J].Physical Review E.2007,76(3):036106.

[22] 洪娜,錢慶,李亞子,等.網(wǎng)絡(luò)內(nèi)容演化趨勢(shì)影響因素分析——從詞的生命周期和背景詞簇環(huán)境中挖掘演化線索[J].情報(bào)理論與實(shí)踐,2012,35(6):44-48.

[23] Zhu X,Ghahramani Z.Learning from labeled and unlabeled data with label propagation [R].Technical Report CMUCALD-02-107,Carnegie Mellon University,2002.

[24] Zachary WW.An information flow model for conflict and fission in small groups [J].Journal of anthropological research.1977(33):452-473.

[25] Girvan M,Newman ME.Community structure in social and biological networks[C].Proceedings of the National Academy of Sciences,2002:821–7826.

[26] Newman ME,Girvan M.Finding and evaluating community structure in networks [J].Physical review E.2004,69(2):026113.

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美人与动牲交a欧美精品| 国产女人水多毛片18| 亚洲欧洲日韩久久狠狠爱| 欧美日韩动态图| 99在线视频网站| 国产精品.com| 不卡的在线视频免费观看| 五月丁香伊人啪啪手机免费观看| 国产麻豆精品手机在线观看| 久久窝窝国产精品午夜看片| 欧美翘臀一区二区三区 | 亚洲精品高清视频| 久久午夜影院| 91无码视频在线观看| 亚洲狼网站狼狼鲁亚洲下载| 日韩中文精品亚洲第三区| 日韩毛片在线视频| 高清亚洲欧美在线看| 国产网站在线看| 亚洲大学生视频在线播放| 农村乱人伦一区二区| 国产成人精品亚洲77美色| 国产成人艳妇AA视频在线| 亚洲成人动漫在线观看| 激情综合网激情综合| 熟女成人国产精品视频| 在线亚洲精品福利网址导航| 日本在线免费网站| 国产粉嫩粉嫩的18在线播放91| 黄色三级网站免费| 久久国产香蕉| 日韩欧美国产成人| 91精品国产丝袜| 欧美日韩成人在线观看| 国产亚洲精久久久久久久91| 狠狠操夜夜爽| 亚洲天堂自拍| 精品国产99久久| 国产极品美女在线播放| 亚洲熟妇AV日韩熟妇在线| 97狠狠操| 九九热免费在线视频| 久久精品丝袜| 色天天综合| 国产高潮流白浆视频| 美女被操黄色视频网站| 色国产视频| 亚洲精品第五页| 亚洲国产精品无码AV| 国产成人1024精品下载| 亚洲精品国产综合99久久夜夜嗨| 天天色综网| 婷婷午夜天| 在线精品视频成人网| 亚洲精品制服丝袜二区| 亚洲欧洲日产无码AV| 好吊妞欧美视频免费| 激情综合五月网| 亚洲AV人人澡人人双人| 久久久久无码精品| 成人精品午夜福利在线播放| 波多野结衣无码AV在线| 青青草一区| 免费va国产在线观看| 中国美女**毛片录像在线| 91香蕉国产亚洲一二三区| 国产理论精品| 99精品久久精品| 国产三级成人| 五月天久久综合| 亚洲国产中文精品va在线播放| 国产午夜无码专区喷水| 色噜噜狠狠色综合网图区| 国产尤物视频网址导航| 国产一级在线观看www色 | 国产美女精品人人做人人爽| 国产人前露出系列视频| 欧美午夜网站| 91国内在线视频| 波多野结衣一区二区三区四区视频 | 色亚洲激情综合精品无码视频| 国产精品永久久久久|