999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時(shí)間序列分析的微博突發(fā)話題檢測(cè)方法

2016-10-14 05:11:06賀敏徐杰杜攀程學(xué)旗王麗宏
通信學(xué)報(bào) 2016年3期
關(guān)鍵詞:趨勢(shì)特征分析

賀敏,徐杰,杜攀,程學(xué)旗,王麗宏

?

基于時(shí)間序列分析的微博突發(fā)話題檢測(cè)方法

賀敏1,2,徐杰2,杜攀1,程學(xué)旗1,王麗宏2

(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100080;2. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

針對(duì)微博信息噪音大、新穎度難以判斷的問(wèn)題,在動(dòng)量模型的基礎(chǔ)上進(jìn)行優(yōu)化,提出了基于時(shí)序分析的微博突發(fā)話題檢測(cè)方法。通過(guò)動(dòng)量模型提取候選突發(fā)特征后,對(duì)特征的動(dòng)量時(shí)間序列分別借鑒信號(hào)頻域分析理論和股票趨勢(shì)分析理論進(jìn)行建模,分析特征的頻域特性來(lái)識(shí)別頻繁偽突發(fā)特征,分析特征的新穎程度來(lái)識(shí)別間歇性偽突發(fā)特征,合并過(guò)濾后的有效突發(fā)特征形成突發(fā)話題。微博數(shù)據(jù)實(shí)驗(yàn)表明,該方法有效提高了突發(fā)話題檢測(cè)的準(zhǔn)確率和值。

突發(fā)話題;微博;突發(fā)特征;時(shí)序分析

1 引言

近年來(lái),隨著Web 2.0社交網(wǎng)絡(luò)的興起,微博以其方便快捷的優(yōu)點(diǎn)迅速流行起來(lái),現(xiàn)在已經(jīng)發(fā)展成為網(wǎng)絡(luò)信息傳播的主要途徑。微博用戶數(shù)量眾多,每天產(chǎn)生的信息量非常龐大。在微博中,人人都是信息的生產(chǎn)者和傳播者,信息發(fā)布、轉(zhuǎn)發(fā)非常便捷,這使微博成為信息傳播速度最快的網(wǎng)絡(luò)媒體。社會(huì)上許多突發(fā)性話題,往往在微博平臺(tái)上首發(fā),借助其好友轉(zhuǎn)發(fā)機(jī)制迅速傳播,引起廣泛的社會(huì)共鳴,進(jìn)而波及傳統(tǒng)媒體如新聞、論壇、博客等,產(chǎn)生巨大的社會(huì)影響。因此,微博平臺(tái)上的社會(huì)突發(fā)話題檢測(cè)技術(shù),對(duì)于社會(huì)熱點(diǎn)及時(shí)發(fā)現(xiàn)、網(wǎng)絡(luò)民意盡快感知、突發(fā)事件及早響應(yīng)等方面都具有積極的現(xiàn)實(shí)意義。

這里的微博突發(fā)話題是指微博上新出現(xiàn)的可能在短時(shí)間內(nèi)產(chǎn)生強(qiáng)大影響力的關(guān)于社會(huì)熱點(diǎn)事件的網(wǎng)絡(luò)話題。傳統(tǒng)的突發(fā)話題檢測(cè)方法主要面向新聞等長(zhǎng)文檔數(shù)據(jù),而且以突發(fā)特征的有效識(shí)別為基礎(chǔ),擴(kuò)展出突發(fā)話題。與傳統(tǒng)新聞話題相比,微博話題作為大眾媒體的產(chǎn)物,具有顯著的特點(diǎn)。

1) 話題的多樣性。同一時(shí)間微博上各種話題,如社會(huì)事件類話題、娛樂(lè)八卦類話題、個(gè)人生活瑣事等多種話題摻雜在一起,特別是一些生活瑣事類話題,可能表現(xiàn)出一些周期性的突發(fā)特點(diǎn),如周一“不想上班”,周末“出游計(jì)劃”,月末“月光族”等話題。

2) 話題的間歇性。同一個(gè)話題,通常會(huì)隨著微博用戶的關(guān)注程度和時(shí)間的推移經(jīng)歷一個(gè)產(chǎn)生、發(fā)展、成熟、衰退和消亡的完整生命周期。而且微博基于好友的轉(zhuǎn)發(fā)機(jī)制,導(dǎo)致海量的信息冗余,產(chǎn)生大量的滯后過(guò)期信息,這使話題表現(xiàn)出一定的間歇性特征。

微博信息表現(xiàn)出的這些特點(diǎn),對(duì)于傳統(tǒng)的基于突發(fā)特征的突發(fā)話題發(fā)現(xiàn)方法提出了新的挑戰(zhàn)。

1) 對(duì)于眾多具有突發(fā)性特點(diǎn)的特征,如何過(guò)濾日常生活類的周期性突發(fā)特征,是提高突發(fā)話題準(zhǔn)確性的一個(gè)關(guān)鍵問(wèn)題。

2) 如何識(shí)別間斷性突發(fā)特征,是確保突發(fā)話題新穎性的另外一個(gè)關(guān)鍵問(wèn)題。

本文針對(duì)上述挑戰(zhàn),在有意義串動(dòng)量模型識(shí)別突發(fā)話題[1]的基礎(chǔ)上,進(jìn)一步優(yōu)化識(shí)別方法,采用信號(hào)頻域分析的方法,分析頻繁特征的頻譜特性,區(qū)分社會(huì)性話題的突發(fā)特征與生活類話題的特征,過(guò)濾頻繁偽突發(fā)特征;采用股票趨勢(shì)分析的方法,利用趨勢(shì)性信息間接判斷突發(fā)特征的新穎度,過(guò)濾間歇性偽突發(fā)特征,提升突發(fā)特征識(shí)別的準(zhǔn)確率,進(jìn)而提高突發(fā)話題檢測(cè)的準(zhǔn)確率。

2 相關(guān)工作

話題檢測(cè)的研究主要包括3類方法,第1類是基于聚類的方法,有層次聚類、增量聚類等多種方法;第2類是基于矩陣分解的方法,有LSI、NMF等模型;第3類是基于概率生成的方法,有PLSI、LDA等模型。但是,突發(fā)話題的檢測(cè)方法主要是以突發(fā)特征的發(fā)現(xiàn)來(lái)驅(qū)動(dòng),再由突發(fā)特征映射到突發(fā)話題。Fung[1]首次提出了以特征為中心的話題聚類方法。該方法通過(guò)分析時(shí)間信息來(lái)獲取突發(fā)特征,然后根據(jù)突發(fā)特征的分布進(jìn)行突發(fā)話題聚類。He[2]借鑒了Fung的方法,通過(guò)使用譜分析方法對(duì)詞語(yǔ)權(quán)重(如TF-IDF)隨時(shí)間變化的曲線進(jìn)行分類,然后使用高斯模型和高斯混合模型分別對(duì)非周期性特征和周期性特征進(jìn)行建模,尋找突發(fā)時(shí)間段,最后使用無(wú)監(jiān)督的貪婪算法檢測(cè)發(fā)現(xiàn)周期性和非周期性突發(fā)話題。Kleinberg[3]提出的二狀態(tài)自動(dòng)機(jī)方法具有開創(chuàng)性,該方法基于一個(gè)隱馬爾可夫模型(HMM),模型中的觀測(cè)數(shù)據(jù)是主題詞在不同時(shí)間點(diǎn)上的詞頻序列,隱變量是詞語(yǔ)所處的狀態(tài)(突發(fā)狀態(tài)或非突發(fā)狀態(tài)),利用參數(shù)解析度和狀態(tài)翻轉(zhuǎn)代價(jià)2個(gè)參數(shù)來(lái)觸發(fā)狀態(tài)轉(zhuǎn)移,發(fā)現(xiàn)突發(fā)態(tài)和突發(fā)特征。

近年來(lái),在傳統(tǒng)方法的基礎(chǔ)上結(jié)合了社交網(wǎng)絡(luò)的新特性,提出了一些針對(duì)社交網(wǎng)絡(luò)突發(fā)話題檢測(cè)的新方法。Cui等[4]提出了將“#”作為Twitter突發(fā)事件的指示,根據(jù)“#”出現(xiàn)的位置、頻次分布、作者等信息定義了穩(wěn)定性、名言的可能性、作者熵等屬性來(lái)檢測(cè)Twitter突發(fā)事件。Du[5]使用微博中用戶影響力、信息的點(diǎn)擊數(shù)、回復(fù)數(shù)、收藏?cái)?shù)來(lái)綜合表示關(guān)鍵詞的能量,通過(guò)計(jì)算時(shí)間窗口內(nèi)的平均能量發(fā)現(xiàn)突發(fā)關(guān)鍵詞,對(duì)突發(fā)關(guān)鍵詞進(jìn)行相似度比較,合并發(fā)現(xiàn)突發(fā)話題。Shiva[6]提出了通過(guò)詞典學(xué)習(xí)的方法來(lái)識(shí)別新話題,如果當(dāng)前時(shí)刻的文檔不能用從前一時(shí)刻文檔中提取的詞典線性表示,則將文檔判定為新穎文檔,再將所有新文檔聚類產(chǎn)生新話題。Zhu[7]把網(wǎng)絡(luò)論壇話題發(fā)現(xiàn)中2個(gè)有代表性的模型(TF-IDF和UF-ITUF)結(jié)合起來(lái),從內(nèi)容特征和用戶參與度兩方面計(jì)算主題和話題的相似度,由此來(lái)更新原話題和產(chǎn)生新話題。

上述方法中,Cui[5]和Du[7]的方法僅考慮了話題的突發(fā)程度,Shiva[6]和Zhu[7]僅考慮了話題的新穎程度。而微博信息紛繁復(fù)雜,充斥著大量的歷史過(guò)期信息和個(gè)人生活信息,需要將突發(fā)性與新穎性結(jié)合起來(lái)分析,才能更加準(zhǔn)確地識(shí)別突發(fā)話題。本文在使用動(dòng)量模型判斷特征突發(fā)程度的基礎(chǔ)上,進(jìn)一步通過(guò)分析特征的時(shí)間序列判斷特征的頻繁程度和新穎程度,準(zhǔn)確識(shí)別新穎的突發(fā)話題特征,有效檢測(cè)突發(fā)話題。

3 基于特征時(shí)序分析的微博突發(fā)話題檢測(cè)方法

3.1 基于有意義串動(dòng)量模型的微博突發(fā)話題檢測(cè)方法

基于有意義串動(dòng)量模型的突發(fā)話題識(shí)別方法[8]中實(shí)時(shí)檢測(cè)有意義串,發(fā)現(xiàn)微博中不斷涌現(xiàn)的新詞,將新詞作為突發(fā)話題檢測(cè)的基本特征;利用動(dòng)力學(xué)原理建模這些基本特征的動(dòng)態(tài)變化特性,通過(guò)對(duì)特征變化的動(dòng)量和加速度分析,衡量其變化趨勢(shì)和突發(fā)程度,識(shí)別微博的突發(fā)性特征,進(jìn)而發(fā)現(xiàn)突發(fā)性話題。

有意義串提取[9]是一種回顧性檢測(cè),具體的提取過(guò)程為:首先通過(guò)重復(fù)串發(fā)現(xiàn)得到候選字符串;然后計(jì)算重復(fù)串的上下文鄰接類別,來(lái)衡量候選串是否滿足語(yǔ)用多樣性;最后通過(guò)語(yǔ)言模型來(lái)判斷字符串的語(yǔ)義完整性,經(jīng)過(guò)兩層過(guò)濾得到有意義串。有意義串在真實(shí)語(yǔ)境中大量使用,比詞語(yǔ)粒度更大,可以涵蓋正在使用的新詞和術(shù)語(yǔ),能夠更加準(zhǔn)確有效地反映實(shí)時(shí)微博話題的關(guān)鍵信息。

動(dòng)態(tài)提取觀察時(shí)間窗口內(nèi)微博信息的有意義串,作為局部微博信息的特征,借鑒動(dòng)力學(xué)原理對(duì)特征進(jìn)行建模,定義特征的“質(zhì)量”、“位置”、“速度”、“加速度”、“動(dòng)量”等基本屬性,來(lái)反映特征在事件發(fā)展過(guò)程中的變化趨勢(shì)及能量大小,進(jìn)而識(shí)別突發(fā)特征。特征的若干物理學(xué)基本屬性的定義如下。

定義1 特征的“質(zhì)量”指特征的重要性,它不隨時(shí)間變化,是特征的基本屬性,在一段較長(zhǎng)時(shí)間內(nèi)基本恒定。該值采用傳統(tǒng)的來(lái)衡量,通過(guò)統(tǒng)計(jì)特征在大量信息中的和計(jì)算得到。特征的質(zhì)量。

定義2 特征的“位置”與時(shí)間相關(guān),指特征在某一時(shí)刻的流通度或關(guān)注度,隨時(shí)間動(dòng)態(tài)變化。該值與特征在時(shí)刻出現(xiàn)的頻次、文檔頻次、參與博主數(shù)等相關(guān),計(jì)算式為

上述定義中,特征的“質(zhì)量”是在大量信息中統(tǒng)計(jì)得到的,反映了特征在普通文本流中的重要性。特征的“位置”是與時(shí)間相關(guān)的值,反映了特征在時(shí)刻的熱度。由這2個(gè)基本的定義,可以計(jì)算特征在時(shí)刻的速度,動(dòng)量和加速度。

根據(jù)動(dòng)力學(xué)定義,動(dòng)量反映了特征在時(shí)刻的能量大小及變化趨勢(shì),加速度反映了特征在時(shí)刻與時(shí)刻的二階變化趨勢(shì),即時(shí)刻的增長(zhǎng)率與時(shí)刻的增長(zhǎng)率相比是加快還是放緩。只有當(dāng)特征的和都滿足一定條件時(shí),表明特征在當(dāng)前時(shí)刻的瞬時(shí)能量比較大,而且有迅速增長(zhǎng)的趨勢(shì),該特征才是突發(fā)特征。

最后,根據(jù)突發(fā)特征的共現(xiàn)情況對(duì)突發(fā)特征聚類,得到突發(fā)話題。

3.2 基于頻域分析的頻繁偽突發(fā)特征識(shí)別

在3.1節(jié)方法中,突發(fā)特征識(shí)別的準(zhǔn)確率直接決定了突發(fā)話題檢測(cè)的準(zhǔn)確率。動(dòng)量模型雖然反映了特征的瞬時(shí)能量變化趨勢(shì),但是不能體現(xiàn)特征在較長(zhǎng)時(shí)間段的歷史能量情況。在真實(shí)微博信息中,存在這樣一類頻繁特征,如“工作人員”、“上半年”,“短信”等,它們周期性或者非周期性的頻繁出現(xiàn),但每天出現(xiàn)的頻次不會(huì)特別高。由于語(yǔ)言的多樣復(fù)雜性,這類頻繁特征可以在多重語(yǔ)境中重復(fù)出現(xiàn),偶爾呈現(xiàn)瞬時(shí)爆發(fā)增長(zhǎng)趨勢(shì),但實(shí)際上并非真正的突發(fā)話題關(guān)鍵特征,稱為頻繁偽突發(fā)特征。在這種情況下,動(dòng)量模型將這些特征誤識(shí)別為突發(fā)特征,最終產(chǎn)生錯(cuò)誤的突發(fā)話題。

為了識(shí)別上述頻繁偽突發(fā)特征,需要對(duì)特征在較長(zhǎng)歷史時(shí)間段的頻繁程度及變化規(guī)律進(jìn)行分析。而信號(hào)的頻域分析能夠直觀看到信號(hào)在不同頻率成份上的大小分布,直接反映了信號(hào)的頻繁程度,揭示了信號(hào)隨出現(xiàn)頻率的能量變化規(guī)律。因此,借鑒信號(hào)頻域分析的理論,對(duì)特征的動(dòng)量時(shí)間序列建模,將特征在一段時(shí)間的動(dòng)量時(shí)間序列看做離散時(shí)間信號(hào),變換到頻域空間,來(lái)觀察特征的能量分布規(guī)律特性。從離散時(shí)間信號(hào)變換到離散頻域信號(hào)的方法從采用信號(hào)處理中應(yīng)用廣泛的離散傅里葉變換,變換式如下

例如,通過(guò)3.1節(jié)方法發(fā)現(xiàn)在2013年10月的數(shù)據(jù)中發(fā)現(xiàn)了“事業(yè)單位”、“今天下午”、“墜入湄公河”、“暴力恐怖襲擊”這幾個(gè)突發(fā)特征,將特征連續(xù)28天的動(dòng)量時(shí)間序列,通過(guò)離散傅里葉變換變換到頻域中,在不同頻率上的能量分布曲線如圖1所示。

從圖1中看出,“事業(yè)單位”、“今天下午”2個(gè)特征的能量分布曲線中,0頻率上的能量比較大,而其他頻率上的能量相對(duì)較小,曲線有較明顯的沖擊,而實(shí)際上它們是頻繁偽突發(fā)特征;“墜入湄公河”、“暴力恐怖襲擊”2個(gè)特征的能量分布曲線中,0頻率上的能量與其他頻率上的能量差距相對(duì)較小,曲線比較平緩,而它們是真正的突發(fā)特征。曲線中0頻率代表信號(hào)的恒定分量,它的大小反映出特征每天出現(xiàn)的穩(wěn)定情況,曲線中的非0頻率代表信號(hào)的變化分量,它的大小反映出特征的變化情況。如果特征每天出現(xiàn)的頻次恒定,那么頻譜曲線中將只有0頻率的能量,其他頻率能量為0。為了區(qū)分頻繁偽突發(fā)特征和突發(fā)特征,利用上述特性給出能量比的定義。

定義3 信號(hào)的頻譜分布中,0頻率的能量與其他頻率能量平均值的比值稱為能量比,用符號(hào)表示

可作為特征是否為頻繁特征的度量,的值越大,特征是頻繁特征的可能性越大。實(shí)際應(yīng)用中通過(guò)大量的標(biāo)注數(shù)據(jù)訓(xùn)練得到閾值S,采用與閾值比較的方法過(guò)濾掉頻繁偽突發(fā)特征。

3.3 基于趨勢(shì)分析的間歇性偽突發(fā)特征識(shí)別

話題呈現(xiàn)出一定的生存周期,有些話題的產(chǎn)生、發(fā)展、消亡是連續(xù)的,從話題產(chǎn)生開始到結(jié)束期間,每天都產(chǎn)生相關(guān)消息,但是有些話題的發(fā)展是間歇性的,話題產(chǎn)生后沉寂幾天才會(huì)有新的進(jìn)展和消息,在話題存在的整個(gè)周期中,不一定每天都出現(xiàn)相關(guān)討論。因此,在3.1節(jié)方法中,存在一部分突發(fā)特征誤判,這類特征間歇性的出現(xiàn),實(shí)際上是一個(gè)話題,但由于動(dòng)量模型只判斷了瞬時(shí)的動(dòng)量和加速度,尚未判斷特征更長(zhǎng)時(shí)間段是否活躍,產(chǎn)生誤判。例如,圖2中所示的贛南臍橙被染色的話題中的特征“贛南臍橙”,最早在10月25日出現(xiàn),在接下來(lái)的3天內(nèi)討論比較少,而在10月29日又再次爆發(fā),根據(jù)動(dòng)量模型方法,它被再次識(shí)別為新的突發(fā)話題,而該話題實(shí)際上仍是10月25日話題的延續(xù),并非新穎的話題。

為了識(shí)別間歇性偽突發(fā)特征,需要分析特征在一定周期內(nèi)的新穎性。特征在一個(gè)話題周期內(nèi)第一次大量出現(xiàn)稱為突發(fā),而當(dāng)特征在一個(gè)話題周期內(nèi)再次出現(xiàn)時(shí),即使表現(xiàn)出瞬時(shí)爆發(fā),但是由于此次爆發(fā)與第一次真正的突發(fā)存在間歇期,從階段性趨勢(shì)來(lái)看,經(jīng)過(guò)間歇期后的爆發(fā)點(diǎn)應(yīng)該已經(jīng)處于特征的下降趨勢(shì)范圍。股票趨勢(shì)分析方法就是針對(duì)一定時(shí)間段的價(jià)格變化進(jìn)行平滑,分析價(jià)格在一定時(shí)間范圍的上漲或者下跌趨勢(shì)。因此,借鑒股票趨勢(shì)分析的方法,對(duì)話題周期內(nèi)的特征動(dòng)量進(jìn)行平滑,分析其階段性的趨勢(shì)特點(diǎn),進(jìn)而判斷突發(fā)特征的新穎性,識(shí)別出間歇性偽突發(fā)特征。下面給出幾個(gè)定義。

定義4 指數(shù)移動(dòng)平均(EMA, exponential moving average)將特征的動(dòng)量時(shí)間序列進(jìn)行天指數(shù)平均,平均后的動(dòng)量值與前天的動(dòng)量值相關(guān),對(duì)于較近的動(dòng)量值權(quán)重較大。

定義5 移動(dòng)平均收斂發(fā)散(MACD, moving average convergencc-divergence)指標(biāo)是由2條曲線構(gòu)成:一條實(shí)線(稱為MACD線)與一條虛線(稱為signal線)。MACD線是較快的EMA線和較慢的EMA線的差值,它對(duì)于動(dòng)量值變動(dòng)的反應(yīng)比較敏感。較快的EMA線與較慢的EMA線相比,取值更小,受影響的歷史區(qū)間更小,對(duì)當(dāng)前值反應(yīng)更快。signal線是MACD線是經(jīng)過(guò)指數(shù)平均之后的另一條EMA線,它對(duì)于動(dòng)量值變動(dòng)的反應(yīng)比較緩慢。計(jì)算式如下

(6)

當(dāng)快速的MACD線穿越慢速的Signal線,動(dòng)量的趨勢(shì)發(fā)生變化。用histogram來(lái)表示,它是MACD和signal的差值,計(jì)算式如下

擴(kuò)大了特征的平均動(dòng)量值和局部波動(dòng)之間的差異,當(dāng)>0時(shí),表示動(dòng)量處于上升趨勢(shì),當(dāng)<0時(shí),表示動(dòng)量處于下降趨勢(shì)。它可用來(lái)反映特征動(dòng)量的變化趨勢(shì),作為衡量特征新穎性的指標(biāo)。在經(jīng)過(guò)動(dòng)量模型判斷特征是否突發(fā)后,再次根據(jù)特征的值是否大于0,來(lái)判斷特征是否是間歇性偽突發(fā)特征。間歇性突發(fā)特征在首次出現(xiàn)時(shí),>0,動(dòng)量呈現(xiàn)上升態(tài)勢(shì),屬于突發(fā)特征;當(dāng)間歇性特征在話題周期內(nèi)再次出現(xiàn)時(shí),<0,動(dòng)量呈現(xiàn)下跌態(tài)勢(shì),則表明特征在前期出現(xiàn)過(guò)大規(guī)模爆發(fā),判斷該特征不是新穎的突發(fā)特征,該時(shí)間點(diǎn)不是突發(fā)點(diǎn)。例如,“贛南臍橙”的趨勢(shì)分析如圖3所示,表示特征的動(dòng)量,在 10月29日時(shí),雖然動(dòng)量和加速度都比較大,但是值小于0,表明該特征不是新穎的特征,屬于間歇性的偽突發(fā)特征。

圖3 “贛南臍橙”趨勢(shì)分析

在突發(fā)特征的趨勢(shì)分析中,參數(shù)1、2、3的取值與話題周期相關(guān)。變化較慢的EMA線中2的取值為一個(gè)話題周期,因?yàn)殚g歇性偽突發(fā)特征的識(shí)別限定在一個(gè)話題周期內(nèi),對(duì)于時(shí)間超過(guò)一個(gè)話題周期的突發(fā)特征可能是真正的突發(fā)特征。參考股票趨勢(shì)分析方法的參數(shù)選取,1的取值為2的一半,3取值介于1和2之間,能夠反映出趨勢(shì)的變化情況。通過(guò)大量統(tǒng)計(jì)分析和訓(xùn)練發(fā)現(xiàn),大部分話題的生存周期在一周以內(nèi),1取值為3,2取值為7,3取值為5,對(duì)于間歇性突發(fā)特征的識(shí)別比較有效。對(duì)于具體領(lǐng)域的突發(fā)話題檢測(cè),1、2、3的取值需要根據(jù)應(yīng)用場(chǎng)景重新調(diào)整。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)標(biāo)準(zhǔn)

本文通過(guò)互聯(lián)網(wǎng)采集新浪微博由1 000個(gè)加V活躍博主從2013年8月~11月發(fā)表的78萬(wàn)余條微博信息作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)將8月~10月中旬兩個(gè)半月的數(shù)據(jù)作為訓(xùn)練語(yǔ)料,將10月13日~11月9日的數(shù)據(jù)作為微博信息流檢測(cè)每天的突發(fā)話題。由2名輿情分析領(lǐng)域的專業(yè)人員對(duì)每天的數(shù)據(jù)進(jìn)行標(biāo)注,分別產(chǎn)生185和193個(gè)突發(fā)話題,取2人標(biāo)注的交集共180個(gè)突發(fā)話題做為作為評(píng)價(jià)實(shí)驗(yàn)結(jié)果的標(biāo)準(zhǔn)。根據(jù)標(biāo)注結(jié)果計(jì)算突發(fā)話題的準(zhǔn)確率、召回率和綜合指標(biāo)值,以此評(píng)價(jià)算法。

4.2 實(shí)驗(yàn)結(jié)果

由于微博文本高度稀疏,采用聚類的突發(fā)話題檢測(cè)方法在微博上效果較差,本實(shí)驗(yàn)采用將內(nèi)容與用戶結(jié)合起來(lái)的經(jīng)典模型TF-IDF&UF-IUF[7]方法與動(dòng)量模型方法、兩類改進(jìn)型的動(dòng)量模型方法來(lái)作對(duì)比。其中,2類改進(jìn)型的動(dòng)量模型方法是在動(dòng)量模型基礎(chǔ)上通過(guò)對(duì)特征頻域分析和趨勢(shì)分析進(jìn)行的優(yōu)化。實(shí)驗(yàn)結(jié)果如表1所示。

表1 突發(fā)話題檢測(cè)結(jié)果

從表1中看出,不管是動(dòng)量模型方法,還是在其基礎(chǔ)上優(yōu)化的頻域分析和趨勢(shì)分析方法,實(shí)驗(yàn)結(jié)果的準(zhǔn)確率和召回率都比TF-IDF&UF-IUF方法高很多。這是因?yàn)閯?dòng)量模型較好地反映了特征的瞬時(shí)能量變化,能夠快速發(fā)現(xiàn)突發(fā)特征。頻域分析方法和趨勢(shì)分析方法進(jìn)一步對(duì)特征進(jìn)行較長(zhǎng)時(shí)間段能量變化分析,與動(dòng)量模型方法相比,實(shí)驗(yàn)結(jié)果對(duì)召回率的影響較小,準(zhǔn)確率都有較大的提升。趨勢(shì)分析方法與頻域分析方法相比,準(zhǔn)確率和召回率都略高,因?yàn)橼厔?shì)分析方法過(guò)濾掉的突發(fā)話題均為錯(cuò)誤結(jié)果,對(duì)召回率沒(méi)有影響,準(zhǔn)確率提高較多;而頻域方法在過(guò)濾掉大部分錯(cuò)誤結(jié)果的同時(shí),也將個(gè)別正確的突發(fā)話題過(guò)濾掉,在準(zhǔn)確率提高的同時(shí),對(duì)召回率有影響。實(shí)驗(yàn)驗(yàn)證了頻域分析方法能夠準(zhǔn)確地識(shí)別頻繁偽突發(fā)特征,趨勢(shì)分析方法能夠準(zhǔn)確地識(shí)別間歇性偽突發(fā)特征,有效地過(guò)濾了動(dòng)量模型中的偽突發(fā)特征,進(jìn)而減少了錯(cuò)誤的突發(fā)話題發(fā)現(xiàn)結(jié)果。經(jīng)過(guò)頻域分析和趨勢(shì)分析方法兩層過(guò)濾后,剔除了大部分的錯(cuò)誤結(jié)果,突發(fā)話題發(fā)現(xiàn)的準(zhǔn)確率已經(jīng)高達(dá)96.27%。

為了進(jìn)一步分析話題準(zhǔn)確率提高的原因,表2顯示3種方法對(duì)于突發(fā)特征的識(shí)別結(jié)果對(duì)比。從表中看出,頻域分析在過(guò)濾掉一些頻繁偽突發(fā)特征的同時(shí),也將一部分正確的突發(fā)特征當(dāng)作頻繁特征錯(cuò)誤過(guò)濾,但是過(guò)濾的頻繁偽突發(fā)特征比例仍高于誤判的正確突發(fā)特征比例,所以在突發(fā)特征準(zhǔn)確率上仍有較大提升。雖然過(guò)濾掉一部分正確的突發(fā)特征,但是從表1看出,該步驟對(duì)正確突發(fā)話題的檢測(cè)數(shù)量只產(chǎn)生微小影響,這是因?yàn)闄z測(cè)發(fā)現(xiàn)的多個(gè)突發(fā)特征最終對(duì)應(yīng)一個(gè)正確的突發(fā)話題,只要尚未將一個(gè)突發(fā)話題對(duì)應(yīng)的所有突發(fā)特征都過(guò)濾掉,仍然可以通過(guò)特征聚類產(chǎn)生該突發(fā)話題。例如,10月14日的數(shù)據(jù)中,“高考改革、分值、英語(yǔ)科目、北京高考”是一個(gè)突發(fā)話題,“分值”通過(guò)頻域分析方法作為一個(gè)頻繁特征被刪除,但是該話題的其他幾個(gè)突發(fā)特征仍然存在,合并后突發(fā)話題仍然可以準(zhǔn)確識(shí)別。而“短信、客服”這樣的突發(fā)話題本來(lái)就是錯(cuò)誤結(jié)果,對(duì)應(yīng)的突發(fā)特征數(shù)量一般比較少,通過(guò)頻域分析能夠?qū)⑵淙窟^(guò)濾。

從表2的結(jié)果可以看出:趨勢(shì)分析的方法能夠減少錯(cuò)誤的突發(fā)特征數(shù)量,而準(zhǔn)確的突發(fā)特征數(shù)量幾乎沒(méi)有下降,突發(fā)特征發(fā)現(xiàn)的準(zhǔn)確率得到提升。因?yàn)橼厔?shì)分析方法僅將已經(jīng)出現(xiàn)過(guò)的間歇性突發(fā)特征過(guò)濾,對(duì)于正確的突發(fā)特征發(fā)現(xiàn)影響很小。例如,對(duì)于圖2所示的話題,通過(guò)趨勢(shì)分析能夠在10月28日判斷出“贛南臍橙”和“催熟染色”這2個(gè)突發(fā)特征并非新穎特征,將其從突發(fā)特征中刪除。

表2 突發(fā)特征識(shí)別結(jié)果

5 結(jié)束語(yǔ)

本文針對(duì)動(dòng)量模型方法對(duì)突發(fā)特征誤判的現(xiàn)象,提出了采用時(shí)間序列分析方法來(lái)過(guò)濾偽突發(fā)特征來(lái)檢測(cè)突發(fā)話題的優(yōu)化方法。在動(dòng)量模型的基礎(chǔ)上,對(duì)特征的動(dòng)量時(shí)間序列分別借鑒信號(hào)頻域分析理論和股票趨勢(shì)分析理論進(jìn)行建模,通過(guò)特頻域分析過(guò)濾掉頻繁偽突發(fā)特征,通過(guò)趨勢(shì)分析過(guò)濾掉間歇性偽突發(fā)特征,最終對(duì)有效的突發(fā)特征聚類產(chǎn)生突發(fā)話題。實(shí)驗(yàn)中,在對(duì)突發(fā)話題檢測(cè)召回率影響較小的情況下,該方法相對(duì)動(dòng)量模型方法將突發(fā)話題檢測(cè)準(zhǔn)確率從87.71%提升到96.27%,能夠有效提升突發(fā)話題檢測(cè)的準(zhǔn)確率和值。

基于特征時(shí)序分析的微博突發(fā)話題檢測(cè)方法有效提升了突發(fā)話題的準(zhǔn)確率,但未來(lái)仍需在如下2個(gè)方向上繼續(xù)探索:1)優(yōu)化突發(fā)特征的識(shí)別策略,采用學(xué)習(xí)方法或產(chǎn)生式策略加以整合識(shí)別;2)提升突發(fā)特征識(shí)別的召回率,通過(guò)利用好友關(guān)系、鏈接關(guān)系、轉(zhuǎn)發(fā)關(guān)系等豐富的關(guān)聯(lián)關(guān)系,彌補(bǔ)動(dòng)量模型方法對(duì)突發(fā)特征識(shí)別的漏檢。

[1] FUNG G, YU J, YU P, et al. Parameter free bursty events detection in text streams[C]//Conference on 31th VLDB. Trondheim, Norway, c2005: 181-192.

[2] HE Q. CHANG K, LIM E. Analyzing feature trajectories for event detection[C]//Conference on 30th SIGIR. Amsterdam, c2007: 208-214.

[3] KLEINBERG J. Bursty and hierarchical structure in steam[C]// Conference on KDD’02. Edmonton, Alberta, Canada, c2002: 91-101.

[4] CUI A, ZHANG M, LIU Y, et al. Discover breaking events with popular hashtags in twitter[C]// Conference on CIKM’12. Maui, HI, USA, c2012: 1796-1798.

[5] DU Y Y, HE Y X, TIAN Y. Microblog bursty topic detection based on userrelationship[C]// 6th IEEE Information Technology and Artificial Intelligence Conference. Chongqing, China, c2011: 260-263.

[6] SHIVA P K, PREM M, ARINDAM B. Emerging topic detection using dictionary learning[C]//Conference on CIKM’11. Glasgow, Scotland, UK, c2011: 745-754.

[7] ZHU M L, HU W M, WU O. Topic detection and tracking for threaded discussion communities[C]// IEEE/WIC/ACM International Conferences on Web Intelligences and Intelligent Agent Technology. c2008: 77-83.

[8] 賀敏, 杜攀, 張瑾, 等. 基于有意義串動(dòng)量模型的微博突發(fā)話題檢測(cè)方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(5): 1022-1028.

HE M, DU P,ZHANG J, et al. Microblog bursty topic detection method based on momentum model [J]. Journal of Computer Research and Development, 2015, 52(5):1022-1028

[9] 賀敏.面向互聯(lián)網(wǎng)的有意義串挖掘[D]. 北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2007.

HE M. Web-oriented Chinese meaningful string mining[D]. Beijing: Institute of Computing Technology, Chinese Academy of Sciences, 2007.

[10] ALAN R, MAUSAM, O E. Open domain event extraction from twitter[C]// Conference on KDD’12. Beijing, China, c2012: 1104-1112.

[11] ANDREW J, YASHAR M, JOEMON M. Building a large-scale corpus for evaluating event detection on twitter[C]// Conference on CIKM’13. San Francisco, CA, USA, c2013: 409-418.

[12] DIAO Q M, JIANG J, ZHU F D, et al. Finding bursty topics from microblogs[C]// The 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Korea, c2012: 536-544.

[13] POPESCU A M, PENNACCHIOTTI M, PARANJPE D A. Extracting events and event descriptions from twitter[C]// Conference on WWW’11. Hyderabad, India, c2011: 105-106.

[14] LI C L, SUN A X, DATTA A. Twevent: segment-based event detection from tweets[C]// Conference on CIKM’12. Maui, HI, USA, c2012: 155-164.

Bursty topic detection method for microblog based on time series analysis

HE Min1,2, XU Jie2, DU Pan1, CHENG Xue-qi1, WANG Li-hong2

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China; 2.National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)

Detecting bursty topics from microblogs was an important task to understand the current events attracting a large number of internet users. However, the existing methods suitable for news articles cannot be adopted directly for microblogs. Because microblogs have unique characteristics compared with formal texts, including diversity, dynamic and noise. A detection method for microblog bursty topic was proposed based on time series analysis, which was an optimization method of momentum model. The candidate bursty features were extracted by momentum model. The time series of feature’s momentum were modled by frequency domain analysis theory and stock trend analysis theory. The frequently pseudo-bursty features were filtered according to analysis results of frequency-domain characteristics. The intermittently pseudo-bursty features were filtered according to the novelty analysis result through stock trend theory. The bursty topics were finally emerged with combination of effective bursty features. The experiments are conducted on a real Sina microblog data set. It show that the proposed method improves the precision and-measure remarkably compared with the momentum modle.

bursty topic, microblog, bursty feature, time series analysis

TP391

A

10.11959/j.issn.1000-436x.2016052

2015-04-03;

2015-08-29

國(guó)家高技術(shù)研究發(fā)展計(jì)劃(“863”計(jì)劃)基金資助項(xiàng)目(No. 2014AA015203);國(guó)家科技支撐計(jì)劃基金資助項(xiàng)目(No. 2012BAH46B01)

The National High Technology Research and Development Program of China (863 Program)(No. 2014AA015203), The National Key Technology Support Program (No.2012BAH46B01)

賀敏(1982-),女,山西忻州人,中國(guó)科學(xué)院計(jì)算技術(shù)研究所博士生,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、輿情分析、自然語(yǔ)言處理等。

徐杰(1982-),男,山西五寨人,博士,國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全和多媒體技術(shù)。

杜攀(1981-),男,河南南陽(yáng)人,中國(guó)科學(xué)院計(jì)算技術(shù)研究所助理研究員,主要研究方向?yàn)槲谋就诰颉⑿畔z索、機(jī)器學(xué)習(xí)等。

程學(xué)旗(1971-),男,安徽安慶人,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)樾畔z索、文本挖掘、社會(huì)計(jì)算等。

王麗宏(1967-),女,遼寧沈陽(yáng)人,國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心副總工程師、研究員,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、輿情分析等。

猜你喜歡
趨勢(shì)特征分析
趨勢(shì)
隱蔽失效適航要求符合性驗(yàn)證分析
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住特征巧觀察
初秋唇妝趨勢(shì)
Coco薇(2017年9期)2017-09-07 21:23:49
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
SPINEXPO?2017春夏流行趨勢(shì)
趨勢(shì)
汽車科技(2015年1期)2015-02-28 12:14:44
主站蜘蛛池模板: 91精品国产自产91精品资源| 欧洲极品无码一区二区三区| 欧美激情一区二区三区成人| 亚洲av无码久久无遮挡| 欧美激情综合一区二区| 国产成人高清精品免费| av午夜福利一片免费看| 欧洲精品视频在线观看| 免费A∨中文乱码专区| 免费一级无码在线网站| 2024av在线无码中文最新| 欧美激情首页| 欧美天堂在线| 青草视频久久| 欧美一级99在线观看国产| 精品久久香蕉国产线看观看gif | 久久综合九九亚洲一区| 欧美精品亚洲二区| 在线观看网站国产| 亚洲Aⅴ无码专区在线观看q| 成人免费黄色小视频| Jizz国产色系免费| 国产精品夜夜嗨视频免费视频| 尤物成AV人片在线观看| 亚洲91在线精品| 色天天综合| 国产亚洲精品97AA片在线播放| 亚洲乱伦视频| 中日无码在线观看| 国产全黄a一级毛片| 丰满人妻被猛烈进入无码| 久久婷婷六月| 久久99国产视频| 噜噜噜久久| 这里只有精品国产| 91久草视频| 男女性色大片免费网站| 国产日韩欧美精品区性色| 美女国内精品自产拍在线播放 | 蜜桃视频一区| 亚洲欧美成人在线视频| 国产XXXX做受性欧美88| 国产在线精品人成导航| 四虎成人精品在永久免费| 丰满人妻一区二区三区视频| 欲色天天综合网| 香蕉精品在线| 午夜国产大片免费观看| 亚洲天堂精品在线| 三上悠亚精品二区在线观看| a级毛片在线免费| 国产精品一老牛影视频| 天天综合色网| 毛片三级在线观看| 国产91色在线| 亚欧成人无码AV在线播放| 第一页亚洲| 国产精品网址你懂的| 成人综合在线观看| 无码aⅴ精品一区二区三区| 国产精品亚洲精品爽爽| 国内精品免费| 欧美成人一级| 国产精品一区二区不卡的视频| 免费国产好深啊好涨好硬视频| 搞黄网站免费观看| 东京热高清无码精品| 中国一级特黄大片在线观看| 欧美一区二区三区国产精品| 色偷偷av男人的天堂不卡| 免费高清a毛片| 精品久久香蕉国产线看观看gif| 九九久久精品免费观看| 国产激爽大片在线播放| 国产乱子伦手机在线| 就去吻亚洲精品国产欧美| av色爱 天堂网| 久久伊人久久亚洲综合| 欧美中日韩在线| 色精品视频| 波多野结衣第一页| 丁香五月激情图片|