999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型和多層聚類的微博話題檢測(cè)

2016-02-27 03:41:09劉紅兵李文坤張仰森
關(guān)鍵詞:檢測(cè)模型

劉紅兵,李文坤,張仰森

(1.太原科技大學(xué) 電子信息學(xué)院,山西 太原 030024;2.北京信息科技大學(xué) 智能信息處理研究所,北京 100192)

基于LDA模型和多層聚類的微博話題檢測(cè)

劉紅兵1,李文坤2,張仰森2

(1.太原科技大學(xué) 電子信息學(xué)院,山西 太原 030024;2.北京信息科技大學(xué) 智能信息處理研究所,北京 100192)

隨著微博這一新興社交媒體的廣泛應(yīng)用,以微博為背景的相關(guān)研究不斷涌現(xiàn),其中基于微博的話題檢測(cè)是當(dāng)前研究的熱點(diǎn)之一。結(jié)合微博文本的相關(guān)特點(diǎn),文中提出了一種基于LDA模型和多層聚類的微博話題檢測(cè)方法。首先,通過(guò)LDA模型對(duì)微博數(shù)據(jù)建模并提取特征;其次,利用改進(jìn)的Single-Pass聚類和層次聚類對(duì)微博數(shù)據(jù)進(jìn)行聚類,從而發(fā)現(xiàn)熱點(diǎn)話題。通過(guò)在大規(guī)模微博數(shù)據(jù)上進(jìn)行話題檢測(cè)實(shí)驗(yàn),通過(guò)LDA建模比通過(guò)TF-IDF進(jìn)行特征選擇和權(quán)重計(jì)算效果好;改進(jìn)的Single-Pass聚類能夠處理第一遍Single-Pass聚類未處理的微博,提高了初步聚類的精度,并且為下一步層次聚類減少了時(shí)間;多層聚類的聚類效果在準(zhǔn)確率、召回率和F值三方面均比單一聚類算法的聚類效果好。顯然,文中的話題檢測(cè)方法是可行的,也是有效的。

LDA模型;話題檢測(cè);改進(jìn)的Single-Pass聚類;層次聚類

0 引 言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展及其廣泛的應(yīng)用,包括微博、社交網(wǎng)站、即時(shí)通訊等在內(nèi)的一些新興社交媒體正在從根本上改變著人們的生活。據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的《第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示:截至2014年6月底,我國(guó)網(wǎng)民規(guī)模達(dá)6.32億,較2013年底增加了1 442萬(wàn)人。然而,微博網(wǎng)民規(guī)模為2.75億,占所有網(wǎng)民的43.6%。微博已經(jīng)成為人們?cè)诰€交流和傳播信息的主要平臺(tái),已經(jīng)成為社會(huì)輿情傳播的重要載體,一些重要的熱點(diǎn)事件或商業(yè)信息都首先通過(guò)微博進(jìn)行報(bào)道。微博上的熱點(diǎn)話題一般來(lái)源于突發(fā)事件的報(bào)道、具有重要新聞價(jià)值的信息或者引起討論、共鳴甚至爭(zhēng)論的用戶交流,很大程度上反映著當(dāng)前社會(huì)的輿論方向。對(duì)這些話題進(jìn)行實(shí)時(shí)檢測(cè)可以幫助用戶快速了解目前的熱點(diǎn)話題、熱門事件,也能夠幫助政府及時(shí)了解社會(huì)動(dòng)態(tài)、知道民眾的想法。隨著微博的進(jìn)一步發(fā)展和日益普及,開(kāi)展微博平臺(tái)上的話題檢測(cè)技術(shù)研究迫在眉睫。

1 研究現(xiàn)狀

近年來(lái),有關(guān)微博的研究受到了學(xué)術(shù)界和企業(yè)界的廣泛關(guān)注,針對(duì)微博的研究也越來(lái)越多。同時(shí),微博話題檢測(cè)也有了相應(yīng)的進(jìn)展。

Peng等[2]總結(jié)了熱門話題的特征,提出了一種基于用戶喜好的熱門話題檢測(cè)方法。Ramage等[3]分析了Twitter數(shù)據(jù)的特征,利用Labeled LDA模型進(jìn)行特征提取,并實(shí)現(xiàn)了Twitter排序和推薦功能。Du等[4]通過(guò)PangRank算法抽取出關(guān)鍵用戶,然后結(jié)合語(yǔ)義信息提取突發(fā)特征,進(jìn)而發(fā)現(xiàn)微博中的突發(fā)事件。孫勵(lì)[5]采用LDA模型發(fā)現(xiàn)微博熱點(diǎn)話題,并用主題代表話題。此方法雖然能夠解決微博數(shù)據(jù)稀疏問(wèn)題,但是話題檢測(cè)性能有待提高。邱洋[6]分析了微博的特點(diǎn),在計(jì)算相似度時(shí)融入了語(yǔ)義和時(shí)間參數(shù),然后采用Single-Pass算法進(jìn)行話題檢測(cè)。路榮等[7]利用隱語(yǔ)義分析解決微博短文本數(shù)據(jù)稀疏問(wèn)題,然后選取每個(gè)時(shí)間窗內(nèi)最有可能是談?wù)撔侣勗掝}的微博,最后采用K-means和層次聚類進(jìn)行微博熱點(diǎn)話題檢測(cè)。孫勝平[8]采用SP&HA混合聚類發(fā)現(xiàn)微博中的話題,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。馬雯雯等[9]首先采用隱語(yǔ)義分析(LSA)對(duì)微博數(shù)據(jù)建模,然后利用層次聚類的CURE算法確定K-means的初始類,最后通過(guò)K-means算法發(fā)現(xiàn)微博話題。蔣洪梅[10]對(duì)微博的輿論影響特點(diǎn)進(jìn)行了具體論述,并對(duì)如何更好地利用微博進(jìn)行輿論引導(dǎo)作了嘗試性的探討。彭澤映等[11]通過(guò)觀察和分析發(fā)現(xiàn)基于微博的大規(guī)模短文本所具有的“長(zhǎng)尾分布”的特性,提出了一種基于不完全聚類思想用以對(duì)這類數(shù)據(jù)進(jìn)行聚類分析,一定程度上解決了傳統(tǒng)聚類算法難以對(duì)大規(guī)模短文本進(jìn)行有效處理的問(wèn)題。馬彬等[12]提出了一種基于線索樹(shù)雙層聚類的微博話題檢測(cè)方法。首先建立微博線索樹(shù),然后在線索樹(shù)內(nèi)部進(jìn)行局部聚類,最后進(jìn)行全局聚類發(fā)現(xiàn)微博話題。史劍虹等[13]通過(guò)隱主題分析挖掘微博中的隱含主題信息,然后采用聚類算法和頻繁項(xiàng)集挖掘技術(shù)進(jìn)行微博話題檢測(cè)并提取話題關(guān)鍵詞集。

在前人研究的基礎(chǔ)上,文中提出了一種新的基于LDA模型和多層聚類的微博話題檢測(cè)方法。通過(guò)LDA模型挖掘微博文本中潛在的主題信息,解決微博數(shù)據(jù)的數(shù)據(jù)稀疏問(wèn)題,同時(shí)采用融合改進(jìn)的Single-Pass聚類算法和層次聚類算法進(jìn)行微博話題檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法能夠從大規(guī)模微博語(yǔ)料中準(zhǔn)確地檢測(cè)出當(dāng)前的熱點(diǎn)話題。

2 關(guān)鍵技術(shù)

2.1 LDA模型

LDA模型[14]首先由Blei等于2003年提出,是現(xiàn)今最流行的一種文檔主題生成模型。LDA模型適于對(duì)文本進(jìn)行“隱性語(yǔ)義分析”,可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息,目的是將文檔集或語(yǔ)料庫(kù)中的每篇文檔的主題按照概率分布的形式給出。而且它也是一種無(wú)監(jiān)督的學(xué)習(xí)算法,不需要任何關(guān)于文檔的背景知識(shí)和已標(biāo)注的訓(xùn)練語(yǔ)料。

LDA模型也是一個(gè)三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。其中,文檔到主題服從Dirichlet分布,主題到詞服從多項(xiàng)式分布。它采用產(chǎn)生式全概率模型對(duì)文檔進(jìn)行建模,對(duì)于給定的一個(gè)文檔集,LDA將每一篇文檔用若干主題的概率表示,將每個(gè)主題用所有的詞的概率表示。每篇文檔的主題都服從特定的分布,主題之間也相互獨(dú)立,并且被所有文檔共享。LDA模型生成文檔的過(guò)程如圖1所示。

圖1 LDA模型

圖中,θ,φ,z都是隱藏變量,w是可見(jiàn)變量,方框中的內(nèi)容表示循環(huán)執(zhí)行。α是每篇文檔下主題的多項(xiàng)式分布的Dirichlet先驗(yàn)參數(shù),β是每個(gè)主題下詞的多項(xiàng)式分布的Dirichlet先驗(yàn)參數(shù),θ表示該文檔的主題分布,φ表示該主題的詞分布,z表示每篇文檔分配在每個(gè)詞上的主題,w表示每篇文檔的詞向量。概率生成模型的計(jì)算公式如式(1)所示。

LDA模型中隱藏參數(shù)的估計(jì)也稱為L(zhǎng)DA的Infernce問(wèn)題,通常采用EM算法和吉布斯采樣(GibbsSampling)進(jìn)行學(xué)習(xí)估計(jì)。Gibbs采樣是由ThomasL.Griffith等人提出的,它是MCMC的一個(gè)二維實(shí)現(xiàn)方法,比較適合大規(guī)模數(shù)據(jù)的處理,是目前最流行的參數(shù)估計(jì)算法。這個(gè)算法的運(yùn)行方式是每次選取概率向量的一個(gè)維度,給定其他維度的變量值Sample當(dāng)前維度的值。不斷迭代,直到收斂輸出待估計(jì)的參數(shù)。文中也采用Gibbs采樣對(duì)LDA模型的參數(shù)進(jìn)行估計(jì)。LDA模型對(duì)文檔集建模的最終結(jié)果如下:

(1)z文件,它的每一行表示原始文檔集中的一個(gè)文檔。它把所有的詞用該詞所對(duì)應(yīng)的隱主題替換,然后用這些隱主題表示文檔。

(2)phi文件,即文檔-主題矩陣M*K。M表示文檔集中的文檔數(shù),K表示主題數(shù)。

(3)theta文件,即主題-詞矩陣K*V。K表示主題數(shù),V表示文檔集中詞的個(gè)數(shù)。

(4)twords文件,它將所有的主題用概率最高的那些特定的詞表示,顯示每個(gè)主題的具體內(nèi)容。

傳統(tǒng)LDA模型中,V指文檔集中所有不相同的詞的個(gè)數(shù),但是,對(duì)于話題檢測(cè)來(lái)說(shuō)并不是所有的詞都有實(shí)際的語(yǔ)義。正如副詞、介詞、連詞、助詞、嘆詞和擬聲詞等,這些詞都依附于實(shí)詞,沒(méi)有具體的語(yǔ)義,對(duì)話題檢測(cè)沒(méi)有作用,而且影響系統(tǒng)的性能。文中采用LDA建模時(shí),對(duì)傳統(tǒng)LDA模型中V的選擇進(jìn)行改進(jìn),只保留名詞、動(dòng)詞、形容詞。這樣做不僅能提高LDA模型的性能,而且能降低建模時(shí)間。

2.2 多層聚類

2.2.1 Single-Pass聚類

Single-Pass聚類[8]是單遍聚類,屬于增量式聚類算法中的一種。Single-Pass聚類算法的基本思想是:按照文檔輸入的順序依次處理每個(gè)文檔,把第一個(gè)文檔認(rèn)為是第一個(gè)話題,后續(xù)輸入的每個(gè)文檔都與之前創(chuàng)建的話題進(jìn)行相似度計(jì)算,并找出與該文檔相似度最大的那個(gè)話題,如果相似度大于閾值,那么將該文檔歸入此話題并更新話題簇,否則用該文檔創(chuàng)建一個(gè)新話題,一直循環(huán)此過(guò)程,直到所有文檔處理完畢,算法結(jié)束。

Single-Pass算法的優(yōu)點(diǎn)是算法邏輯簡(jiǎn)單,執(zhí)行效率較高,而且該算法對(duì)輸入文檔的順序敏感,比較適合微博話題檢測(cè)。

文中在傳統(tǒng)Single-Pass聚類的基礎(chǔ)上進(jìn)行改進(jìn),得到一個(gè)適合于微博話題檢測(cè)的聚類算法,具體內(nèi)容詳見(jiàn)第三節(jié)。

2.2.2 凝聚式層次聚類

層次聚類也是一種常用的聚類算法,分為分裂式層次聚類和凝聚式層次聚類。分裂式層次聚類是自頂向下的層次聚類,凝聚式層次聚類是自底向上的層次聚類。凝聚式層次聚類非常適合話題檢測(cè),其運(yùn)用到話題檢測(cè)的思想是:把每一個(gè)文檔當(dāng)作初始的類簇,然后計(jì)算各個(gè)類簇之間的相似度并找出最大相似度和相應(yīng)的類簇,如果該值大于預(yù)定的閾值,那么將這兩個(gè)類簇合并并更新簇的中心,通過(guò)不斷的合并與更新得到最終的話題簇。凝聚式層次聚類能夠較準(zhǔn)確地對(duì)微博話題進(jìn)行檢測(cè),但是凝聚式層次聚類每次合并都要計(jì)算簇之間的相似度,算法時(shí)間復(fù)雜度是O(n3),對(duì)于大規(guī)模數(shù)據(jù)集凝聚式層次聚類很難在短時(shí)間內(nèi)完成。

3 基于LDA模型和多層聚類的微博話題檢測(cè)

3.1 微博語(yǔ)料預(yù)處理

由于剛抓取的微博含有大量噪聲,因此需要對(duì)微博語(yǔ)料進(jìn)行預(yù)處理。通過(guò)對(duì)微博語(yǔ)料的觀察分析,發(fā)現(xiàn)許多微博文本中含有大量的繁體字和鏈接。如果對(duì)這些繁體字和鏈接不做處理,那么將會(huì)對(duì)LDA模型的訓(xùn)練以及聚類產(chǎn)生很大的影響。文中利用現(xiàn)有的繁簡(jiǎn)體字對(duì)照表對(duì)微博文本進(jìn)行處理,消除繁體字,同時(shí)刪除微博中所有的鏈接,使微博文本規(guī)范化。

此外,語(yǔ)料中含有大量的重復(fù)微博和字?jǐn)?shù)過(guò)少的微博。例如,“轉(zhuǎn)發(fā)微博”,這類微博不僅對(duì)話題檢測(cè)毫無(wú)意義,而且會(huì)影響系統(tǒng)性能。因此,去掉重復(fù)微博和字?jǐn)?shù)過(guò)少的微博也是至關(guān)重要的。

微博用戶在轉(zhuǎn)發(fā)互動(dòng)中形成的微博大都具有語(yǔ)義相關(guān)性,通常是對(duì)同一個(gè)話題的討論。對(duì)于具有轉(zhuǎn)發(fā)關(guān)系的微博文本,把原創(chuàng)微博與轉(zhuǎn)發(fā)微博進(jìn)行合并,形成一個(gè)語(yǔ)義更加豐富的長(zhǎng)文本來(lái)替換原始微博,解決微博話題檢測(cè)的數(shù)據(jù)稀疏問(wèn)題。

3.2 改進(jìn)的Single-Pass聚類

傳統(tǒng)的Single-Pass聚類只使用一次循環(huán)遍歷所有微博,完成聚類。事實(shí)上,有很多微博雖然屬于某一個(gè)話題,但是由于它發(fā)布時(shí)間較早,較早完成遍歷,這樣可能導(dǎo)致這些微博因?yàn)榕c之前得到的話題的相似度略低于閾值而被重新創(chuàng)建了新的話題,從而影響了聚類效果。

算法1:改進(jìn)的Single-Pass聚類算法。

輸入:按時(shí)間順序排好序的微博集D={d1,d2,…,dn}

輸出:話題簇T1,T2,…

Forcountfrom1ton

if(count==1)then

d[count]->T1//創(chuàng)建新話題T1

else

maxSim=0

forifrom1to已經(jīng)創(chuàng)建的話題數(shù)

if(sim(d[count],T[i])>maxSim)then

maxSim=sim(d[count],T[i])

clusterNo=i

endif

endfor

if(maxSim>=閾值)then

d[count]->T[clusterNo] //歸入話題

updateandsaveT[clusterNo]

endif

endif

Endfor

Forcountfrom1to沒(méi)有歸入話題的微博數(shù)

maxSim=0

forifrom1to已經(jīng)創(chuàng)建的話題數(shù)

if(sim(d[count],T[i])>maxSim)then

maxSim=sim(d[count],T[i])

clusterNo=i

endif

endfor

if(maxSim>=閾值)then

d[count]->T[clusterNo] //歸入話題

updateandsaveT[clusterNo]

else

createnewtopic

endif

Endfor

文中提出了一種新的改進(jìn)的Single-Pass聚類。該算法在傳統(tǒng)Single-Pass聚類的基礎(chǔ)上,處理了那些漏掉的微博,使聚類更加準(zhǔn)確。對(duì)于給定的一個(gè)微博集D={d1,d2,…,dn},改進(jìn)的Single-Pass聚類的算法如算法1所示。

3.3 微博話題檢測(cè)

文中首先通過(guò)LDA模型對(duì)微博文本進(jìn)行建模,提取特征,然后采用多層聚類算法對(duì)微博文本聚類實(shí)現(xiàn)話題檢測(cè)。多層聚類分兩階段進(jìn)行,第一步利用改進(jìn)的Single-Pass聚類進(jìn)行話題初步檢測(cè),第二步利用層次聚類對(duì)上一步產(chǎn)生的中間結(jié)果再次聚類形成最終的話題。改進(jìn)的Single-Pass聚類算法邏輯簡(jiǎn)單,能夠快速處理大規(guī)模文本,但是聚類精度一般;凝聚式層次聚類的聚類精度高,但是算法的時(shí)間復(fù)雜度也較大。

文中利用LDA模型有效解決了微博的數(shù)據(jù)稀疏問(wèn)題,同時(shí)結(jié)合改進(jìn)的Single-Pass聚類和層次聚類的優(yōu)點(diǎn),使話題檢測(cè)系統(tǒng)在準(zhǔn)確率和時(shí)間上都有很大提高。

系統(tǒng)流程圖如圖2所示。

3.4 關(guān)鍵字提取

隨著信息時(shí)代的到來(lái),每天都有成千上萬(wàn)的信息展現(xiàn)在人們面前,如何快速了解海量信息中談?wù)摰臒狳c(diǎn)話題并且找出自己感興趣的話題,不論對(duì)于個(gè)人還是企業(yè),都是十分重要的。文中利用多層聚類算法檢測(cè)出的微博話題都是以微博簇的形式存在的,每個(gè)微博簇都是談?wù)撃骋粋€(gè)話題的微博文本集。雖然可以把談?wù)撏辉掝}的微博聚集到一個(gè)話題簇中,但是要想確定該話題簇具體談?wù)摰脑掝}內(nèi)容,仍然需要一條一條地閱讀微博。因此,檢測(cè)出微博話題是不夠的,還需要用三到五個(gè)關(guān)鍵字概括出微博話題的主要內(nèi)容。本節(jié)主要介紹關(guān)鍵字提取,即從已檢測(cè)出的微博話題中,抽取主要的關(guān)鍵字表示該話題。

圖2 系統(tǒng)流程圖

在關(guān)鍵字提取中,用TF-IDF度量每個(gè)詞語(yǔ)的重要度。經(jīng)過(guò)多次實(shí)驗(yàn)后,最終選擇TF-IDF排名前三的詞語(yǔ)作為話題關(guān)鍵字。提取過(guò)程如下:

(1)將每一個(gè)話題中的所有微博作為一個(gè)整體,分詞,去停用詞;

(2)計(jì)算第一個(gè)話題中去掉停用詞后剩下的詞語(yǔ)在所有語(yǔ)料中的TF-IDF值;

(3)根據(jù)TF-IDF值排序,選擇TF-IDF值排名前三的詞語(yǔ)作為該話題的關(guān)鍵字;

(4)重復(fù)步驟(2)和(3),直到所有話題關(guān)鍵字提取完畢為止。

表1展示了各話題中的部分微博和TF-IDF排名前三的詞語(yǔ)。話題一主要以央視曝光星巴克咖啡牟取暴利的行為為背景展開(kāi)的討論,抽取出來(lái)的話題關(guān)鍵字是“星巴克、咖啡、貴”,這與話題內(nèi)容基本上吻合。話題二是關(guān)于高考改革引發(fā)的討論,主要是關(guān)于是否取消英語(yǔ)和數(shù)學(xué)的討論,然而抽取出的話題關(guān)鍵字是“英語(yǔ)、數(shù)學(xué)、高考”,這與話題二的內(nèi)容也是相吻合的。仔細(xì)分析話題三和話題四,話題關(guān)鍵字和微博內(nèi)容也基本上是吻合的,說(shuō)明采用TF-IDF提取出的話題關(guān)鍵字基本上可以概括出話題的主要內(nèi)容,而且效果也是不錯(cuò)的。

表1 微博話題和話題關(guān)鍵字

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)

目前,在中文微博話題檢測(cè)方面還沒(méi)有統(tǒng)一的微博數(shù)據(jù)。文中通過(guò)網(wǎng)絡(luò)爬蟲(chóng),抓取了新浪微博2 352個(gè)用戶發(fā)表于2013年6月1號(hào)到2013年10月31號(hào)之間的所有微博數(shù)據(jù)。經(jīng)過(guò)語(yǔ)料去重和噪聲微博過(guò)濾,剩下的微博數(shù)據(jù)用于實(shí)驗(yàn)。

在自然語(yǔ)言處理領(lǐng)域,常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率、召回率和F值。文中除了使用傳統(tǒng)的這三個(gè)評(píng)價(jià)指標(biāo)以外,還采用漏檢率和錯(cuò)檢率評(píng)價(jià)文中的微博話題檢測(cè)系統(tǒng)的性能。

具體的計(jì)算公式如下所示:

其中,P表示準(zhǔn)確率;D表示話題檢測(cè)系統(tǒng)正確檢測(cè)出的屬于該話題的微博數(shù);U表示話題檢測(cè)系統(tǒng)實(shí)際檢測(cè)出的屬于該話題的微博數(shù)。

其中,R表示召回率;D表示話題檢測(cè)系統(tǒng)正確檢測(cè)出的屬于該話題的微博數(shù);T表示語(yǔ)料中所有屬于該話題的微博數(shù)。

其中,F(xiàn)表示F值;P和R分別表示準(zhǔn)確率和召回率。

其中,PFA表示錯(cuò)檢率;FA表示話題檢測(cè)系統(tǒng)錯(cuò)誤檢測(cè)出的屬于該話題的微博數(shù);NT表示語(yǔ)料中所有不屬于該話題的微博數(shù)。

其中,PMISS表示漏檢率;MD表示話題檢測(cè)系統(tǒng)沒(méi)有檢測(cè)出的屬于該話題的微博數(shù);T表示語(yǔ)料中所有屬于該話題的微博數(shù)。

4.2 對(duì)比實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)一:為了驗(yàn)證改進(jìn)的Single-Pass聚類和凝聚式層次聚類對(duì)話題檢測(cè)的影響,文中設(shè)置四個(gè)系統(tǒng),四個(gè)系統(tǒng)均采用余弦相似度度量微博之間的相似性,具體設(shè)置如下:

sys1:只采用Single-Pass聚類。

sys2:在sys1的基礎(chǔ)上融入了層次聚類。

sys3:只采用改進(jìn)的Single-Pass聚類。

sys4:在sys3的基礎(chǔ)上融入了層次聚類。

實(shí)驗(yàn)中,分別用TF-IDF和LDA模型進(jìn)行特征選擇,由于采用TF-IDF進(jìn)行特征選擇時(shí),一些話題根本無(wú)法檢測(cè)出來(lái),一些評(píng)價(jià)指標(biāo)都無(wú)法計(jì)算,無(wú)法進(jìn)行準(zhǔn)確地比較。采用TF-IDF進(jìn)行特征選擇時(shí),各個(gè)系統(tǒng)的話題檢測(cè)的效果比LDA模型的均較差,所以在此不再贅述。

圖3顯示了在采用LDA模型進(jìn)行特征選擇的條件下,四種不同的聚類策略進(jìn)行話題檢測(cè)的實(shí)驗(yàn)結(jié)果。

圖3 不同聚類算法下話題檢測(cè)的性能比較

從圖中可以看出,在五個(gè)評(píng)價(jià)指標(biāo)中sys1的性能最差,sys2和sys3的性能居中,sys4的性能優(yōu)于其他三個(gè)系統(tǒng),說(shuō)明采用文中提出的方法完全能夠滿足話題檢測(cè)的要求。sys2和sys3比sys1在各方面都有所提高,說(shuō)明層次聚類和改進(jìn)的Single-Pass聚類都能提高話題檢測(cè)的性能。sys2在召回率方面優(yōu)于sys3,但在準(zhǔn)確率方面不及sys3,說(shuō)明層次聚類更側(cè)重于召回率的提高,而改進(jìn)的Single-Pass聚類更側(cè)重于準(zhǔn)確率的提高。其主要原因是由于改進(jìn)的Single-Pass聚類采用層疊Single-Pass聚類方法,其第二次的Single-Pass聚類建立在第一次Single-Pass聚類基礎(chǔ)上,可以有效處理第一次Single-Pass聚類未能處理的微博。而且,層次聚類能夠把Single-Pass聚類處理完的微博再次整合,提高話題檢測(cè)效率。其中,sys2就是文獻(xiàn)[8]所采用的聚類算法,由圖3可以看出,文中方法與文獻(xiàn)[8]的話題檢測(cè)方法相比,各個(gè)指標(biāo)都有提高,F(xiàn)值提高約12%。

實(shí)驗(yàn)二:為了評(píng)估不同閾值對(duì)話題檢測(cè)結(jié)果的影響,該實(shí)驗(yàn)設(shè)置不同的閾值進(jìn)行話題檢測(cè),得到的結(jié)果如圖4所示。

圖4 不同閾值話題檢測(cè)的性能比較

由圖4可以看出:隨著閾值的不斷增大,話題檢測(cè)的準(zhǔn)確率、召回率和F值逐漸增大,話題檢測(cè)系統(tǒng)的性能持續(xù)提高;但是當(dāng)閾值超過(guò)0.85時(shí),這三個(gè)指標(biāo)開(kāi)始下降,系統(tǒng)性能也開(kāi)始下降。

5 結(jié)束語(yǔ)

文中根據(jù)微博內(nèi)容的簡(jiǎn)短性、微博話題的時(shí)序性以及微博文本之間存在轉(zhuǎn)發(fā)關(guān)系等特點(diǎn),提出了一種基于LDA模型和多層聚類的微博話題檢測(cè)方法。通過(guò)合并具有轉(zhuǎn)發(fā)關(guān)系的微博,以及采用LDA模型選取特征,有效解決了微博短文本的數(shù)據(jù)稀疏問(wèn)題。通過(guò)融合改進(jìn)Single-Pass聚類和層次聚類,能夠在保證話題檢測(cè)性能的前提下更大程度地縮短話題檢測(cè)時(shí)間。最后,通過(guò)TF-IDF對(duì)微博中的詞語(yǔ)進(jìn)行重要度排序,用排名前三的詞語(yǔ)作為話題關(guān)鍵字,代表話題的主要內(nèi)容。

由于微博文本比較隨意,口語(yǔ)化較強(qiáng),網(wǎng)絡(luò)詞語(yǔ)也出現(xiàn)頻繁,用現(xiàn)有的分詞工具處理微博文本時(shí)并不是很理想,導(dǎo)致文中的話題檢測(cè)性能有所下降。同時(shí),微博文本中會(huì)出現(xiàn)大量的同義詞,也會(huì)影響系統(tǒng)的性能。在下一步的研究中,首先要豐富用戶字典,確保分詞更加準(zhǔn)確;其次要引入同義詞字典,處理微博文本中的同義詞,進(jìn)一步提高系統(tǒng)的性能。

[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,2014.

[2]PengFeifei,QianXu,LiGaoren.Aresearchofhottopicdetectionthroughmicroblogging[C]//Procof4thinternationalconferenceonintelligenthuman-machinesystemsancybernetics.[s.l.]:IEEE,2012.

[3]RamagesD,DumaisS,LieblingD.Characterizingmicroblogswithtopicmodels[C]//ProceedingsofthefourthinternationalAAAIconferenceonweblogsandsocialmedia.Washington,DC:[s.n.],2010.

[4]DuYY,HeYX,TianY.MicroblogBurstytopicdetectionbasedonuserrelationship[C]//Proceedingsofthe2011IEEEjointinternationalinformationtechnologyandartificialintelligenceconference.Piscataway:IEEE,2011:260-263.

[5] 孫 勵(lì).基于微博的熱點(diǎn)話題發(fā)現(xiàn)[D].北京:北京郵電大學(xué),2013.

[6] 邱 洋.微博數(shù)據(jù)提取及話題檢測(cè)方法研究[D].大連:大連理工大學(xué),2013.

[7] 路 榮,項(xiàng) 亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387.

[8] 孫勝平.中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D].北京:北京交通大學(xué),2011.

[9] 馬雯雯,魏文晗,鄧一貴.基于隱含語(yǔ)義分析的微博話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(1):96-100.

[10] 蔣洪梅.微博客的特點(diǎn)及其輿論影響力[J].新聞愛(ài)好者,2011(5):85-86.

[11] 彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報(bào),2011,25(1):54-59.

[12] 馬 彬,洪 宇,陸劍江,等.基于線索樹(shù)雙層聚類的微博話題檢測(cè)[J].中文信息學(xué)報(bào),2012,26(6):121-128.

[13] 史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2014,31(3):700-704.

[14]BleiM,NgY,JordanI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003,3(4-5):993-1002.

Microblog Topic Detection Based on LDA Model and Multi-level Clustering

LIU Hong-bing1,LI Wen-kun2,ZHANG Yang-sen2

(1.College of Electronic Information,Taiyuan University of Science and Technology, Taiyuan 030024,China;2.Institute of Intelligence Information Processing,Beijing University of Information Science and Technology,Beijing 100192,China)

With the wide application of microblog,emerging social media,relevant research is being emerged on microblog.The topic detection based on microblog is one of the hotspots in current research.In combination with the relevant characteristics of microblog,a microblog topic detection based on LDA model and hierarchical clustering is proposed.First,LDA model is applied for modeling and feature extraction to microblog data.Then,the improved Single-Pass clustering and hierarchical clustering is used on microblog data clustering and the hot topic is found.Experiment on large-scale corpus shows that it is more effective through the LDA model than by TF-IDF for feature selection and weight calculation;the improved Single-Pass clustering can deal with the untreated microblog by the first Single-Pass clustering,which can improve the accuracy of the initial clustering and reduce the time of hierarchical clustering;it is more effective through the hierarchical clustering than the single clustering in accuracy,recall andF-value.Clearly,itisfeasibleandeffectivebytheLDAmodelandmulti-levelclusteringtodetectthemicroblogtopic.

LDA model;topic detection;improved Single-Pass clustering;hierarchical clustering

2014-11-14

2015-04-08

時(shí)間:2016-05-25

國(guó)家自然科學(xué)基金資助項(xiàng)目(61370139);北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(IDHT20130519);北京市教委專項(xiàng)基金(PXM2013_014224_000042,PXM2014_014224_000067)

劉紅兵(1968-),男,副教授,研究方向?yàn)橹悄苡?jì)算機(jī)控制。

http://www.cnki.net/kcms/detail/61.1450.TP.20160525.1700.006.html

TP

A

1673-629X(2016)06-0025-06

10.3969/j.issn.1673-629X.2016.06.006

猜你喜歡
檢測(cè)模型
一半模型
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 国产欧美综合在线观看第七页| 精品人妻无码中字系列| 成人午夜久久| 国内精品手机在线观看视频| 亚洲精品第五页| 欧美日本二区| 国外欧美一区另类中文字幕| 高清久久精品亚洲日韩Av| 丁香婷婷激情网| 国产精品亚洲精品爽爽| 2021国产在线视频| 久久香蕉国产线看观看亚洲片| 国产亚洲精品自在线| 一边摸一边做爽的视频17国产| 国产综合另类小说色区色噜噜| 日本黄色a视频| 国产JIZzJIzz视频全部免费| 日韩黄色精品| 小蝌蚪亚洲精品国产| 日本国产在线| 蜜臀AVWWW国产天堂| 新SSS无码手机在线观看| 91啦中文字幕| 中文字幕 日韩 欧美| 欧美中文字幕在线视频 | 欧美a在线| 中文字幕乱码中文乱码51精品| 国产丝袜91| 欲色天天综合网| 欧美成人免费午夜全| 国产高潮流白浆视频| 暴力调教一区二区三区| 少妇精品在线| 综合色亚洲| 国产欧美精品一区aⅴ影院| 99er精品视频| 欧美午夜在线观看| 制服丝袜无码每日更新| 亚洲成人高清无码| 成年免费在线观看| 91口爆吞精国产对白第三集| 日韩欧美国产三级| аⅴ资源中文在线天堂| 91精品久久久无码中文字幕vr| 亚洲综合激情另类专区| 制服丝袜 91视频| 亚洲天堂视频在线播放| 亚洲区第一页| 欧美午夜久久| 国产精品深爱在线| 国产日韩丝袜一二三区| 亚洲午夜福利精品无码| 欧美 国产 人人视频| 婷婷色婷婷| yjizz国产在线视频网| 人妻丰满熟妇αv无码| 欧美成人综合在线| 国产女人综合久久精品视| 国产成人AV综合久久| 免费jizz在线播放| 亚洲无码视频一区二区三区| 成人精品区| 亚洲天堂成人| 国产va在线观看| 久久精品丝袜| 91在线国内在线播放老师 | 日本在线国产| 日本尹人综合香蕉在线观看| 亚洲AV无码精品无码久久蜜桃| 2021国产精品自拍| 特黄日韩免费一区二区三区| 尤物成AV人片在线观看| 亚洲区视频在线观看| 亚洲日本中文字幕天堂网| 欧美日韩资源| 久久精品日日躁夜夜躁欧美| 91欧美亚洲国产五月天| 欧美日本在线播放| 国产视频一区二区在线观看| 国产99精品视频| 欧美一区国产| 真实国产乱子伦视频|