999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微博標(biāo)簽和LDA的微博主題提取算法?

2017-06-05 15:03:55
關(guān)鍵詞:符號(hào)內(nèi)容用戶

基于微博標(biāo)簽和LDA的微博主題提取算法?

鄧丹君姚莉

(湖北理工學(xué)院計(jì)算機(jī)學(xué)院黃石435002)

論文根據(jù)微博文本所具有的特點(diǎn),將微博文本具有的三種的特殊符號(hào):“@”、“//”和“#”納入微博主題提取的分析中。在傳統(tǒng)的LDA模型的基礎(chǔ)上,建立一種微博標(biāo)簽的LDA模型,該模型考慮到微博的主題、轉(zhuǎn)發(fā)的微博、微博的評(píng)論等內(nèi)容,增強(qiáng)對(duì)微博主題的提取的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,論文提出的算法對(duì)于新浪微博的主題提取的效果良好。

微博;主題提取;LDA;微博標(biāo)簽

Class NumberTP391

1 引言

近年來,微博已成為新時(shí)代的社交網(wǎng)絡(luò)工具之一。微博用戶可以通過發(fā)布不超過140個(gè)字符的微博表達(dá)自己的興趣愛好,對(duì)某種主題信息進(jìn)行關(guān)注,微博的更新速度和傳播速度很快。微博內(nèi)容雖然簡(jiǎn)短但蘊(yùn)含著豐富的信息,對(duì)微博文本內(nèi)容進(jìn)行主題信息提取可以獲取用戶的潛在的個(gè)體興趣。因此如何獲取微博的主題信息成為很多計(jì)算機(jī)相關(guān)領(lǐng)域的學(xué)者研究的熱點(diǎn)話題。

微博中的內(nèi)容與通常意義上的文本內(nèi)容不同,微博內(nèi)容比較簡(jiǎn)短,包含的詞語數(shù)量有限,且語法結(jié)構(gòu)不特定,因此對(duì)微博主題內(nèi)容的提取不能簡(jiǎn)單使用傳統(tǒng)的文本主題提取算法,必須對(duì)傳統(tǒng)文本主題提取算法進(jìn)行改進(jìn)。近些年來,有很多學(xué)者使用在傳統(tǒng)的LDA主題模型的基礎(chǔ)上進(jìn)行改進(jìn)來提取微博主題,并取得了一定的成果。文獻(xiàn)[1]考慮到微博轉(zhuǎn)發(fā)的特征并引入時(shí)間因子利用LDA模型進(jìn)行主題信息提取。文獻(xiàn)[2]通過追蹤不同時(shí)間片內(nèi)主題的變化趨勢(shì)進(jìn)行主題演化分析從而建立并實(shí)現(xiàn)在線LDA模型。文獻(xiàn)[3]將文本聚類與LDA模型相融合進(jìn)行微博主題的提取。文獻(xiàn)[4]將微博的聯(lián)系人關(guān)聯(lián)信息和文本關(guān)聯(lián)關(guān)系考慮到LDA的微博生成模型中。

然而,這些學(xué)者并沒有針對(duì)微博類型提取不同微博類型的微博主題,并且沒有考慮微博的微博文本的三種其專屬的特殊符號(hào):“@”、“//”和“#”來分析微博文本本身具有的特點(diǎn)。

本文結(jié)合用戶興趣、微博文本的三種專屬的特殊符號(hào):“@”、“//”和“#”,對(duì)不同微博類型進(jìn)行主題分析,結(jié)合傳統(tǒng)的LDA模型提出一個(gè)新的在微博平臺(tái)下適用的微博標(biāo)簽主題模型,采用吉布斯抽樣(Gibbs sampling)對(duì)該模型進(jìn)行求解,實(shí)現(xiàn)微博內(nèi)容的主題提取,最后在新浪微博數(shù)據(jù)集上進(jìn)行驗(yàn)證該模型的有效性。

2 LDA主題模型

2.1LDA主題模型的基本思想

LDA(Latent Dirichlet Allocation)主題模型是一種生成主題概率模型,是一種對(duì)文本數(shù)據(jù)的主題信息進(jìn)行建模的方法[5]。LDA主題模型由如圖1所示的結(jié)構(gòu)組成,假設(shè)文檔是由多個(gè)隱含主題構(gòu)成,這些隱含主題又是由若干個(gè)特定特征詞構(gòu)成,LDA模型忽略特征詞的先后次序,從而簡(jiǎn)化主題模型的復(fù)雜性。LDA主題模型認(rèn)為文檔的每個(gè)特征詞都是通過“以一定概率選擇某個(gè)隱含主題,并且從這個(gè)隱含主題中以一定概率選擇某個(gè)特征詞”這種過程中得到。

圖1 LDA模型的隱含主題結(jié)構(gòu)

當(dāng)有M篇文檔,K個(gè)主題,N個(gè)的特征詞,在一篇文檔中的第i個(gè)特征詞wi的概率表示為

其中,P(wi|zi=j)表示特征詞wi出自主題zi的概率,P(zi=j)是文檔包含主題zi的概率。

首先從參數(shù)為α的Dirichlet分布中取樣生成文檔d的主題分布θd,接著從為參數(shù)θd的主題多項(xiàng)式分布中取樣生成文檔d的第i個(gè)特征詞的主題zd,i,然后從參數(shù)為β的Dirichlet分布中取樣生成主題zd,i的特征詞分布?zd,i,從特征詞的多項(xiàng)式分布?zd,i

中采樣生成特征詞wd,i[6]。整個(gè)過程如圖

2所示。

圖2 LDA模型的貝葉斯網(wǎng)絡(luò)

文檔d用LDA生成的概率為

文檔集D中所有文檔用LDA生成的概率為

2.2微博文本的特征

由于微博短文本的特性會(huì)造成高維稀疏,從而使用傳統(tǒng)的LDA模型會(huì)導(dǎo)致微博主題不易提取。因此,需要針對(duì)微博本身所具有的特點(diǎn)進(jìn)行分析,在傳統(tǒng)的LDA模型上進(jìn)行改進(jìn)。

微博文本具有的三種專屬的特殊符號(hào):“@”、“//”和“#”,這些符號(hào)對(duì)于微博主題的提取具有一定的作用。這些符號(hào)的含義如下:

1)“@”符號(hào):“@”后面接著用戶名稱,表示提到該用戶并與該用戶展開對(duì)話。

2)“//”符號(hào):“//”表示轉(zhuǎn)發(fā),后面接著“@用戶名稱”,轉(zhuǎn)發(fā)該用戶的某一條微博內(nèi)容并對(duì)這條微博進(jìn)行評(píng)論。“//”符號(hào)代表的轉(zhuǎn)發(fā)微博比較特殊,這種微博的內(nèi)容包含其他用戶所發(fā)表的微博內(nèi)容,包含或者不包含評(píng)論內(nèi)容,這種微博的主題往往和被轉(zhuǎn)發(fā)的微博主題相同。“//”符號(hào)和“@”符號(hào)揭示了轉(zhuǎn)發(fā)微博和被轉(zhuǎn)發(fā)微博之間的主題內(nèi)容的聯(lián)系,能更好地建立用戶對(duì)話過程中的主題模型。

3)“#”符號(hào):“#”與“#”之間含有發(fā)布的微博的主題內(nèi)容。該符號(hào)是用戶在發(fā)布微博的時(shí)候添加的符號(hào),因此具有任意性,不同用戶可能會(huì)為相同主題的微博添加不同的話題標(biāo)簽,但是“#”符號(hào)之間的語義信息對(duì)微博的主題分析仍然是有幫助的[7]。

此外,有很多微博都有他人參與評(píng)論,微博的評(píng)論內(nèi)容對(duì)于微博的主題分析有一定的作用,影響的程度會(huì)隨著評(píng)論的內(nèi)容的不同而不同。因此,在分析微博主題分布時(shí)可以將微博及其評(píng)論放在一起進(jìn)行分析,并且設(shè)置影響因子表示影響的程度。

2.3微博標(biāo)簽的主題模型LDA的構(gòu)建

由于微博文本具有的三種專屬的特殊符號(hào):“@”、“//”和“#”以及微博是否是回復(fù)他人評(píng)論的微博,對(duì)于微博主題的分析有重要的作用,需要設(shè)定參數(shù)表示微博文本中是否含有這些特殊符號(hào)來確定該微博的主題分布。根據(jù)微博文本d內(nèi)容中含有的符號(hào)的不同含義,可設(shè)置參數(shù)λd表示微博文本中是否含有“@”、“//”或“#”符號(hào)。如果微博文本d中含有“#”符號(hào),則λd=0,該條微博的主題分布θd由“#”符號(hào)內(nèi)部的內(nèi)容的主題分布θs決定;如果微博文本d中含有“//”或“#”符號(hào),則λd=1,該條微博的主題分布θd由被轉(zhuǎn)發(fā)的微博的主題分布θr決定;如果微博文本d中不含有任何符號(hào),則λd=2,該條微博的主題分布θd由該條微博內(nèi)容的主題分布決定;如果微博文本d為回復(fù)他人評(píng)論的微博,則λd=3,該條微博的主題分布θd由該條微博內(nèi)容和被回復(fù)的微博的主題分布共同決定。主題分布公式如下:

其中,N是特征詞個(gè)數(shù);K是主題個(gè)數(shù);z-i表示除特征詞i之外的所有特征詞主題;w代表所有特征詞;對(duì)應(yīng)含有不同標(biāo)簽符號(hào)的微博,α、β和γ會(huì)對(duì)應(yīng)不同的參數(shù)值。Gibbs抽樣迭代直至收斂后最終得到以下公式:

該主題模型的生成過程如下:

1)參數(shù)為β的Dirichlet分布中取樣生成主題zd,i的特征詞分布?zd,i;

其中,θs為“#”符號(hào)內(nèi)部的內(nèi)容的主題分布,θr為轉(zhuǎn)發(fā)的微博的主題分布,θd為微博內(nèi)容的主題分布;回復(fù)他人評(píng)論的微博的主題分布可以通過式(4)計(jì)算;αs、αr和α為對(duì)應(yīng)參數(shù);nsz為含有“#”符號(hào)的微博出現(xiàn)主題z的次數(shù),nrz為轉(zhuǎn)發(fā)的微博出現(xiàn)主題z的次數(shù),ndz為不含有任何符號(hào)的微博出現(xiàn)主題z的次數(shù)。

2)對(duì)于每條微博d,確定微博d中是否含有“@”、“//”或“#”符號(hào),得到參數(shù)λd的值,進(jìn)而得到該條微博的主題分布θd;

3)從為參數(shù)θd的主題多項(xiàng)式分布中取樣生成文檔d的第i個(gè)特征詞的主題zd,i;

4)從特征詞的多項(xiàng)式分布?zd,i中采樣生成特征詞wd,i。

3 實(shí)驗(yàn)

微博標(biāo)簽的主題模型LDA如圖3所示。

圖3 微博標(biāo)簽的主題模型LDA

微博d的生成概率如下:

3.1微博數(shù)據(jù)的采集

為了驗(yàn)證對(duì)微博主題提取的正確性,本文采用新浪的開放API接口進(jìn)行采集原始數(shù)據(jù)。人工選擇微博用戶500多名(以具有較大影響力的微博用戶為主),抓取44721條微博數(shù)據(jù)。針對(duì)每條微博按照是否包含“@”、“//”和“#”符號(hào)進(jìn)行分類,采用ICTCLAS中文分詞系統(tǒng)進(jìn)行分詞和詞性標(biāo)注,去掉停用詞,最后生成預(yù)處理數(shù)據(jù)。

3.2實(shí)驗(yàn)過程及結(jié)果分析

實(shí)驗(yàn)環(huán)境為Intel i5 6500 3.2GHz的CPU,4G的內(nèi)存,1T的硬盤,操作系統(tǒng)為Windows7。實(shí)驗(yàn)的目的是測(cè)試相對(duì)于傳統(tǒng)的LDA模型,本文在將包含“@”、“//”和“#”符號(hào)的微博進(jìn)行特殊處理的情況下,對(duì)主題提取的影響。本文采用Perplexity指標(biāo)進(jìn)行度量實(shí)驗(yàn)結(jié)果。Perplexity指標(biāo)用來度量主題模型的性能,表示預(yù)測(cè)數(shù)據(jù)時(shí)的不確定性。指標(biāo)越小,性能越好[9]。Perplexity指標(biāo)的計(jì)算公式如下:

2.4微博標(biāo)簽的主題模型的推導(dǎo)

微博標(biāo)簽的主題模型采用Gibbs抽樣進(jìn)行推導(dǎo)。Gibbs抽樣會(huì)估計(jì)微博文本中每個(gè)特征詞對(duì)應(yīng)每個(gè)主題的條件概率[8]。微博標(biāo)簽的主題模型的Gibbs抽樣后驗(yàn)公式具體如下:

式中,D為測(cè)試集,wm為測(cè)試集中可觀測(cè)到的詞,Nm為詞的總數(shù)[11]。

計(jì)算得到LDA與本文提出的模型的Perplexity指標(biāo)如圖4所示。

圖4 兩種模型的Perplexity指標(biāo)對(duì)比

從圖4中可以看出,在相同參數(shù)的條件下,微博標(biāo)簽的LDA模型的Perplexity指標(biāo)均小于LDA,從而證明微博標(biāo)簽的LDA模型的性能較好。表1顯示了微博標(biāo)簽的LDA模型主題關(guān)鍵詞的準(zhǔn)確性,針對(duì)每個(gè)主題給出出現(xiàn)概率最大的前5個(gè)詞語。

從表1可以看出,相對(duì)于傳統(tǒng)的LDA模型,微博標(biāo)簽的LDA模型準(zhǔn)確程度更高。

表1 兩種模型的主題準(zhǔn)確度對(duì)比

4 結(jié)語

本文根據(jù)微博文本所具有的特點(diǎn),將微博文本具有的3種的特殊符號(hào):“@”、“//”和“#”納入微博主題提取的分析中,在傳統(tǒng)的LDA模型的基礎(chǔ)上,建立一種微博標(biāo)簽的LDA模型,該模型考慮到微博的主題、轉(zhuǎn)發(fā)的微博、微博的評(píng)論等內(nèi)容,增強(qiáng)對(duì)微博主題的提取的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文提出的算法對(duì)于新浪微博的主題提取的效果良好。在今后的研究工作中,將進(jìn)一步考慮微博標(biāo)簽對(duì)于微博主題的影響,繼續(xù)優(yōu)化本文提出的模型。

[1]陶永才,何宗真,石磊,等.基于加權(quán)動(dòng)態(tài)興趣度的微博個(gè)性化推薦[J].計(jì)算機(jī)應(yīng)用,2014,34(12):3491-3496.

TAO Yongchai,HE Zongzhen,SHI Lei,et al.Micro-blog personalized recommendation based on weighted dynamic interest degree[J].Computer application,2014,34(12):3491-3496.

[2]崔凱,周斌,賈焰,等.一種基于LDA的在線主題演化挖掘模型[J].計(jì)算機(jī)科學(xué),2010,37(11):156-159.

CUI Kai,ZHOU Bin,JIA Yan,et al.A LDA based online topic evolution mining model[J].Computer Science,2010,37(11):156-159.

[3]唐小波,房小可.基于文本聚類與LDA相融合的微博主題檢索模型研究[J].情報(bào)理論與實(shí)踐,2013,36(8):85-88.

TANG Xiaobo,F(xiàn)ANG Xiaoke.Research on micro-blog theme retrieval model based on text clustering and LDA[J].Information theory and Practice,2013,36(8):85-88.

[4]張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.

ZHANG Chenyi,SUN Jianling,DING Yiqun.Micro-blog theme mining based on MB-LDA model[J].Computer re?search and development,2011,48(10):1795-1802.

[5]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

[6]趙華,紀(jì)曉文,曾慶田,等.基于話題相關(guān)空間的微博用戶興趣識(shí)別及可視化方法[J].計(jì)算機(jī)科學(xué),2015,42(6A):500-502.

ZHAO Hua,JI Xiaowen,ZENG Qingtian,et al.Mi?cro-blog user interest recognition and visualization meth?od based on topic related space[J].Computer Science,2015,42(6A):500-502.

[7]MA Dashun,RAO Lan,WANG Ting.An empirical study of SLDA for Information retrieval[J].Information Re?trieval Technology,2011(1):84-92.

[8]Pennacchiotti M,Popescu A-M.Democrats,republicans and starbucks afficionados:user classification in twitter[C]//Proceedings of the 17th ACM SIGKDD International Conference Knowledge Discovery and Data Mining,2011:430-438.

[9]秦雨等.基于特征映射的微博用戶標(biāo)簽興趣聚類算法[J].Journal of Data Acquisition and Processing,2015,30(6):1246-1252.

QIN Yu,etc.A clustering algorithm based on feature map for micro-blog user Tags.Journal of Data Acquisition and Processing,2015,30(6):1246-1252.

[10]Griffiths T L,Steyvers M.Finding scientific topics[J]. Proc of the National Academy of Sciences o1 the United States of America,2004,101(Suppl1):5228-5235.

A Topic Extraction for Micro-blog Based on Micro-blog Tags and LDA

DENG DanjunYAO Li
(Department of Computer Science,Hubei Polytechnic University,Huangshi435002)

According to the characteristics of micro-blog text,this paper takes the micro-blog three kinds of special symbols,“@”,“//”and“#”,into consideration for topic extraction analysis of micro-blog text.On the basis of the traditional LDA model,a micro-blog tag LDA model is established,which considers the micro-blog theme,forwarded micro-blog,micro-blog comment con?tent,and enhances the accuracy of the extraction of micro blog theme.Experimental results show that the algorithm proposed in this paper has a good effect on the topic extraction of Sina micro-blog.

micro-blog,topic extraction,LDA,micro-blog tags

TP391

10.3969/j.issn.1672-9722.2017.05.034

2016年11月6日,

2016年12月27日

湖北理工學(xué)院校級(jí)科研項(xiàng)目(編號(hào):15xjz02Q,15xjz03Q)資助。

鄧丹君,女,碩士,講師,研究方向:社交網(wǎng)絡(luò)數(shù)據(jù)提取。姚莉,女,碩士,講師,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用。

猜你喜歡
符號(hào)內(nèi)容用戶
內(nèi)容回顧溫故知新
學(xué)符號(hào),比多少
幼兒園(2021年6期)2021-07-28 07:42:14
“+”“-”符號(hào)的由來
變符號(hào)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
圖的有效符號(hào)邊控制數(shù)
如何獲取一億海外用戶
主站蜘蛛池模板: 免费人成黄页在线观看国产| 女人一级毛片| 亚洲国产av无码综合原创国产| 成人亚洲天堂| 香蕉eeww99国产在线观看| 亚洲一区黄色| 日韩在线影院| 丰满人妻被猛烈进入无码| 3D动漫精品啪啪一区二区下载| 丰满人妻被猛烈进入无码| 国产午夜在线观看视频| 国产第一页屁屁影院| 日韩精品亚洲人旧成在线| 日韩国产高清无码| 国产成人精品第一区二区| 九九热在线视频| 亚洲欧美日韩动漫| 亚洲无码A视频在线| 国产69精品久久| 最近最新中文字幕免费的一页| 国产白浆一区二区三区视频在线| 国产精品熟女亚洲AV麻豆| 波多野结衣无码视频在线观看| 无码在线激情片| 99久视频| 亚洲色图在线观看| 一个色综合久久| 日韩精品毛片人妻AV不卡| 扒开粉嫩的小缝隙喷白浆视频| 成人毛片免费观看| 日韩毛片视频| 午夜福利无码一区二区| 99热这里只有精品免费国产| 就去色综合| 国产福利不卡视频| 天天综合亚洲| 99伊人精品| 亚洲国产成人在线| 国产又爽又黄无遮挡免费观看| 欧美精品成人| 国产美女视频黄a视频全免费网站| 亚洲欧美一区二区三区图片 | 人妻丰满熟妇AV无码区| 国产丝袜无码一区二区视频| 全免费a级毛片免费看不卡| 成人午夜视频网站| 中文字幕日韩丝袜一区| 国产福利在线免费| 欧美日韩在线第一页| 亚洲中文字幕日产无码2021| 日韩成人在线一区二区| 婷婷色丁香综合激情| 欧美成人国产| 亚洲第一成人在线| 国产精品偷伦在线观看| 国产在线观看第二页| 免费人欧美成又黄又爽的视频| 国产天天射| 香蕉网久久| 超碰91免费人妻| a天堂视频在线| 亚洲日本在线免费观看| 国产91蝌蚪窝| 丁香五月亚洲综合在线| 亚洲中文字幕av无码区| 日韩不卡高清视频| 色一情一乱一伦一区二区三区小说| 激情影院内射美女| 久久久久久尹人网香蕉| 激情综合图区| 91亚瑟视频| 欧美亚洲中文精品三区| 在线亚洲精品自拍| 日本成人不卡视频| 欧美午夜视频在线| 国产专区综合另类日韩一区| 天天操天天噜| 国产精品成人久久| 97国产成人无码精品久久久| 免费在线视频a| 国产三级毛片| a级毛片视频免费观看|