999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的網(wǎng)絡(luò)微博輿情分析

2016-05-14 22:04:23徐維林朱宗高麗劉金嶺
軟件導(dǎo)刊 2016年5期

徐維林 朱宗 高麗 劉金嶺

摘要:LDA模型對長文本聚類有優(yōu)勢。將微博文本按一定規(guī)則構(gòu)建長文本,根據(jù)文本中隱含的豐富語義信息,將SVM模型與LDA模型相結(jié)合,利用K-Means算法聚類。實(shí)驗(yàn)結(jié)果表明,SVM和LDA相結(jié)合的模型,明顯提高了聚類質(zhì)量和穩(wěn)定性。

關(guān)鍵詞:SVM模型;LDA模型;微博輿情;K-Means算法聚類

DOIDOI:10.11907/rjdk.161005

中圖分類號:TP319

文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2016)005-0153-02

0 引言

互聯(lián)網(wǎng)對社會的影響力與日俱增,網(wǎng)絡(luò)輿情研究越來越受到重視。隨著論壇、社區(qū)、博客、微博、微信等新興互聯(lián)網(wǎng)媒體的興起,社會輿情的傳播速度變得越來越快。因此,加強(qiáng)輿情信息的監(jiān)控,及時掌握輿情動態(tài),利用現(xiàn)代信息技術(shù)促進(jìn)網(wǎng)絡(luò)輿情信息健康有序發(fā)展,是各級政府部門的重要工作之一。

主題模型(Latent Dirichlet Allocation,LDA)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),是目前公認(rèn)的自然語言處理中較好的模型之一。為了使LDA模型較好地處理微博文本,以獲得較有價值的輿情信息,先將微博集合信息進(jìn)行粗分類,構(gòu)成主題較為明確的長文本集合,利用數(shù)據(jù)預(yù)處理、特征詞提取,用TF-IDF策略得到SVM特征詞空間向量,結(jié)合LDA進(jìn)行聚類,得到微博輿情熱點(diǎn)話題。本文先將微博集合按一定的規(guī)則構(gòu)成長文本集,將LDA主題模型與SVM有機(jī)結(jié)合,從特征詞和主題兩個方面對文本進(jìn)行聚類分析,以彌補(bǔ)兩種方式的不足,提高了聚類準(zhǔn)確率。

1 相關(guān)研究

LDA模型是Blei[1]提出的一種基于潛在Dirichlet分布的概率主題生成模型,該模型生成文本過程:一系列主題以服從多項式分布形式生成每個文本,再從這些主題中同樣以服從多項式分布的方式抽樣出每個單詞。劉振鹿等[2]應(yīng)用LDA模型進(jìn)行文本的潛在語義分析,將語義分布劃分成低頻、中頻、高頻語義區(qū),以低頻語義區(qū)的語義進(jìn)行Web游離文本檢測,以中、高頻語義區(qū)的語義作為文本特征進(jìn)行文本聚類,采用文本類別與語義互作用機(jī)制對聚類結(jié)果進(jìn)行修正,獲得了較好的聚類效果。曹娟等[3]研究了LDA模型的最優(yōu)化問題,證明當(dāng)主題之間的相似度最小時模型最優(yōu)。王少鵬等[4]提出了一種基于LDA的主題模型文本聚類方法,利用TF-IDF算法和LDA主題模型,通過耗費(fèi)函數(shù)確定文本相似度的融合系數(shù),進(jìn)行線性結(jié)合來獲取文本之間的相似度,通過計算得到文本相似度矩陣,使用K-mean進(jìn)行文本聚類,利用F值對聚類結(jié)果評估,取得了良好的聚類效果。但LDA僅對于長文本效果較為突出,對具有短文本特點(diǎn)的微博文本分類往往效果不明顯。

2 基于LDA與SVM結(jié)合的輿情獲取

2.1 微博數(shù)據(jù)采集

微博輿情信息數(shù)據(jù)采集是進(jìn)行輿情分析的基礎(chǔ)。一般情況下,微博信息的獲取都是通過專門的獲取工具,比如網(wǎng)上免費(fèi)提供的新浪微博數(shù)據(jù)獲取采集器 V1.0綠色版(http://www.cr173.com/soft/141381.html)等。

2.2 微博長文本集構(gòu)建

本文實(shí)驗(yàn)數(shù)據(jù)是新浪網(wǎng)上采集的9 800條微博信息,采用同一用戶某時間段內(nèi)(本文選取48個小時)所發(fā)出的微博按時間順序排序構(gòu)造一個長文本集。具體算法如下:

算法1:構(gòu)建微博長文本集

該算法將每個用戶在時間間隔T0(選取T0=24)內(nèi)發(fā)出的微博有序地構(gòu)建了一個長文本向量,這基于兩方面考慮:①假設(shè)每條微博知識反映一個主題;②一個用戶連續(xù)發(fā)出微博為一個主題的概率很大,因此某一時間段內(nèi)連續(xù)發(fā)出的微博只會是有限個主題。

2.3 基于LDA和VSM的聚類算法設(shè)計

2.3.1 LDA模型

LDA模型具有清晰的層次結(jié)構(gòu),依次為文檔集合層、主題層和特征詞層。

LDA模型是典型的有向概率圖模型[6],由參數(shù)(α,β)確定,α反映了文檔集合中隱含主題間的相對強(qiáng)弱,β刻畫所有隱含主題自身的概率分布。其中θk表示文檔主題的概率分布,φk表示特定主題下特征詞的概率分布,-表示文檔集的文本數(shù),K表示文檔集的主題數(shù),N表示每篇文檔包含的特征詞數(shù)。

2.3.2 LDA 和VSM結(jié)合的聚類算法

3 實(shí)驗(yàn)結(jié)果與分析

3.1 線性相關(guān)系數(shù)λ

λ分別取值0.1-0.9時,計算其漏判率、錯判率和耗費(fèi)函數(shù)值[4],通過實(shí)驗(yàn)數(shù)據(jù)可以看出,漏判率、錯判率和耗費(fèi)函數(shù)值先是隨λ的值增大而減小,在0.6處達(dá)到最低點(diǎn),而后隨著λ的值增大而增大,因此λ=0.6時聚類效果最佳,所以本文實(shí)驗(yàn)取λ=0.6。

3.2 聚類質(zhì)量檢測

基于數(shù)據(jù)集的分布情況常用F值進(jìn)行評價。F值評價原理是利用查全率和查準(zhǔn)率對聚類結(jié)果質(zhì)量進(jìn)行評價。對于實(shí)驗(yàn)的比較,本文通過計算SVM與LDA結(jié)合模型(簡記為SVM+LDA)、LDA模型和SVM模型的F值比較實(shí)驗(yàn)結(jié)果得到,SVM與LDA結(jié)合模型不僅在質(zhì)量上有一定提高,而且聚類結(jié)果的穩(wěn)定性也較好。這是因?yàn)镾VM模型中利用TF-IDF進(jìn)行大樣本集進(jìn)行特征詞抽取時具有明顯的優(yōu)勢,而LDA模型又強(qiáng)化了文本間語義關(guān)系,同時,LDA模型又具有強(qiáng)大的降維能力。綜合以上幾點(diǎn),使得SVM+LDA在進(jìn)行微博集中的輿情識別時提高了聚類質(zhì)量和穩(wěn)定性。

4 結(jié)語

文本間潛在的語義關(guān)系是通過文本相似度來反映和度量的。LDA模型是解決文本潛在主題的概率生成模型,為了發(fā)揮LDA模型對長文本多主題聚類的優(yōu)勢,本文利用微博時序和用戶聚集特點(diǎn),將某用戶在某時間段內(nèi)所發(fā)送的微博按時序排序?yàn)橐粋€長文本,再利用SVM模型提取特征詞的優(yōu)勢,結(jié)合SVM與LDA模型的相似度進(jìn)行聚類,克服LDA主題向量維數(shù)過低和對文本區(qū)分度較弱的不足,以此提高文本聚類的穩(wěn)定性和準(zhǔn)確性。

參考文獻(xiàn):

[1]BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Rasearch,2003(3):993-995.

[2]劉振鹿,王大玲,馮時,等.一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[J].中文信息學(xué)報,2011,25(1):60-67.

[3]曹娟,張勇東.一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J].計算機(jī)學(xué)報,2008,31(10):1780-1788.

[4]王少鵬,彭巖,王潔.基于LDA 的文本聚類在網(wǎng)絡(luò)輿情分析中的應(yīng)用研究[J].山東大學(xué)學(xué)報:理學(xué)版,2014,49(9):129-134.

[5]劉金嶺.基于降維的短信文本語義分類及主題提取[J].計算機(jī)工程與應(yīng)用,2010,46(23):159-161,174.

[6]徐戈,黃厚峰.自然語言處理中主題模型的發(fā)展[J].計算機(jī)學(xué)報,2011,34(8):1423-1437.

[7]鄔啟為.基于向量空間的文本聚類方法與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2014.

[8]張永軍,劉金嶺,馬甲林.中文短信文本信息流中多話題的分類抽取[J].現(xiàn)代圖書情報技術(shù),2014,30(7):101-106.

(責(zé)任編輯:杜能鋼)

主站蜘蛛池模板: 亚洲男人在线天堂| 国产精品久久久久久久久久久久| 久久亚洲黄色视频| 欧美精品xx| 国产AV无码专区亚洲A∨毛片| 亚洲欧美日本国产综合在线| 麻豆精品久久久久久久99蜜桃| 免费无码AV片在线观看国产| 999国内精品久久免费视频| 亚洲精品男人天堂| 亚洲天堂网在线观看视频| 无码专区在线观看| 欧美啪啪网| 日本国产一区在线观看| 自拍偷拍欧美| 国产导航在线| 国产精品无码一二三视频| 久久精品国产精品国产一区| 呦系列视频一区二区三区| 日韩在线欧美在线| 伊人久久福利中文字幕| 亚洲色图欧美激情| jijzzizz老师出水喷水喷出| 久久无码av三级| 8090午夜无码专区| 欧美啪啪视频免码| 狠狠v日韩v欧美v| 国产成人一区免费观看 | 免费看黄片一区二区三区| 成人一级免费视频| 国产激情影院| 九九热视频在线免费观看| 亚洲中文久久精品无玛| 青青青国产视频| 亚洲AV无码乱码在线观看裸奔 | 在线欧美国产| 国产成人综合日韩精品无码首页| 欧美综合区自拍亚洲综合绿色| 国产爽妇精品| 大陆国产精品视频| 国产成人禁片在线观看| 99热这里只有精品免费国产| 免费一级无码在线网站| 亚洲成av人无码综合在线观看| 国产97视频在线| 无码丝袜人妻| 亚洲精品手机在线| 99热这里只有免费国产精品 | 欧美日本在线一区二区三区| 人妻出轨无码中文一区二区| 国产清纯在线一区二区WWW| 亚洲视频色图| 国产无码精品在线| 亚洲色欲色欲www在线观看| 亚洲国产欧美中日韩成人综合视频| 欧美日韩一区二区三区四区在线观看| 久久精品91麻豆| 无码内射中文字幕岛国片| 久久6免费视频| 国产精品一区不卡| 午夜欧美在线| 国产日韩av在线播放| 人妻少妇乱子伦精品无码专区毛片| 国产av剧情无码精品色午夜| 在线色国产| 欧美中文字幕在线二区| 国产亚洲欧美日韩在线一区二区三区| 亚洲成人高清在线观看| 黄色在线不卡| 婷婷激情亚洲| 国内a级毛片| 国产精品三级专区| 国产成人无码综合亚洲日韩不卡| 精品福利网| 国产丝袜一区二区三区视频免下载| 青青青视频免费一区二区| 国产精品深爱在线| 青青操国产| 精品国产乱码久久久久久一区二区| 国产黄网永久免费| 亚洲成a∧人片在线观看无码| 国产成人综合欧美精品久久|