999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的微信留言文本主題發(fā)現研究

2017-09-15 01:26:17施利萍
科教導刊·電子版 2017年24期

施利萍

摘 要 目前越來越多的機構建立微信公眾平臺,在公眾號文章中的留言反映其受眾在該文章話題下的關注熱點和真實觀點,因此分析和挖掘留言具有十分重要的參考價值。分析了微信公眾號留言文本的挖掘價值,通過LDA主題模型,研究了如何從留言文本出挖掘出熱點話題,從而幫助公眾號更好地發(fā)展。

關鍵詞 微信留言文本 主題發(fā)現 LDA模型

中圖分類號:TP181 文獻標識碼:A

1微信公眾號留言文本的挖掘價值

隨著移動互聯(lián)網的普及,通過手機上網的中國網民規(guī)模近十億,而微信是目前使用最多的社交軟件,月活躍用戶數達5億,微信公眾號達數百分個。越來越多各單位機構建立微信公眾平臺,利用其進行宣傳、展示、服務、產品推介等。微信公眾平臺傳播資訊具有針對性強,覆蓋一切碎片化時間;傳播精準,歷史信息傳播周期長;交互性強,方便及時的交互體驗;實時、靈活、低成本等特點。公眾號的訂閱者一般對該公眾號信息較為關注,在公眾號文章中的留言反映他們在該文章話題下的關注熱點和真實觀點。因此我們可以利用數據挖掘技術從這些留言文本中挖掘出網民所討論的熱點話題,從而了解到網民的態(tài)度。留言大數據挖掘有利于公眾平臺獲取當前的熱門關注點,從而有針對性地加強相關內容創(chuàng)建,進而提升用戶體驗和活躍度,增加用戶的粘度和參與度。

留言文本具有信息內容短、信息量少的特征,這加大了提取話題的難度。本文針對公眾號留言文本,應用LDA主題模型提取出熱點話題。

2 LDA主題模型

主題模型是當前文本表示研究的主要范式,LDA(LatentDirichletAllocafion)主題模型是一種基于概率的主題發(fā)現模型,能夠提取文本隱含主題的非監(jiān)督學習模型,是主體模型中典型的代表。由于LDA模型是全概率主題生成模型,可以利用高效的概率推斷算法進行計算,同時LDA模型在計算過程中與訓練文檔數量無關,因此更適合處理大規(guī)模語料庫。

LDA模型是一個三層貝葉斯產生式概率模型,該模型采用“詞袋”的方法,這種方法將每一篇文檔看作一個詞頻向量,假設文檔是由一系列潛在主題混合而成,主題是由詞匯表中所有的詞匯混合而成,每一篇文檔代表了主題所代表的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。

3基于LDA模型的微信留言文本主題提取

3.1文本預處理

保證數據的質量,降低無關數據或噪聲數據對結果的影響,需要對抓取到元數據進行預處理。本文主要從以下方面對數據進行整理:

(1)剔除只包含特殊字符和數字的留言,只保留重復評論中的一條;

(2)利用IKAnalyzer2012開源分詞類庫對每條留言進行分詞,保留名詞和動詞;對短文本分詞可通過使用詞典中的詞條進行字符串匹配來實現。將短文本分詞后再去掉一些無意義的詞語,如“的”、“了”等詞語,雖然出現頻率高,但對文本分類沒有太大的貢獻;

(3)建立停用詞表剔除文本內容中的無用字詞。

3.2 LDA建模

假定給定一個留言集R包含M篇留言文本{r1,r2,…,rM},留言文本rm是長度為Nm的詞匯序列,記為rm={w1,w2,…,wN},其中wn表示序列中的第n個詞匯,在M篇留言中分布著K個主題{t1,t2,…,tk}。詞匯wi在留言rm中的概率可以表示為:

p(wi|rm) ==1p((wi|zi=j)p(zj=j|rm)) (1)

其中,zi是潛在主題,標示詞匯wi的主題序號,p(wi|zi=j) 標示詞匯wi被分配到第j個主題的概率p(zj=j|rm),標示第j個主題在留言rm中的概率。

模型假定每篇留言是由各個主題隨機混合而成,將主題表示為在詞匯上的概率分布,由此其中每個主題都是可解釋的。模型使用多項式分布建立貝葉斯網絡中各參數和變量之間的關聯(lián),并假設多項式分布的參數服從Dirichlet。每個主題又是詞匯表中所有詞匯的隨機混合,混合比例也服從多項式分布。

根據經驗,模型中主題數目K預設為50,同時根據Steyvers的建議,令 根據主題數目變化, 的所有分量取經驗值=50/T,而 的所有分量取固定的經驗值 =0.01,這三個可變量的取值確定后,結合輸入向量運行Gibbs抽樣,得到詞匯表中的詞語在K個潛在主題上的概率分布以及潛在主題在每篇留言中的概率分布。

本文認為表達某個主題的留言越多該主題就越重要。在模型中,一個留言可能包含一個或若干個主題,是若干主題的混合,那么某個主題的重要度就與該主題在所有留言的各混合主題中所占的比例有關。所以留言集合中主題的重要度可以通過計算留言集合中所有句子包含的該主題的權重的累加和得到。最后將主題按重要程度排序,從而得到留言文本的熱點主題。

4 結束語

本文分析了微信公眾號留言文本的挖掘價值,通過LDA主題模型,研究了如何從留言文本出挖掘出熱點話題,從而幫助公眾號更好地發(fā)展。

參考文獻

[1] 劉坤峰,劉斌,秦長濤,劉振名,梁品超.新媒體微信公眾平臺建設及運營策略研究[J].河北工程技術高等專科學校學報,2017(01):42—44.

[2] 余傳明,張小青,陳雷.基于LDA模型的評論熱點挖掘:原理與實現[J].情報理論與實踐,2010(05):103—106.endprint

主站蜘蛛池模板: 青青草91视频| 欧美一区中文字幕| 久久久久夜色精品波多野结衣| 9啪在线视频| 嫩草影院在线观看精品视频| 一级毛片基地| 超碰免费91| 国产成人艳妇AA视频在线| 伊人久久精品无码麻豆精品| 久青草网站| 免费在线播放毛片| 九九视频在线免费观看| 国产精品原创不卡在线| 中文字幕在线播放不卡| 国产精品七七在线播放| 亚洲国产精品VA在线看黑人| 亚洲第一视频网| 高清无码手机在线观看| 欧美国产日韩在线| 国产96在线 | 91福利一区二区三区| 日韩AV手机在线观看蜜芽| 成人综合在线观看| 日韩av在线直播| 亚洲成人一区二区| 色吊丝av中文字幕| 波多野结衣视频一区二区| 国产美女视频黄a视频全免费网站| 激情网址在线观看| 国产精品区视频中文字幕| 99国产在线视频| 日韩天堂在线观看| 国产精品成| 久久免费看片| 高清不卡毛片| 97在线免费| 98超碰在线观看| 在线播放精品一区二区啪视频| 欧美日韩专区| 国产精品偷伦在线观看| 国产另类视频| 全色黄大色大片免费久久老太| 国产精品自在在线午夜| 久久天天躁狠狠躁夜夜躁| 毛片三级在线观看| 青青久久91| 亚洲欧美自拍中文| 真实国产精品vr专区| 无码福利日韩神码福利片| 福利在线不卡| 国产亚洲男人的天堂在线观看| 97在线视频免费观看| 精品国产中文一级毛片在线看| 亚洲动漫h| 五月婷婷伊人网| 一级一级特黄女人精品毛片| 国产香蕉在线| 亚洲性一区| 亚洲乱强伦| 麻豆精品久久久久久久99蜜桃| 麻豆精品在线播放| 国产亚洲欧美在线人成aaaa| 国产精品污视频| 欧美日韩高清| 亚洲h视频在线| 激情爆乳一区二区| 无码国产伊人| 亚洲最新网址| 婷婷亚洲视频| 亚洲精品天堂在线观看| 中文国产成人久久精品小说| 久久精品国产免费观看频道| 国产内射一区亚洲| 在线观看91香蕉国产免费| 国产精品妖精视频| 丁香六月激情综合| 精品国产免费人成在线观看| 国产精品手机视频| 免费人成又黄又爽的视频网站| 国产在线八区| av在线手机播放| 亚洲一级无毛片无码在线免费视频 |