999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于LDA主題模型的話題發現方法

2016-07-25 02:38:25郭藍天李揚慕德俊楊濤李哲
西北工業大學學報 2016年4期

郭藍天, 李揚, 慕德俊, 楊濤, 李哲

(西北工業大學 自動化學院, 陜西 西安 710072)

?

一種基于LDA主題模型的話題發現方法

郭藍天, 李揚, 慕德俊, 楊濤, 李哲

(西北工業大學 自動化學院, 陜西 西安710072)

摘要:話題發現是提取熱點話題并掌握其演化規律的關鍵技術之一。針對社交網絡中海量短文本信息具有高維性導致主題模型難以處理以及主題分布不均導致主題不明確的問題,提出一種基于LDA(latent dirichlet allocation)主題模型的CBOW-LDA主題建模方法,通過引入基于CBOW(continuous bag-of-word)模型的詞向量化方法對目標語料進行相似詞的聚類,能夠有效降低LDA模型輸入文本的維度,并且使主題更明確。通過在真實數據集上計算分析,與現有基于詞頻權重的詞向量化LDA方法相比,在相同主題詞數情況下困惑度可降低約3%。

關鍵詞:詞向量; LDA模型; 話題發現; 困惑度

為了通過海量的社交網絡數據及時的掌握熱點話題和輿情的態勢變化,需要對話題進行提取、追蹤和預測。話題發現是解決該類問題的關鍵技術之一。LDA(latent dirichlet allocation,隱性狄利克雷分布) 主題模型在新聞話題發現與檢測方面獲得了不錯的效果,但由于社交網絡文本(如微博客短文本)存在高維性及主題分布不均等問題,加之LDA自身的局限性,導致以概率化詞匯抽取為基礎的LDA主題模型在處理社交網絡文本方面還存在模型難以降維處理和主題不明確的問題[1-4]。

CBOW語言模型是Mikolov等[2]于2013年提出的一種基于類前饋神經網絡的語言模型。它能利用文本詞匯的上下文信息,通過模型訓練將詞轉化為向量。通過向量空間上的相似度可以分析表示文本語義上的相似度。可作為詞向量聚類方法用來尋找相似詞匯,進而在有效表達語義信息的同時降低模型處理的維度[4]。

本文研究話題發現問題,通過對現有話題發現常用的LDA主題模型的局限性進行分析,提出一種基于CBOW語言模型的向量表示方法進行文本詞相似性聚類,以聚類結果為基礎利用LDA主題模型對文本進行隱含主題提取的話題發現方法。

1相關工作

文獻[4]提出一種將LDA與VSM(vector space model,向量空間模型)結合的方法研究微博客話題發現。該方法基于TF-IDF的權重詞向量,再將2種方法結果進行線性加權融合在一起,實現文本間相似度的計算。TF-IDF向量方法仍然是對詞頻進行簡單的概率統計,易受無用信息干擾。

為了減少代詞和介詞等無用文本信息對話題抽取模型的干擾,文獻[5]提出在微博話題檢測過程中,將中文詞性標注后輸入LDA主題模型進行話題抽取。該方法試圖通過剔除大量無關詞匯,使向量空間的維度降低。

利用LDA和基于神經網絡語言模型的向量化方法進行文本的特征提取并對比分析。實驗結果表明,LDA直接應用在文本特征表示上的效果不理想,同時也面臨著高維度的問題;基于神經網絡語言模型的向量化方法應用于文本表示過程中能夠帶來一定的效果提升。

總結LDA模型的局限性主要表現在:

1) 由于中文詞義多樣性,存在很多同義詞、近義詞、易混淆詞等,致使基于概率化的單詞抽取方法會存在文本的主題分散及主題混淆等問題。

2) 社交網絡文本數據量大,主題更新速度快以及訓練語料數據維度特別高(通常上萬維的向量),使得LDA主題模型規模很大,處理效率偏低。

2基于CBOW-LDA的話題發現

2.1話題發現的基本流程

話題發現的主要步驟為先根據聚類規則挖掘社會網絡中的用戶群組和抓取文本數據。進行數據預處理后,提取特征和模型表示,將雜亂的非結構化文本轉化為結構化數據。然后利用聚類算法對文本主題詞進行相似度的計算和聚類,從而找出群組的話題并進行分析,該過程如圖1所示。

圖1 話題發現的示意圖

2.2CBOW-LDA算法框架

在話題發現過程中,CBOW-LDA算法的主要功能是將文本的向量化后進行文本模型表示。文本向量化是指將文本中的單詞表示為多維向量的形式,然后輸入LDA主題模型進行訓練,得到文本的模型表示。算法核心思想是在LDA主題模型的文本表示基礎上,利用詞向量進行相似詞聚類,這樣做能使LDA模型的處理維度降低的同時改善主題分散混淆。

圖2 CBOW-LDA算法框架

2.3文本向量化

與傳統的one-hot representation向量表示法不同,CBOW屬于distributed representation的詞向量表示方式[7],該方法通過引入連續的分布式詞表示方法,形成了不同于傳統詞袋模型連續詞袋模型。

CBOW模型的主要思想是根據語料中詞的上下文信息生成其對應的詞向量,并映射到高維空間中后,以詞向量在高維空間中的相互關系來計算詞與詞之間的相似度。具體地,是將語料中的詞通過左邊的輸入層映射到中間的投影層得到詞典。

圖3 CBOW語言模型

設有語料庫C中的t個詞匯C(t)通過共享投影層,得到對應的唯一位置W(t),接著通過W(t)的上下文信息來預測W(t)。基本訓練步驟如下

1) 在輸入層,通過窗口值k限定輸入層中的上下文窗口大小,然后在讀取窗口中的詞C(t-k), C(t-k+1),…, C(t+k-1), C(t+k), 通過hash表得到投影層的相應位置W(t-k), W(t-k+1),…, W(t+k-1), W(t+k),這樣就可得到某個詞W(t)的上下文詞匯Context(W(t)),因為CBOW的模型的目標是在已知當前詞W(t)的上下文Context(W(t))的情況下預測當前的詞。

2) 在中間的投影層,利用對W(t)的上下文信息Context(W(t))進行累加操作。用公式可表達為

(1)

3) 從中間的投影層到右邊的輸出層,利用W(t)的上下文Context(W(t))建立條件概率表達式P(W(t)|Context(W(t))),用來表示生成W(t)的向量值。

CBOW模型的優化目標函數取其對數似然函數

(2)

直接使用梯度下降求解的運算復雜度非常高。通常使用負采樣(negative sampling)的方法進行替換能簡化求解計算[8]。根據負采樣的原理,lnp(wt+j|wt)模型中公式的表示為

(3)

Ewk~Pv(w)表示Huffman樹中上下文不出現某個詞的期望值,Pv(w)表示整個語料中詞頻的分布,Wk表示該詞在Huffman樹各層中非目標詞組的節點向量和。

得到Huffman樹中路徑概率最大的詞向量后,通過訓練整個文本的詞匯得到最終的詞向量集。利用cos相似度計算詞向量之間的相似度,記錄相似詞的詞頻和向量,輸入LDA主題模型進行文本建模。

2.4文本的模型表示

LDA主題模型是包含文檔-主題-詞語的3層貝葉斯模型,其中主題是隱含層[9]。與傳統主題模型輸入不同,CBOW-LDA算法中LDA主題模型輸入的語料是經過相似性聚類的文檔-詞語的分布,使LDA主題模型處理維度降低及主題更明確。

LDA主題模型采用概率產生模式,將文本表示為主題的混合分布p(z)。LDA的聯合概率公式為

(4)

主題模型生成文本的過程如下:

1) 對于主題z,根據Dirichlet分布Dir(β)得到該主題上的一個單詞多項式分布向量φ;

2) 根據Dirichlet分布Dir(α)得到該文檔的一個主題分布概率向量θ;

3) 對于該文檔N個單詞中的每個單詞wi(i∈[1,N])。從θ的多項式分布Multi(θ)隨機選擇一個主題z,即得到文檔-主題的分布。從主題z的多項式條件概率分布Multi(φ)選擇一個單詞作為wi,即得到主題-詞語的分布。

利用Gibbs抽樣簡化求解θ和φ的值。由貝葉斯公式得到后驗概率公式如下

(5)

引入θ和φ,并積分可得

(6)

(7)

對于同一文本而言,由于CBOW-LDA算法進行了詞向量的相似性聚類,實質是優化了LDA主題模型輸入的文檔-詞語分布,以致使求解得到θ和φ的結果產生了更新,得到了新的詞項和主題項。

3實驗及結果分析

3.1評價指標

評價指標采用文本建模中常用的困惑度(perplexity)來度量,困惑度越小,主題詞被選中的概率越大,表明語言模型吻合度越好。其定義如公式(8)所示

(8)

式中,W為測試集,wm為測試集文檔m中可觀測到的單詞,p(wm)表示模型產生文本wm的概率,Nm為文檔m的單詞數。

3.2語料獲取

本文采集了新浪微博上有關IT互聯網行業高管以及政府機關人員的微博語料,以及這個群組內的關注情況數據。數據集涉及約6 000名用戶在2015年3月至2015年4月這30天內發表的約43萬條微博。以這期間的某一天為例,抓取到14 536條微博,分析其包含詞數多達233 296。

3.3實驗步驟與參數設置

原始微博數據包含諸多無用信息,使用“Jieba”分詞工具進行分詞和過濾,得到的詞典庫包含46 516個詞;然后將其輸入到CBOW-LDA模型使用Word2vec0.8(2015年7月)開發向量程序進行向量化處理。

Word2vec的參數設置如表1所示,其中Cbow=1表示訓練使用的是CBOW模型,Hs=0表示使用的是負采樣簡化求解計算。詞向量聚類中,相似度的閾值設為0.75。

表1 Word2vec參數設置

CBOW-LDA算法中的文本模型表示過程選用lda1.0.3的Python工具集作為LDA的實現工具。該工具處理速度較快,適合分析大規模語料。已有文獻大多數將模型參數中的α和β設置為:α=50/K,β=0.01。K為隱含主題詞數,可根據文本規模和應用場景做相應調整。Gibbs抽樣迭代次數為500次。

所有參數設定好之后,程序便開始利用Gibbs抽樣算法對模型求解。程序運行完成后可得到參數θ和φ的值,通過分析可得文本的主題詞,進而總結語料的話題。

3.4結果分析

在相同的參數設置和語料下,通過計算困惑度來度量模型的處理效果。對比方案參照文獻[4]中基于TF-IDF的權重詞向量LDA方法(本文簡寫為TF-LDA),2種方法困惑度隨隱主題數目的變化情況如表2所示。

表2 2種方法困惑度比較

可以看出,隨著主題數不斷增加,二者困惑度都相應降低。將二者差值的百分數取平均值得出,在該20~60個主題數的范圍內,CBOW-LDA方法困惑度降低了約3%。

在相同參數下,將主題數K設為30,觀察困惑度隨迭代次數的變化情況如圖4所示。文本實驗主題模型求解的迭代次數為500次,為了便于展示,僅截取迭代300次的數據。

圖4 困惑度隨主題數目的變化情況

從結果可以看出本文的CBOW-LDA方法雖然采用比TF-LDA更為復雜的向量化方法,但是收斂速度并沒有隨之減慢,表現出較好的響應能力。

圖5 困惑度隨迭代次數的變化情況

4結論

文本針對社交網絡中短文本信息的特點,提出將文本深度表示模型的詞向量化方法與LDA主題模型結合進行話題發現的方法。通過對LDA模型的輸入進行相似詞的聚類,使得話題抽取模糊度更低,話題含義的表達更加明確。今后的研究工作將進一步深度研究和優化模型,加強話題發現的效果。

參考文獻:

[1]Cheng Xueqi, Yan Xiaohui, Lan Yanyan, et al. BTM: Topic Modeling Over Short Texts[J]. IEEE Trans on Knowledge and Data Engineering, 2014, 26(12): 2928-2941

[2]Mikolow Tomas, Yih Wentau Scott, Zweiq Geoffery. Linguistic Reqularities in Contrmcous Space Word Representations[C]∥Proceedings of the 12nd Conference of the North Anerican Chapter of the Association for Computational Linguistics, Atlanta, USA: NAACL, 2013

[3]Dermouche M, Velcin J, Khouas L, et al. A Joint Model for Topic-Sentiment Evolution Over Time[C]∥Proceedings of 14thIEEE International Conference on Data Mining. Shenzhen, China, 2014

[4]Huang Bo, Yang Yan, Mahmood Amjad, et al. Microblog Topic Detection Based on LDA Model and Single-Pass Clustering[C]∥Proceedings of 7thInternational Conference on Rough Sets and Current Trends in Computing. Chengdu, China, 2012

[5]Darling M William, Song Fei. Probabilistic Topic and Syntax Modeling with Part-of-Speech LDA[J]. ArXiv:1303.2826, 2013

[6]Bai Xue, Chen Fu, Zhan Shaobin. A New Clustering Model Based on Word2vec Mining on Sina Weibo Users′ Tags[J]. International Journal of Grid Distribution Computing, 2014, 7(3): 41-48

[7]Zhou Xinjie, Wan Xiaojun, Xiao Jianguo. Repre-Sntation Learning for Aspect Category Detection in Online Reviews[C]. Proceedings of the 29thAAAI Conference on Artificial Intelligence. Austin, Texas, USA, 2015

[8]Mikolov Tomas, Sutskever Hya. Distributed Representutions of Words and Phrases and Their Compositionality[C]∥Proceedings of the Ilth Newral Information Processing Systems Conference Lake Tahoe, USA: NIPS, 2013

[9]Cao Ziqiang, Li Sujian, Liu Yang, et al. A Novel Neural Topic Model and Its Supervised Extension[C]∥Proceedings of the 29thAAAI Conference on Artificial Intelligence. Austin, Texas, USA, 2015

A LDA Model Based Topic Detection Method

Guo Lantian, Li Yang, Mu Dejun, Yang Tao, Li Zhe

(School of Automation, Northwestern Polytechnical University, Xi'an 710072, China)

Abstract:Topic Detection is one of the most important techniques in hot topic extraction and evolution tracking. Due to the high dimensionality problem which hinders processing efficiency and topics mal-distribution problem which makes topics unclear, it is difficult to detect topics from a large number of short texts in social network. To address these challenges, we proposed a new LDA (Latent Dirichlet Allocation) model based topic detection method called CBOW-LDA topic modeling method. It utilizes a CBOW(Continuous Bag-of-Word) method to cluster the words, which generate word vectors and clustering by vectors similarity. This method decreases the dimensions of LDA output, and makes topic more clearly. Through the analysis of topic perplexity in the real-world dataset, it is obvious that topics detected by our method has a lower perplexity, comparing with word frequency weighing based vectors. In a condition of same number of topic words, perplexity is reduced by about 3%.

Keywords:word vectors; LDA model; topic detection; perplexity

收稿日期:2016-03-19

基金項目:國家自然科學基金(61402373、61303224、61403311)與航空科學基金(20155553036、2013ZC53034)資助

作者簡介:郭藍天(1987—),西北工業大學博士研究生,主要從事數據挖掘及機器學習等研究。

中圖分類號:TP391

文獻標志碼:A

文章編號:1000-2758(2016)04-0698-05

主站蜘蛛池模板: 国产美女免费网站| 日韩免费毛片| 99热这里只有成人精品国产| 又爽又大又黄a级毛片在线视频 | 亚洲无码37.| 亚洲娇小与黑人巨大交| 国产美女丝袜高潮| 无码免费视频| 91精品国产福利| 国产成人精品男人的天堂下载| 欧美啪啪精品| 国外欧美一区另类中文字幕| 欧美日韩午夜| 亚洲天堂网在线视频| 精品成人一区二区三区电影| 91在线精品麻豆欧美在线| 国产一在线| 日韩精品无码不卡无码| 国产精品jizz在线观看软件| 国产91久久久久久| 日本AⅤ精品一区二区三区日| 亚洲第七页| 狠狠色丁香婷婷| 精品国产黑色丝袜高跟鞋 | 亚洲伊人电影| 国产高清在线精品一区二区三区| 亚洲精品色AV无码看| 又黄又爽视频好爽视频| 午夜日b视频| 青青操视频在线| 日韩国产黄色网站| 狼友视频一区二区三区| 日韩欧美一区在线观看| 热伊人99re久久精品最新地| 国产一级妓女av网站| 国产成人盗摄精品| 日本免费精品| 99热最新在线| 国产成人无码综合亚洲日韩不卡| a级毛片免费看| 国产女人在线| av在线人妻熟妇| 亚洲欧洲综合| 狠狠色丁香婷婷综合| 91尤物国产尤物福利在线| www.国产福利| 欧美精品啪啪| 天天操天天噜| 亚洲最猛黑人xxxx黑人猛交| 国产精品欧美激情| 国产jizzjizz视频| 国产日本视频91| 国产成人亚洲精品色欲AV | 国产成人午夜福利免费无码r| 亚洲一级色| 亚洲精品日产AⅤ| 黄色一级视频欧美| 99热这里只有免费国产精品| 欧美曰批视频免费播放免费| 她的性爱视频| 国产97公开成人免费视频| 无码有码中文字幕| 国产97公开成人免费视频| 欧美另类第一页| 精品无码一区二区三区电影| 香蕉视频在线观看www| 热热久久狠狠偷偷色男同| 无遮挡国产高潮视频免费观看 | 亚洲 欧美 日韩综合一区| 国产成人三级在线观看视频| 18禁色诱爆乳网站| 亚洲国产亚综合在线区| 国产精品亚洲一区二区三区在线观看| 毛片久久久| 国产成人狂喷潮在线观看2345| 国产系列在线| 国产毛片不卡| 毛片久久久| 国语少妇高潮| 日韩毛片在线播放| 久热中文字幕在线| 99这里只有精品在线|