999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的長短文本分類比較

2017-04-01 17:26:26王海林張雅君
數字技術與應用 2016年10期

王海林++張雅君

摘要:LDA作為一種常用的主題模型,在文本挖掘中作為特征選擇的方法被廣泛應用。但隨著互聯網中短文本信息的逐漸增多,短文本代表性詞少的特點使得LDA對于短文本的主題挖掘不一定能夠達到理想效果,這給LDA的應用帶來了巨大挑戰。為了探究LDA主題模型對短文本的分類效果,基于LDA,對長文本和短文本進行分類,對比分類效果,判斷LDA對于短文本的適用性。

關鍵詞:LDA 主題模型 文本分類 短文本

中圖分類號:TP181 文獻標識碼:A 文章編號:1007-9416(2016)10-0230-01

Abstract:As a common method of topic mining, LDA is used as a method of feature selection in text mining widely. But with the increase in the number of short text, the result of LDA for the topic mining of short text may be not good. It is a challenge for LDA to deal with the few words .This paper classified the short text and long text based on LDA, respectively, compared the result, and estimated whether LDA is suitable for short text.

Key Words:LDA; topic model; text classification; short text

文本數據作為非結構化數據的一種,如何從中進行信息的提取,得到了高度的關注。微博、商品評論等信息都表現為短小、代表性詞少等特征,LDA對于短文本的主題挖掘并不一定能夠達到理想效果。因此,基于LDA對長、短文本進行分類,探究LDA主題模型對于短文本挖掘是否適用。

1 LDA主題模型概述

1.1 LDA基本思想

LDA主題模型[1]認為文檔集合中所有的文檔按照一定的概率共享某些潛在主題,而這些潛在的主題又可以由文檔中的一些特征詞來表示[2]。因此,就可以用一個三層貝葉斯模型來表示 “文檔”、“主題”和“特征詞”之間的關系,如圖1所示。LDA模型可以表示為。

1.2 參數估計

LDA主題模型使用Gibbs抽樣[3]對未知參數φ和θ進行估計,吉布斯更新規則為:參數估計。

2 實驗數據及結果

2.1 實驗數據集及預處理

長文本實驗數據來源于微信公眾號抓取的新聞數據,共社會、教育、健康等7個類別。短文本實驗數據集來源于SODA上海開放數據創新應用大賽網格化管理數據,共有暴露垃圾、跨門營業和占道無證經營3個小類。長文本平均每條新聞在180字以上,共741條;短文本中每條數據平均字數在100字以下,共998條。

2.2 實驗環境

分詞處理:R

主題挖掘:JGibbs

文本分類:libsvm[4]

2.3 實驗結果

選擇精確度、召回率和F值作為評價指標[5]比較分類準確性,結果評價如表1所示。表1中顯示長文本的各指標均高于短文本的各個指標,面對短文本,LDA效果較差。

3 結語

使用LDA對不同長度的文本集進行主題挖掘,利用libsvm進行分類,根據分類結果各評價指標可以看出長文本分類效果明顯高于短文本分類效果,LDA并不適用于短文本。數據集的選取、文本分詞的效果和數據集中類別的數量會對分類結果造成一定的影響,因此,可以進一步研究如何消除這些外在條件的影響從而更加嚴謹的對比LDA對于長、短文本的主題挖掘效果。

參考文獻

[1]Blei D, Ng A ,Jordan M. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003(3):993-1022.

[2]王鵬,高鋮,陳曉美.基于LDA模型的文本聚類研究[J].情報科學,2015,1(33):63-68.

[3]Thomas L. Grimths, Mark Steyvers. Finding scientific topics[J]. PNAS,2004:52.

[4]董露露.基于特征選擇及LDA模型的中文文本分類研究與實現[D].安徽大學碩士學位論文,2014(4).

[5]Xiaojun Wu, Liying Fang, Pu Wang, et al. Performance of Using LDA for Chinese News Text Classification [C]. Proceeding of the IEEE 28th Canadian Conference on Electrical and Computer Engineering,2015:1260-1264.

收稿日期:2016-08-26

作者簡介:王海林(1962—),男,漢族,山西大同人,副教授,碩士研究生導師,主要研究領域為:數據建模、大數據、分布式系統;張雅君(1992

—),女,漢族,山西大同人,碩士研究生,主要研究領域為:數據挖掘、數據建模。

主站蜘蛛池模板: 亚洲专区一区二区在线观看| 色婷婷综合激情视频免费看| 特级毛片免费视频| 欧美三级日韩三级| 亚洲a级在线观看| 伊人成色综合网| 亚洲国产精品一区二区第一页免| 国产麻豆永久视频| 日韩精品无码一级毛片免费| 麻豆精品在线播放| 日本爱爱精品一区二区| 极品国产一区二区三区| 国产激爽爽爽大片在线观看| 一区二区理伦视频| 国产黄色免费看| 伊人激情久久综合中文字幕| 美女黄网十八禁免费看| 亚洲欧美日韩中文字幕在线| 亚洲男人天堂久久| 国产免费久久精品99re丫丫一| 国产精品高清国产三级囯产AV| 亚洲欧美日韩成人在线| 亚洲欧美不卡中文字幕| 日本成人一区| 无码人妻热线精品视频| 97精品国产高清久久久久蜜芽 | www.精品国产| 国产一级一级毛片永久| 亚洲a级毛片| 国产一区二区三区在线观看免费| 国产色婷婷| 国内丰满少妇猛烈精品播 | 亚洲欧美日韩成人高清在线一区| 伊人蕉久影院| 老色鬼久久亚洲AV综合| 五月天丁香婷婷综合久久| 亚洲精品视频在线观看视频| 国产精品视频导航| 国产美女叼嘿视频免费看| 91久久偷偷做嫩草影院电| 四虎精品国产永久在线观看| 欧美成a人片在线观看| 丁香五月婷婷激情基地| 日韩美女福利视频| 国产欧美日韩视频怡春院| 日韩一二三区视频精品| 极品尤物av美乳在线观看| 精品无码国产一区二区三区AV| 亚洲欧洲日韩综合色天使| 亚洲无码37.| 日韩无码视频专区| 美女啪啪无遮挡| 欧美中文字幕第一页线路一| 东京热av无码电影一区二区| 日本精品αv中文字幕| 欧美精品高清| 欧美激情视频一区二区三区免费| 久久青草精品一区二区三区| 91黄视频在线观看| 国产91透明丝袜美腿在线| a级毛片免费看| 国产精品自在拍首页视频8 | 天天婬欲婬香婬色婬视频播放| 中国丰满人妻无码束缚啪啪| 国产黑丝视频在线观看| 在线国产欧美| 97在线免费| 国产精品自在线拍国产电影| 国产在线97| 国产美女免费| 国产综合在线观看视频| 国产69囗曝护士吞精在线视频| 国产va免费精品观看| 国产裸舞福利在线视频合集| 欧美日韩国产高清一区二区三区| 丁香婷婷综合激情| 2020极品精品国产| 精品福利国产| 国产呦视频免费视频在线观看 | 国产在线小视频| 性喷潮久久久久久久久| 亚洲乱码视频|