999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的短文本分類研究

2016-10-21 08:40:12王海林張雅君
中國管理信息化 2016年19期
關(guān)鍵詞:分類實驗方法

王海林,張雅君

(山西財經(jīng)大學(xué) 信息管理學(xué)院,太原 030006)

基于主題模型的短文本分類研究

王海林,張雅君

(山西財經(jīng)大學(xué)信息管理學(xué)院,太原030006)

分本分類作為文本挖掘的分支,得到了廣泛的關(guān)注和迅速的發(fā)展。基于主題模型,針對短文本分類進行研究,選取LDA和BTM主題模型和SVM、Bagging和AdaBoost分類方法進行短文本分類實驗,并對實驗結(jié)果進行評價。

主題模型;短文本分類;LDA;BTM

1 引言

隨著信息技術(shù)的快速發(fā)展和網(wǎng)絡(luò)的廣泛使用,互聯(lián)網(wǎng)中產(chǎn)生的信息顯著增加。大量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為網(wǎng)絡(luò)數(shù)據(jù)的主力軍,可以占到總數(shù)據(jù)量的90%[1],短文本更是在社交網(wǎng)站中隨處可見。主題模型作為特征選擇的一種方法,常用于文本分類中。使用不同的分類方法,對比LDA和BTM模型對于短文本特征選擇的效果。

2 主題模型

2.1主題模型思想

主題模型是一種層次結(jié)構(gòu)的模型,用概率來表示各層之間的關(guān)系,常見的有 PLSA[2]、LDA[3]和 BTM[4]等,PLSA即潛在語義分析,是最早的主題模型,它使用條件概率描述單詞和潛在類別間的關(guān)系,并使用最大期望的方法訓(xùn)練潛在類別。

2.2 LDA模型

由于PLSA模型的不完備和容易出現(xiàn)過擬合等缺陷[4],Blei等人提出了LDA模型,用概率來表示文檔集合層、文檔層和詞語層之間的關(guān)系。

在LDA模型中:

(1)每篇文檔主題詞的個數(shù)N~Possion(ξ);

(2)文檔中先驗概率θ~Dir(α);

(3)每篇文檔的第n個主題詞wn:

主題Zn~Multinomial(θ);

主題詞wn~Multinomial(wn|Zn,β)。

所以,LDA模型可以表示為:

其中P(φ|β),代表主題概率,P(w|φ)P(z|θ)代表主題詞概率,P(w|φ)P(z|θ)P(θ|φ)代表文檔概率。

參數(shù)估計:

2.3 BTM模型

BTM是另一種三層貝葉斯結(jié)構(gòu)模型,與LDA不同的是它用“詞對”來代替詞,從而克服了短文本中詞少所帶來的困難。BTM和LDA均使用Gibbs抽樣方法進行參數(shù)估計。LDA的Gibbs updating rules為:

BTM的Gibbs updating rules為:

BTM模型參數(shù)估計:

3 實驗數(shù)據(jù)及評價

3.1實驗數(shù)據(jù)及預(yù)處理

實驗數(shù)據(jù)集來源于SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽公開數(shù)據(jù),數(shù)據(jù)集名稱為網(wǎng)格化管理數(shù)據(jù),該數(shù)據(jù)集用來統(tǒng)計城市居民對于市容市貌現(xiàn)象的反映,其中描述這個屬性是對反映內(nèi)容的簡單敘述,平均字數(shù)少于100,類別是指反映現(xiàn)象所屬類別。經(jīng)過對數(shù)據(jù)的篩選,最終有988條數(shù)據(jù),類別為暴露垃圾、跨門營業(yè)和占道無證經(jīng)營。

3.2實驗環(huán)境

分詞處理:中科院中文分詞系統(tǒng)ICTCLAS;

主題模型:Windows下的 JGibbs和 Ubuntu下的 BTM-master;

文本分類:Weka中的libsvm、Bagging和AdaBoost方法。

3.3實驗及結(jié)果評價

選取 LDA和 BTM為主題模型,使用 libsvm、Bagging和 AdaBoost分類方法,將它們兩兩組合,同樣的分類方法設(shè)置相同的參數(shù),最終進行6次實驗,并對實驗結(jié)果進行評價。

以精確度 (Precision rate)、召回率 (Recall)和F值 (F-measure)為評價指標,BTM+libsvm最高,均為 0.967,LDA+ AdaBoost最低,分別為0.804、0.811和0.795。因此,對于短文本,BTM比LDA有更強的適用性,而對于分類,SVM更適合處理高維數(shù)據(jù)。

4 總結(jié)

從實驗結(jié)果可以看出,對于短文本的分類,使用BTM作為主題模型,SVM作為分類方法,得到的效果最佳。當然,由于數(shù)據(jù)集的局限性,實驗結(jié)果具有一定的片面性,未來的工作可以進一步選取多個實驗數(shù)據(jù)集,以得到更普遍的結(jié)論。

主要參考文獻

[1]Limeng Cui,F(xiàn)an Meng,Yong Shi,etal.A Hierarchy Method Based on LDA and SVM for News Classification[C]//Proceedings of the 2014 IEEE International Conference on Data MiningWorkshop,2014:60-64.

[2]THofmann.Probabilistic L atent S emantic I ndexing[C]//Annual International SIGIRConference,1999.

[3]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research.2003(3):993-1022.

[4]董文.基于LDA和Word2Vec的推薦算法研究[D].北京:北京郵電大學(xué),2015.

10.3969/j.issn.1673-0194.2016.19.098

TP311

A

1673-0194(2016)19-0174-02

2016-08-25

王海林(1962-),男,山西大同人,山西財經(jīng)大學(xué)副教授,碩士研究生導(dǎo)師,主要研究方向:數(shù)據(jù)建模、大數(shù)據(jù)、分布式系統(tǒng)、數(shù)據(jù)可視化。

猜你喜歡
分類實驗方法
記一次有趣的實驗
分類算一算
做個怪怪長實驗
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: a级毛片免费网站| 国产精品美女免费视频大全| 国产av剧情无码精品色午夜| 91精品福利自产拍在线观看| 免费一级无码在线网站| 一级毛片免费播放视频| 亚洲精品欧美日本中文字幕| 中文字幕亚洲专区第19页| 久久五月视频| 真实国产精品vr专区| 欧美亚洲国产精品久久蜜芽| 亚洲精品福利视频| av大片在线无码免费| 亚洲精品桃花岛av在线| 日本五区在线不卡精品| 国产综合亚洲欧洲区精品无码| 亚洲va在线观看| 激情综合图区| 97久久超碰极品视觉盛宴| 久久久久无码精品| 午夜啪啪网| 亚洲 欧美 偷自乱 图片| 亚洲嫩模喷白浆| 久久精品女人天堂aaa| 五月激情综合网| 思思99思思久久最新精品| 国产精品无码AV中文| 日韩不卡免费视频| 成人精品亚洲| 一级毛片免费播放视频| 国产亚洲精品yxsp| 好紧太爽了视频免费无码| 5555国产在线观看| 国产视频入口| 青青草原国产一区二区| 日韩专区欧美| 青青久视频| 色天堂无毒不卡| 欧美日本视频在线观看| 欧美无遮挡国产欧美另类| 毛片最新网址| 日本欧美成人免费| 成人午夜亚洲影视在线观看| 久久香蕉国产线看观看亚洲片| www亚洲精品| 亚洲色图另类| 色爽网免费视频| 99国产精品国产高清一区二区| 日韩精品免费在线视频| 国产激情在线视频| 思思99热精品在线| 亚洲成人免费在线| 欧美成人午夜在线全部免费| 国产sm重味一区二区三区| 成人午夜在线播放| 婷婷亚洲综合五月天在线| 日韩精品资源| 亚洲日本中文字幕天堂网| 成人国产免费| 她的性爱视频| 69精品在线观看| 亚洲男人天堂2018| 欧美一级在线播放| 亚洲系列中文字幕一区二区| 四虎精品黑人视频| 久久黄色小视频| 666精品国产精品亚洲| 日韩天堂在线观看| 六月婷婷综合| 91无码网站| 久久a毛片| 午夜视频免费试看| 69综合网| 久久a级片| 91久久国产综合精品| 国产99视频精品免费观看9e| 污视频日本| 亚洲国产理论片在线播放| 青草91视频免费观看| 日韩美毛片| 波多野结衣一二三| 国产精品手机视频|