999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法

2017-03-23 20:37:08田曉艷
科技創(chuàng)新與應(yīng)用 2017年6期

田曉艷

摘 要:提出一種基于詞嵌入與密度峰值策略的文本聚類算法,并將其應(yīng)用于大數(shù)據(jù)網(wǎng)絡(luò)文本數(shù)據(jù)中。通過對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理轉(zhuǎn)化為詞嵌入表示的實(shí)數(shù)向量,并進(jìn)一步采用密度峰值聚類算法實(shí)現(xiàn)文本聚類。實(shí)驗(yàn)表明該方法在準(zhǔn)確率、召回率以及F值等指標(biāo)上均優(yōu)于傳統(tǒng)文本聚類算法。

關(guān)鍵詞:詞嵌入;密度峰值;大數(shù)據(jù)文本;聚類算法

1 密度峰值聚類算法

密度峰值聚類算法的主要思想是認(rèn)為聚類中心是密度大的數(shù)據(jù)點(diǎn),它周圍圍繞著比自身密度小的數(shù)據(jù)點(diǎn)。同時(shí),聚類中心與其它的高密度數(shù)據(jù)點(diǎn)之間的距離較大。假設(shè)μi為目標(biāo)空間中的任意數(shù)據(jù)點(diǎn),算法為其初始化兩個(gè)參數(shù)。一個(gè)參數(shù)為數(shù)據(jù)點(diǎn)密度ρi,另一個(gè)參數(shù)是該數(shù)據(jù)點(diǎn)到其它高密度數(shù)據(jù)點(diǎn)的距離δi,則聚類中心就是ρi與δi都大的數(shù)據(jù)點(diǎn)μi,對(duì)于其它的數(shù)據(jù)點(diǎn)則根據(jù)相同的規(guī)則分配到其它的距離最近的類簇中。

1.1 數(shù)據(jù)點(diǎn)密度與距離的計(jì)算方法

任意數(shù)據(jù)點(diǎn)μi的密度計(jì)算公式如公式(1)所示, 它表示數(shù)據(jù)點(diǎn)μi周圍某截?cái)嗑嚯x內(nèi)的點(diǎn)的個(gè)數(shù)。

1.2 聚類中心的選擇策略

對(duì)于數(shù)據(jù)點(diǎn)集S中的任意數(shù)據(jù)點(diǎn)都可以通過公式(1)與公式(2)計(jì)算數(shù)據(jù)點(diǎn)的密度與距離,以密度為橫坐標(biāo),距離為縱坐標(biāo)可以得到聚類選擇的決策圖,從決策圖上可以直觀的選擇出密度與距離都大的點(diǎn)作為聚類中心。

2 基于詞嵌入的文本聚類算法

為了更好的將該算法應(yīng)用到文本聚類中,采用詞嵌入表示文作為文本的初始化方法。詞嵌入(Word embedding)是一種表示自然語言的特征學(xué)習(xí)方法。文本語料中的單詞或者短語甚至是語句都可以映射為低維實(shí)數(shù)向量。詞嵌入有效的改善了One-hot Representation的詞匯鴻溝現(xiàn)象(詞匯之間是孤立的,沒有語義關(guān)聯(lián))。利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞嵌入表示的典型工作是由Bengio等人[1]提出的。Collobert等人[2]系統(tǒng)的提出了詞嵌入的訓(xùn)練方法,并利用其模型同時(shí)解決了詞性標(biāo)注、命名實(shí)體識(shí)別以及語義識(shí)別等自然語言處理任務(wù)。word2vec是2013年Google提供的開源詞嵌入工具,通過該工具獲得的詞嵌入可以直接用于聚類分析。因此本文實(shí)現(xiàn)的文本聚類算法采用word2vec工具進(jìn)行詞嵌入的預(yù)訓(xùn)練。在文本聚類算法實(shí)現(xiàn)過程中,首先將目標(biāo)語料利用word2vec工具訓(xùn)練為實(shí)數(shù)向量來表示每一個(gè)數(shù)據(jù)點(diǎn),通過計(jì)算詞嵌入之間的相似性來表示數(shù)據(jù)點(diǎn)的密度與距離,實(shí)現(xiàn)文本聚類。基于詞嵌入與密度峰值策略的文本聚類算法基本流程如下。首先,利用word2vec工具對(duì)語料進(jìn)行預(yù)處理,將文本數(shù)據(jù)轉(zhuǎn)變?yōu)閷?shí)數(shù)向量;利用余弦相似度計(jì)算數(shù)據(jù)點(diǎn)之間的相似度;根據(jù)數(shù)據(jù)點(diǎn)之間的相似度計(jì)算數(shù)據(jù)點(diǎn)的密度以及距離;根據(jù)決策圖選擇聚類中心。

3 實(shí)驗(yàn)結(jié)果及分析

本文實(shí)驗(yàn)包括對(duì)基于詞嵌入的密度峰值聚類算法性能與DBSCAN聚類算法對(duì)比測(cè)試,以及對(duì)文本聚類效果的比較分析。實(shí)驗(yàn)語料采用搜狗試驗(yàn)室的標(biāo)注文檔(http://www.sogou.com/labs/dl/c.html)。包含財(cái)經(jīng)、計(jì)算機(jī)、健康等9個(gè)分類的網(wǎng)絡(luò)文本數(shù)據(jù),每個(gè)分類都包含約2000條的新聞數(shù)據(jù)。在實(shí)驗(yàn)前的數(shù)據(jù)預(yù)處理中,將每一類新聞的數(shù)據(jù)隨機(jī)提取出來,重新構(gòu)造S-500與S-1500兩個(gè)數(shù)據(jù)集,分別包括500與1500條新聞數(shù)據(jù)。

3.1 實(shí)驗(yàn)設(shè)置

本文選擇準(zhǔn)確率(Precision)、召回率(Recall)以及F值(F-Measure)作為算法評(píng)價(jià)指標(biāo)。準(zhǔn)確率可以反映出算法對(duì)語料內(nèi)容分類的能力;召回率能夠判斷算法分類與人工分類的相似程度高低;F值是準(zhǔn)確率與召回率的綜合指標(biāo),取值在0~1之間,值越高說明算法性能越好。DBSCAN算法通過多次實(shí)驗(yàn)來確定參數(shù),將eps值設(shè)置為0.68;minPts值設(shè)為14.32。

3.2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)結(jié)果如表1所示,本文算法的準(zhǔn)確率、召回率與F值等指標(biāo)均優(yōu)于DBSAN算法。這是因?yàn)楸疚乃惴ㄍㄟ^密度與距離共同判斷聚類中心,并非只依靠密度這個(gè)單一特征來判斷,因此與DBSCAN相比能夠更加準(zhǔn)確的區(qū)分出不同的類簇。并且,本文算法需要考察的是數(shù)據(jù)點(diǎn)之間的距離(文本相似性),與數(shù)據(jù)的輸入順序無關(guān),因此可以更快速的劃分類簇。

4 結(jié)束語

本文在研究了詞嵌入技術(shù)與密度峰值聚類算法的基礎(chǔ)上提出了一種基于詞嵌入的密度峰值大數(shù)據(jù)文本聚類算法。該算法結(jié)合了詞嵌入能夠表示語義特征與密度峰值聚類算法能夠快速準(zhǔn)確劃分類簇的優(yōu)點(diǎn),對(duì)當(dāng)前大數(shù)據(jù)環(huán)境中的海量文本數(shù)據(jù)進(jìn)行高效挖掘。通過實(shí)驗(yàn)表明,本文算法對(duì)于較大數(shù)據(jù)量的文本依然能夠快速準(zhǔn)確的進(jìn)行聚類,與傳統(tǒng)方法相比魯棒性更強(qiáng)。在下一步研究中,將深度學(xué)習(xí)技術(shù)與本文聚類算法相結(jié)合,以獲取更加有效的語義分類方法。

參考文獻(xiàn)

[1]Bengio Y, Ducharme R, jean, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research,2006,3(6):1137-1155.

[2]Collobert R, Weston J, Bottou L, et al. Natural Language Processing (Almost) from Scratch[J]. Journal of Machine Learning Research,2011,12(1):2493-2537.

主站蜘蛛池模板: 亚洲日韩精品欧美中文字幕| 久久综合亚洲色一区二区三区| 五月天香蕉视频国产亚| 99re视频在线| 亚洲第一视频网站| 亚洲小视频网站| 91麻豆国产精品91久久久| 亚洲成人黄色在线| 国产乱人伦AV在线A| 免费A级毛片无码免费视频| 国产免费福利网站| 天堂成人av| 亚洲日本精品一区二区| 亚洲综合一区国产精品| 国产男人的天堂| 国产综合另类小说色区色噜噜| 亚洲中久无码永久在线观看软件| 国产日韩丝袜一二三区| 国产成人凹凸视频在线| 日韩在线视频网| 香蕉久人久人青草青草| 99在线观看视频免费| hezyo加勒比一区二区三区| 色网站在线免费观看| 无码日韩视频| 国产精品成人啪精品视频| 色久综合在线| 免费一级毛片不卡在线播放| 97视频精品全国在线观看| 黄色污网站在线观看| 欧美成人午夜视频免看| www.99精品视频在线播放| 国产精品密蕾丝视频| 免费A级毛片无码免费视频| 成人综合在线观看| 国产精品网址你懂的| 波多野结衣一区二区三视频| 国产系列在线| 色婷婷电影网| 亚洲视频无码| 日韩国产 在线| 中文字幕有乳无码| 亚洲国产午夜精华无码福利| 韩日无码在线不卡| 91精品视频网站| 久久久久久久97| 欧美日韩高清| 国产成人精彩在线视频50| 国禁国产you女视频网站| 国产福利一区在线| 亚洲国产精品不卡在线| 亚洲国产看片基地久久1024| 国产区91| 凹凸国产分类在线观看| 国产国产人免费视频成18| 国产网友愉拍精品| 欧美精品v欧洲精品| 人妻精品全国免费视频| 2021亚洲精品不卡a| 欧美精品在线视频观看| 无码啪啪精品天堂浪潮av| 久久人人妻人人爽人人卡片av| 精品国产自在在线在线观看| 成人国产小视频| 亚洲视频免费在线| 刘亦菲一区二区在线观看| 国产农村妇女精品一二区| 91在线视频福利| 免费一看一级毛片| 色窝窝免费一区二区三区 | 91麻豆精品国产高清在线 | 五月婷婷综合在线视频| 啪啪啪亚洲无码| a毛片在线播放| 国产精品久久久久久久久| 91久久精品日日躁夜夜躁欧美| 亚洲一区网站| 国产亚洲欧美日本一二三本道| 91无码视频在线观看| 毛片网站观看| 国产尤物在线播放| 成人在线不卡|