999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征詞典構(gòu)建和BIRCH算法的中文百科文本聚類研究

2019-11-28 13:40:32楊秀璋夏換于小民武帥趙紫如竇悅琪
計(jì)算機(jī)時(shí)代 2019年11期
關(guān)鍵詞:語(yǔ)義特征文本

楊秀璋 夏換 于小民 武帥 趙紫如 竇悅琪

摘 ?要: 針對(duì)傳統(tǒng)文本聚類存在數(shù)據(jù)維度過(guò)高,無(wú)法深層次理解語(yǔ)義等問(wèn)題,提出一種基于特征詞典構(gòu)建和BIRCH算法的文本聚類方法。該方法通過(guò)LDA主題模型和語(yǔ)義特征構(gòu)建特征詞典,利用BIRCH算法進(jìn)行文本聚類,并對(duì)維基百科、百度百科和互動(dòng)百科中的景點(diǎn)、動(dòng)物、人物和國(guó)家四個(gè)主題的網(wǎng)頁(yè)文檔進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)結(jié)果表明,特征詞典結(jié)合了主題關(guān)鍵詞和語(yǔ)義相似度,其準(zhǔn)確率、召回率和F特征值較傳統(tǒng)方法有所提高,該方法可以廣泛應(yīng)用于文本挖掘、知識(shí)圖譜和自然語(yǔ)言處理等領(lǐng)域。

關(guān)鍵詞: 文本聚類; 特征詞典; BIRCH; 特征提取; LDA

中圖分類號(hào):TP391 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1006-8228(2019)11-23-05

Abstract: Aiming at the problem that traditional text clustering has too high data dimension and deep understanding of semantics, a text clustering method based on feature dictionary construction and BIRCH algorithm is proposed. This method builds a feature dictionary through LDA topic model and semantic features, uses BIRCH algorithm to perform text clustering. an experimental analysis on Wikipedia, Baidu Encyclopedia and Interactive Encyclopedia WebPages is conducted on attractions, animals, characters and countries four topics, the results show that combined with the topic keywords and semantic similarity, the accuracy, recall and F eigenvalues of the feature dictionary are improved compared with traditional methods. This method can be widely used in text mining, knowledge mapping and natural language processing.

Key words: text clustering; feature dictionary; BIRCH; feature extraction; LDA

0 引言

在大數(shù)據(jù)研究中,文本挖掘是對(duì)文本信息進(jìn)行數(shù)據(jù)挖掘的過(guò)程,文本聚類是文本挖掘的重要知識(shí),它根據(jù)文檔的相似性將文檔集合進(jìn)行自動(dòng)歸類,盡可能地使內(nèi)容相似性較大的文檔劃分為同類。

由于文本數(shù)據(jù)復(fù)雜,通常為半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù),并且中文文本具有深層次語(yǔ)義等特點(diǎn),這使得傳統(tǒng)的聚類算法不適用于文本聚類。近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)文本聚類的研究取得了一定進(jìn)展,在方法和實(shí)踐上都有不少的成果。但由于這些方法都是直接對(duì)高維空間向量進(jìn)行聚類,沒(méi)有提取具有代表性的特征詞,一方面降低了運(yùn)算效率,另一方面忽略了特征詞的權(quán)重及相關(guān)性,從而效果不是很理想。

針對(duì)此問(wèn)題,本文提出了基于特征詞典構(gòu)建和BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)層次聚類算法的文本聚類方法。該方法利用向量空間模型將中文分詞后的文檔轉(zhuǎn)換為高維空間向量,再基于LDA主題模型和語(yǔ)義特征構(gòu)建自定義特征詞典,通過(guò)該特征詞典提取具有代表性的特征詞,然后用BIRCH層次聚類算法對(duì)新構(gòu)建的特征詞典向量進(jìn)行文本聚類。

1 相關(guān)研究

聚類(Clustering)是將本身沒(méi)有類別的數(shù)據(jù)集聚集成不同類別的組,每一組數(shù)據(jù)對(duì)象的集合都稱為簇。它根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的類簇,使得處于同一類別的數(shù)據(jù)成員之間的距離盡可能小,而處于不同類別的數(shù)據(jù)成員彼此分離[1]。常用聚類方法包括K-Means聚類、層次聚類、基于密度的聚類(DBSCAN)、Affinity Propagatio、模糊聚類等[2]。

文本聚類(Text Clustering)屬于聚類一種,它是針對(duì)文本數(shù)據(jù)的聚類分析,根據(jù)文檔內(nèi)容的相似性將文檔集合進(jìn)行自動(dòng)歸類的過(guò)程,其目標(biāo)是促使同類文檔的內(nèi)容相似性較大,而不同類文檔的內(nèi)容相似性較小[3-4]。常見(jiàn)的方法有基于層次的、基于劃分的、基于密度和基于網(wǎng)格的文本聚類方法。

隨著互聯(lián)網(wǎng)的飛速發(fā)展,文本數(shù)據(jù)呈爆炸式增長(zhǎng),國(guó)內(nèi)外學(xué)者對(duì)文本聚類做了大量的研究和實(shí)踐。在傳統(tǒng)文本聚類研究方面,吳夙慧等[5]將文本聚類定義為文本表示和相似度計(jì)算兩個(gè)基本問(wèn)題,并概述了基于向量空間模型的相似度計(jì)算、基于短語(yǔ)的相似度計(jì)算和基于本體的相似度計(jì)算方法;馬帥等[6]提出了一種基于參考點(diǎn)和密度的快速聚類算法;彭京等[7]提出了一種基于語(yǔ)義內(nèi)積空間模型的文本聚類算法;趙世奇等[8]提出了一種基于主題的文本聚類方法;Chen C L等[9]提出了挖掘模糊頻繁項(xiàng)集的層次文檔聚類算法;Jing L等[10]提出了一種基于特征權(quán)重的K-Means文本子空間聚類方法。

本體(Ontology)[11]是被用來(lái)描述某個(gè)特定領(lǐng)域或某些語(yǔ)義結(jié)構(gòu)的概念以及概念之間的關(guān)系。越來(lái)越多的學(xué)者將語(yǔ)義網(wǎng)和本體引入到文本聚類中。羅娜等[12]將WordNet的概念置于文檔集合中,特征提取后用TF-IDF表示文檔,從而提升文本聚類效果;王曉東等[13]實(shí)現(xiàn)了文檔語(yǔ)義層面上的矢量描述,通過(guò)WordNet對(duì)向量空間模型存儲(chǔ)的特征詞進(jìn)行概念映射和消歧處理,完成合成聚類;林麗[14]通過(guò)知網(wǎng)語(yǔ)義距離計(jì)算相似度,根據(jù)權(quán)重淘汰特征詞進(jìn)行最近鄰聚類算法的文本聚類;葉宇飛[15]通過(guò)知網(wǎng)語(yǔ)義改進(jìn)最近鄰聚類算法,實(shí)現(xiàn)Web中文文本聚類。如今,統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域知識(shí)也引入到了文本挖掘中。

2 特征詞典構(gòu)建和BIRCH文本聚類方法

本節(jié)介紹基于特征詞典構(gòu)建和BIRCH算法的文本聚類方法,重點(diǎn)闡述了該方法的流程。

2.1 基本思路

對(duì)維基百科、百度百科和互動(dòng)百科的景區(qū)、國(guó)家、動(dòng)物和人物四個(gè)主題的信息進(jìn)行文本聚類,其算法核心思想是引入了特征詞篩選步驟,通過(guò)LDA主題模型、語(yǔ)義相似度和貢獻(xiàn)程度構(gòu)建專有特征向量,再進(jìn)行BIRCH算法的文本聚類[16]。其框架如圖1所示。方法優(yōu)勢(shì)是引入了特征詞典,通過(guò)特征詞的貢獻(xiàn)程度和語(yǔ)義相似度構(gòu)建特征向量;所采用的BIRCH層次聚類算法處理的數(shù)據(jù)規(guī)模更大,算法效率更高,更容易計(jì)算類簇直徑和類簇間的距離,提升文本聚類效果。

2.2 文本抓取及數(shù)據(jù)預(yù)處理

通過(guò)Python、Selenium和XPath構(gòu)建自定義爬蟲(chóng)分別抓取維基百科、百度百科和互動(dòng)百科的中文網(wǎng)頁(yè)信息,將抽取的文本保存到本地作為語(yǔ)料。接著對(duì)所爬取的文本內(nèi)容進(jìn)行預(yù)處理操作,包括中文分詞、特色字符過(guò)濾、停用詞清洗等。

① 分詞旨在將漢語(yǔ)句子切分成單獨(dú)的詞序列。所選用的工具是基于Python語(yǔ)言的結(jié)巴(Jieba)分詞工具。同時(shí),由于分詞中會(huì)涉及到固定詞組或?qū)S忻~,如地點(diǎn)專有名詞“沙特阿拉伯”,它可能在分詞之后會(huì)變成 “沙特”和“阿拉伯”兩個(gè)名詞,這會(huì)嚴(yán)重影響實(shí)驗(yàn)的效果。因此在使用結(jié)巴分詞過(guò)程中,通過(guò)導(dǎo)入自定義詞典實(shí)現(xiàn)專有名詞和固定詞組的分詞。

② 在文本挖掘過(guò)程中,為了避免冗余數(shù)據(jù)對(duì)實(shí)驗(yàn)結(jié)果造成影響并提高分析效率,會(huì)過(guò)濾掉標(biāo)點(diǎn)符號(hào)、特殊字符和停用詞(Stop Words),防止這些詞對(duì)文本中所包含的有價(jià)值信息造成干擾。

2.3 特征提取及特征詞典構(gòu)建

(1) 特征表示

采用向量空間模型(Vector Space Model)來(lái)表示百科文本語(yǔ)料,它將一篇網(wǎng)頁(yè)語(yǔ)料(Web Dataset)轉(zhuǎn)換為一系列的特征項(xiàng)(Term)向量[17]。

(3) 特征詞典構(gòu)建

LDA(Latent Dirichlet Allocation)是由Blei等[18]在2003年提出的一種文檔主題生成模型,它能將一篇文檔的每個(gè)詞按照一定概率分布到某個(gè)主題上,并從這個(gè)主題中選擇相關(guān)的詞語(yǔ)集。本文選用LDA模型結(jié)合語(yǔ)義相似度來(lái)構(gòu)建特征詞典,圖2表示構(gòu)建的百度百科重要程度排名靠前的特征詞。

該方法將分別針對(duì)維基百科、百度百科、互動(dòng)百科進(jìn)行特征詞典構(gòu)建,通過(guò)LDA主題模型分別提取景區(qū)、動(dòng)物、人物、國(guó)家四個(gè)主題的特征詞,然后根據(jù)文檔的重要程度各自獲取前1000個(gè)特征詞,再構(gòu)成新的4000個(gè)特征詞,最后利用這4000個(gè)特征詞典所構(gòu)建的向量矩陣進(jìn)行文本聚類。

2.4 BIRCH文本聚類算法

BIRCH算法是一種常用的層次聚類算法。該算法使用聚類特征樹(shù)(Clustering Feature Tree)和聚類特征(Clustering Feature)進(jìn)行聚類。BIRCH聚類算法具有算法效率更高,聚類速度更快,并且適用于處理大規(guī)模數(shù)據(jù)集等優(yōu)點(diǎn),也更容易計(jì)算類簇的直徑和類簇之間的距離。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)集

為了驗(yàn)證本文所提出的基于特征詞典構(gòu)建和BIRCH算法的文本聚類方法,本文實(shí)驗(yàn)所選取的數(shù)據(jù)集來(lái)源于三大中文百科,包括維基百科、百度百科和互動(dòng)百科的景區(qū)、國(guó)家、動(dòng)物、人物四個(gè)主題。實(shí)驗(yàn)數(shù)據(jù)集共包含1200篇網(wǎng)頁(yè)文本,每類百科的每類主題各100篇網(wǎng)頁(yè)語(yǔ)料,具體情況如表1所示。

3.2 評(píng)估指標(biāo)

本實(shí)驗(yàn)采用數(shù)據(jù)挖掘和自然語(yǔ)言處理領(lǐng)域普遍使用的性能評(píng)估指標(biāo)(準(zhǔn)確率、召回率和F值)對(duì)所得到的網(wǎng)頁(yè)文本數(shù)據(jù)進(jìn)行評(píng)估。準(zhǔn)確率(Precision)如公式(7)所示,召回率(Recall)如公式(8)所示,F(xiàn)值(F-score)如公式(9)所示。

公式中,N表示實(shí)驗(yàn)結(jié)果中文本聚類正確的數(shù)量,S表示實(shí)驗(yàn)結(jié)果中實(shí)際識(shí)別出的文本聚類數(shù),T表示真實(shí)存在的文本類標(biāo)數(shù)。F值平衡了準(zhǔn)確率和召回率在特定環(huán)境下的制約問(wèn)題,本文用它來(lái)評(píng)估整個(gè)實(shí)驗(yàn)的最終結(jié)果。 ?

3.3 實(shí)驗(yàn)對(duì)比及結(jié)果分析

首先對(duì)維基百科、百度百科和互動(dòng)百科三類數(shù)據(jù)集進(jìn)行了文本聚類實(shí)驗(yàn),分別對(duì)景點(diǎn)、動(dòng)物、人物和國(guó)家四個(gè)主題進(jìn)行了對(duì)比。所有實(shí)驗(yàn)采用的方法都是計(jì)算十次取平均值作為最終的結(jié)果,實(shí)驗(yàn)所采用的BIRCH算法的類簇?cái)?shù)是4,相當(dāng)于對(duì)4個(gè)不同的主題進(jìn)行聚類分析。

表2是維基百科基于特征詞典構(gòu)建和BIRCH算法的文本聚類方法的對(duì)比實(shí)驗(yàn)結(jié)果。從表中可以發(fā)現(xiàn),本文所提出算法在準(zhǔn)確率、召回率和F值較之以前的方法都有一定提高。其中旅游景區(qū)F值為0.8863,保護(hù)動(dòng)物F值為0.8955,人物明星F值為0.9000,國(guó)家地理F值為0.8911,比對(duì)應(yīng)的其他兩種傳統(tǒng)文本聚類方法都高,表明了本文提出的基于特征詞典構(gòu)建和BIRCH算法的文本聚類方法聚類效果更好。

圖3是百度百科比較不同方法的F值的實(shí)驗(yàn)結(jié)果,圖4是互動(dòng)百科比較不同方法的F值的實(shí)驗(yàn)結(jié)果。圖中X軸表示旅游景區(qū)、保護(hù)動(dòng)物、人物明星和國(guó)家地理四個(gè)主題,Y軸對(duì)應(yīng)為F值。由此可見(jiàn),本文方法的F值都有所提升,其中在百度百科旅游景區(qū)主題,相對(duì)于傳統(tǒng)的K-Means文本聚類方法和BIRCH文本聚類方法,本文方法的F值分別提升了0.0170和0.0258。

圖5是本文方法的聚類效果圖,按照網(wǎng)頁(yè)文本的相似性將三大百科的景區(qū)、動(dòng)物、人物和國(guó)家聚集成了四類。如人物主題,將“孫儷”、“孫燕姿”、“高圓圓”等聚集在一起;如國(guó)家主題,將“中國(guó)”、“德國(guó)”、“立陶宛”等聚集在一起;如景區(qū)主題,將“故宮”、“海洋公園”、“黃果樹(shù)瀑布”等聚集在一起;如動(dòng)物主題,包括“中華鱘”、“鸚鵡”、“海豚”等。

上述實(shí)驗(yàn)表明,基于特征詞典構(gòu)建和BIRCH算法的文本聚類方法優(yōu)于傳統(tǒng)的文本聚類方法,它結(jié)合了LDA主題模型和語(yǔ)義相似度,通過(guò)構(gòu)建特征詞典來(lái)提升聚類結(jié)果,BIRCH算法也加快了聚類的效率。

6 結(jié)語(yǔ)

針對(duì)傳統(tǒng)文本聚類算法數(shù)據(jù)維度過(guò)高,識(shí)別特征詞不精準(zhǔn),沒(méi)有提取具有代表性的特征詞,缺乏深層次語(yǔ)義理解等問(wèn)題,本文提出了基于特征詞典構(gòu)建和BIRCH層次聚類算法的文本聚類方法。該方法利用LDA主題模型和語(yǔ)義特征構(gòu)建自定義特征詞典,再用BIRCH層次聚類算法對(duì)新構(gòu)建的特征詞典向量進(jìn)行文本聚類。

本文的實(shí)驗(yàn)數(shù)據(jù)集為百度百科、互動(dòng)百科和維基百科的旅游景區(qū)、保護(hù)動(dòng)物、人物明星和國(guó)家地理四類主題的網(wǎng)頁(yè)信息,并通過(guò)詳細(xì)的實(shí)驗(yàn)對(duì)比了傳統(tǒng)的K-Means和BIRCH文本聚類算法。實(shí)驗(yàn)結(jié)果表明,本文提出的方法的準(zhǔn)確率、召回率和F值都有所提升,基于特征詞典構(gòu)建和BIRCH算法的文本聚類方法有效地提高了百科的文本聚類效果,它是優(yōu)于傳統(tǒng)文本聚類方法的。本研究成果具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值,該算法可以廣泛應(yīng)用于文本挖掘、輿情檢測(cè)、知識(shí)圖譜和聚類分析等領(lǐng)域。

參考文獻(xiàn)(References):

[1] 伍育紅.聚類算法綜述[J].計(jì)算機(jī)科學(xué),2015.42(6A):491-524

[2] 金建國(guó).聚類方法綜述[J].計(jì)算機(jī)科學(xué),2014.41(11A):288-293

[3] 吳啟明,易云飛.文本聚類綜述[J].河池學(xué)院學(xué)報(bào),2008,28(2):86-91

[4] 曹曉.文本聚類研究綜述[J].情報(bào)探索,2016.1:131-134

[5] 吳夙慧,成穎,鄭彥寧,等.文本聚類中文本表示和相似度計(jì)算研究綜述[J].情報(bào)科學(xué),2012.30(4):622-627

[6] 馬帥,王騰蛟,唐世渭,等.一種基于參考點(diǎn)和密度的快速聚類算法[J]. 軟件學(xué)報(bào),2003,14(6):1089-1095

[7] 彭京,楊冬青,唐世渭,等.一種基于語(yǔ)義內(nèi)積空間模型的文本聚類算法[J].計(jì)算機(jī)學(xué)報(bào),2007.30(8):1354-1363

[8] 趙世奇,劉挺,李生,等.一種基于主題的文本聚類方法[J].中文信息學(xué)報(bào),2007.21(2):58-62.

[9] CHEN C L,TSENG F S C,LIANG T. Mining fuzzy frequent itemsets for hierarchical document clustering[J]. Information Processing and Management,2010.46(2):193-211

[10] JING L,NG M K,XU J,et al.Subspace Clustering of Text Document with Feature Weighting K-Means Algorithm[M]//Advances in Knowledge Discovery and Data Mining.Springer Berlin Heidelberg,2005:802-812

[11] SHVAIKO P,EUZENTAT J.Ten Challenges for Ontology Matching[C].Berlin:Springer,2008:1164-1182

[12] 羅娜,左萬(wàn)利,袁福宇,等.使用本體語(yǔ)義提高文本聚類[J].東南大學(xué)學(xué)報(bào)(英文版),2006.22(3):370-374

[13] 王曉東,郭雷,方俊,等.一種基于本體的抽象可調(diào)文檔聚類[J].計(jì)算機(jī)工程與應(yīng)用,2007.43(29):172-175

[14] 林麗.基于語(yǔ)義距離的文本聚類算法研究[D].廈門(mén):廈門(mén)大學(xué),2007.

[15] 葉宇飛.基于知網(wǎng)語(yǔ)義的Web中文文本聚類方法研究[D].重慶:重慶郵電大學(xué),2013.

[16] 仰孝富.基于BIRCH改進(jìn)算法的文本聚類研究[D].北京:北京林業(yè)大學(xué),2013.

[17] SALTON G,WONG A,YANG C S. A Vector Space Model for Automatic Indexing[J].Communication of the ACM,1975.18(11):613-620

[18] BLEI D M, NG A Y,JORDAN M I. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003.3:993-1022

猜你喜歡
語(yǔ)義特征文本
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 欧美成人国产| 免费一级毛片不卡在线播放| 国产情精品嫩草影院88av| 色135综合网| 亚洲 欧美 日韩综合一区| 人人91人人澡人人妻人人爽 | 精品欧美视频| 91在线播放国产| 日韩区欧美国产区在线观看| 亚洲无码不卡网| 黄色网在线免费观看| 国产在线日本| 高潮毛片无遮挡高清视频播放| 国产91精品调教在线播放| 国产男人天堂| 日韩精品无码一级毛片免费| 成人免费网站久久久| 久久亚洲天堂| 无码不卡的中文字幕视频| 久久精品免费看一| 中文字幕免费播放| 成·人免费午夜无码视频在线观看| 香蕉久久国产超碰青草| 国产极品粉嫩小泬免费看| 日本欧美视频在线观看| 中文成人无码国产亚洲| 亚洲色婷婷一区二区| 国产精品视频系列专区| 亚洲欧洲一区二区三区| 欧美视频在线第一页| 5555国产在线观看| 国产高清无码第一十页在线观看| 欧美国产综合视频| 日韩精品高清自在线| 亚洲综合色婷婷| 国内精品91| 国产人成网线在线播放va| 久久精品中文字幕免费| 无码啪啪精品天堂浪潮av| 亚洲欧洲日韩综合色天使| 亚洲大尺码专区影院| 国产屁屁影院| 二级特黄绝大片免费视频大片| 天天综合网色中文字幕| 亚洲一区二区三区国产精品| 国产欧美在线| 国产原创演绎剧情有字幕的| 国产成人综合网在线观看| 国产成人精品高清不卡在线| 日韩第九页| 久久综合色天堂av| 欧美精品在线观看视频| 在线另类稀缺国产呦| 91尤物国产尤物福利在线| 欧美v在线| 在线va视频| 波多野结衣一区二区三区AV| 福利一区三区| 欧美成a人片在线观看| 在线亚洲小视频| 久久精品91麻豆| 天堂网国产| 国产美女人喷水在线观看| 国产精品亚洲一区二区三区z | 国产成人午夜福利免费无码r| 波多野结衣一二三| 91在线中文| 欧美一级在线| 欧美人人干| 亚洲国产黄色| 国内精品视频| 国产va视频| 亚洲经典在线中文字幕| 亚洲中文在线看视频一区| 国产精品亚洲va在线观看| 2022国产无码在线| 久久久精品国产亚洲AV日韩| 亚国产欧美在线人成| 毛片免费在线视频| 亚洲日韩国产精品无码专区| 91小视频在线观看| 毛片视频网|