999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高性能特征選擇函數(shù)的Web文檔聚類算法

2009-01-01 00:00:00楊炳儒邵闊義宋澤鋒張克君

(1.北京科技大學(xué) 知識(shí)工程研究所, 北京 100083;2.北京銀聯(lián)商務(wù)有限公司, 北京 100048)

摘 要:目前常用向量空間模型 VSM(vector spacemodel)表示文檔,造成的高維問(wèn)題制約了其實(shí)際應(yīng)用的效果。采用了一種高性能特征選擇函數(shù),在構(gòu)建VSM時(shí)選取對(duì)區(qū)分類別貢獻(xiàn)較大的特征詞,因此有效地降低了特征空間的緯度,大大提高了系統(tǒng)的效率,改善了聚類的效果。通過(guò)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn),證明其性能優(yōu)于傳統(tǒng)方法。

關(guān)鍵詞:文檔聚類;Web挖掘;特征選擇;降維

中圖分類號(hào):TP391.9 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):10013695(2009)02054603

Web document clustering algorithmbased on heigh performance feature selecting function

YANG Bingru1,SHAO Kuoyi2,SONG Zefeng1,ZHANG Kejun1

(1.Instrtute of Knowledge Engineering, University of Science Technology Beijing, Beijing 100083, China;2.Beijing Unionpay Merchant Services Co.,Ltd., Beijing 100048, China)

Abstract:Vector space model(VSM) is the mainly way to represent text, but, “heighly dimension” restricts the application of VSM. This paper constructed a heigh performance feature selecting function. Based on category resolve power,selected most valuble feature when constructed vector space. Based on the experiments on an real corpus, this Web document clustering algorithm has better efficiency than traditional algorithms.

Key words:document clustering;Web mining;feature selection;dimension reduction

隨著WWW的飛速發(fā)展,Internet上的資源和服務(wù)均呈現(xiàn)出爆炸性增長(zhǎng)的趨勢(shì)。為了幫助人們有效地使用這些資源和服務(wù),陸續(xù)地有一些功能強(qiáng)大的搜索引擎問(wèn)世了。這些搜索引擎在給人們帶來(lái)很大便利的同時(shí)也暴露出搜索結(jié)果不能很好地滿足用戶需求的問(wèn)題。因此,Web文檔聚類技術(shù)以其縮減搜索空間、加快檢索速度、提高查詢精度的特點(diǎn)而受到了人們的廣泛關(guān)注[1,2]。

由于Web文檔長(zhǎng)度不同或各個(gè)文檔間關(guān)鍵詞出現(xiàn)的頻度各異而產(chǎn)生的畸變,特別是當(dāng)數(shù)據(jù)維數(shù)較高時(shí),聚類的質(zhì)量和算法的性能都明顯下降。為了提高其運(yùn)行效率,一般有兩種途徑,即高效的降維方法和較好的聚類算法。目前的降維方法主要有TFIDF、信息增益(information gain,IG)、互信息(mutual information,MI)等,它們都是基于詞頻的統(tǒng)計(jì)信息。文獻(xiàn)[1]中提出利用潛在語(yǔ)義索引(latent semantic index,LSI)壓縮維數(shù),但其時(shí)間開(kāi)銷較大,影響了在實(shí)際應(yīng)用中的推廣。聚類算法方面,目前效率最好的常用聚類算法是Kmeans算法,該算法復(fù)雜度為O(tkmn)。其中:t為迭代次數(shù);k為聚類數(shù);m為特征屬性數(shù);n為待分類的對(duì)象數(shù),通常k,m,t<

1 聚類概念及常用的特征選擇算法

1.1 聚類概念

迄今為止,聚類還沒(méi)有一個(gè)學(xué)術(shù)界公認(rèn)的定義。這里給出Everitt在1974年關(guān)于聚類所下的定義[3]:一個(gè)類簇內(nèi)的實(shí)體是相似的,不同類簇的實(shí)體是不相似的;一個(gè)類簇是測(cè)試空間中點(diǎn)的會(huì)聚,同一類簇的任意兩個(gè)點(diǎn)間的距離小于不同類簇的任意兩個(gè)點(diǎn)間的距離;類簇可以描述為一個(gè)包含密度相對(duì)較高的點(diǎn)集的多維空間中的連通區(qū)域,它們借助包含密度相對(duì)較低的點(diǎn)集的區(qū)域與其他區(qū)域(類簇)相分離。

事實(shí)上,聚類是一個(gè)無(wú)監(jiān)督的分類,它沒(méi)有任何先驗(yàn)知識(shí)可用。聚類的形式描述如下:令U={p1,p2,…,pn}表示一個(gè)模式(實(shí)體)集合,pi表示第i個(gè)模式i={1,2,…,n};CtU,t=1,2,…,k,Ct={pt1,pt2,…,ptw};proximity(pms,pir),其中第一個(gè)下標(biāo)表示模式所屬的類,第二個(gè)下標(biāo)表示某類中某一模式,函數(shù)proximity用來(lái)刻畫模式的相似性距離。若諸類Ct為聚類的結(jié)果,則諸Ct需滿足如下條件:

a)∪kt=1Ct=U

b)對(duì)于Cm,CrU,Cm≠Cr,有Cm∩Cr=(剛性聚類)

min(proximity(pms,pir))>max(proximity(pms,pir))

1.2 常用的特征選擇算法

已有的實(shí)驗(yàn)結(jié)果[4~6]表明:IG 是最有效的特征選擇方法之一,DF 的效果稍差,但與IG基本相似,而MI相對(duì)較差。

1.2.1 TFIDF

下面是比較常見(jiàn)的一種公式:

W(t,d)=tf(t,d)×log(N/nt+0.01)/

t∈d[tf(t,d)×log(N/nt+0.01)]2

其中:W(t,d)為詞t在文本d中的權(quán)重,而tf(t,d)為詞t在文本d中的詞頻;N為訓(xùn)練文本的總數(shù);nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。

1.2.2 信息增益

信息增益被廣泛應(yīng)用在機(jī)器學(xué)習(xí)領(lǐng)域,它通過(guò)一個(gè)詞條在一篇文章中出現(xiàn)與否來(lái)計(jì)算對(duì)類別的信息增益。設(shè){ci}mi=1為目標(biāo)空間中的類別的集合,那么詞條t對(duì)類別的信息增益為

IG(t)=-mi=1p(ci)log p(ci)+p(t)mi=1p(ci|t)log p(ci|t)+p()mi=1p(ci|) log p(ci|)

1.2.3 互信息

互信息廣泛應(yīng)用于統(tǒng)計(jì)語(yǔ)言模型,對(duì)于類別c和詞條t,它們之間的互信息定義為

MI(t,c)=log2[ p(t∧c)/(p(t)×p(c))]

這是單個(gè)類別的互信息,將互信息應(yīng)用于多個(gè)類別有兩種常用的方法:設(shè){ci}mi=1為目標(biāo)空間的類的集合,則平均和最大互信息分別為

MIavg(t)=mi=1p(ci)I(t,ci), MImax(t)=maxmi=1{I(t,ci)}

2 高性能特征選擇函數(shù)

特征選擇是根據(jù)某種準(zhǔn)則從原始特征中選擇部分最有區(qū)分類別能力的特征。所謂特征區(qū)分類別的能力,直觀上說(shuō),是通過(guò)一個(gè)特征在文檔中出現(xiàn)與否來(lái)判定該文檔的類別屬性的能力。換言之,類別的集合C={ci}mi=1對(duì)詞條集合的T={t,}依賴(其中:t表示一個(gè)詞條在文檔中出現(xiàn);表示一個(gè)詞條在文檔中不出現(xiàn)),可通過(guò)c的類別分布和詞條t出現(xiàn)或不出現(xiàn)時(shí)的類別分布的變化來(lái)刻畫。該變化是一個(gè)模糊的概念,需要進(jìn)一步細(xì)化,通過(guò)一個(gè)關(guān)于類別分布的函數(shù)g(C)來(lái)刻畫變化。 

定義1 文檔的類別分布函數(shù)。若文檔集的類別分布為p(C)={p(c1),p(c2),…,p(cm)},g(C)為p(c1),p(c2),…,p(cm)的一個(gè)函數(shù),則稱g(C)為一個(gè)關(guān)于類別分布的函數(shù)。

定義2 稱p(t)g(C|t)+p()g(C|)為文檔集在給定T時(shí)的一個(gè)條件類別分布值(條件類別分布)。

定義3 一個(gè)類別分布值與給定T時(shí)的條件類別分布值之差為g(C)-p(t)g(C|t)+p()g(C|),稱其為t的區(qū)分類別的能力,記為f(C,t),即f表示特征選擇函數(shù)。

性質(zhì)1 f(C,t)不惟一,它依賴于類別分布的函數(shù)g(C)。

按照上述的定義和性質(zhì),選擇g(C)=1≤i<j≤m(p(ci)+p(cj)),并以此為基礎(chǔ)構(gòu)造f(C,t)=g(C)-p(t)g(C|t)+p()g(C|)。

f(C,t)=1≤i<j≤m(p(ci)+p(cj))-p(t)1≤i<j≤m(p(ci|t)+p(cj|t))+p()1≤i<j≤m(p(ci|)+p(cj|))

上式滿足如下兩條性質(zhì):a)如果T和C獨(dú)立,當(dāng)且僅當(dāng)t的類別區(qū)分能力最小,即f(C,t)的值最小;b)如果C的值完全取決于T,當(dāng)且僅當(dāng)t的區(qū)分類別能力最大,即f(C,t)的值最大。

3 基于高性能特征選擇方法的Web文檔聚類算法

Web文檔聚類的另一個(gè)重要組成是聚類算法,其基本思想是在樣品之間定義距離、在變量之間定義相似系數(shù),距離或相似系數(shù)代表樣品或變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關(guān)系密切的類聚到一個(gè)小的分類單位,然后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到所有的樣品(或變量)都聚集完畢。沒(méi)有任何一種聚類技術(shù)(聚類算法)可以普遍適用于揭示各種多維數(shù)據(jù)集所呈現(xiàn)出來(lái)的多種多樣的結(jié)構(gòu)。根據(jù)數(shù)據(jù)在聚類中的積聚規(guī)則以及應(yīng)用這些規(guī)則的方法,聚類算法大致分成劃分式聚類算法、層次化聚類算法。典型的劃分式方法是MacQueen提出的K均值聚類算法(Kmeans算法),它能對(duì)大型數(shù)據(jù)集進(jìn)行高效分類,其計(jì)算復(fù)雜性為O(tKmn)。在對(duì)大型數(shù)據(jù)集聚類時(shí),Kmeans算法比層次聚類算法快得多,比較適用于Web文檔聚類任務(wù)。層次化聚類算法使用數(shù)據(jù)的連接規(guī)則,透過(guò)一種層次架構(gòu)方式,反復(fù)將數(shù)據(jù)進(jìn)行分裂或聚合,以形成一個(gè)層次序列的聚類問(wèn)題解,其計(jì)算復(fù)雜性為O(n2),適合于小型數(shù)據(jù)集的分類。

因此在構(gòu)造本文的Web文檔聚類算法時(shí),采用Kmeans算法作為核心的聚類算法。將其與上述基于區(qū)分類別能力的特征選擇方法結(jié)合起來(lái),形成結(jié)構(gòu)如圖1所示的高性能Web文檔聚類算法。

4 實(shí)驗(yàn)分析

4.1 測(cè)試語(yǔ)料庫(kù)

為了測(cè)試本文提出的Web文檔聚類算法,采用的測(cè)試數(shù)據(jù)集是一個(gè)含有約2 300篇語(yǔ)料的新聞?wù)Z料庫(kù),該新聞?wù)Z料庫(kù)中的文本都是新聞電信稿件。語(yǔ)料庫(kù)測(cè)試數(shù)據(jù)類別的構(gòu)成如表1所示。

4.2 評(píng)價(jià)方法

文本分類算法中使用的性能評(píng)價(jià)指標(biāo)為:文檔的查全率(recall)、查準(zhǔn)率(precision)及綜合分類率F1值(F1 value)。但是在文本聚類過(guò)程中并不存在自動(dòng)分類類別與手工分類類別確定的一一對(duì)應(yīng)關(guān)系,因而無(wú)法像文本分類一樣直接以查全率和查準(zhǔn)率作為評(píng)價(jià)標(biāo)準(zhǔn)。為此,本文將選擇平均準(zhǔn)確率θ作為評(píng)價(jià)的指標(biāo)。平均準(zhǔn)確率通過(guò)考察任意兩篇文章之間類屬關(guān)系是否一致來(lái)評(píng)價(jià)聚類的效果。任意兩篇文章之間的關(guān)系,按照人工分類的標(biāo)準(zhǔn)和自動(dòng)聚類分析的標(biāo)準(zhǔn)可以有四種情況,如表2所示。

平均準(zhǔn)確率θ定義為積極準(zhǔn)確率θ1與消極準(zhǔn)確率θ2的算術(shù)平均值,即θ=(θ1+θ2)/2。其中:積極準(zhǔn)確率θ1定義為θ1=a/(a+c);消極準(zhǔn)確率θ2定義為θ2=d/(b+d)。

表1 測(cè)試語(yǔ)料庫(kù)的類別構(gòu)成表

主題類別文本篇數(shù)主題類別文本篇數(shù)

政治與社會(huì)607教育147

軍事407航空航天130

計(jì)算機(jī)354法律81

體育242醫(yī)療衛(wèi)生70

經(jīng)濟(jì)198旅游服務(wù)56

表2 文本之間的關(guān)系情況表

人工分類時(shí)屬于同一類別 聚類分析時(shí)屬于同一類別標(biāo)志

YesYesa

YesNob

NoYesc

NoNod

4.3 評(píng)價(jià)結(jié)果

為了考察本文算法的實(shí)際性能,采用了基于詞頻的Kmeans算法、基于信息熵的Kmeans算法和基于信息增益的Kmeans算法與本文基于區(qū)分類別能力的聚類算法在測(cè)試語(yǔ)料庫(kù)中進(jìn)行了實(shí)際運(yùn)行分析,算法聚類結(jié)果如圖2所示。圖3為本文聚類算法聚類結(jié)果的網(wǎng)格結(jié)構(gòu)信息導(dǎo)航圖。網(wǎng)格結(jié)構(gòu)顯示窗口分成左右兩個(gè)部分,左半部分使用樹(shù)型結(jié)構(gòu)顯示聚類自動(dòng)形成的主題類別及每類中包含的文章名稱;右半部分使用網(wǎng)格結(jié)構(gòu)表示文本聚類的結(jié)果,它用所有帶顏色的網(wǎng)絡(luò)數(shù)目表示待聚類的文本集合。對(duì)屬于同一個(gè)主題類別的文本集則染上同樣的顏色,不同主題類別文本集的顏色不同。

從以上的實(shí)驗(yàn)運(yùn)行結(jié)果中可以看出,基于區(qū)分類別能力的聚類算法的平均準(zhǔn)確率比其他三種聚類分析算法要高;同時(shí)在實(shí)驗(yàn)觀察結(jié)果中發(fā)現(xiàn),基于區(qū)分類別能力的聚類算法得到的集簇具有相當(dāng)鮮明的類別特征,即與一個(gè)主題類別相關(guān)的文本較集中地聚為一類。因此,平均準(zhǔn)確率θ只是從一個(gè)方面說(shuō)明了該算法具有良好的聚類特征。

5 結(jié)束語(yǔ)

Web文檔聚類分析是文本挖掘中的一種重要手段,而文檔標(biāo)引和特征選擇是其基礎(chǔ)和關(guān)鍵工作。本文提出一種新的基于區(qū)別類別能力的特征選擇方法,并將其與聚類算法整合,形成一套高性能的Web文檔聚類算法。該方法能降低特征空間維度,同時(shí)可有效改善傳統(tǒng)以詞為特征的聚類算法的性能。通過(guò)實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),其效果優(yōu)于傳統(tǒng)算法。

參考文獻(xiàn):

[1]HOW B C,NARAYANAN K.An empirical study of feature selection for text categorization based on term weightage[C]//Proc of the IEEE/WIC/ACM Int’l Conference on Web Intelligence.Washington DC:IEEE Computer Society Press,2004:599602. 

[2]LI S S,ZONG C Q.A new approach to feature selection for text categorization[C]//Proc of IEEE Int’l Conference on Natural Language Processing and Knowledge Engineering.Piscataway:IEEE Press, 2005:626630.

[3]ACKERMAN M,BILLSUS D,GAFFNEY S,et al.Learning probabilistic user profiles[J].AI Magazine,1997,18(2):4756. 

[4]CHANG C H,HSU C C.Customizable multiengine search tool with clustering[J].Computer Network and ISDN Systems,1997,29(813):12171224. 

[5]CHEN L,KATYA S.Webmate:a personal agent browsing and searching[C]//Proc of the 2nd International Conference on Autonomous Agents. New York: ACM Press, 1998:132139. 

[6]RON W,BIENVENIDO V,MARK A S,et al.Hypursuit:a hierarchical network search engine that exploits contentlink hypertext clustering[C]//Proc of the 7th ACM Conference on Hypertext. New York: ACM Press, 1996:180193. 

[7]ZHAO S Q,ZHANG Y,LIU T,et al.A feature selection method based on class feature domains for text categorization[J].Journal of Chinese Information Processing,2005,19(6):2127 .

主站蜘蛛池模板: 婷婷五月在线视频| 久久一日本道色综合久久| 国产成人亚洲毛片| 一级看片免费视频| 97成人在线视频| 乱人伦视频中文字幕在线| 日本不卡在线播放| 热热久久狠狠偷偷色男同| 国产精品一区在线麻豆| 亚洲三级色| 曰AV在线无码| 欧美日韩成人| 国产日韩欧美在线播放| 久久夜色撩人精品国产| 污网站在线观看视频| 狠狠色噜噜狠狠狠狠色综合久 | 性做久久久久久久免费看| 无码一区18禁| 欧美一区二区人人喊爽| 亚洲无码熟妇人妻AV在线| 本亚洲精品网站| 亚洲一级毛片免费观看| 国产精品美女自慰喷水| 日韩专区欧美| 97成人在线视频| 欧美啪啪视频免码| 欧美性久久久久| 91久久夜色精品| 99视频在线免费| 国产又爽又黄无遮挡免费观看| 亚洲欧美成人综合| 欧美一级视频免费| 人妻精品久久无码区| 久久成人免费| 久久超级碰| 无码专区国产精品一区| 国产成人精品午夜视频'| 欧美一级99在线观看国产| 强乱中文字幕在线播放不卡| 99这里精品| 亚洲一区精品视频在线 | 欧美成人第一页| 国产精品19p| 亚洲欧美日韩成人在线| 国产精品成人免费视频99| 国产成人无码Av在线播放无广告| 2021天堂在线亚洲精品专区| 国产成人一区二区| 人妻精品全国免费视频| 免费观看三级毛片| 国产99欧美精品久久精品久久| 综合五月天网| www中文字幕在线观看| 毛片久久久| 国产一级精品毛片基地| 少妇高潮惨叫久久久久久| 中文国产成人精品久久| 日韩欧美中文在线| 98超碰在线观看| 在线国产你懂的| 日本欧美中文字幕精品亚洲| 熟女成人国产精品视频| 久久精品国产国语对白| 性激烈欧美三级在线播放| 全部无卡免费的毛片在线看| 精品无码人妻一区二区| 四虎国产在线观看| 99热这里只有精品久久免费| 欧美一级在线| 本亚洲精品网站| 成人在线天堂| 2019年国产精品自拍不卡| 色婷婷在线影院| 日韩无码真实干出血视频| 亚洲高清在线天堂精品| 欧洲高清无码在线| 中国毛片网| 亚洲最大看欧美片网站地址| 激情乱人伦| 国产精品亚洲片在线va| 国产在线观看一区精品| 国产成本人片免费a∨短片|