999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于向量空間模型的多主題Web文本分類方法

2008-01-01 00:00:00周炎濤唐劍波吳正國
計算機應(yīng)用研究 2008年1期

摘要:對給定的網(wǎng)頁,提取其特征向量,計算網(wǎng)頁特征向量與分類特征向量的相似度,使用K means聚類方法尋找歸屬類得到動態(tài)閾值,提出了一種基于動態(tài)閾值的向量空間模型多主題Web文本分類方法。該方法通過網(wǎng)頁與每個類的相似度和動態(tài)閾值的比較,實現(xiàn)了將包含多個主題的網(wǎng)頁劃分到相應(yīng)的多個類中。實驗證明,這種方法具有較好的精確度和召回率。

關(guān)鍵詞:向量空間模型;文本分類;多主題;數(shù)據(jù)挖掘

中圖分類號:TP311.13文獻標志碼:A

文章編號:1001-3695(2008)01-0142-03

0引言

Web文本分類是當(dāng)前文本挖掘的研究熱點之一。其分類方法較多,主要有貝葉斯分類算法[1](naive Bayesian classi fier)、最近鄰接參照分類算法[2,3](K nearest neighbor)和基于本體的文本分類算法[4]等。這些算法均將Web頁面分到某個類中進行處理。實際上幾乎每個網(wǎng)頁均包含多個不同的主題,如使用上述算法就要求將頁面分到特定的類中。例如某個網(wǎng)頁A是關(guān)于教育亂收費的,就要求將網(wǎng)頁A分到教育和法制法規(guī)兩個類中;網(wǎng)頁B主要內(nèi)容是關(guān)于農(nóng)作物的價格報道,就要求將該網(wǎng)頁分到農(nóng)業(yè)和財經(jīng)兩個類中。對于此類問題,普遍采用的方法是首先設(shè)定一個固定閾值,然后分別計算待測文檔與每個類之間的相似度。當(dāng)待測文檔與某個類的相似度大于設(shè)定的閾值時,就將待測文檔分到這個類中。這種方法中,閾值的大小對分類的精確度和召回度的影響較大,如果閾值過大,則有可能將原本屬于某個類的文檔排除在外,召回率變小;如果閾值太小,則將原本不屬于某個類的文檔劃分到這個類中,精確度變小。因而設(shè)置一個恰當(dāng)?shù)拈撝凳峭瑫r保證較高精確度和召回率的關(guān)鍵,在Web文本分類研究中具有重要的實際意義。為改變固定閾值分類方法的不足,本文提出了基于動態(tài)閾值的多主題Web分類方法。首先提出了該動態(tài)閾值分類方法的實現(xiàn)結(jié)構(gòu),然后根據(jù)待分頁面與所有類之間的相似度動態(tài)地計算一個閾值。

1基于向量空間模型的文檔分類

1.1Web文檔的表示

目前文檔的表示模型有很多,其中最普遍使用的是向量空間模型(VSM)。在這種模型中,每個文檔被表示成特征向量:V(d)=(t1,w1(d);t2,w2(d);…;tn,wn(d))。其中:ti為特征詞條;wi(d)為特征詞條i在文檔中的權(quán)重??梢詫中出現(xiàn)的所有詞作為ti,但這樣就會使得特征向量的維數(shù)特別高,包含噪聲,特征不明顯。而一個文檔的內(nèi)容主要是由動詞、名詞、形容詞等實詞決定的,虛詞和一些在所有文檔中均出現(xiàn)的高頻詞對分類是沒有任何意義的,所以必須進行特征提取,降低特征空間的維數(shù),以達到降低計算的復(fù)雜度、提高分類準確率的目的。

1.1.1特征提取

特征提取即對特征空間中的所有特征項進行特征評估,利用特征評估函數(shù)對每個特征項計算一個評估值,然后將所有的特征項按照評估值的大小排序,選擇適當(dāng)數(shù)目的最佳特征項作為樣本的特征。常用的特征函數(shù)有以下幾種形式:詞條的χ2統(tǒng)計、信息增益、期望交叉熵、文本證據(jù)權(quán)、詞條與類別互信息等。這些方法均有較好的準確率,本文采用詞條的χ2統(tǒng)計方法進行特征提取。

1.1.2特征向量的計算

特征項在文檔中的權(quán)重wi(d)的計算對Web文本分類是至關(guān)重要的一步,wi(d)一般被定義為ti在文檔d中出現(xiàn)的頻率tfi(d)的函數(shù),即wi(d)=F(tfi(d))。常有的F有布爾函數(shù)、平方根函數(shù)、對數(shù)函數(shù)、TF IDF[6,7]函數(shù)。而TF IDF公式是一種有效而較普遍使用的方法。目前這種方法存在許多變體公式。本文采用的公式[8]為

2多主題Web分類方法

如前所述,當(dāng)前許多基于向量空間模型的Web文本自動分類方法均是通過比較某個網(wǎng)頁與所有類之間的相似度,將相似度最大的類作為網(wǎng)頁的歸屬類,這樣只是籠統(tǒng)地將網(wǎng)頁劃分到最相似的類中,沒有考慮到存在多個主題的網(wǎng)頁應(yīng)該被劃分到多個類的情況。針對這種不足,本文提出了一種多主題分類方法,實現(xiàn)了將包含多個主題的網(wǎng)頁劃分到相應(yīng)的多個類中。其實現(xiàn)過程結(jié)構(gòu)如圖1所示。

2.1動態(tài)閾值的計算

閾值的確定是分類的關(guān)鍵,因為待分類頁面與所有類的相似度可能都很小也可能都很大,在分類前確定一個固定閾值是比較困難的,也是不恰當(dāng)?shù)?,可以根?jù)每個待分類頁面與各個類的相似度的實際情況動態(tài)地計算出一個閾值。這樣每個待分類頁面在分類時使用的閾值是不相同的,不是固定的。簡單地將動態(tài)閾值設(shè)定為所有相似度的平均值,即vt=1/nni=1si。

在計算相似度時筆者發(fā)現(xiàn),相似度小的值比較多而相似度大的值比較少,這樣得到的閾值往往均偏小,導(dǎo)致原本不屬于某個類c的網(wǎng)頁錯誤地劃分到類c中,即分類的精確度較差;另外在進行網(wǎng)頁分類時,一般分類規(guī)則是將相似度最大的類作為網(wǎng)頁的歸屬類,所以修改以上方法,盡量讓動態(tài)閾值偏向于較大相似度。

從表1的測試結(jié)果可以看出,本文提出的方法對多主題文本分類達到了很好的分類效果,平均精確度和平均召回率分別為83.2%和87.2%。除了汽車和軍事的精確度大于召回率,其余大部分精確度均小于召回率,因此本文提出的方法更加有利于得到高的召回率。另外,本文提出的方法也能用于單主題文本分類,將本文的單主題實驗結(jié)果與傳統(tǒng)的基于分類方法的實驗結(jié)果進行比較,傳統(tǒng)的方法是將相似度最大的類作為待分文本的歸屬類。其比較如圖2、3所示。

從圖2、3可以看出,在單主題分類中,本文方法的精確度基本能夠達到傳統(tǒng)方法的精確度,但召回率卻比傳統(tǒng)方法要高得多。

4結(jié)束語

本文主要討論了Web多主題分類的問題,根據(jù)固定閾值分類方法的不足,筆者提出了動態(tài)閾值分類方法:對給定的一個網(wǎng)頁,提取其特征向量,計算與所有類的相似度;然后根據(jù)文中計算分類動態(tài)閾值的算法,將所有的相似度與這個閾值進行比較,如果某個相似度大于這個閾值,則該網(wǎng)頁就屬于相應(yīng)的類。動態(tài)閾值分類方法不但能夠?qū)Χ嘀黝}文檔進行很好的分類,同時也適應(yīng)單主題文檔的分類。實際數(shù)據(jù)的實驗證明這種方法有較好的精確度和召回率。當(dāng)然在實際應(yīng)用這種方法時還需要進一步減少該算法的時間復(fù)雜度,提高分類時的精確度。

參考文獻:

[1]BAI Jing,NIE Jian yun,CAO Gui hong.Integrating compound terms in Bayesian text classification[C]//Proc of IEEE /WIC/ACM International Conference.2005:598-601.

[2]FANG Yuan,LIU Yang,GE Yu.Improving the k nn and applying to Chinese text classification[C]//Proc of the 4th IEEE Int Confe renceson Machine Learning and Cybernetics.2005:1547 1553.

[3]LI Bao li,LU Q,YU Shi wen.An adaptive knearest neighbor text categorization strategy[J].ACM Transactions on Asian Language Information Processing,2004,12(31):215-226.

[4]劉嬌蛟,龔麗,李建華.基于本體實現(xiàn)對網(wǎng)頁文本的自動主題分類[J].計算機工程,2003,29(11):95-97.

[5]LARSEN B,AONE C.Fast and effective text mining using linear time document clustering[C]//Proc of the 4th ACM SIGKDD Int Confe rences on Knowledge Discovery and Data Mining.1999:16-22.

[6]LEWIS D,et al.Training algorithms for linear text classifiers[C]//Proc of the 19th International ACM SIGIR Conference on Research and Development in Information Retrieval.1996:298-306. 

[7]SALTON G,BUCKLEY C.Term weighting approaches in automatic text retrieval[C]//Proc ofMgt.1988:513-523.

[8]凌云,劉軍,王勛.多層次Web文本分類[J].情報學(xué)報,2005,24(6):684-689.

[9]MAEDCHE A,STAB S.Ontology learning for the semantic Web[J].IEEE Intelligent Systems,2001,6(2):72-76.

[10]AHN B S,CHO S S,KIM C.The integrated methodology of rough set theory and artificial neural network for business failure predication[J].Expert Systems withApplications,2000,18(2):65 74.

[11]KEHAGIAS A,PETRIDIS V,et al.A comparison of word and sense based text categorization using several classification algorithms[J].Journal of Intelligent Information Systems,2003,11(3):227-247.

[12]HUANG C C,CHUANG S L,CHEN L F.Live classifier:creating hierarchical text classifiers through Web corpora[C ]//Proc of the 13th Int Conferences on World Wide Web.2004:184 192.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

主站蜘蛛池模板: 日韩黄色在线| 亚洲欧美综合在线观看| 亚瑟天堂久久一区二区影院| 中文字幕人妻av一区二区| 色有码无码视频| 午夜欧美理论2019理论| 国产杨幂丝袜av在线播放| 国产精品黄色片| 东京热av无码电影一区二区| 国产乱人激情H在线观看| 亚洲成AV人手机在线观看网站| 夜夜操狠狠操| 国产美女视频黄a视频全免费网站| 中文字幕无码电影| 中国成人在线视频| 女人天堂av免费| 久操线在视频在线观看| 欧美午夜久久| 国产午夜精品一区二区三区软件| 亚洲无卡视频| 欧美精品在线观看视频| 国产精品视频导航| 欧美色99| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产综合在线观看视频| 色综合热无码热国产| 黄片在线永久| 国产区免费精品视频| 国产性生大片免费观看性欧美| 特黄日韩免费一区二区三区| 亚洲av日韩av制服丝袜| 日韩无码视频专区| 亚洲福利视频网址| 欧洲日本亚洲中文字幕| 91最新精品视频发布页| 亚洲国产综合第一精品小说| 欧美日在线观看| 中文字幕在线观看日本| 99国产精品国产| 91在线播放免费不卡无毒| 国产成人乱无码视频| 又爽又大又光又色的午夜视频| 日韩欧美高清视频| 在线国产91| 国产亚洲精品自在线| 伊人久久久大香线蕉综合直播| 亚洲精品va| 久久久久青草大香线综合精品| 亚洲人成网18禁| 三上悠亚一区二区| 97视频免费在线观看| 爱色欧美亚洲综合图区| 国产成人午夜福利免费无码r| 色偷偷一区| 人妻熟妇日韩AV在线播放| 在线观看网站国产| 丁香婷婷综合激情| 在线观看网站国产| 91精品日韩人妻无码久久| 国产精品三区四区| 热re99久久精品国99热| 日韩在线观看网站| 欧美国产在线看| 又黄又湿又爽的视频| 天天激情综合| 免费视频在线2021入口| 天天综合亚洲| 3D动漫精品啪啪一区二区下载| 国产主播一区二区三区| 国产无码在线调教| 精品国产中文一级毛片在线看| 在线免费观看AV| 久久永久免费人妻精品| 激情综合网址| a级毛片网| 成人91在线| 综合人妻久久一区二区精品 | 成人另类稀缺在线观看| 日本精品影院| 午夜精品久久久久久久无码软件 | 亚洲欧美另类中文字幕| 国产成人福利在线|