999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本自動(dòng)分類中的動(dòng)態(tài)類別擴(kuò)展研究

2007-01-01 00:00:00張雪英JürgenKrause劉鳳玉

摘要:提出基于粗糙集理論的動(dòng)態(tài)類別擴(kuò)展算法,可以根據(jù)新文獻(xiàn)與已有訓(xùn)練規(guī)則的匹配程度,有效地進(jìn)行新類別的自動(dòng)擴(kuò)展和新分類規(guī)則的自動(dòng)生成,從而屏蔽訓(xùn)練集和分類規(guī)則的更新等問題。

關(guān)鍵詞:文本自動(dòng)分類;粗糙集;動(dòng)態(tài)類別擴(kuò)展

中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2007)05-0074-03

文本自動(dòng)分類是指在給定的分類體系下,根據(jù)文獻(xiàn)的內(nèi)容自動(dòng)判別文獻(xiàn)類別的過程[1~3]。文本自動(dòng)分類采用分類思想組織文獻(xiàn),不僅符合人們的思維習(xí)慣和應(yīng)用習(xí)慣,而且需求資源較少,操作簡(jiǎn)單,能夠適應(yīng)大規(guī)模文本處理的要求。20世紀(jì)90年代以來,機(jī)器學(xué)習(xí)方法已經(jīng)廣泛應(yīng)用于文本自動(dòng)分類研究。基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類已成為當(dāng)前機(jī)器學(xué)習(xí)、信息檢索和自然語言處理領(lǐng)域最活躍的研究主題之一。

基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類包括兩個(gè)基本過程,即分類知識(shí)訓(xùn)練和新文獻(xiàn)分類預(yù)測(cè)。分類知識(shí)訓(xùn)練是指應(yīng)用分類算法從一個(gè)包含一定數(shù)量的已經(jīng)進(jìn)行分類標(biāo)記的文獻(xiàn)集合(即訓(xùn)練集)中獲得分類知識(shí);新文獻(xiàn)分類預(yù)測(cè)則是運(yùn)用訓(xùn)練得到的分類知識(shí)對(duì)訓(xùn)練集之外的文獻(xiàn)進(jìn)行分類預(yù)測(cè)。

在文本自動(dòng)分類中,訓(xùn)練集是相對(duì)固定的,一般不可能代表所有新文獻(xiàn)包含的主題。隨著系統(tǒng)中新文獻(xiàn)的不斷加入,原來訓(xùn)練得到的分類知識(shí)對(duì)新文獻(xiàn)的分類預(yù)測(cè)能力會(huì)變得越來越低。人們一般采取定期或不定期更新訓(xùn)練集,再重新訓(xùn)練分類器的方法來解決這一問題。但是,這種方法不僅會(huì)增加訓(xùn)練時(shí)間,而且會(huì)造成分類知識(shí)的不一致性,從而導(dǎo)致整個(gè)分類系統(tǒng)中文獻(xiàn)分類結(jié)果不一致,影響系統(tǒng)的檢索性能。

粗糙集理論產(chǎn)生于1982年,是一種處理知識(shí)模糊性和不確定性的數(shù)學(xué)工具。到目前為止,粗糙集理論已經(jīng)廣泛應(yīng)用于股票分析、地震預(yù)報(bào)、知識(shí)發(fā)現(xiàn)、醫(yī)療診斷、過程控制和圖像處理等領(lǐng)域。其基本思想是在保持分類能力不變的前提下,通過知識(shí)約簡(jiǎn),導(dǎo)出分類規(guī)則。在分類任務(wù)中,粗糙集方法不需要先驗(yàn)知識(shí),能夠以較低的計(jì)算時(shí)間推導(dǎo)出易于理解和驗(yàn)證的分類規(guī)則。粗糙集理論從知識(shí)分類的角度來研究對(duì)象之間和概念之間的關(guān)系,與文本自動(dòng)分類原理非常吻合。因此,近來年,基于粗糙集理論的文本自動(dòng)分類研究受到越來越多的關(guān)注。研究表明,基于粗糙集理論的文本自動(dòng)分類方法具有較好的發(fā)展前景,還有待進(jìn)一步的深入研究與推廣應(yīng)用[4~8]。

1粗糙集基本理論

根據(jù)粗糙集理論及其屬性約簡(jiǎn)算法,可以有效地推導(dǎo)出用于文本自動(dòng)分類的分類規(guī)則。但是,在分類規(guī)則應(yīng)用于新文獻(xiàn)的分類預(yù)測(cè)過程中,隨著新文獻(xiàn)的不斷加入,分類規(guī)則與新文獻(xiàn)主題的不匹配矛盾會(huì)變得越來越突出。近似分類規(guī)則和匹配方法的改進(jìn)不能從根本上解決這個(gè)問題。另外,它們會(huì)導(dǎo)致分類的準(zhǔn)確率降低,以及分類準(zhǔn)確性不可預(yù)測(cè)性提高。例如下面兩種情況:①如果新文獻(xiàn)在分類規(guī)則中能夠找到至少一條的匹配規(guī)則,但是匹配相關(guān)值較小,那么分類預(yù)測(cè)結(jié)果的正確率就會(huì)受到較大的影響;②如果新文獻(xiàn)在分類規(guī)則中根本找不到匹配規(guī)則,那么文獻(xiàn)類別就變得不可預(yù)測(cè)。最常用的辦法是將其歸為出現(xiàn)頻率較高的類別。很顯然,這種方法不能保證預(yù)測(cè)的準(zhǔn)確性。需要指出的是,本文不討論基于粗糙集理論的分類規(guī)則推導(dǎo)算法,具體研究是在假設(shè)分類規(guī)則已經(jīng)推導(dǎo)出的情況下。有關(guān)基于粗糙集理論的規(guī)則推導(dǎo)算法請(qǐng)參考文獻(xiàn)[10]。

2動(dòng)態(tài)類別擴(kuò)展算法

與平面分類法相比,層次體系結(jié)構(gòu)分類法的類別自動(dòng)擴(kuò)展相對(duì)比較復(fù)雜。事實(shí)上,平面分類法可以看做是層次體系結(jié)構(gòu)分類法的一種特例。因此,重點(diǎn)討論層次體系結(jié)構(gòu)分類法的類別自動(dòng)擴(kuò)展問題。

層次體系分類法的類別分布呈樹狀結(jié)構(gòu)。其中每個(gè)類別都可以看做是樹上的一個(gè)節(jié)點(diǎn),每個(gè)類別的上位類是其代表節(jié)點(diǎn)的父節(jié)點(diǎn),下位類是其代表節(jié)點(diǎn)的子節(jié)點(diǎn),同位類是指代表節(jié)點(diǎn)的兄弟節(jié)點(diǎn)。

實(shí)驗(yàn)數(shù)據(jù)集(CWT)由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室提供,包括15 605個(gè)網(wǎng)頁文本。該數(shù)據(jù)集主要用于測(cè)試網(wǎng)頁自動(dòng)分類方法的性能。表1描述了該數(shù)據(jù)集的訓(xùn)練集和測(cè)試集的劃分情況。圖1描述了CWT數(shù)據(jù)集的層次體系結(jié)構(gòu)。

對(duì)于層次體系分類法,類別自動(dòng)擴(kuò)展算法主要解決兩個(gè)問題:①建立創(chuàng)建新類別的標(biāo)準(zhǔn),即判斷在分類系統(tǒng)應(yīng)用過程中,什么狀態(tài)下可以創(chuàng)建新類別;②如何確定新類別的位置。

本文定義,當(dāng)一篇新文獻(xiàn)在進(jìn)行分類預(yù)測(cè)時(shí),它與所有類別的匹配度均小于系統(tǒng)規(guī)定閾值時(shí),新類別就應(yīng)該自動(dòng)產(chǎn)生。類別擴(kuò)展可以分為橫向擴(kuò)展和縱向擴(kuò)展兩種類型。橫向擴(kuò)展是指增加某個(gè)類別的兄弟節(jié)點(diǎn),縱向擴(kuò)展是指增加某個(gè)類別的子節(jié)點(diǎn)。

理論上,新類別的增加,容易引起子父節(jié)點(diǎn)之間隸屬關(guān)系的不一致性。增加新類別時(shí)要盡可能地減少子父節(jié)點(diǎn)之間的差異,而且不能影響同級(jí)路徑上其他節(jié)點(diǎn)與子父節(jié)點(diǎn)之間的關(guān)系。在提出具體的類別擴(kuò)展算法之前,先定義上近似邊界、下近似邊界和同位近似邊界三個(gè)概念。

輸入:新文獻(xiàn)及其關(guān)鍵詞

輸出:新類別和分類規(guī)則

計(jì)算新文獻(xiàn)與各類區(qū)別的匹配度 

搜索與新文獻(xiàn)匹配度最大的類別,即定位節(jié)點(diǎn)M

If搜索不到,則在一級(jí)類別中增加新類別//橫向擴(kuò)展

Else搜索與之匹配度最大的類別,其相似值定義為MATCH(M)

If MATCH(M)大于該類別的規(guī)定閾值,則該文獻(xiàn)歸至該類

Else計(jì)算MATCH(PM),AVG(MATCH(CM)),AVG(MATCH(SM)),BND(D),BND(D)和BND(D)

If BND(D)>=BND(D)and BND(D)>=BND(D)

增加一個(gè)M節(jié)點(diǎn)的子節(jié)點(diǎn)//縱向擴(kuò)展

Else

增加一個(gè)M節(jié)點(diǎn)的兄弟節(jié)點(diǎn)//橫向擴(kuò)展

Endif

Endif

Endif

Return新節(jié)點(diǎn)及其相對(duì)應(yīng)新分類規(guī)則

從上述算法可以看出,當(dāng)一篇文獻(xiàn)輸入后,根據(jù)判定條件,決定是否產(chǎn)生新類別。如果需要?jiǎng)?chuàng)建新類別,則必須同時(shí)為該類別生成分類規(guī)則。當(dāng)一篇文獻(xiàn)加入時(shí),產(chǎn)生了新的類別,此時(shí)將該文獻(xiàn)的關(guān)鍵詞作為分類規(guī)則的條件屬性,而將該類別作為決策屬性,生成一條新的分類規(guī)則。之后,如果有新文獻(xiàn)加入該類別,需要根據(jù)每個(gè)新文獻(xiàn)的特征項(xiàng),生成相應(yīng)的分類規(guī)則。

舉例:假設(shè)某篇新文獻(xiàn)D與類別0408的匹配度最大值為0.32,小于規(guī)定閾值0.41。在這種情況下,需要新增類別。其用于動(dòng)態(tài)類別擴(kuò)展算法幾種參數(shù)的計(jì)算過程和結(jié)果如表2所示。根據(jù)動(dòng)態(tài)類別擴(kuò)展算法,可以生成新類別節(jié)點(diǎn),即一個(gè)0408的同位節(jié)點(diǎn)。

3實(shí)驗(yàn)性能評(píng)估

如何評(píng)估類別自動(dòng)擴(kuò)展算法的性能,目前可參考的相關(guān)文獻(xiàn)還較少。類別自動(dòng)擴(kuò)展算法的性能評(píng)估,主要包括兩個(gè)方面的工作:

(1)試驗(yàn)數(shù)據(jù)集的獲取。本文認(rèn)為,類別自動(dòng)擴(kuò)展方法的性能評(píng)估可以在用來文本自動(dòng)分類的數(shù)據(jù)集中進(jìn)行。具體實(shí)驗(yàn)方法如下:任意抽取其中一個(gè)類別作為測(cè)試對(duì)象。如果某個(gè)類別為非葉節(jié)點(diǎn),則將該類別及其所有子孫節(jié)點(diǎn)的訓(xùn)練文獻(xiàn)和測(cè)試文獻(xiàn)分別進(jìn)行合并,產(chǎn)生新的訓(xùn)練文獻(xiàn)集合和測(cè)試文獻(xiàn)集合(圖1)。

本文共抽取了CWT中十個(gè)類別進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。

從表3中可以看出,動(dòng)態(tài)類別擴(kuò)展算法是相當(dāng)有效的。從總體上看,級(jí)別越低的類別,擴(kuò)展位置出錯(cuò)的可能性越高,比較容易擴(kuò)展至上位類。這種可能性在很大程度上取決于實(shí)驗(yàn)數(shù)據(jù)集中上下類別文獻(xiàn)的相關(guān)性。例如,類別122205所有的測(cè)試文獻(xiàn)與其上位類1222都有較高的匹配度,因此根據(jù)本文制定的規(guī)則沒有產(chǎn)生新的擴(kuò)展類別。

4結(jié)束語

動(dòng)態(tài)類別擴(kuò)展方法旨在解決基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類系統(tǒng)中訓(xùn)練集相對(duì)固定,而新主題文獻(xiàn)無法進(jìn)行正確分類預(yù)測(cè)的問題。隨著文本自動(dòng)分類技術(shù)的普及應(yīng)用,動(dòng)態(tài)類別擴(kuò)展將逐步發(fā)展成為解決這一難題的可行性技術(shù)。但是,到目前為止,該主題研究還沒有引起廣泛的關(guān)注。本文試圖作一些初步的探討,并提出一種基于粗糙集理論的動(dòng)態(tài)類別擴(kuò)展算法。實(shí)驗(yàn)表明,該算法不僅可以有效地自動(dòng)擴(kuò)展新類別,而且可以同時(shí)生成相應(yīng)的分類規(guī)則。但是,隨著大量新文獻(xiàn)加入新增的類別,分類規(guī)則也會(huì)急劇增加,分類規(guī)則會(huì)存在大量的冗余,從而導(dǎo)致分類速度和分類準(zhǔn)確性的降低。因此,下一步的研究工作將主要側(cè)重于分類規(guī)則的動(dòng)態(tài)優(yōu)化等問題。

參考文獻(xiàn):

[1]

AAS K, EIKVIL L.Text categorization: a survey[R]. Norwegian: Norwegian Computer Center,1999.

[2]RUIZ M E R. Combining machine learning and hierarchical structures for text categorization[R]. Iowa:University of Iowa, 2001.

[3]SEBASTIANI F.A tutorial on automated text categorization:procee-dings of the 1st Argentinean Symposium on Artificial Intelligence[C].Varese:[s.n.],1999.

[4]DAS G P.Rough sets and information retrieval:proceedings of the 11th ACM SIGIR International Conference on Research and Development in Information Retrieval[C].[S.l.]:[s.n.],1988.

[5]SRINIVASAN P.Exploring the UMLs:A rough sets based theoretical framework:proceedings of the American Medical Informatics Association[C].[S.l.]:[s.n.],1999.

[6]SRINIVASAN P, RUIZ M E, KRAFT D H,et al.Vocabulary mining for information retrieval: rough sets and fuzzy sets[J].Information Processing Management,2001,37(1):15-38.

[7]CHOUCHOULAS A. A rough set approach to text classification[D].[S.l.]:University of Edinburgh,1999.

[8]CHOUCHOULAS A.Incremental feature selection based on rough set theory[D].[S.l.]:University of Edinburgh,2001.

[9]張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.

[10]PAWLAK Z.Rough sets:theoretical aspects of reasoning about data[M]. Boston: Kluwer Academic Publishers,1999.

注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

主站蜘蛛池模板: 婷婷五月在线| 日韩黄色精品| 九九视频在线免费观看| 黄色成年视频| 日韩欧美在线观看| 免费AV在线播放观看18禁强制| 天天做天天爱天天爽综合区| 久久99热66这里只有精品一| 97免费在线观看视频| 精品视频一区二区观看| 丝袜久久剧情精品国产| 无码日韩精品91超碰| 国产成人久久777777| 国产人人乐人人爱| 成人综合久久综合| 国产成人综合网| 在线国产资源| 一区二区三区成人| 福利姬国产精品一区在线| 亚洲国产成人综合精品2020| 亚洲男人天堂网址| 456亚洲人成高清在线| 曰AV在线无码| 日本在线欧美在线| 久久国产精品影院| 亚洲男人的天堂网| 99精品视频在线观看免费播放| 国产激情无码一区二区免费| 国产在线自揄拍揄视频网站| 日韩无码黄色网站| 性做久久久久久久免费看| 亚洲精品无码久久毛片波多野吉| 看你懂的巨臀中文字幕一区二区| www.狠狠| 亚洲精品动漫| 粉嫩国产白浆在线观看| 国产二级毛片| 内射人妻无码色AV天堂| 国产Av无码精品色午夜| 欧美人人干| 欧美精品v| 日韩少妇激情一区二区| 亚洲精品欧美日本中文字幕| 2022国产无码在线| 久久福利网| www.日韩三级| 国产成人综合网| 国产福利大秀91| 五月激激激综合网色播免费| 国产成人久视频免费| 欧美区在线播放| 青青草原国产免费av观看| 亚洲欧美在线综合图区| 成年人国产网站| 国产网友愉拍精品视频| 蜜桃视频一区二区| 色噜噜狠狠狠综合曰曰曰| 亚洲女同一区二区| 在线观看国产黄色| 一级一级特黄女人精品毛片| 亚洲无码高清视频在线观看| 99久久婷婷国产综合精| 99视频精品在线观看| 国产亚洲欧美在线人成aaaa| 久久精品人妻中文系列| 亚洲视频色图| 在线视频亚洲色图| 欧美一区福利| 欧美一级大片在线观看| 亚洲国产日韩在线观看| 好吊色妇女免费视频免费| 国产精品亚洲а∨天堂免下载| 免费精品一区二区h| 四虎亚洲国产成人久久精品| 91麻豆国产视频| 成人欧美日韩| 久久久久免费精品国产| 午夜精品福利影院| 在线a视频免费观看| 亚洲不卡av中文在线| 无遮挡一级毛片呦女视频| 久久精品中文字幕免费|