999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于維基百科類別的文本特征表示

2011-06-28 02:18:32王會珍
中文信息學報 2011年2期
關鍵詞:分類特征文本

王 錦,王會珍,張 俐

(1. 東北大學 自然語言處理實驗室,遼寧 沈陽 110004;2. 醫學影像計算教育部重點實驗室(東北大學),遼寧 沈陽 110819)

1 引言

文本分類一直是自然語言處理領域研究的一個重要課題。近年來,國內外許多研究人員對文本分類任務做了深入研究,包括在文本表示、特征選取、分類模型等方面的探索。在傳統的文本表示中,文本被表示成一個文本特征向量,文本特征用詞來表示,即文本表示采用BOW(Bag of Words)模型。這種方法簡單、易行,目前大多數文本分類系統都是使用這種文本特征表示方法。

但是,詞作為文本特征存在特征空間維數過高、表達能力有限[1]等問題。該方法僅僅用詞作為特征,并沒有使用人們掌握的知識[2]。針對這些問題,國內外研究人員對知識庫在文本分類中的應用進行了研究。Scott[3]等人利用WordNet的語義關系Hypernym來表示文本特征,但是這些知識庫都存在覆蓋度不足的問題。研究人員還對詞簇作為文本特征做了很多研究。Baker和McCallum[4]提出一種基于詞的類別分布來進行詞聚類,然后用這些詞簇表示文本。Chen[5]等提出了基于全局信息詞聚類作為文本表示的方法,該方法將類別分布相似的詞歸為一簇,用簇作為特征表示文本。

本文在詞聚類作為文本表示的基礎上,引入了維基百科的類別體系,將詞進行有指導的聚類,即將文本中所有詞映射到維基百科類別上,采用維基百科的類別作為文本表示的特征。目前,維基百科是世界上最大的開放式百科全書,由人工標注而成,具有較快的更新速度。維基百科的類別能把表達不明確的維基百科條目映射為理解能力更強的信息,如:“獅子王”、“美女與野獸”、“米老鼠”都被映射為“迪士尼動畫”這個維基類別,而人們很容易把“迪士尼動畫”和文化、藝術等主題類別聯系起來。雖然維基百科可以提供映射信息,其映射條目在實際應用仍然存在覆蓋度不足的問題,所以本文提出了一種全局信息自學習維基類別的詞聚類方法,用維基百科的類別來表示詞聚類得到的簇,并使用簇的信息表示文本,構造了基于簇的文本分類系統。

2 基于維基百科類別的文本特征表示

在傳統的文本分類中,文本特征用詞來表示,存在表達能力有限的問題[8]。所以,本文試圖尋找一種準確描述文本內容的表示方法來表示文本。維基百科是目前最大的在線知識庫之一,而且,維基百科中提供了一個由大眾來進行編輯的格狀分類體系。每一個條目都能映射到分類體系中的某些類別,這個信息是人工標注的,具有很高的準確度。因此,本文選用維基百科的類別對文本進行表示。與本文工作最相似的前期工作Chen等[5]曾利用人工構建的領域知識庫將文本中所有詞映射到預定義的領域特征改善文本表示。本文與前人工作的最大區別在于沒有采用人工構建的領域知識庫,而是從維基百科中自動獲取部分詞與維基百科類別的對應關系,然后進行自動擴展,用于改善文本特征表示,提高文本文類的性能。整個過程沒有涉及到額外的人工標注代價,方法的基本動機與Chen等[5]的工作相似,但技術的處理角度和方法不同。

2.1 維基百科的類別體系

維基百科是目前世界上最大的多語種的面向互聯網的開放式的百科全書。它的基本組成單元叫“概念”或“條目”,每個條目都有一篇文章來解釋[6]。維基百科的每個條目都對應一組維基百科類別,維基百科類別體系是基于層次結構的網狀類別體系[9]。表1是維基百科類別的部分實例。

表1 維基百科類別的部分實例

當然,維基百科的類別體系和中圖法[7]的類別體系有所差異,并且在一個條目對應的所有類別中,很多類別不能準確的表達分類信息,只是有助于查找在這個類別下的其他條目,這個類別體系有待進一步研究。本文用的維基語料是,從維基百科網站[10]上下載的2010-3-3版的XML格式的語料,它包含有553 709個頁面,其中有類別的頁面數為149 272個,類別體系中的類別數為135 214個,

本文將詞全部映射到維基百科的類別中,總共覆蓋到類別體系中14 052個類別。

2.2 基于維基百科類別的文本特征表示

在本文中,維基百科的類別作為文本特征,表示成一個文本特征集合,也就是維基類別的集合,這里用M表示維基類別。具體過程如下:

(1) 建立維基百科的每個條目和其對應一組類別的映射關系。維基百科的條目集合T={t1,t2,…,tn},第i個條目對應的維基類別集合M(ti)={mj|ti條目的類別標簽為mj}。

(2) 構建863語料中出現的維基條目的詞的集合T。使用東北大學自然語言處理實驗室的分詞和專名標注系統(為了保證分詞的一致性,可以事先將維基百科條目作為臨時詞典參與分詞過程)對文本進行分詞,本文稱這里分詞得到的普通詞為W,將普通詞W中是維基百科條目的詞放入T集合中。

(3) 利用T和維基類別M的映射關系,最終將語料中每篇文檔映射成只有維基百科類別的特征集合Mk,用tf表示特征的權重。

在863文本分類評測語料上進行統計,在863語料中去除停用詞,共有107 469個詞,維基百科中覆蓋了其中的17 570個詞,大部分詞在維基百科中沒有類別信息,僅僅使用現有維基百科條目對文本的覆蓋度明顯不足。為了解決這個問題,本文提出了基于全局信息自學習維基類別的方法(本質上是詞聚類技術)來對沒有維基類別信息的其他詞自動賦予維基類別標記。

3 基于全局信息自學習維基類別方法

示特征的權重參與文本特征的表示語料中沒有維基百科類別的詞(也就是不是維基條目的詞),這些詞用UW表示:UW={uw|uw∈Wanduw?T}。本文提出一個基于聚類技術的自動學習維基類別的方法,將UW中的詞與維基百科的類別M建立映射關系。基本步驟是,利用詞在文本類別中的分布,把所有的詞表示成向量的形式,將每個詞簇m中的所有元素(也就是維基百科條目)的均值作為詞簇的中心點,通過計算uw和每個中心點的距離,來獲得與uw相似度最大的詞簇mi,建立UW和M的映射關系。

3.1 定義

(1)T:維基百科條目集合,T={t1,t2,t3,…,tn};

(2)M:維基類別的集合M={m1,m2,…,mn},第i個類別對應維基條目集合T(mi)={tj|tj條目的類別標簽為mi};

(3)C:是863評測語料中的類別集合C={c1,c2,…,c36}。

(4)p(C|w):表示詞w在整個類別間的分布,也就是詞w在每個類別c中的頻數N(cj|w)。

(5)p(C|mi):表示簇(維基類別)mi在整個類別C的分布,也就是36維的向量。其計算方法就是計算簇中的元素(維基條目)t在整個類別間的分布的均值,計算公式如下所示。

(1)

其中,n表示簇m中的元素個數。

3.2 基于全局信息的自學習算法

首先將訓練語料進行預處理,將訓練語料分詞后得到的普通詞W中不是維基百科條目的詞放入UW集合,然后將UW中的每一個詞劃分到維基類別M中。具體過程如下:

算法1. 自學習算法

輸入:待劃分維基類別的詞集UW={uw|uw∈Wanduw?T},維基百科類別集合M={m1,m2,…,mn}。

輸出:UW中的詞uwi對應的類別mk。

步驟:

(1) 用公式(1)計算簇的中心點,得到每個簇在整個文本類別C中的分布p(C|mj)。

(2) Loop,直到所有UW都加入到M集中{

① 從待劃分維基類別的詞集合UW中取出一個詞uwi;

② 用公式(2)計算待劃分詞uwi和每個簇m的距離:D={D(uwi,m1),D(uwi,m2),…,D(uwi,mn)};

③ 求mk,k=arg min(D(uwi,mj));/*1≤j≤n*/

④uwi→mk;

}

通過全局信息自學習維基類別的方法,使得語料中沒有維基類別信息的詞UW和維基類別M建立一一對應的映射關系。利用T→M和UW→M的映射關系,重新構造文本特征,將語料中每篇文檔映射成只有維基百科類別的特征集合Mk,用tf表示特征的權重。

4 實驗與分析

4.1 實驗語料

863中文評測語料,該語料來源于2004年國家863 中文文本分類評測的語料,其中采用中圖法進行構建分類體系,共36類,每類包含100篇中文文本。在語料預處理過程中,分詞工具采用東北大學自然語言處理實驗室開發的分詞工具NEUCSP,去掉禁用詞后,剩下的詞匯個數為107 469。

在分類實驗過程中,采用十次交叉檢驗的方法,90%語料作為訓練語料,剩下的10%語料作為測試語料,將十次交叉檢驗的分類性能指標取平均值作為最后分類性能評價。

4.2 分類模型選擇

本文實驗選用最大熵分類器(ME)、樸素貝葉斯分類器(NB)、支持向量機分類器(SVM)三種分類器進行對比實驗。最大熵使用張樂開發的工具包[12]。支持向量機采用了SVMlight作為SVM的實現,使用SVMlight的默認參數。支持向量機最開始被設計來解決二類分類問題。本文采用一種簡單而有效的,由二類支持向量機構建多類支持向量機的方法,one-against-rest的方法。其基本思想是構建K個SVM模型,這里表示類別數。其中,第i個支持向量機以第i類中的樣本作為正類,其他類別中的樣本作為負類[11]。

4.3 評價方法

在本文實驗中,以文本分類的性能來衡量文本表示方法的性能。本文使用MacroF1來評價分類性能。計算公式如下:

其中,n是類別總數,Pj為第j類的準確率,Rj為第j類的召回率。

4.4 實驗設置

1) 以詞作為文本特征表示的分類系統

共構建三個分類器:BOW-NB表示采用詞為特征,使用樸素貝葉斯分類模型的分類系統;BOW-ME表示采用詞為特征,使用最大熵分類模型的分類系統;BOW-SVM表示采用詞為特征,使用支持向量機分類模型的分類系統。

2) 以維基類別作為文本特征表示的分類系統

共構建三個分類器:Wiki-NB表示采用維基類別為特征,使用樸素貝葉斯分類模型的分類系統;Wiki-ME表示采用維基類別為特征,使用最大熵分類模型的分類系統;Wiki-SVM表示采用維基類別為特征,使用支持向量機分類模型的分類系統。

3) 基于全局信息自學習維基類別的分類系統

共構建三個分類器:Global-Wiki-NB表示采用維基類別為特征,使用樸素貝葉斯分類模型的分類系統;Global-Wiki-ME表示采用維基類別為特征,使用最大熵分類模型的分類系統;Global-Wiki-SVM表示采用維基類別為特征,使用支持向量機分類模型的分類系統。

4.5 實驗結果

本實驗對3個分類系統進行了比較。圖1是使用樸素貝葉斯(NB)分類器的3個分類系統的分類結果,y軸是各分類系統的F1值,x軸是表示該系統使用的文本特征數目。從整體上看,基于Wiki-NB方法的F1值并沒有比BOW-NB的F1值高,說明維基類別存在明顯的的覆蓋度不足的問題,然而,Global-Wiki-NB的分類性能高于BOW-NB,尤其是在特征數少的時候。進一步考察基于Global-Wiki-NB的方法,在特征數為200~2 000之間明顯優于BOW-NB,特征數為700時,基于Global-Wiki-NB方法的F1值達到72.56%,比相同特征數的BOW-NB方法高5.14%,這與基于BOW-NB方法特征數為2 000時的性能,達到相當的效果。

圖1 NB分類器的3個分類系統的實驗結果

圖2是最大熵(ME)分類器的3個分類系統的分類結果,在特征數為200~2 000之間時,Global-Wiki-ME的分類性能也明顯優于BOW-ME,特征數為700時,基于Global-Wiki-ME方法的F1值達到72.53%,比相同特征數的BOW-NB方法高3.25%。圖3是支持向量機(SVM)分類器的3個分類系統的分類結果,特征數為800時,基于Global-Wiki-SVM方法的F1值達到73.31%,比相同特征數的BOW-SVM方法高3.89%。

圖2 ME分類器的3個分類系統的實驗結果

圖3 SVM分類器的3個分類系統的實驗結果

4.6 討論

本文提出了基于維基百科類別的文本特征表示方法。該方法優于前人的工作,因為維基類別是從維基百科中自動獲取的,并且可以進行自動擴展,無需人工構建知識庫。同時,從實驗結果可以看出,在特征數很少的情況下,基于Global-Wiki的方法已經達到很好的效果。因為在自學習維基類別的過程中,將大量的詞映射到了少量的維基類別中,這不僅能起到了降維作用,有效的降低時間復雜度,減少了系統的計算開銷,而且能增強特征的表達能力。本文用詞頻tf作為特征的權重,然而很多詞頻低的信息都是表達能力強的信息,比如“姚明”,當選擇一定數量的特征時,這些信息很可能被過濾掉。Global-Wiki的方法會把這些信息聚到少量的維基類別上,使得在特征數很少時,這些信息也可以被利用上,這就使得在特征數很少時,本方法能達到很好的性能。從圖中我們同樣可以看出,在特征數增加到5 000以上時,Global-Wiki的分類性能與基于BOW的分類性能趨于相同甚至下降,這表明,再增加特征,也只是引入了噪音,對文本分類沒有起到作用。

5 結論

本文提出了一種新的文本特征表示方法,用維基百科的類別作為文本的特征,并且結合了全局信息自學習維基類別的方法,來解決維基類別對文本的覆蓋度不足的問題。這種方法,克服了傳統的詞作為文本特征的空間維數過高和表達能力有限等問題。實驗結果表明:

(1) 用維基百科的類別作為文本特征,有助于增強文本特征的表達能力;

(2) 基于自學習方法的維基類別作為文本特征可以很好的改善文本分類的性能,特別是在特征數目少的情況下表現出更優的效果。

下一步的工作的研究重點一是,如何過濾掉更多無用的維基類別,用更少的特征來表示文本進行文本分類;二是,探索維基百科知識庫在自然語言處理領域的其他應用。

[1] Sangkon Lee, Masami Shishibori. Passage segmentation based on topic matter[J]. Computer Processing of Oriental Languages, 2002,15 (3): 305-340.

[2] 陳文亮, 朱靖波. 基于領域詞典的文本特征表示[J]. 計算機研究與發展. 2004.

[3] Scott, Sam, and Stan Matwin. Text classification using wordnet hypernyms[C]//The COLING. ACL Workshop on Usage of WordNet in Natural Language Processing Systems, 1998.

[4] L. D. Baker, A. K. MCallum. Distributional clustering of words for text classification[C]//Proc. 21st Annual Int’l ACM SIGIR Conf. Research and Development in Information Retrieval. New York: ACM Press, 1998: 96-103.

[5] Chen Wenliang, Chang Xingzhi, Wang Huizhen, et al1 Automatic word clustering for text categorization using global information[C]//AIRS2004, Beijing, 2004.

[6] P.Wang, J.Hu, H.-J.Zeng, L.Chen. Improving text classification by using encyclopedia knowledge[C]//Internation Conference on Data Mining, pages 332-341, Omaha, NE, 2007.IEEE.

[7] China Library Categorization Editorial Board China Library Categorization[M]. The 4th ed. Beijing: Beijing Library Press,1999.

[8] 陳文亮. 面向文本分類的文本特征學習技術研究[D]. 東北大學博士學位論文,2005.

[9] Xiaohua Hu, Xiaodan Zhang. Exploiting Wikipedia as External Knowledge for Document Clustering[J]. ACM, 2009.

[10] http://zh.wikipedia.org/zh-cn/Wikipedia:%E9%A6%96%E9%A1%B5[DB/OL].

[11] 朱慕華,朱靖波,陳文亮. 面向文本分類的多類別SVM組合方式的比較[C]//全國第八屆計算語言學聯合學術會議. 2005:435-441.

[12] http://www.pudn.com/downloads257/sourcecode/others/detail1185919.html[CP/OL].

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 东京热一区二区三区无码视频| 国产一级在线播放| 亚洲天堂首页| 欧美日韩国产系列在线观看| 免费在线国产一区二区三区精品| 国产成人精品高清在线| swag国产精品| 91在线一9|永久视频在线| 国产又爽又黄无遮挡免费观看| 国产成人盗摄精品| 中文字幕波多野不卡一区 | 欧美久久网| 欧洲高清无码在线| 在线看国产精品| 国产女人在线视频| 国产一级二级在线观看| 性色一区| 午夜色综合| 日本AⅤ精品一区二区三区日| 亚洲福利一区二区三区| 日本爱爱精品一区二区| 成人精品视频一区二区在线| 2019国产在线| 亚洲成人在线网| 女人爽到高潮免费视频大全| 亚洲全网成人资源在线观看| 伊人激情综合| 喷潮白浆直流在线播放| 日本福利视频网站| 思思热精品在线8| 美女毛片在线| 中文字幕自拍偷拍| 亚洲日韩高清无码| 99热国产这里只有精品9九| 国产日韩欧美在线视频免费观看| 婷婷久久综合九色综合88| 国产成人1024精品下载| 国产成人免费| 天堂va亚洲va欧美va国产| 好吊妞欧美视频免费| 毛片基地视频| 波多野结衣视频一区二区| 亚洲乱强伦| 国产精品人人做人人爽人人添| 久久综合色天堂av| 精品视频福利| 新SSS无码手机在线观看| 免费一极毛片| 久久亚洲欧美综合| 全部免费特黄特色大片视频| 在线观看亚洲成人| 国产丝袜无码精品| 狼友av永久网站免费观看| 91精品日韩人妻无码久久| 欧美亚洲一区二区三区在线| 97成人在线观看| 首页亚洲国产丝袜长腿综合| 中文字幕不卡免费高清视频| 伊人久久久久久久| 91久久青青草原精品国产| 黑人巨大精品欧美一区二区区| 美女内射视频WWW网站午夜| 亚洲第一天堂无码专区| 成人亚洲天堂| 欧美黄网站免费观看| 日本精品αv中文字幕| 精品夜恋影院亚洲欧洲| 19国产精品麻豆免费观看| 亚洲天堂在线免费| 国产成熟女人性满足视频| 国产日韩欧美中文| 无码一区中文字幕| 国产成人亚洲精品无码电影| 久久精品国产一区二区小说| 一级香蕉人体视频| 制服丝袜国产精品| 熟女成人国产精品视频| 色综合国产| 国产乱子伦手机在线| 三上悠亚在线精品二区| 一级毛片在线播放| 久久国产香蕉|