999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WordNet的中泰文跨語言文本相似度計算

2016-05-03 13:01:03周蘭江線巖團余正濤
中文信息學報 2016年4期
關鍵詞:語義概念文本

石 杰,周蘭江,線巖團,余正濤

(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 智能信息處理重點實驗室,云南 昆明 650500)

基于WordNet的中泰文跨語言文本相似度計算

石 杰1,2,周蘭江1,2,線巖團1,2,余正濤1,2

(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 智能信息處理重點實驗室,云南 昆明 650500)

文本相似度在信息檢索、文本挖掘、抄襲檢測等領域有著廣泛的應用。目前,大多數(shù)研究都只是針對同一種語言的文本相似度計算,關于跨語言文本相似度計算的研究則很少,不同語言之間的差異使得跨語言文本相似度計算很困難,針對這種情況,該文提出一種基于WordNet的中泰文跨語言文本相似度的計算方法。首先對中泰文本進行預處理和特征選擇,然后利用語義詞典WordNet將中泰文本轉換成中間層語言,最后在中間層上計算中泰文本的相似度。實驗結果表明,該方法準確率達到82%。

WordNet;中間層語言;跨語言文本相似度

1 引言

文本相似度在語言學、心理學和信息理論等領域被廣泛的討論,文本相似度計算旨在比較兩個文本之間的相關程度。近年來,基于同一種語言的文本相似度計算方法[1-3]日趨成熟,代表算法模型有布爾模型、向量空間模型、概率模型等。但是,對于跨語言文本相似度的研究則很少,跨語言文本相似度是指量化兩個不同語言文本之間的相似性,并使量化的結果盡可能符合人工判斷的結果。由于漢語和泰語在語法上存在差異,我們無法用現(xiàn)有的計算同一語言文本相似度的方法來計算漢泰雙語文本的相似度。目前,關于跨語言文本相似度計算主要有以下幾種方法: 1)基于機器翻譯的方法[4]。該方法將源語言文本翻譯成目標語言文本,在目標語言空間計算相似度,該方法依賴機器翻譯的質量,并很難擴展到多種語言;2)基于統(tǒng)計翻譯模型的方法[5]。該方法需要兩種語言之間的翻譯概念詞典,但是翻譯概念詞典需要建立大規(guī)模對齊語料庫,代價很大,并很難擴展到多種語言;3)基于平行語料的方法[6],該方法以兩種語言的平行語料庫為基礎來計算相似度,該方法的準確性依賴于平行語料庫的規(guī)模和質量。雖然上述方法取得了不錯的效果,但是存在擴展性不足、工作量大等缺點。

Steinberger R[7]等提出一種中間層語言思想,用獨立于語言的方式來表示不同語言的文本內容,在多語種詞庫EUROVOC上計算英文文本和西班牙文文本之間的相似度,該種方法不依賴于機器翻譯,且有較高的擴展性和準確性,但Steinberger并沒有把某一種具體的自然語言作為中間層語言,由此受到啟發(fā): 將中間層語言具體化,將不同語言空間轉換成這一具體語言空間來計算文本相似度, WordNet的多語言版本特性使得語言空間的轉換成為可能。WordNet[8]是一個使用同義詞集表示概念的英文語義詞典,有多語言版本,包括中文版、泰文版,中文WordNet的構建原則基本遵守英文WordNet的結構特點,將WordNet中的概念(同義詞集合)映射為本國語言同義詞集合,保留概念間的關系[9-10],本文使用的中文WordNet是由東南大學開發(fā)的中文版WordNet,泰文版WordNet由AsianWordNet提供。不同語言版本之間的WordNet的同義詞集合的synset_id是對應的,通過synset_id將中泰文WordNet與英文WordNet對應起來。因此,本文利用多語言版本W(wǎng)ordNet的synset_id相對應這一特性,提出了一種基于WordNet的中泰文跨語言文本相似度計算的方法,利用WordNet將中文文本和泰文文本轉換成統(tǒng)一的中間層語言,并在中間層上計算相似度。

本文第二節(jié)主要介紹中泰文本相似度計算的過程,第三節(jié)對本文的算法進行測試與評估。

2 中泰文本相似度計算過程

2.1 文本預處理

盡管原始文本包含所有的文本信息,但是目前的自然語言處理技術無法完全處理這些文本信息,因此,需要對文本進行預處理。傳統(tǒng)的文本預處理主要是去掉停用詞,如“的”“地”等。由于本文的方法需要對詞的語義進行分析,因此需要對一些地名、人名等特殊詞進行處理,將這些特殊詞統(tǒng)一轉換成特定的字符串,在進行特征選擇時,將這些特殊詞項忽略,避免噪聲干擾。

2.2 文本特征選擇

經(jīng)過文本預處理后,需要進行文本特征選擇。特征選擇的目的是選擇對相似度計算真正有貢獻的特征項,被選中的特征項應能表征原始文本的主題。本文提取詞作為文本的特征,將每個文檔看成一個詞袋,對于中文文檔和泰文文檔,通過分詞,去掉停用詞后,都可以形成一個特征詞集。然后通過文本頻度的選擇方法去掉干擾原始文本主題的無用詞。文檔頻度(Document Frequency, DF)是指整個文本集合中包含特征詞t的文本個數(shù),DF大于某一閾值則去掉,DF越高,說明t在越多的文本出現(xiàn);DF小于某一閾值也去掉,要么是稀有詞或噪聲。

2.3 中、泰語言空間的轉換

考慮到不同語言之間存在很大的差異性,無法在不同語言層完成相似度計算,本文提出一種中間層語言的思想,即將不同語言轉換成統(tǒng)一的中間層語言,在中間層上實現(xiàn)中泰文跨語言文本相似度計算。轉換模型如圖1所示。

圖1 中、泰語言空間轉換

通過圖1的方式將中文和泰文轉換成統(tǒng)一的中間層英語語言空間,我們只需在英語空間上計算中泰文文本的相似度即可。

2.4 語義消歧

1) 任意x1≠x2,有φ(x1)≠φ(x2);

圖2 WordNet語義哈希編碼示意圖

有了語義距離和語義哈希,我們就可以定義語義密度來量化一組詞之間的語義相關性。對于一組同義詞集w1,w2,…,wn,它們的語義密度density(w1,w2,…,wn)可以由n3與包含所有w1,w2,…,wn的最小子樹的“體積”Vmin(w1,w2,…,wn)的商,如式(1)所示。

(1)

2.5 中、泰文本相似度計算

計算兩個文檔相似度一般用它們對應向量的夾角余弦值來表示,如式(2)所示。

(2)

其中Wik和Wjk分別表示文本Di和Dj第K個特征詞的權值,權值計算采用IDF-TF算法。這種計算相似度的方法的假設前提是: 詞與詞之間是沒有語義關系的。但是現(xiàn)實文本中的詞往往都是有關聯(lián)的,比如同義關系、上下位關系等。因此,本文使用語義詞典WordNet來計算中、泰文本特征詞之間的相似度。

基于WordNet的詞語語義相似度計算,目前有兩大類算法: 基于路徑、基于信息內容(Information Content,IC)。本文采用基于IC的相似度算法。

基于信息內容的相似度算法是以WordNet中每個概念的IC值作為參數(shù),由Resnik[11]首次提出。IC表示為-lgp(c)(在信息論中,稱為自信息)。Resnik認為,兩概念的相似度由包含兩概念的最深層的公共父節(jié)點來決定,只需求出該公共父節(jié)點的特征值,就可以得到兩概念的相似度值。Resnik的算法模型如式(3)所示。

(3)

lso(c1,c2)表示概念c1,c2在is_a樹中最深層的公共父節(jié)點,p(c)表示遇到概念c的實例的概率。該類代表算法為Lin算法[12]。Lin的語義相似度算法考慮定義一個通用的計算相似度的方法,算法模型如式(4)所示。

(4)

基于IC的相似度算法的性能優(yōu)越性主要是由概念IC值的精確性和將IC參數(shù)引入算法的合理性來決定。因此,對IC參數(shù)模型進行改進,可以提高算法的性能。Nuno[13]對IC模型的改進算法如式(5)所示。

(5)

hypo(c)表示概念c的所有子節(jié)點,maxWN表示分類樹中所有概念的數(shù)目。Nuno的模型只是考慮概念的子節(jié)點數(shù)是有局限性的,本文給出一種改進過的IC求解模型,將概念在分類樹中的深度考慮在內,算法模型如式(6)所示。

(6)

k介于0到1之間,本文取k=0.5。

考慮到Lin算法的通用性,將式(6)帶入式(4),得出新的求解相似度模型如式(7)所示。

(7)

式(7)是對WordNet中兩個概念求相似度,求解詞相似度算法如式(8)所示。

(8)

其中,c1i,c2j為w1,w2的若干概念。

假設中文文本CH的特征詞{CW1,CW2,…,CWn},轉換成中間層語言,進行語義消歧后得到對應的英語義項{CE_W1,CE_W2, …,CE_Wn};泰文文本T的特征詞為{TW1,TW2,…,TWk},用同樣的方式得到英語義項{TE_W1,TE_W2,…,TE_Wk},結合式(8),則求解CH和T的相似度的公式如式(9)所示。

(9)

計算結果介于0到1之間,0表示不相似,1表示完全相似,數(shù)值越大表示兩個文本越相似。

圖3 WordNet is_a樹

3 實驗及分析

首先對本文提出的語義消歧算法進行實驗測試,為后文計算中泰文本相似度實驗提供更準確的特征詞義項。實驗選用一個公開的語義標注語料庫SemCor,SemCor的單詞語義是基于WordNet標注的,用詞性標注工具TreeTagger進行POS標注,將標注結果作為消歧算法的輸入,將算法的消歧結果與SemCor中人工標注的結果進行對比,得到本文消歧算法的準確率。表1列出了SemCor中前10篇文檔的消歧準確率。作為對照,表中基準列表示隨機猜測時的消歧準確率。例如,一個詞有五個同義詞集(即義項),那么隨機猜測的準確率為20%,即基準為20%。

表1 消歧實驗結果

消歧算法在SemCor上的平均準確率達到51.8%。

接下來對本文計算中泰文本相似度進行試驗。本文實驗的文本數(shù)為1 000篇文本,中文文本900篇,泰文文本100篇。其中,600篇中文文本為噪音文本,構成噪聲集;另外,300篇中文文本和100篇泰文文本構成標準集,并按中文文本和泰文文本兩兩間的相似度可分為20類,每個類中有13到17篇中文文本不等,也可以這樣理解,在標準集中,每篇泰文文本都有13到17篇人為覺得相似的中文文本。將噪聲集和標準集混合構成測試集進行試驗,如下:

從標準集100篇泰文文本中順序抽出一篇文本,然后計算這篇泰文文本與測試集中文文本之間的相似度,按照相似度大小排序,輸出相似度最大的前17個,然后人為觀察輸出結果,如果與該篇泰文文本屬于同一類的中文文本都被輸出,則認為本次計算相似度成功。本文使用空間余弦的相似度算法與本文的算法作比較。

實驗結果計算公式如式(10)所示。

(10)

實驗數(shù)據(jù)如表2所示。

表2 實驗結果對比表

實驗結果表明: 本文所采用計算中泰文跨語言文本相似度的方法更接近人工評斷的結果。

4 結束語

本文提出了一種基于WordNet的中泰文跨語言文本相似度計算方法,通過將中泰文本轉換成中間層語言空間,并在中間層計算中泰文本的相似度。實驗結果表明本文提出的方法取得了較好的結果。在以后的工作中,考慮進一步改進IC模型,將WordNet中概念的子節(jié)點的空間結構加入模型中,這樣做的目的是獲得一個更加精確的IC值,提高本文算法的精確度。

[1] 李紅蓮,何偉,袁保宗. 一種文本相似度及其在語音識別中的應用[J]. 中文信息學報,2003,17(01):60-64.

[2] 宋玲,馬軍,連莉,張志軍. 文檔相似度綜合計算研究[J]. 計算機工程與應用,2006,30:160-163.

[3] 金博,史彥軍,滕弘飛. 基于語義理解的文本相似度算法[J]. 大連理工大學學報,2005,02:291-297.

[4] Maike Erdmann, Andrew Finch, et al. Calculating Wikipedia Article Similarity Using Machine Translation Evaluation Metrics[C]//Proceedings of the 2011 IEEE Workshops of International Conference on Advanced Information Networking and Applications (WAINA ′11). IEEE Computer Society, Washington, DC, USA, 2011: 620-625.

[5] Barrón-Cedeno A, Rosso P, Pinto D, et al. On Cross-lingual Plagiarism Analysis using a Statistical Model[C]//Proceedings of the PAN. 2008.

[6] Potthast M, Stein B, Anderka M. A Wikipedia-based multilingual retrieval model[M].Advances in Information Retrieval. Springer Berlin Heidelberg, 2008: 522-530.

[7] Steinberger R, Pouliquen B, Hagman J. Cross-lingual document similarity calculation using the multilingual thesaurus eurovoc[M].Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg, 2002: 415-424.

[8] Miller G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.

[9] 王石,曹存根. WNCT:一種WordNet概念自動翻譯方法[J].中文信息學報,2009,23(4):63-70.

[10] 張俐,李晶皎,胡明涵,姚天順. 中文WordNet的研究及實現(xiàn)[J]. 東北大學學報,2003,04:327-329.

[11] Resnik P. Using information content to evaluate semantic similarity in a taxonomy[J]. arXiv preprint cmp-lg/9511007, 1995.

[12] Lin D. An information-theoretic definition of similarity[C]//Proceedings of the ICML. 1998, 98: 296-304.

[13] Seco N, Veale T, Hayes J. An intrinsic information content metric for semantic similarity in WordNet[C]//Proceedings of the ECAI. 2004, 16: 1089.

Chinese-Thai Cross-language Text Similarity Computing Based on WordNet

SHI Jie1,2, ZHOU Lanjiang1,2, XIAN Yantuan1,2, YU Zhengtao1,2

(1. School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming, Yunnan 650500, China;2. Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology,Kunming, Yunnan 650500, China)

Text similarity calculation is widely used by information retrieval, question answering system, plagiarism detection and so on. At present, most research just aim at text similarity of the same language, and research on cross-language text similarity calculation remains an open issue. This paper propose a WordNet-based method of Chinese-Thai cross-language text similarity calculation. We apply the semantic dictionary WordNet to convert the Chinese text and Thai text into a middle layer language, and compute the text similarity between Chinese and Thai in the middle layer. Experimental results show that, this paper’s method of computing the similarity between Chinese text and Thai text has 82%’s accuracy.

WordNet; middle layer language; cross-language text similarity

石杰(1989—),碩士研究生,主要研究領域為自然語言處理與嵌入式系統(tǒng)研究。E-mail:254089809@qq.com周蘭江(1964—),通信作者,碩士生導師,副教授,主要研究領域為自然語言處理與嵌入式系統(tǒng)研究。E-mail:915090822@qq.com線巖團(1981—),講師,主要研究領域為信息檢索、自然語言處理。E-mail:195426286@qq.com

1003-0077(2016)04-0065-06

2014-01-04 定稿日期: 2015-05-04

國家自然科學基金(61363044)

TP391

A

猜你喜歡
語義概念文本
Birdie Cup Coffee豐盛里概念店
語言與語義
幾樣概念店
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国内精品小视频在线| 欧美亚洲一二三区| 99精品久久精品| 欧美啪啪网| 成人年鲁鲁在线观看视频| 精品国产www| 无码日韩视频| 亚洲精品老司机| 国产亚洲美日韩AV中文字幕无码成人| 97se亚洲综合| 乱系列中文字幕在线视频| 国产第四页| 五月婷婷综合色| 亚洲第一香蕉视频| 老司机aⅴ在线精品导航| 亚洲男人的天堂久久精品| 伊人久久综在合线亚洲91| 一级毛片在线播放免费| 亚洲不卡网| 亚洲IV视频免费在线光看| 日本不卡视频在线| 欧美日韩va| 99视频免费观看| 九色综合视频网| 国产成人凹凸视频在线| 成年午夜精品久久精品| 中文字幕久久亚洲一区| a天堂视频| 波多野结衣一区二区三区AV| 久久夜夜视频| 亚洲综合在线最大成人| 一级毛片在线播放免费观看| 国产精品视频白浆免费视频| 国产在线欧美| 中文字幕伦视频| 精品福利国产| 国产精品一区二区在线播放| 岛国精品一区免费视频在线观看| 国产一区二区视频在线| 色悠久久久| 国产杨幂丝袜av在线播放| 国产一级毛片在线| 国产欧美高清| 日本伊人色综合网| 亚洲伊人天堂| 久久久久国产精品免费免费不卡| 黄色片中文字幕| 欧美精品成人| 国产免费a级片| 国产美女91呻吟求| 九色视频线上播放| 精品福利网| 久久精品无码国产一区二区三区| 亚洲 欧美 中文 AⅤ在线视频| 国产精品毛片一区视频播| a天堂视频| 亚洲Av激情网五月天| 久久a毛片| 日韩无码黄色网站| 日韩欧美在线观看| 欧洲一区二区三区无码| 国产国模一区二区三区四区| 2021无码专区人妻系列日韩| 黄片在线永久| 欧美国产日产一区二区| 国产又粗又猛又爽视频| 在线毛片免费| 国产免费怡红院视频| 国产精品无码一区二区桃花视频| 成人午夜免费观看| 日本伊人色综合网| 无码精品福利一区二区三区| 成年人视频一区二区| 秘书高跟黑色丝袜国产91在线| 久久久精品国产SM调教网站| 亚洲精品手机在线| 欧美久久网| 日韩免费毛片视频| 中美日韩在线网免费毛片视频| 国产三级韩国三级理| 激情乱人伦| 毛片久久久|