999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于免疫原理詞表示的詞相似度計算

2015-04-29 23:57:57楊錦鋒關毅
智能計算機與應用 2015年3期

楊錦鋒 關毅

摘 要:詞相似度計算在自然語言處理、信息抽取等研究中發揮重要作用?;谡Z料的詞相似度計算是一類重要方法,其基本思路是從語料中學習詞的向量表示,基于向量余弦相似度值作為詞的語義相似度。本文提出一種新的基于免疫原理詞表示的詞相似度計算方法,并在SemEval 2012 Task 4數據上進行了驗證并和其他方法進行比較,實驗表明本文的方法是有效的,并且優于大多數比較系統。

關鍵詞:詞相似度;詞表示;免疫原理;分布式語義假設

中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2014)02-

Word Similarity Measure based on Immune Principles Inspired Word Representation

YANG Jinfeng, GUAN Yi

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Word similarity measure is important to researches on natural language processing, information extraction, etc. Corpus based similarity computing is a most important type of methods for the task, by which word vector-representations are learnt from corpuses and are applied for word similarity measure with a cosine function. This research proposes a new method for word similarity computing based on immune principles inspired word representations. The proposed method is validated on the data set of SemEval 2012 Task 4 and is compared with other published researches. Experimental results show that the proposed method is effective and outperforms most other published researches.

Keywords: Word Similarity; Word Representation; Immune Principle; Distributional Hypothesis

0 引 言

面向詞的語義相似度問題主要體現在兩個方面的研究,一個是基于屬性相似的詞語義相似度,一個是基于模式相似的詞關系相似度[1]。本研究主要關注基于屬性相似的詞語義相似度計算。如果兩個詞之間有較高的屬性相似度,那么稱這兩個詞為義詞。詞相似度計算是為了挖掘語義相似的詞或者相關的詞,用于緩解數據稀疏的問題,因而在自然語言處理、信息抽取、信息檢索等任務中發揮重要作用,比如特征抽取、查詢擴展、問句匹配等。詞語義相似度計算方法主要有兩類,一類是基于詞典或敘詞表的方法,這類方法的典型特點是通過計算詞典中與兩個詞相關聯的邊的數量計算詞的相似度;另一類方法是基于語料的方法,這類方法的典型特點是獲取詞的上下文信息,處于相似上下文的詞具有一定的相似度[2]。第二類方法不受限于詞典的規模,可擴展性好,逐漸成為主流方法。本研究采用第二類方法,從語料中學習詞的向量表示,并基于詞表示計算詞的相似度?,F有的詞表示方法研究都不具備持續學習能力,無法適應新的語料或者新的領域。為此,一種新的基于適應性免疫原理的多詞主體自治學習模型[3]和基于免疫原理的詞表示方法[4]被提出來?;诿庖咴淼脑~表示實際上也是從詞所在的語句中獲取與該詞相關的上下文信息,因而基于免疫原理的詞表示用于詞相似度計算是很自然的應用點。本文提出一種新的基于免疫原理詞表示的詞相似度計算方法,并在SemEval 2012 Task 4數據上進行了驗證。通過對比實驗證明,本文提出的詞相似度計算方法不僅可行、而且有效。

1 相關工作

詞相似度計算在應用中具有非常重要的意義,因而該研究一直備受關注?;谠~典的方法簡單易行,并且準確率較高,但是受限于詞典的規模。在開放領域,常用的詞典有:英文詞典是WordNet,中文詞典是Hownet、同義詞詞林(擴展版)等。在其他特定領域,為了能準確判斷兩個詞的語義相同,不惜花費大量人力維護一個龐大的知識庫,比如醫療領域中的UMLS。知識庫如此重要,以至于需要采用基于語料的方法計算詞的相似度來挖掘同義詞或相關詞,完善知識庫。

在各類互聯網應用蓬勃發展的時代,獲得海量的文本數據變得很便捷,因而基于語料的詞相似度計算能自動挖掘出更多的同義詞(或候選)。本文主要關注基于普通文本語料的詞相似度計算研究。這類研究最常見的思路是學習每個詞的向量表示,基于詞的向量表示,計算詞的相似度,一般采用余弦相似度方法作為相似度值的度量。Baroni[5]等對語料進行依存分析后構建分布式詞表示,在RG-65[6]評價數據上取得評價結果僅次于最好的系統。Turney[9]突破了常規思路,把詞表示成兩個向量,一個向量表示詞的領域屬性,其維度由當前詞上下文中的名詞組成,一個向量表示詞的功能屬性,其維度由當前詞上下文中的動詞組成,基于詞的功能屬性計算算詞之間的語義相似度,基于詞的領域屬性,計算詞之間的語義相關度,該方法在Chiarello等[7]構建的評價集上對相關度和相似度有較好的區分能力。Mikolov等[8]首次將詞嵌入(由神經網絡學習到的分布式詞表示)成功應用于詞相似度計算,并開發了開源工具word2vec,使詞嵌入研究迅速成為自然語言研究中的熱點之一。Levy等[9]則是先對語料進行依存分析后,把詞所處的依存弧也作為神經網絡的輸入學習詞嵌入,在WS-353[10]評價數據上取得結果要優于上下文特征抽取算法Skip-gram。Levy等[11]比較了詞嵌入和分布式詞表示在詞相似度計算任務上的表現,詞嵌入并不總是優于分布式詞表示,而且認為在詞嵌入上的成功經驗也能遷移到分布式詞表示上,并通過實驗驗證。Yih等[12]整合語料庫、搜索日志和詞典構造混合分布式詞表示,計算詞的相似度,該方法在多種評價數據上(WS-353[10],WS-sim和WS-rel[13],RG-65[6],MC-30[14],Mturk-287[15])都取得了最好的結果。

在中文方面,基于語料的詞相似度計算研究也開始引起研究者的關注,但是中文詞相似度評價數據比較缺乏,有些研究采用同義詞詞林(擴展版)進行評價,或者參照英文的評價數據自行構建中文的評價數據。石靜等[16]在新華社新聞語料和搜狗網絡語料分別基于窗口上下文特征和基于依存關系構建詞的向量表示,用余弦相似度方法計算詞的相似度,根據詞語在語料中出現的頻次,選擇一批出現在同義詞詞林(擴展版)中的高頻詞,進行評價。這類方法可以比較系統在不同詞性上的評價值,但是不便于客觀公正地和其他研究對比。王石等[17]采用詞在二詞名詞短語中的搭配詞作為其上下文抽取特征構造詞的向量表示,在自行構建的評價數據上進行了評價。而且,同時又參照英文同義詞評價集MC-30[14]構建了包含70個詞對的評價集,詞性包括名詞、動詞和形容詞三類。在該評價數據的名詞、動詞和形容詞中,這一方法分別取得了0.703、0,50.9和0.700的相關系數。目前公開并且可獲取到的中文詞相似度評價數據是SemEval-2012 Task 4的數據,該評價數據參照WS-353[10]構建,包含348個詞對,50個詞對用于開發。在評測提交的結果中,最好的結果達到0.05的相關系數[18]。本文實驗采用這個評價數據。

2 基于免疫原理詞表示的詞相似度計算

2.1 詞的表示

文獻[4]提出了基于免疫原理的詞表示和學習模型,該詞表示受B細胞和詞的一致性啟發。在語句的依存結構中,一個詞既處于支配的上下文中,又處于依賴的上下文中,因此基于免疫原理的詞表示是把詞表示成兩個向量,一個向量表示詞的支配屬性,另一個向量表示詞的依賴屬性。詞表示方法如圖1所示。

圖1 基于免疫原理的詞表示

Fig.1 Immune principles inspired word representation

詞 的形式化表示如式(1)和式(2)所示,互補位 表示詞 的支配屬性及對應的權重,獨特性 表示詞 的依賴屬性及對應的權重。

(1)

(2)

2.2詞相似度計算

分布語義假設(Distributional Hypothesis)認為出現在相似上下文的詞具有相似的語義[19-20]。在本研究中,有關詞的上下文分開為支配上下文和依賴上下文,因此,可把分布語義假設擴展為:如果兩個詞具有相似的支配上下文和相似的依賴上下文,那么兩個詞具有相似的語義。基于該假設,詞 和詞 的相似度計算公式如式(3)所示。

(3)

在式(3)中, 是余弦相似度函數, 和 分別表示詞的支配屬性向量和依賴屬性向量。余弦相似度函數的值域為[-1,1],式(3)要求相似度值不能小于0,否則就改變了函數值的正負號,在計算式(3)之前,需要把余弦相似度函數值通過函數 轉換到[0, 1]區間。

3 實驗結果與分析

SemEval-2012第4個任務發布了一套標準的中文詞相似度評價數據,該數據能客觀公平地評價詞相似度計算模型的準確率。本文接下來介紹基于免疫原理的詞表示在該數據上的實驗和評價結果。

3.1 評價數據和評價指標

評價數據包含347個詞對,其中50個詞對用于開發,297個詞對用于評價。每一個詞對由20位母語為中文的標注者賦予一個相似度值,相似度值范圍取值是[0,5],賦予的值越大,兩個詞的語義相似度越大,5意味著兩個詞的語義完全相同,0意味著兩個詞沒有任何關系。每一個詞對賦予的相似度值的平均值作為該詞對的相似度值。根據相似度值,將這些詞對按照相似度值降序排序,此順序作為評價數據的黃金標準。詞相似度計算模型計算每個詞對的相似度值,并且按照相似度值排序,模型給出的詞對排序與評價數據的排序進行比較,計算兩個排序的相關度,相關度計算采用肯德爾系數[21]。肯德爾系數計算公式如式(4)所示。

(4)

其中,N是詞對的總數, 和 是對詞對的兩個排序, 是保證 和 排序相同而需要相鄰交換的最小次數。 的意義可解釋為排序一致的詞對百分比減去排序不一致的詞對百分比。 的取值范圍是[-1,1], 的值越大,表明兩個排序一致性越高,-1意味著兩個排序完全相反,1意味著兩個排序完全一致。

3.2 詞表示學習語料和實驗過程

多詞主體自治學習模型的訓練語料采用中文濱州樹庫轉換的依存樹庫[22, 23],一共18 602句,在該樹庫上學習特征的權重。詞表示學習語料為中文Gigaword第5版,選用了光明日報(gmw_cmn)和新華社(xin_cmn)新聞語料。由于詞表示構建需要抽取詞在語句中依存結構的上下文特征,所以需要對語料進行分詞和詞性標注和依存分析。在實驗中,分詞和詞性標注均采用斯坦福的模型[24-25],依存分析采用目前速度最快的模型EasyFirst[26]。詞表示構建流程如下:

(1)從中文Gigaword語料中抽取正文

(2)按照句號、問號等規則進行句子切分

(3)對語句依次進行分詞、詞性標注和依存分析

(4)抽取語句依存結構中依存對的特征,把依存對的上下文特征分別作為依賴詞的依賴上下文特征和支配詞的支配上下文特征。

(5)合并語料中相同詞的依賴上下文特征和支配上下文特征,形成詞的兩支向量表示,特征的權重從多詞主體自治學習模型中獲取。

基于該詞表示,計算評價數據中每個詞對的相似度值并排序。

3.3實驗結果

實驗在兩組數據上展開,一組實驗室采用的語料是光明日報語料,另一組實驗室采用的語料是光明日報語料和新華社語料,對比試驗是為了比較不同語料規模對詞表示學習的影響。為了驗證本文對分布式語義假設擴展的必要性,研究把詞的支配向量和依賴向量合并為一個向量,用余弦相似度函數計算詞之間的相似度,并進行比較。

對比實驗結果如表1所示。對比實驗說明擴大語料規模能學習到更好的詞表示,其原因是從更大規模的語料能獲取到更多的詞上下文信息,這一點對低頻詞更為重要。如表1所示,合并后的單一向量詞表示的評價結果相較于兩支向量詞表示的評價結果要低,這一比較結果證明了基于免疫原理詞表示的詞相似度計算方法具有一定的優越性,也說明本文對分布式語義假設的擴展是有效的。

表1 不同語料上詞相似度評結果

Tab.1 Evaluations for word similarity on different corpuses

語料集 詞表示方式 相似度排序相關性( )

光明日報 兩支 0.1997

光明日報+新華社 兩支 0.2223

光明日報+新華社 合并為一支 0.1910

表2列出了其他研究在該數據集上的實驗結果。表中前4個是SemEval-2012在該數據集上的評測結果[18], 第五個是Peng Jin等[27]在該數據上的進一步研究結果,最后一個是開源工具word2vec在該數據上的結果呈現。運行word2vec的參數為:抽取上下文的算法是skip-gram、輸出向兩維度是200、窗口最大值5、訓練算法是分層softmax,訓練語料是光明日報語料和新華社語料。這6個研究都采用基于語料的詞相似度計算方法,并且采用的語料都是中文Gigaword,因而和本文的研究具有可比性。

表2其他研究的評價結果

Tab.2 Evaluation results of other researches

對比系統 詞對相似度排序相關性( )

MIXCC 0.050

MIXCD 0.040

Guo-ngram 0.007

Guo-words -0.011

Peng Jin 2012[27]

0.023

word2vec 0.3405

從表1和表2對比結果可以看出,本文的實驗結果明顯優于其他研究的結果,但是和word2vec的評價結果有一定的差距。對比結果證明了本研究提出的基于免疫原理的類B細胞詞表示以及相似度計算方法在中文詞相似度計算這一任務上是有效的,并且有較大的優勢和潛力。

4 結束語

本文主要是把基于免疫原理的詞表示應用到中文詞相似度計算任務上,并提出新的詞相似度計算方法,以驗證詞表示的有效性。本文實驗從中文Gigaword新聞語料中構建詞表示,在SemEval-2012第四個任務的數據上進行了評價,評價結果明顯優于該數據上其他研究結果。實驗結果證明了詞表示的有效性。詞相似度計算是詞表示的直接應用,因此提高此相似度計算方法的性能關鍵在于進一步改善詞表示的學習方法。后續工作將繼續圍繞詞表示構建和學習展開,使學習到的詞表示能表達出更多的句法和語義信息。

參考文獻:

[1] BARONI M, LENCI A.Distributional memory: A general framework for Corpus-Based Semantics [J]. Comput. Linguist., Dec. 2010, 36(4): 673–721.

[2] LI Y, BANDAR Z A, MCLEAN D.An approach for measuring semantic similarity between Words using multiple information sources [J]. IEEE Trans. Knowl. Data Eng., 2003, 15(4): 871–882.

[3] JINFENG Y, YI G, XISHUANG D.Multi-word-agent autonomous learning model for regulating Word combination strength [J]. Int. J. Multimed. Ubiquitous Eng., 2015, 10(4).

[4] YANG J, GUAN Y, DONG X, et al. Representing words as lymphocytes [C]//Twenty-Eighth AAAI Conference on Artificial Intelligence, Quebec, Canada:AAAI,2014: 3146–3147.

[5] BARONI M, LENCI A.Distributional memory: A general framework for Corpus-Based Semantics [J]. Comput. Linguist., Dec. 2010, 36(4): 673–721.

[6] RUBENSTEIN H, GOODENOUGH J B.Contextual correlates of synonymy [J]. Commun. ACM, 1965, 8(10): 627–633.

[7] CHIARELLO C, BURGESS C, RICHARDS L, et al. Semantic and associative priming in the cerebral hemispheres: some words do, some words dont ... sometimes, some places [J]. Brain Lang., 1990, 38(1): 75–104.

[8] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of Word representations in Vector Space [J]. arXiv Prepr., Jan. 2013.

[9] LEVY O, GOLDBERG Y. Dependency-based word embeddings [C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Battimore,Maryland:Association for Computational Linguistics,2014: 302–308.

[10] FINKELSTEIN L, GABRILOVICH E, MATIAS Y, et al.Placing search in context: The concept revisited [J]. ACM Trans. Inf. Syst., 2002, 20(1): 116–131.

[11] LEVY O, GOLDBERG Y, DAGAN I. Improving distributional similarity with lessons learned from word embeddings [J]. Trans. Assoc. Comput. Linguist., 2015.

[12] YIH W, QAZVINIAN V. Measuring word relatedness using heterogeneous vector space models [C]// Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Montr,Canada:June, 2012:616–620.

[13] AGIRRE E, ALFONSECA E, HALL K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches [C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, USA: Springer2009, 19–27.

[14] MILLER G A, CHARLES W G. Contextual correlates of semantic similarity [J]. Lang. Cogn. Process., 1991, 6(1): 1–28.

[15] RADINSKY K, AGICHTEIN E, GABRILOVICH E, et al. A word at a time: computing word relatedness using temporal semantic analysis [C]//Proceedings of the 20th International Conference on World Wide Web, New York, NY, USA:ACM,2011:337–346.

[16] 石靜, 吳云芳, 邱立坤, 呂學強.基于大規模語料庫的漢語詞義相似度計算方法[J]. 中文信息學報, 2013, 27(1): 1–6.

[17] 王石, 曹存根, 裴亞軍, 等. 一種基于搭配的中文詞匯語義相似度計算方法[J]. 中文信息學報, 2013, 27(1): 7–14.

[18] JIN P, WU Y. SemEval-2012 Task 4: Evaluating Chinese word similarity [C]//Proceedings of the First Joint Conference on Lexical and Computational Semantics - Volume 1: Proceedings of the Main Conference and the Shared Task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, Montr\eal, Canada:Association for Computational Linguistics,2012: 374–377.

[19] HARRIS Z. Distributional structure [J]. Word, 1954, 10(23): 146–162.

[20] FIRTH J . A synopsis of linguistic theory 1930-1955 [J]. Stud. Linguist. Anal., 1957: 1–32.

[21] LAPATA M. Automatic evaluation of information ordering: Kendalls Tau [J]. Comput. Linguist., 2006, 32(4): 471–484.

[22] NIVRE J, HALL J, NILSSON J. MaltParser: A data-driven parser-generator for dependency parsing [C]// Proceedings of LREC, Genoa, Italy:[s.n.],2006, 6:2216–2219.

[23] ZHANG Y, CLARK S. A tale of two parsers: investigating and combining graph-based and transition-based dependency parsing using beam-search [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA,USA:Association for computational Linguistics,2008: 562–571.

[24] TSENG H, CHANG P, ANDREW G, et al. A conditional random field word segmenter for Sighan Bakeoff 2005 [C]//Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing,Jeju Island, Korea:ACL-SIGHAN, 2005.

[25] TOUTANOVA K, MANNING C D. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger [C]//Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics -, Hong Kong,China:[s.n.],2000, 13: 63–70.

[26] GOLDBERG Y, NIVRE J.Training deterministic Parsers with non-deterministic oracles [J]. Trans. Assoc. Comput. Linguist., 2013, 1: 403–414.

[27] JIN P, CARROLL J, WU Y, et al. Distributional similarity for Chinese: Exploiting characters and radicals [J]. Math. Probl. Eng., 2012, 2012: 1–11.

主站蜘蛛池模板: 国产日韩久久久久无码精品| 国产激情影院| 亚洲综合18p| 久久一色本道亚洲| 欧美日韩专区| 亚洲精品第一在线观看视频| 国产伦精品一区二区三区视频优播| 色偷偷男人的天堂亚洲av| 色婷婷成人网| 免费国产一级 片内射老| 色综合久久无码网| 亚洲免费福利视频| 国产在线精品网址你懂的| 欧美中文字幕一区二区三区| 欧美黑人欧美精品刺激| 激情亚洲天堂| 白丝美女办公室高潮喷水视频 | 午夜福利无码一区二区| 亚洲欧美日韩精品专区| 久久国产精品77777| 2021国产乱人伦在线播放| 国产人人乐人人爱| 亚洲成人网在线播放| 日韩欧美中文亚洲高清在线| 国产97公开成人免费视频| 免费观看无遮挡www的小视频| 亚洲精品天堂自在久久77| 亚洲自偷自拍另类小说| 91精品情国产情侣高潮对白蜜| 亚洲欧美综合精品久久成人网| 国产国拍精品视频免费看| 亚洲精品国产成人7777| 日本亚洲欧美在线| 国产精品一区在线观看你懂的| 国产成本人片免费a∨短片| 色噜噜中文网| 亚洲永久色| 亚洲第一国产综合| 欧美 国产 人人视频| 狠狠做深爱婷婷久久一区| 国产特一级毛片| 国产www网站| 992Tv视频国产精品| 亚洲精品黄| 亚洲热线99精品视频| 欧美激情视频在线观看一区| 性网站在线观看| 久久精品人人做人人爽| 免费观看成人久久网免费观看| 波多野结衣无码视频在线观看| 国产精品视频999| 欧美在线网| 国产二级毛片| …亚洲 欧洲 另类 春色| 亚洲国产理论片在线播放| 91精品国产无线乱码在线 | 国产99久久亚洲综合精品西瓜tv| 国产欧美精品一区aⅴ影院| 成人在线视频一区| 久久人人爽人人爽人人片aV东京热| 人妻一区二区三区无码精品一区| 青青草原国产一区二区| 国产精品va| 国产无码在线调教| 亚洲自拍另类| 国产麻豆va精品视频| 在线精品欧美日韩| 久久精品亚洲中文字幕乱码| 中文字幕亚洲乱码熟女1区2区| 99视频有精品视频免费观看| 东京热高清无码精品| 国产性爱网站| 国产欧美日韩专区发布| 国产女人在线| 亚洲 日韩 激情 无码 中出| 国产精鲁鲁网在线视频| 欧美成人午夜视频| a欧美在线| 全免费a级毛片免费看不卡| 67194亚洲无码| 国产亚洲成AⅤ人片在线观看| 天天操天天噜|