999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不同語義資源的詞語相似度算法綜述

2016-03-04 23:31:52蔡輝虎
山東工業(yè)技術(shù) 2016年5期

摘 要:詞語相似度研究作為人工智能領(lǐng)域中一項(xiàng)重要研究,被廣泛應(yīng)用于信息檢索,詞義消歧,機(jī)器翻譯,語音自動摘要,分類和聚類等方面。現(xiàn)有的詞語相似度算法主要分為基于語義資源和基于統(tǒng)計(jì)兩類方法,第一種也被稱為基于本體的詞語相似度算法,主要根據(jù)詞語所處的語境來反應(yīng)詞語的詞義,即根據(jù)不同的層次結(jié)構(gòu)組織中詞所處的上下位與同位關(guān)系來計(jì)算詞語的相似度。另一種也被稱為基于大規(guī)模語料庫的算法,研究上下文環(huán)境中各個詞語之間出現(xiàn)的某種規(guī)律,利用統(tǒng)計(jì)技術(shù)計(jì)算的一種無監(jiān)督機(jī)器學(xué)習(xí)的方法。本文重點(diǎn)介紹基于不同的語義資源的詞語相似度算法,對詞語相似度算法的未來做了展望。

關(guān)鍵詞:詞語相似度;語義資源;維基百科

DOI:10.16640/j.cnki.37-1222/t.2016.05.211

1 引言

隨著云時代的來臨,大數(shù)據(jù)越來越受人們關(guān)注。伴隨著辦公室無紙化推行,人們逐漸習(xí)慣于利用計(jì)算機(jī)進(jìn)行數(shù)字化處理數(shù)據(jù),自然語言處理的研究也飛速發(fā)展。詞語是自然語言處理的最小單位,詞語相似度的計(jì)算在自然語言處理的各個領(lǐng)域占有很重要的地位。詞語相似度計(jì)算研究的是計(jì)算兩個詞語相似度的方法,詞語之間有著非常復(fù)雜的關(guān)系,應(yīng)用中常常將這種復(fù)雜的關(guān)系用簡單的數(shù)量來度量。可見詞語相似度研究有廣闊的應(yīng)用前景和重大研究價(jià)值。本文綜合介紹了近年來基于幾種常見語義資源的詞語相似度算法和最新研究成果,對該領(lǐng)域的發(fā)展前景做出了展望。

2 基于Wordnet的方法

Wordnet是由普林斯頓大學(xué)的心理學(xué)家,語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一個在線詞典參考系統(tǒng),在認(rèn)知語言學(xué)理論下推動形成的覆蓋范圍非常廣闊的詞匯語義網(wǎng)。Wordnet不像傳統(tǒng)的在線詞典按照字母排序構(gòu)造而成,這個系統(tǒng)中的詞語根據(jù)同義關(guān)系,反義關(guān)系,部分關(guān)系聚類分為代表某一類詞匯概念的相關(guān)集合。并在這些聚類后形成的集合之間建立起不同關(guān)系。

Wordnet主要代表算法是通過計(jì)算兩個詞語在本體結(jié)構(gòu)分類的路徑長度,本體庫的統(tǒng)計(jì)特征,概念層次樹上下位關(guān)系和同位關(guān)系或?qū)υ~語涉及的邊進(jìn)行處理。例吳思穎等[1]利用語義網(wǎng)同義詞集上下位關(guān)系圖中,引入了距離,密度,深度3個因素來估計(jì)同義詞集之間的相似度,采用一個自適應(yīng)的方案來解決候選同義詞集組合的權(quán)重和取舍問題。實(shí)現(xiàn)了一個可以計(jì)算英-英,漢-英,漢-漢詞語之間相似度的算法。基于wordNet算法的主要優(yōu)點(diǎn)是覆蓋范圍寬廣,數(shù)據(jù)足夠密集,減少數(shù)據(jù)中無法解釋的數(shù)據(jù)變動的干擾。主要缺點(diǎn)受個人偏見或局限性影響較大,對客觀現(xiàn)實(shí)的反應(yīng)不夠準(zhǔn)確。

3 基于知網(wǎng)的方法

<知網(wǎng)>(英文名稱HowNet)是著名機(jī)器翻譯專家董振東[2]先生創(chuàng)建的相對豐富的語義知識詞典,它所所描述的對象是以詞語為代表的概念,概念之間的關(guān)系用關(guān)系義原或者關(guān)系符號來表示,并且描述了多種概念的屬性與屬性之間的關(guān)系,具有種類多,數(shù)量廣并且多樣化的關(guān)系層次詞匯語義知識。

“概念“和”義原“是《知網(wǎng)》結(jié)構(gòu)中有兩個最主要的概念,”義原“是用來描述”概念“的”知識表示語言“,”義原“還是描述”概念”不可分割的基本單位。一個概念可以描述一個詞,或者多個概念組合描述一個詞,利用基本義原,語法義原和關(guān)系義原來描述概念,也是詞語的某一部分特性,計(jì)算出義原的相似度就可以求出詞語的相似度。例王斌[3],劉群等[4],Li等[5]根據(jù)《知網(wǎng)》中樹形圖由義原上下位關(guān)系構(gòu)成,分別計(jì)算出其中節(jié)點(diǎn)之間路徑的方法,或者利用集合,特征結(jié)構(gòu)整體計(jì)算得到語義距離并進(jìn)行轉(zhuǎn)換的方法,提出各種基于《知網(wǎng)》義原關(guān)系計(jì)算的詞語相似度算法。《知網(wǎng)》提供了更加直觀,結(jié)構(gòu)化的詞匯語義信息,但是隨著知識語言發(fā)展,未登錄詞語越來越多,暴露了覆蓋的詞匯有限的局限性。

4 基于同義詞詞林的方法

1983年梅家駒等[6]人為了加速創(chuàng)作和翻譯工作,對同義詞語進(jìn)行收集匯編分類,由此編纂了 《同義詞詞林》。這本詞典最主要的是包括大部分詞的同義詞,當(dāng)然也包含了一定數(shù)量的廣義相關(guān)詞。依照樹狀層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大中小三類,采用層級體系,具有五層結(jié)構(gòu)。

基于《同義詞詞林》的詞語相似度算法主要采用概念切分法,節(jié)點(diǎn)路徑計(jì)算法,或者綜合算法。例天久樂等[7]從詞語的語義出發(fā),根據(jù)兩個詞語的義項(xiàng)在同義詞詞林中的位置,算出相對距離,用具體的實(shí)數(shù)值表示,并且結(jié)合兩個詞語在相類似語境中相互替換或者共現(xiàn)的可能性計(jì)算出相關(guān)性,具有高相關(guān)性的詞語具有相似性的程度也相應(yīng)較高,導(dǎo)入一定的測試函數(shù)計(jì)算出詞語的合理相似度。呂立輝等[[]]通過兩個單詞在詞林書中相距的路徑長,以及所在分支詞義密度來計(jì)算兩個中文單詞間的相似度,利用皮爾遜線性相關(guān)系數(shù)來評價(jià)該方法。基于同義詞詞林詞語相似度算法的優(yōu)缺點(diǎn)與基于Wordnet,并且同義詞詞林?jǐn)?shù)據(jù)更新緩慢。

5 基于維基百科的方法

維基百科是一個基于Web2.0技術(shù)的全球性多語言合作型語料庫,同時也是作為詞語相似度計(jì)算的網(wǎng)絡(luò)百科全書,其目標(biāo)及宗旨是由全人類提供的自由的百科全書,維基百科中使用語義解釋豐富的詞條來表示主題,每篇文章都可以歸類于某一類主題。詞條之間具有上下位關(guān)系,這種獨(dú)特的結(jié)構(gòu)方式使維基百科成為最新詞匯語義信息的重要來源。

基于維基百科的詞語相似度算法主要利用維基百科中詞條豐富的語義解釋,層次的上下位關(guān)系,文章之間借助內(nèi)容的超鏈接相互關(guān)聯(lián)反映的詞匯間詞義關(guān)系進(jìn)行相似度計(jì)算。例Strube等[9]最早提出Wikerelate!算法,比較不同詞性的詞語之間的語義相似度,隨后 Gabrilovich等[10]提出了基于維基百科文章內(nèi)容的顯性語義分析法.把文本內(nèi)容的詞語含義通過機(jī)器學(xué)習(xí)技術(shù)表達(dá)為維基百科概念的加權(quán)向量。MiLine[11]提出了利用維基百科文章集合中內(nèi)容的超鏈接信息計(jì)算詞語相似度的方法WLVM,該方法只利用了文章中內(nèi)容超鏈接結(jié)構(gòu)和文章維基類別等信息來計(jì)算相似度,而沒有利用維基百科中所有的文本內(nèi)容,計(jì)算方式簡便,速度也提高了,但卻已犧牲了準(zhǔn)確性高為代價(jià)。基于維基百科的詞語相似度算法主要的優(yōu)點(diǎn)是維基百科提供了最新的語義信息和獨(dú)特的信息結(jié)構(gòu)。主要缺點(diǎn)是維基百科是并不像前面提到的三種語義資源由專業(yè)的人士或者團(tuán)隊(duì)收集而來,缺乏專業(yè)性質(zhì)

6 總結(jié)

詞語相似度的計(jì)算在自然語言處理領(lǐng)域有著非常重要的意義,是信息檢索,文本分類等相關(guān)領(lǐng)域的基礎(chǔ)。綜上對基于四種不同語義資源的算法,前三種均存在更新緩慢的缺點(diǎn),維基百科的出現(xiàn)彌補(bǔ)了這一點(diǎn)。與傳統(tǒng)的語義詞典相比,維基百科含有豐富的語義信息,涉及的知識面廣闊,獨(dú)特的信息組織方式的優(yōu)點(diǎn),同時其語義資源更新頻率高,有效地提高了詞語相似度計(jì)算的準(zhǔn)確率。有機(jī)地融合維基百科和其他背景信息,能夠在多種不同類別的詞匯語義信息來源中取長補(bǔ)短,提高計(jì)算的準(zhǔn)確性。所以,針對維基百科和通過融合方法的詞語相似度算法將成為詞語相似度研究今后的發(fā)展趨勢。

參考文獻(xiàn):

[1]吳思穎,吳揚(yáng)揚(yáng).基于中文WordNet的中英文詞語相似度計(jì)算[J].鄭州大學(xué)學(xué)報(bào),2010(06):42-2.

[2]董振東,董強(qiáng).知網(wǎng)[EB/OL].[2012-03-20].www.keenage.com

[3]王斌.漢英雙語語料庫自動對齊研究[D].北京:中國科學(xué)院計(jì)算技術(shù)研究所,1999.

[4]劉群,趙捧未,劉懷亮.詞語相似度計(jì)算研究[J].情報(bào)理論與實(shí)踐,2007,30(01):105-108

[5]Li S J,Huang X,et al.Semantic Computation in Chinese Quertion-Answering Systm[J]. Journal of Computer science and Technology,2002,17(6):933-939.

[6]梅家駒,竺一鳴,高蘊(yùn)琦等.同義詞詞林[M].上海:上海辭書出版社,1983.

[7]田久樂,趙蔚 基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào),2010(11):28-6.

[8]呂立輝,梁維薇,冉蜀陽.基于詞林的詞語相似度的度量[J].研究與開發(fā),2013(01).

[9]Strube M,Ponzetto S P。WikiRelate! Computing Semantic Related Using Wikipedia [C].In: Proceedings of the 21st National Conference on Artificial Intelligence (AAAI06).AAAI Press,2006:1419-1424.

[10]David MiLne.Computing semantic relatedness using Wikipedia link structure[C].In Proceedings of the New Zealand Computer Science Research Student Conference(NZCSRSC07),2007.

作者簡介:蔡輝虎(1988-),男,福建泉州人,碩士研究生,研究方向:數(shù)據(jù)挖掘。

主站蜘蛛池模板: 亚洲无码日韩一区| 国产一二三区视频| 欧美日韩精品综合在线一区| 在线观看视频一区二区| 欧美日韩理论| 欧美日韩免费在线视频| 国产精品偷伦在线观看| 91精品国产一区| 国产簧片免费在线播放| 丁香亚洲综合五月天婷婷| 色婷婷在线影院| 亚洲乱码视频| 国产成人禁片在线观看| 97青草最新免费精品视频| 一本大道视频精品人妻 | 色欲色欲久久综合网| 欧美笫一页| 亚洲色欲色欲www网| 久久免费视频6| 亚洲日韩欧美在线观看| 久久久久亚洲Av片无码观看| 欧美色伊人| 国产在线麻豆波多野结衣| 农村乱人伦一区二区| 久久77777| 伊人精品视频免费在线| 蜜臀AV在线播放| 欧美一级99在线观看国产| 91无码网站| 中文字幕久久波多野结衣 | 成年人久久黄色网站| 日本道综合一本久久久88| 国产尤物在线播放| 国产人成乱码视频免费观看| 情侣午夜国产在线一区无码| 免费看的一级毛片| 99久久99视频| 999精品免费视频| 日韩国产 在线| 高清色本在线www| 九色综合视频网| 欧日韩在线不卡视频| 高清欧美性猛交XXXX黑人猛交 | 热思思久久免费视频| 亚洲精品国产首次亮相| 天天躁日日躁狠狠躁中文字幕| 女人18毛片久久| 免费在线看黄网址| 亚洲Av激情网五月天| 免费一级毛片在线观看| 国产va免费精品| 国产精品大白天新婚身材| 日韩毛片免费观看| 亚洲一区网站| 欧美成人区| 五月婷婷中文字幕| 日韩人妻无码制服丝袜视频| Jizz国产色系免费| 国内精品一区二区在线观看| 91区国产福利在线观看午夜| 无码aaa视频| 试看120秒男女啪啪免费| 欧美亚洲日韩中文| 一级毛片免费的| 精品久久久久久成人AV| 欧美一级高清片久久99| 97se亚洲综合在线天天| 国产香蕉在线视频| 国产一区二区色淫影院| 大陆精大陆国产国语精品1024| 在线看免费无码av天堂的| 99精品影院| 国产91小视频在线观看| 日韩在线播放欧美字幕| 日韩无码黄色| 国产AV无码专区亚洲精品网站| 国产精品成人免费综合| 午夜国产精品视频| 国产AV无码专区亚洲精品网站| 成人第一页| 国产视频欧美| 亚洲第七页|