999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺議語義相似度計算

2015-05-30 22:54:45楊凡
今日湖北·下旬刊 2015年1期

楊凡

摘 要 語義相似度研究的是兩個詞語的相似性,被廣泛應用于信息檢索、信息提取、文本詞義消歧、機器翻譯等領域中。本文介紹幾種主要的語義相似度計算方法,以供大家參考。

關鍵詞 語義相似度 詞義相似度 語義距離

一、引言

自然語言的詞語之間關系比較復雜,我們又時常要把這種復雜關系進行比較,所以要將其轉化為簡單的數量關系,再進行比較。語音相似度計算正是這樣的方法。

詞語的語義相似度計算有3種方法:基于知識體系的方法、基于語料庫的方法、基于網絡的方法。基于知識體系的方法,大多以WordNet作為基礎。WordNet是語義字典,它根據詞條的意義將詞語分組,每一個具有相同意義的字條組稱為一個synset(同義詞集合)。WordNet為每一個synset提供了簡短,概要的定義,并記錄不同synset之間的語義關系。它用概念之間的語義關系形成符合常識和語法的語義關系圖。基于信息量的方法主要是通過詞語上下文的信息,用統計的方法求解。基于網絡的方法,主要是利用搜索引擎的搜索結果進行計算。

二、語義相似度概念

信息論中任何兩個詞語的相似度取決于它們的共性(Commonality)和個性(Differences)。公式如下:

其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。

劉群、李素建認為語義相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度。兩個詞語,如果在不同的上下文中可以互相替換且不改變文本的句法語義結構的可能性越大,二者的相似度就越高,否則相似度就越低。對于兩個詞語W1,W2如果記其相似度為Sim(W1,W2),其詞語距離為Dis(W1,Wz),根據劉群、李素建的公式:

其中a是一個可變參數,含義是當相似度為0.5時的詞語距離值。

相似度被定義為一個0到1之間的實數,當兩個詞語完全一樣時,相似度為1;是完全不同的概念時,它們的相似度接近于0。

三、語義相似度的計算方法

常用計算方法有基于知識體系的計算,基于大規模語料庫的計算,基于網絡的計算。

(一)根據分類體系計算詞語語義距離的方法

這種方法也稱為基于樹的語義相似度計算方法,大體分為兩種:一是基于距離的語義相似性測度;二是基于信息內容的語義相似性測度。主要是利用語義詞典,我們可以把概念看做節點,關系看作邊,這樣WordNet的結構就可以看作是圖結構。

(1)基于樹狀層次計算語義相似度的基本思想

這是以邊為距離來計算語義相似度。如果樹狀語義網中所有的邊即樹的分支是等長的,那么邊的數目可以作為距離的測度。假定要確定詞語W1.W2之間的語義相似度,可以在該語義網中首先找到包含待比較詞的那些子概念(或義原)。在此情況下,兩者之間的語義相似性可以用連二者之間的最短路徑來表示。例如,在圖1(取自Wordnet本體中的一小部分)中,kid和boy之間的最短路徑是}kid一juvenile一persor一male-girl,最小路徑長度為4。而educator和boy之間的最小路徑長度為5。因此,girl比teacher在語義上更接近于boy。該測度算法在基于Wordnet的語義網中獲得了較好的計算結果。

圖1

(2)基于《知網》hownet的語義相似度計算

知網(英文名稱為HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。其中描述了16種關系,如上下位關系、部件-整體關系、屬性-宿主關系等。《知網》中有兩個主要的概念:“概念(義項)”與“義原”。“概念”是對詞匯語義的一種描述。每一個詞可以表達為幾個概念。“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”。“義原”是用于描述一個“概念”的最小意義單位,用多個義原對概念進行描述。目前有1500多個義原,但可以組合數量龐大的詞匯。用義原計算可以有效提高效率,并且義原的相似度也可以根據其在義原樹中的位置得出。因此它并非樹狀結構,而是一種網狀結構;同時借助義原和符號對概念進行描述。對于兩個漢語詞語a和b:,如果A有n個義項(概念):sll,Slz}...,Sln,B有m個義項(概念):Szl,Szz,...}Sz}n,則詞語A和B的相似度是各個義項相似度的最大值,義項又由義原表示,這樣就將詞語相似度轉化為兩個詞語義原之間的相似度。并且由于義原在知網中所處的層次不同,它們在整體相似性中所占的比重也不一樣,對詞語相似性的影響程度也有所有不同。

(二)利用大規模的語料庫進行統計

語料庫語言學(Corpus Linguistics)是計算語言學的分支學科。它研究機器可讀的自然語言文本的采集、存儲、檢索、統計、語法標注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風格分析、自然語言理解和機器翻譯等領域中的應用([HCN90])。語料庫語言學研究的基礎是機器可讀的大容量語料庫和一種易于實現的統計處理模型,兩者是相輔相成、缺一不可的。從本質上講,語料庫語言學的研究采用的是一種基于統計的經驗主義處理方法,它與傳統的基于規則的理性主義處理方法是不同的。

基于語料庫的詞語相似度研究大都采用了上下文語境的統計描述方法,即認同這樣一個論斷:詞語的上下文可以為詞語定義提供足夠信息。詞語向量空間模型是目前基于統計的詞語相似度計算策略使用比較廣泛的一種,算法復雜度也能夠實現的模型。該模型事先選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關性(一般用這組詞在實際的大規模語料中以該詞在上下文中出現的頻率來度量),于是對于每一個詞都可以得到一個相關性的特征詞向量,然后利用這些向量之間的相似度作為這兩個詞的相似度。

(三)基于信息量的計算方法

一種是根據語義詞典樹的信息,根據樹狀結構中兩個節點所含的信息量大小(子結點數與樹中的所有結點數的比)來計算語義相似度。另一種是把Internet作為一個大型的語料庫,以搜索引擎返的結果數作為計算的依據。公式如下:

其中,NGD介于0與1之間,表示相似度.f(x),f(y)分別表示含概念x,y的網頁數,f(x,y)表示同時含有概念的網頁數,N表示搜索引擎引用的網頁總數。以詞語horse與rider為例,搜索詞語"horse”返回46700000(記為f(x))條結果,搜索詞語“rider"返回結果數為12200000記為.f'(y)),搜索同時含“horse,rider'的網頁數是2630000(記為f(x,y)),共引用的網頁數是

N=8058044651,代人上述公式(7)求得:

NGD(horse,rider)≈0.443

四、結束語

語音相似度應用廣泛,本文主要介紹了基于分類體系的語義相似度計算方法,以及基于搜索引擎的相似度計算方法。這些方法對于論文檢測等工作很大的推進作用。

(作者單位:襄陽職業技術學院)

主站蜘蛛池模板: 国产又爽又黄无遮挡免费观看 | 午夜色综合| 99精品福利视频| 亚洲—日韩aV在线| a欧美在线| 国产一级片网址| 久久久久久尹人网香蕉 | 精品无码人妻一区二区| 亚洲一级毛片免费观看| 国产成人亚洲精品蜜芽影院| 99热线精品大全在线观看| 成人一区在线| 国产在线八区| 精品少妇人妻av无码久久| 亚洲,国产,日韩,综合一区| 国产白浆视频| 国产91精选在线观看| 国产高颜值露脸在线观看| 好吊妞欧美视频免费| 五月天综合网亚洲综合天堂网| 成年人国产网站| 精品黑人一区二区三区| 色老二精品视频在线观看| 99尹人香蕉国产免费天天拍| 亚洲国产第一区二区香蕉| 日韩在线视频网站| 三级欧美在线| 天天色天天综合| 不卡的在线视频免费观看| 久久久久久久久亚洲精品| 亚洲综合经典在线一区二区| 国模极品一区二区三区| 久久亚洲国产视频| 丰满少妇αⅴ无码区| 亚洲精品不卡午夜精品| 国产丝袜啪啪| 伊人久久久久久久| 狠狠色综合网| 少妇精品在线| 欧美中文字幕一区| 欧美激情成人网| 日韩欧美综合在线制服| 曰韩人妻一区二区三区| 国产午夜在线观看视频| 国产精品福利在线观看无码卡| 中文字幕永久视频| 欧美亚洲中文精品三区| 亚洲视频无码| 国产1区2区在线观看| a色毛片免费视频| 一区二区三区精品视频在线观看| 欧美日韩在线国产| 国产黄网永久免费| 午夜国产理论| 国产av无码日韩av无码网站| 国产丰满大乳无码免费播放 | 国产女人18毛片水真多1| 五月婷婷中文字幕| 露脸真实国语乱在线观看| 色久综合在线| 玖玖免费视频在线观看| 少妇被粗大的猛烈进出免费视频| 国产视频入口| 色噜噜久久| 国产人成乱码视频免费观看| 国产屁屁影院| 国产成人精品2021欧美日韩| 欧美激情视频一区| 国模私拍一区二区| 亚洲男女在线| 嫩草影院在线观看精品视频| 久久国产黑丝袜视频| 国产成人精品无码一区二| 国产第一页屁屁影院| aa级毛片毛片免费观看久| 日韩123欧美字幕| 毛片免费试看| 久久毛片免费基地| 91香蕉国产亚洲一二三区| 国产18在线播放| 国产成人综合欧美精品久久| 亚洲第一黄片大全|