基于谷歌距離的漢英詞表概念映射研究

2015-05-25 02:26:02張李義崔恒

現代情報 2015年3期

關鍵詞：排序語義詞匯

張李義崔恒

（武漢大學信息管理學院，湖北武漢430072）

·理論探索·

基于谷歌距離的漢英詞表概念映射研究

張李義崔恒

（武漢大學信息管理學院，湖北武漢430072）

本文對《漢語主題詞表》（工程技術版）概念與英文超級科技詞表概念的映射進行研究，建立優化的漢對英有序映射模式，并采用基于谷歌距離的語義相似度算法進行實驗，計算英文詞之間的語義距離，導入原有漢英映射信息。通過實驗分析，獲得了按相似度排序的漢英映射模式，實現了多個英文詞匯與漢詞的對應并由高到低排列出來。該方法獲得的排序結果基本滿足要求，部分詞語需要人工修正。

語義相似度；漢語主題詞表；谷歌距離；概念映射

詞表映射研究是研究和建設跨語言信息檢索（Cross Language Information Retrieval，CLIR）的基礎，本文的目標是通過計算映射詞語的相同程度來解決跨語言搜索結果的有序排列問題，其關鍵在于獲取語義距離和改進現在的映射規則。研究雙語言或多語言的CLIR是一個熱門的話題，《漢語主題詞表》（工程技術版）（以下簡稱《漢表》）與英文超級科技詞表分別用于進行中外文科技文獻的知識組織，而兩者的相互映射正是為了實現對中外文文獻資源的跨語言檢索；考慮到兩個詞表知識體系的差異和語義映射的復雜性，本文不進行知識概念體系、詞間關系和范疇體系等方面的語義映射，主要研究基于概念的映射模型和方法。

本文以《漢表》的概念作為源（Source）概念，英文超級科技詞表的概念作為目標（Target）概念，參考并修訂W3C的詞表映射規則，建立映射模型?！稘h表》概念具有上下位、多層次關系，英文超級科技詞表概念也是網狀關系，在建立概念間映射關系時，只在距離最短、關系最近的概念間建立關系，沒有必要將等同的概念重復給定向上或向下匹配的關系，按照需要，將詞表的原詞間關系導入映射信息即可確定新的映射關系。本文以標準谷歌距離［1］（Normalized Google Distance）作為語義距離的基本計算方法，并設計了映射流程，在已有漢英詞表的基礎上，對映射進行排序，能有效地解決檢索時漢英詞語的匹配問題。在檢索過程中，可以做到按相似度的高低呈現有序的檢索結果，從而給用戶更優的檢索體驗。本文通過程序進行演算獲取實驗結果，根據語義相似度進行排序，建立新的有序映射。

1 相關研究工作

自然語言的詞語之間有著復雜的關系。在實際的應用中，語義相似度能把這種復雜的關系用一種簡單的數量來度量。為了使映射關系更加有序，本文以語義相似度為依據，整理相關詞語與核心詞語的語義距離。國外的DekangLin［2］，Batet M［3］，Rudi Cilibrasi［1］等都給出了比較合理的語義相似度計算公式和方法；國內這方面起步較晚，但發展很快，詹志建［4］、楊美榮［5］、王磊［6］、楊春龍［7］等做了很多補充性和改進性的工作。其中基于詞形的字面相似度計算［8］、基于語義詞典的語義相似度算［9］、基于結構的相關度計算［10］和基于語料共現的相關度［11］等方法最為常用。發展到現在，語義距離主要有兩類常見的計算方法，一種是根據某種本體知識（ontology）或分類體系（Taxonomy）來計算；另一種利用大規模的語料庫進行統計。前一種主要基于客觀計算，采用樹論、圖論的方法能有效計算出字面上不相似的詞語之前的相似度，但局限性是受人的主觀影響比較大；第二種則是依賴大規模語料庫的經驗計算方法，能夠客觀地反映詞語的形態、句法、語義、標簽等多重屬性，計算機自然語言處理專家Rudi Cilibrasi、Paul［1］提出了語義相似度計算方法NGD是該類計算方法的典范。語義網（Semantic Web）是當前互聯網的延伸，并且可以作為基于語料共現方法的資料庫。語義網的實現需要三大關鍵技術的支持：XML、RDF和Ontology。目前語義網關鍵技術的討論大多集中在RDF和Ontology上，本文屬于RDF的研究范疇。

要建立詞表映射模型，敘詞表的形式化研究及其如何發揮敘詞表中語義網的作用成為當前敘詞表研究的關鍵問題。常春［12］建立農業的跨語言檢索模型便是基于W3C于2005年發布的簡單知識組織系統（Simple Knowledge Organization System，SKOS）。SKOS支持RDF框架，并強調為知識組織系統的表達提供強有力且簡單的機器理解方式。SKOS映射的來源是來自源敘詞表中的單一概念，目標是來自目標敘詞表中單一概念或者概念組合。映射用以解釋源概念與目標概念的術語集合之間的關系，該模式由一系列映射屬性集合構成，其中近義匹配包括MajorMatch（主近義詞）或者MinorMatch（次近義詞）。由于相近程度量化的難度較大，具體操作中不對MajorMatch和MinorMatch兩條規則進行區分，只定義為一種近義匹配。在當前的W3C的映射規則中，對近似程度沒有進行有效的區分。本文希望用語義距離來描述這種近似程度。本文采用文獻［1］和文獻［16］中的NGD及mNGD算法進行計算排序。語義距離和語義相似度是一對詞語的相同關系的不同表現形式，語義距離越短代表相似度越大。如今，Internet飛速發展，語料庫不斷完善，也部分解決了由于語料庫規模問題引起的數據稀疏問題。Google作為實踐語義網的先驅，在其搜索引擎中已經實現了部分語義網，如在搜索過程中通過高級搜索和打標簽的方式獲得垂直搜索的結果。國內的艾冬梅［13］、楊慧榮［14］等人已經在語義距離及相關的研究中使用NGD算法。

2 中英詞表映射流程設計與算法選擇

2.1 中英詞表映射流程設計

以漢語詞語進行跨語言的信息檢索，需要對該詞語進行匹配轉化，在數字化和預處理之后的排序面臨多種情況。流程的核心為映射過程中的排序問題：

（1）當一對一的詞表映射，檢索時中文詞語直接轉化為英語詞；

（2）存在一對多的詞表映射情況時，可以首先依據專家判定，給出與中文詞表中某詞語語義最相關的一個英語詞匯，然后將剩下的待匹配詞匯同該詞匯進行語義相似度計算，并依據與其語義相似度的高低進行排序。例如中文詞表中“安全標準”，依據專家判定與其語義最相關的英文詞匯為“safety standard”，對于剩下的帶匹配英文詞匯，依次與“safety standard”進行語義相似度計算，并按相似度的高低進行排序。語義相似度的計算采用基于谷歌距離的語義相似度算法。如圖1所示，建立漢英詞表的映射流程用來完成映射選取與結果輸出。

圖1 漢英詞表映射流程

為了驗證映射流程的效果，作者使用JAVA語言編寫了簡易的系統程序用來進行實驗。該系統功能為：由領域專家設定與中文某詞匯語義最相關的英文詞匯后，獲取并自動導入詞表信息；采用谷歌語義距離進行英語語義相似度的算法，自動計算剩下詞匯與該詞匯的語義相似度并將信息導入進漢英詞表，生成新的映射詞表；將詞表中的詞語按相似度高低依次排序，最終輸出映射結果。

2.2 中英詞表映射流程算法選擇

萬維網存在著數以百萬計的用戶和海量的文本語料，谷歌2009年公布的數據顯示其索引頁面已經超過80億，經常出現一個常用詞的搜索詞會出現在數以百萬計的網頁中，因此Rudi以實際語言學的研究為依據，提出Google Similarity Distance概念，計算語義相似度［1］。該方法理論基礎涉及信息論、壓縮原理、柯爾莫哥洛夫復雜性、語義WEB、語義學等，基本思想是把Internet作為一個大型的語料庫，以Google（對其它的搜索引擎如百度同樣適用）作為搜索引擎，搜索返回的結果數作為計算的數值依據，其計算公式［1］如（1）所示。

其中，NGD表示標準谷歌距離，以此衡量語義相似性大小f（x），f（y）分別表示包含詞語x，y的網頁數，f（x，y）表示同時含有概念的網頁數，其中M可以是任何有理論依據的參數，一般用M表示Google引用的互聯網上的網頁總數。在本文中x有一定的特殊性，表示領域專家選定的最適映射詞primary word，而y則表示需要與y相比較的其他可映射詞。當兩個詞語的NGD為0時，一般是同一詞語與自身比較；當兩個詞語的NGD接近0時，表示兩個詞語幾乎完全相同，語義相似性極高；當兩個詞語的NGD為infinity時，表示兩個詞語從未同時出現過，幾乎沒有什么相似性；NGD越靠近0，表示兩個詞語的語義相似性越高。

可以以一次實驗來說明，假設用Google搜索詞語“horse”返回46 700 000（記為f（x））條結果，搜索詞語“rider”返回結果數為12 200 000（記為f（y）），搜索同時含“horse，rider”的網頁數量是2 630 000（記為f（x，y）），當時Google共引用的網頁數SM＝8 058 044 651，代入上述公式求得：NGD（horse，rider）≈0.443。

隨著M的變化，得到的語義距離也會發生小范圍的變化。Risto Gligorov與Zharko Aleksovski［15］利用谷歌相似度研究近似本體的匹配問題時，根據相關詞語的從屬特性簡化了公式，使得M這個不斷變化的參數不再影響結果，在漢英詞表中也能實現部分適合條件詞匯的簡化計算，采用文獻［16］研究本體匹配的公式（4）、（6）、（7）等。得到mNGD［16］公式：

mNGD［16］即為簡化標準谷歌距離。這個計算方法的優點是相對于原始的NGD不再依賴于不斷變化的谷歌搜索頁面總數的大小M。此方法可作為部分符合要求的詞語之間進行映射的優化方法，并不適合英文超級科技詞表中所有的詞組，因此本文的中英詞表映射采用文獻［1］的NGD（標準谷歌距離）算法。

3 實驗及相關分析

3.1 實驗數據及實驗過程

選取了中文詞表中前10個詞語，以及與其對應的英語詞表中的172個英語詞語。首先對10個漢語詞語進行匹配，由領域專家給出與其語義最相關的一個英語詞匯。選定的10個漢語詞匯如表1所示。與漢語詞匯匹配的172個英語詞匯如表2所示。

表1 漢語詞表

按照映射流程設計的程序將剩下的待匹配詞匯同該英語詞匯進行語義相似度計算，即NGD的計算，并把得出的值由低到高排序。相似度的判斷規則如下：

（1）NGD的取值范圍為［0，∞］。由Google距離可知，詞語與其本身的距離為0；語義距離為0時，相似度為1；語義距離為無窮大時，相似度為0。

如果x＝y或x≠y，而f（x）＝f（y）＝f（x，y）＞0，那么NGD（x，y）＝0。這說明詞匯x和y在Google中的語義是相同的。如果f（x）＝0，那么對于任何搜索詞條y都有f（x，y）＝0，即NGD（x，y）＝∞／∞。

（2）通常情況，NGD為非負數且對任意x有NGD（x，x）＝0，即primary word的語義距離為0。對任意x，y有NGD（x，y）＝NGD（y，x），它們是相互對稱的。

（3）概念間的語義距離越大，則相似度越小，表明這兩個概念的相關度越小。

表2 英語詞表

在獲得計算結果后，按照語義相似度的順序插入新建數據表中，如表3所示。英英詞匯間的語義距離導入漢英映射詞表后轉化為漢英詞表間的相似度，完整有序的顯示了漢英詞表間的映射關系。在整個實驗過程中，NGD算法簡單可靠，接入Google api的搜索安全、快速且不需要人工干預。

表3 經過NGD 計算后的映射詞表

3.2 實驗結果分析

我們對這幾組數據進行了映射信息進行分析，獲得映射模式如圖2所示。

圖2 映射信息模式圖

左側為漢表映射詞匯，右側為英文科技詞表與漢表匹配的概念。水平映射為領域專家給定的最優映射，右側數據代表其他相似詞匯與最匹配詞匯語義距離。將英英詞匯間的相似距離導入映射信息中，獲得漢英詞匯之間的映射關系，最終英語詞表中與某一中文詞語相對應的多個詞匯按語義相似性由高到低排列出來；這樣，在后續的檢索過程中，就可以直接調用此映射結果，將與漢語詞語最相關的英文檢索結果優先呈現，按語義相關性依次呈現后續檢索結果，從而達到更好的檢索體驗。

4 總結

由于本項目所要達到的目標是更優的檢索結果體驗，因此對于某一中文檢索詞語，我們只需用文獻［1］中的NGD方法對其所映射的多個英語詞語按語義相關性進行一個排序，然后導入原有無序的漢對英映射表即可。Google距離計算時不需要提供領域本體，而是以Google的海量詞匯為語義推理基礎詞庫。雖然語義網會無限擴充，具體的數值是動態的，但詞語之間的相關程度基本保持不變，為了更優的處理映射，對于部分滿足優化算法條件的詞語，可以采用文獻［16］中優化的mNGD公式進行更準確快捷的計算。當前的計算已經基本滿足我們的排序目標，在后續的工作中，可以對此映射模式進行優化改進，比如加入信息熵作為衡量相似度的指標。

在未來，由于NGD可以拓展成為NWD（標準網絡距離），利用中文搜索引擎實現英語詞匯對漢語詞匯一對多的映射也是可以實現的。但是此方法也存在一些問題：在一個漢語詞匯對應少量語義距離無限大即相似性太小的英語詞匯時，只能依靠專家來修訂，這也是大量映射模型研究的缺陷；過于依賴萬維網和Google搜索引擎，當某些事件引起了個別詞匯熱度的上漲，會引起噪聲干擾問題，需要消除歧義。在將來的研究中可以加入信息熵的計算，進行降噪，提高準確率。

［1］Rudi Cilibrasi，Paul M.B.Vitányi.The Google Similarity Distance［J］.IEEE Trans.Knowl.Data Eng.，2007，19：1.

［2］Lin D.An information－theoretic definition of similarity［C］∥ICML，1998，98：296－304.

［3］Batet M，Sánchez D，Valls A，et al.Semantic similarity estimation from multiple ontologies［J］.Applied intelligence，2013，38（1）：29－44.

［4］詹志建，楊小平.基于語言網絡和語義信息的文本相似度計算［J］.計算機工程與應用，2014，（5）：33－38.

［5］楊美榮，邵洪雨，史建鋒，等.改進的領域本體概念相似度計算模型研究［J］.情報科學，2014，（5）：72－77.

［6］王桐，王磊，吳吉義，等.WordNet中的綜合概念語義相似度計算方法［J］.北京郵電大學學報，2013，（2）：98－101，106.

［7］楊春龍.基于概念語義相似度計算模型的信息檢索研究與實現［D］.上海：華東理工大學，2013.

［8］Ristad E S，Yianilos P N.Learning string－edit distance［J］.Pattern Analysis and Machine Intelligence，IEEE Transactions on，1998，20（5）：522－532.

［9］Richardson R，Smeaton A，Murphy J.Using WordNet as a knowledge base for measuring semantic similarity between words［R］.Technical Report Working Paper CA－1294，School of Computer Applications，Dublin City University，1994.

［10］Vizine－Goetz D，Hickey C，Houghton A，et al.Vocabulary mapping for terminology services［J］.Journal of digital information，2006，4（4）.

［11］Chan L M，Vizine－Goetz D.Toward a computer－generated subject validation file：feasibility and usefulness［J］.Library resources＆technical services，1998，42（1）：45－60.

［12］常春，盧文林.基于敘詞表映射的農業跨語言檢索系統設計［J］.情報學報，2008：294－296.

［13］張玉芳，艾東梅，黃濤，等.結合編輯距離和Google距離的語義標注方法［J］.計算機應用研究，2010，（2）：555－557，562.

［14］楊惠榮，尹寶才，付鵬斌，等.基于Google距離的語義Web服務發現［J］.北京工業大學學報，2012，（11）：1670－1675.

［15］Gligorov R，ten Kate W，Aleksovski Z，et al.Using Google distance to weight approximate ontology matches［C］∥Proceedings of the 16th international conference on World Wide Web.ACM，2007：767－776.

（本文責任編輯：馬卓）

Concept Mapping Research Between Chinese and English Vocabularies Based on NGD

Zhang LiyiCui Heng
（School of Information Management，Wuhan University，Wuhan 430072，China）

This article mainly researched on concepts mapping between“Chinese Thesaurus”and“Science＆Technology English Super－thesaurus”，then established an optimized and ordered mapping mode.It conducted experiments by using Semantic similarity algorithm based on the Google distance to calculate the semantic distance between English and primary word.Through experimental analysis，it got the sort of English words by similarity mapping mode to achieve a corresponding number of English words and Chinese words and arrange them in descending.The results obtained by sorting meet the basic requirements，some words require manual correction.

semantic similarity；Chinese Thesaurus；google distance；concept mapping

10.3969／j．issn．1008－0821．2015．03．001

TP391；G25

1008－0821（2015）03－0003－05

2015－01－03

本文系國家科技支撐計劃項目“中英文雙語檢索模型研究”（項目編號：2011BAH10B00）的研究成果之一。

張李義（1965－），男，教授，博士生導師，研究方向：電子商務理論與技術，發表論文90余篇，出版專著1部。