摘 要:本文在對Wordnet和Hownet進行簡單介紹的基礎(chǔ)上,從理論基礎(chǔ),設(shè)計原理與建設(shè)方法,目的與應(yīng)用這三個大方面進行了比較。從而找出兩個系統(tǒng)的相似之處和差異,以期對自然語言處理有所幫助。
關(guān)鍵詞:Wordnet;Hownet ;比較;語義
作者簡介:張笛,臨沂大學(xué)外國語學(xué)院講師,語言學(xué)。
近年來,隨著計算機本身以及信息高速公路的飛速發(fā)展,人們開始更加重視語義的研究。各國都致力于可用于自然語言處理的大規(guī)模語義詞典或大規(guī)模知識庫的建設(shè)。例如:普林斯頓大學(xué)的英語Wordnet,微軟的Mindnet,歐洲有基于Wordnet的Eurowordnet,日本的日語和英語的概念詞典,韓國的Koreanwordnet,中國有以Wordnet為框架而研制的現(xiàn)代漢語概念詞典——中文概念辭書(CCD)和董振東、董強的Hownet(知網(wǎng))。
Wordnet是一個在線的英語詞匯數(shù)據(jù)庫(詞匯參照系統(tǒng)),而Hownet是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。現(xiàn)在兩者都被放在網(wǎng)上,供人們使用,并且可以參與他們的完善、擴展和發(fā)展。所以,本文擬把二者放在一起進行比較研究,找出兩個系統(tǒng)的相似之處與差異,取長補短,以期為自然語言處理尋求一個較為完善的語義關(guān)系系統(tǒng)。
一、理論基礎(chǔ)
首先,二者都以一種“模式假設(shè)”(patterning hypothesis)為前提和理論基礎(chǔ)。其次,“理解性假設(shè)”(comprehensiveness hypothesis)也是二者的理論基礎(chǔ)。但二者的理論基礎(chǔ)不同之處也很多。Wordnet的一個較主要的理論基礎(chǔ)是“可分離性假設(shè)”(separability hypothesis)即語言的詞匯成分可以被離析出來并專門針對它加以研究。
Hownet的最重要的理論基礎(chǔ)是它的哲學(xué)。其根本點是:世界上一切事物(物質(zhì)的和精神的)都在特定的時間和空間內(nèi)不停地運動和變化。部件和屬性這兩個單位在Hownet的哲學(xué)體系中占有著重要的地位,一個事物被視為是整體還是部件,可以因系統(tǒng)的不同而不同對待;而關(guān)于對屬性的認(rèn)識是:任何一個事物都一定包含著多種屬性,事物之間的異同是由屬性決定的,沒有了屬性就沒有了事物。
二、設(shè)計原理與方法
二者的建設(shè)方法最明顯的相同之處就是自上而下的方法。具體來說,Wordnet是以同義詞集合作為基本構(gòu)建單位進行組織的。Hownet則是先提取義原,以它為基本構(gòu)建單位進行組織的。雖然細(xì)節(jié)不同,但總的指導(dǎo)性建設(shè)方法還是相同的。具體的設(shè)計原理與建設(shè)方法上,兩者的不同點就凸現(xiàn)出來了。
1、Wordnet 的基本設(shè)計原理是它的“詞匯矩陣模型”
一個詞匯矩陣從理論上可以用單詞與其同義詞集合之間的映射來表示。當(dāng)某個詞有多個同義詞時,通常同義詞集合足以滿足差異性的要求。當(dāng)然,同義詞是詞形之間的一種詞匯關(guān)系,但由于這種關(guān)系在Wordnet中被賦予了中心角色。因此,同義關(guān)系的詞被放在{}中,與其他被放進[]中的詞匯關(guān)系的詞區(qū)別開來。Wordnet是按語義關(guān)系組織,由于語義關(guān)系是多個詞義之間的關(guān)系,而詞義用同義詞集合來表示,因此很自然地把語義關(guān)系看作為同義詞集合之間的一些指針。
2、Hownet的基本設(shè)計原理是把概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系形成一個網(wǎng)狀的知識系統(tǒng)。這是它與Wordnet的本質(zhì)不同。Hownet的建設(shè)方法的一個重要特點是自上而下的歸納的方法。通過對全部的基本義原進行觀察分析并形成義原的標(biāo)注集,然后再用更多的概念對標(biāo)注集進行考核,據(jù)此建立完善的標(biāo)注集。無論是義原的提取還是義原的考核與確定,在Hownet的建設(shè)中都是至關(guān)重要的并具有決定意義。
三、描述關(guān)系的比較
1、上下位關(guān)系
這是二者都有的。Wordnet是詞義之間的語義關(guān)系。Hownet的上下位關(guān)系由概念的主要特征體現(xiàn),也具有繼承關(guān)系。
2、同義關(guān)系
同義關(guān)系是二者都有的。Wordnet最重要的關(guān)系是同義關(guān)系。Hownet對于同義的定義與Wordnet相似,都采取了較寬泛的定義,只是Wordnet的同義關(guān)系是顯性的,而Hownet的同義關(guān)系是隱性的。
3、反義關(guān)系
Wordnet對于反義關(guān)系采取了直接反義和間接反義兩種關(guān)系都包括的方法。Hownet中的反義關(guān)系比Wordnet定義的還要寬泛,只要屬性值一樣就可以形成反義關(guān)系。
四、目的與應(yīng)用
1、目的
Wordnet一開始要建立一個詞典瀏覽器,后來又發(fā)展成自足的詞匯數(shù)據(jù)庫和語義或義類的機讀詞典。而Hownet是要建立一個面向計算機的知識庫,揭示多重語義關(guān)系網(wǎng)絡(luò),為自然語言處理系統(tǒng)的建立提供最終需要的知識庫。
2、應(yīng)用
由于二者都是為自然語言信息處理服務(wù)的系統(tǒng),那么二者的應(yīng)用有交叉。例如,二者都在進行意義排歧,語義分析,語料庫語義標(biāo)注,信息過濾和分類,機器翻譯等方面有著十分廣泛的應(yīng)用。
兩者又有自己獨特的應(yīng)用領(lǐng)域。例如,Wordnet由于許多國家都在它的基礎(chǔ)上建立了詞匯數(shù)據(jù)庫,那么Wordnet就可以進行多國語處理的詞匯轉(zhuǎn)換。由于它的內(nèi)部結(jié)構(gòu)是以層次為主,所以可進行信息語義層次檢索,還可以進行主題名義識別和圖像檢索等;而Hownet也有它自己的應(yīng)用領(lǐng)域,如:基于Hownet的內(nèi)部語義關(guān)系建立,語料庫句法關(guān)系標(biāo)注,信息檢索系統(tǒng)自然語言接口。還有它關(guān)于漢語方面研究與應(yīng)用的獨特之處,如:它的信息過濾和分析系統(tǒng)都是雙語的,可以進行事件角色語義特征的提取。把Wordnet和Hownet結(jié)合起來的典型應(yīng)用要算基于兩者建設(shè)的雙語語義詞典。
五、小結(jié)
經(jīng)過對Wordnet和Hownet的一番比較,可以看出二者雖然是兩種系統(tǒng),但把二者結(jié)合起來研究,找出各自的不足之處,對自然語言處理研究還是有一點幫助作用的。Wordnet的詞語概念是夠用,但關(guān)系方面不足以支持推理。Hownet恰恰就是這樣一種推理的知識庫。Wordnet可向Hownet吸取這一點。Wordnet幾乎沒有關(guān)于句法方法方面的標(biāo)注。而Hownet作為一個面向計算機并借助于計算機建立的常識知識庫,它在語義知識構(gòu)建方面明顯優(yōu)于Wordnet,而且許多現(xiàn)在Wordnet正致力解決的問題,在Hownet中都不是問題。所以在面向自然語言的信息處理方面,Hownet要優(yōu)于Wordnet。當(dāng)然Wordnet的研究人員也從來覺得這是一個“完工”的項目,Wordnet仍在繼續(xù)發(fā)展中。
參考文獻(xiàn):
[1]Miller.G.A, Beckwith, R.., Fellbaum, C., Cross. D., and Miller. K., “Introduction to Wordnet : Lexical Database”[J], in five Papers on Wordnet, CSL report, Cognitive Science Laboratory, Princeton University, 1993.
[2]陳秀群,一個在線義類詞庫:詞網(wǎng)Wordnet [J],語言文字應(yīng)用,1998(2).
[3]董振東 董強,面向信息處理的詞匯語義研究中的若干問題[J],語言文字應(yīng)用,2001(3).