摘 要:分析復(fù)句結(jié)構(gòu),提取出復(fù)句領(lǐng)域的主要概念,引入本體這種知識(shí)建模方法,從本體基本建模元語出發(fā)構(gòu)建了復(fù)句本體模型。針對復(fù)句領(lǐng)域,擴(kuò)充了語義關(guān)系來完整地體現(xiàn)復(fù)句中隱含的語義,并顯式地表示出來。
關(guān)鍵詞:本體模型;領(lǐng)域本體;復(fù)句
中圖法分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1001-3695(2006)10-0212-02
Applying Ontology to Conceptual Modeling of Complex Sentences
HU Jinzhu,LUO Xuan,XIAO Ming,WANG Lin,YAO Shuangyun,LUO Jinjun
(Dept. of Computer Science,Huazhong Normal University, Wuhan Hubei 430079, China)
Abstract:This paper analyses the structure of the complex sentences and picks up the main concept of this domain. Then it introduces the ontology, and the basic modeling primitives are applied to construct the conceptual modeling of the complex sentences based on ontology. It extends the semantic relationship to embody the latent semantics fully, and expresses it out.
Key words:Ontology Model;Domain Ontology;Complex Sentences
目前,中文信息處理在字和詞兩個(gè)層次上的研究已經(jīng)出現(xiàn)了一些較為成熟的實(shí)用技術(shù),我國學(xué)者基本解決了漢字輸入、漢語自動(dòng)分詞、詞性自動(dòng)標(biāo)注等困難。在此基礎(chǔ)上,中文信息處理的研究應(yīng)該上升到面向短語和句子的層面上,并進(jìn)一步提升到漢語言文字的網(wǎng)絡(luò)信息處理上。從漢語語法學(xué)的角度看,漢語語法重句法,句法機(jī)制的研究是漢語語法研究的重要突破口。目前對于漢語單句的計(jì)算機(jī)處理研究較多,對復(fù)句的計(jì)算機(jī)處理研究較少[7]。復(fù)句作為一種具有表述性的語法單位,其意義容量要比單句大,結(jié)構(gòu)也更復(fù)雜。復(fù)句是小句的聯(lián)結(jié),它下連小句,上連篇章,同時(shí)兼有語法、語義和語用等多方面的屬性。所以,對復(fù)句的分析和處理是自然語言理解應(yīng)用問題中最常見、最關(guān)鍵也是最困難的問題之一。
本體是概念化的明確的規(guī)范說明,其目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術(shù)語)與詞匯之間相互關(guān)系的明確定義,它被認(rèn)為是信息系統(tǒng)和信息處理的重要成分[1,2]。也就是說,本體是對領(lǐng)域知識(shí)概念的抽象和描述,它能夠輔助系統(tǒng)識(shí)別處理需求,定義各種規(guī)范。本體在自然語言的處理方面發(fā)揮了很大的作用,因此,本文嘗試引入本體理論來研究復(fù)句領(lǐng)域的建模問題,為研究復(fù)句的計(jì)算機(jī)處理奠定了基礎(chǔ)。
1 本體模型與本體建模元語
1.1 本體模型
模型是從特定的角度在一定抽象層次上對系統(tǒng)進(jìn)行語義上的抽象,它是整個(gè)真實(shí)系統(tǒng)的簡化,是為了更好地理解系統(tǒng)而創(chuàng)建的。領(lǐng)域模型給出的是一個(gè)領(lǐng)域的一般知識(shí)或語義的描述,有利于我們?nèi)胬斫庖粋€(gè)復(fù)雜的領(lǐng)域。創(chuàng)建一般的模型后,我們就可以對其進(jìn)行實(shí)例化、特殊化,可以繼承它、修改它等等。修改一個(gè)模型(描述)比修改一個(gè)事物要簡單得多,一個(gè)領(lǐng)域模型上的描述語言或操作(如查詢)改變時(shí),模型可以不變。
應(yīng)用一個(gè)模型到概念的結(jié)果就是本體。在一個(gè)本體中,描述有特殊語義的、結(jié)構(gòu)化的、一般的特性集合,就是一個(gè)模型。從現(xiàn)實(shí)世界中抽取出對于領(lǐng)域的數(shù)據(jù)結(jié)構(gòu)和語義,是本體模型的本質(zhì)表現(xiàn)。
在中文信息處理中,要理解漢語復(fù)句并進(jìn)行處理,就要分析復(fù)句的句法,顯式地描述復(fù)句各組成成分間的語義。建立復(fù)句的本體模型有助于更好地理解復(fù)句領(lǐng)域的所有概念和概念間隱藏的語義,為漢語復(fù)句語義上的計(jì)算機(jī)自動(dòng)識(shí)別打下基礎(chǔ)。漢語言文字的網(wǎng)絡(luò)信息處理是發(fā)展的需要,而本體是語義網(wǎng)的核心,本體模型對于實(shí)現(xiàn)語義化Web服務(wù)所需要的語義層次上的知識(shí)共享、知識(shí)重用有著巨大的優(yōu)勢。因此,本文采用本體技術(shù)對復(fù)句領(lǐng)域進(jìn)行概念上的建模。
1.2 本體建模元語
Perez等人用分類法組織了Ontology,歸納出五個(gè)基本的建模元語(Modeling Primitives):①類(Classes)或概念(Concepts),指任何事務(wù),如工作描述、功能、行為、策略和推理過程。從語義上講, 它表示的是對象的集合,還有,有關(guān)概念的各種特征的屬性和屬性的取值。②關(guān)系(Relations),在領(lǐng)域中概念之間的交互作用。從語義上講,基本的關(guān)系共有四種,即Partof,Kindof,Instanceof,Attributeof,在實(shí)際建模過程中,概念之間的關(guān)系可以根據(jù)領(lǐng)域的具體情況再增加相應(yīng)的關(guān)系。③函數(shù)(Functions),一類特殊的關(guān)系。④公理(Axioms),代表永真斷言,如概念乙屬于概念甲的范圍。⑤實(shí)例(Instances),代表元素,從語義上講實(shí)例表示的就是對象。實(shí)例與某個(gè)類相關(guān),這些實(shí)例組成了一個(gè)知識(shí)庫。
也就是說,本體論從五個(gè)維度來觀察事物,其知識(shí)建模方法試圖將事物表示成一個(gè)五元組,這五個(gè)基本的建模元語就是我們建模的五個(gè)視角。所以本文可以從這幾個(gè)方面出發(fā)來構(gòu)建復(fù)句模型。
2 構(gòu)建復(fù)句本體模型
2.1 復(fù)句領(lǐng)域分析
對復(fù)句領(lǐng)域進(jìn)行分析,就要了解復(fù)句的組成元素和結(jié)構(gòu),確定構(gòu)成復(fù)句的各個(gè)成分之間的相互關(guān)系以及各自在復(fù)句中的作用等,并將這些關(guān)系用層次結(jié)構(gòu)加以表達(dá)。
復(fù)句是由兩個(gè)和兩個(gè)以上,在意義和結(jié)構(gòu)上有密切聯(lián)系的分句組成的。分句由詞與詞或詞與短語組成;短語由一個(gè)個(gè)的詞組成[8]。所以,復(fù)句領(lǐng)域涉及到的語法成分有詞、短語、分句、復(fù)句。對漢語復(fù)句的分析,可以采用“詞/短語→分句→復(fù)句”的形式。復(fù)句關(guān)系詞語,是復(fù)句中用來聯(lián)結(jié)分句標(biāo)明關(guān)系的詞語,它是復(fù)句領(lǐng)域中一個(gè)重要的術(shù)語。這些成分之間就形成了一種“整體—部分”的由上到下的層次關(guān)系。一個(gè)句子的結(jié)構(gòu)可以形象地用一棵句法樹表現(xiàn)出來[10]。為了直觀地描述問題,在此給出典型標(biāo)注例句,如例1(利用中科院計(jì)算語言所開發(fā)的自動(dòng)分詞系統(tǒng)FreeICTCLAS(張樂平、劉群開發(fā))進(jìn)行標(biāo)注前的分詞預(yù)處理)所示:
例1[因?yàn)?cyg<路>n(不好/ap走/v)vp,] yg [<今天>/t(不能/vz趕到vc) vc。](SYG)
例1的語法樹如圖1所示。
2.2 復(fù)句本體建模
由領(lǐng)域中術(shù)語組成的詞典是一個(gè)領(lǐng)域上的分類空間,其目的是為了概念的導(dǎo)航、搜索、信息獲取。分類空間的語義很弱,刻畫了概念化術(shù)語簡單的語義關(guān)系,沒有捕獲和表現(xiàn)復(fù)雜的語義概念;而本體試圖表達(dá)精確的、復(fù)雜的、一致的、豐富的概念語義。構(gòu)建領(lǐng)域本體,要使用本體建模元語,將領(lǐng)域詞典映射到本體概念體系中[4]。領(lǐng)域詞典與本體的關(guān)系如圖2所示。
開發(fā)一個(gè)本體的過程包含定義本體中的類、在某一分類學(xué)的等級體系中安排本體中的類、定義屬性并描述其允許的賦值、為實(shí)例的屬性賦值。通過定義這些類的單個(gè)實(shí)例,并添加特定的屬性賦值信息和限制條件,就可以建立起一個(gè)知識(shí)庫。建造一個(gè)本體使得約束的認(rèn)定更加容易。
在分析復(fù)句領(lǐng)域涉及的詞匯和復(fù)句結(jié)構(gòu)的基礎(chǔ)上,就可以采用本體建模元語構(gòu)建復(fù)句本體模型,步驟如下[5]:
(1)定義類和類的層次
類是一種經(jīng)過組織的、結(jié)構(gòu)化的知識(shí)表示方法,每個(gè)類形成一個(gè)獨(dú)立的知識(shí)單元,類表示對知識(shí)的描述很直觀,能反映事物間的聯(lián)系。將復(fù)句的各成分映射為類,成分間的層次映射為類的層次。復(fù)句領(lǐng)域主要有五個(gè)類:詞、關(guān)系詞、短語、分句、復(fù)句。
(2)定義類的屬性
詞的屬性有詞性,如名詞、動(dòng)詞等。復(fù)句關(guān)系詞語是復(fù)句中用來聯(lián)結(jié)分句,標(biāo)明關(guān)系的詞語。它具有標(biāo)志性,在復(fù)句研究中占有重要地位,我們須盡量清楚地描述關(guān)系詞的特征。關(guān)系詞的屬性主要有關(guān)系詞類別、詞性、復(fù)用時(shí)的前后匹配項(xiàng)、位置、句中的前后鄰接項(xiàng)、頻率等;短語的屬性有功能特征、結(jié)構(gòu)特征[11];分句的屬性有層次關(guān)系類別;復(fù)句的屬性有關(guān)系詞、復(fù)句類別。
(3)定義屬性的值
屬性的值即屬性的取值范圍。我們將關(guān)系詞分為12小類,關(guān)系詞類別屬性的取值為12種類別中的一種或幾種:因果、推斷、假設(shè)、條件、目的、并列、連貫、遞進(jìn)、選擇、轉(zhuǎn)折、讓步、假轉(zhuǎn)關(guān)系詞。短語的功能特征分為單句型短語、名詞短語、動(dòng)詞短語、形容詞短語等。短語的結(jié)構(gòu)特征分為被字結(jié)構(gòu)、把字結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、動(dòng)補(bǔ)結(jié)構(gòu)等。
根據(jù)復(fù)句中的關(guān)系詞語,可以將分句之間的關(guān)系對應(yīng)地分為12小類,則分句的層次關(guān)系類別可取值為因果、推斷、假設(shè)、條件、目的、并列、連貫、遞進(jìn)、選擇、轉(zhuǎn)折、讓步和假轉(zhuǎn)關(guān)系。
復(fù)句類別屬性的可取值為因果復(fù)句、推斷復(fù)句、假設(shè)復(fù)句、條件復(fù)句、目的復(fù)句、并列復(fù)句、連貫復(fù)句、遞進(jìn)復(fù)句、選擇復(fù)句、轉(zhuǎn)折復(fù)句、讓步復(fù)句、假轉(zhuǎn)復(fù)句。
(4)定義類間的關(guān)系
一般來說,領(lǐng)域內(nèi)知識(shí)點(diǎn)之間的關(guān)系可以分為兩類:①不同層次知識(shí)點(diǎn)間的類屬關(guān)系,上層知識(shí)點(diǎn)是對下層知識(shí)點(diǎn)的概括,下層知識(shí)點(diǎn)從各個(gè)方面對上層知識(shí)點(diǎn)進(jìn)行具體闡述;②同一層次知識(shí)點(diǎn)間的關(guān)系。復(fù)句領(lǐng)域內(nèi)的關(guān)系也可以劃分為兩類:
①成分間的層次關(guān)系。復(fù)句各成分間的層次關(guān)系是最基本的關(guān)系,即一般的Partof關(guān)系或Isa關(guān)系。例如,類“關(guān)系詞”是類“詞”的特例,它們是Isa關(guān)系;類“關(guān)系詞”是類“復(fù)句”的屬性,它們是Attributeof關(guān)系。
②擴(kuò)充的語義關(guān)系。針對復(fù)句領(lǐng)域,我們還需要擴(kuò)充語義關(guān)系。在復(fù)句層次,側(cè)重于對分句間的邏輯關(guān)系描述,復(fù)句中分句間的關(guān)系分類是復(fù)句系統(tǒng)的基礎(chǔ)性工作,這些關(guān)系由關(guān)系詞語表現(xiàn)出來,屬于隱含的語義范疇。
復(fù)句關(guān)系詞語所標(biāo)明的關(guān)系,是分句與分句之間抽象的“邏輯—語法”關(guān)系[8]。絕大多數(shù)的復(fù)句,或者分句與分句之間用了特定的關(guān)系詞語,或者分句與分句之間可以用特定的關(guān)系詞語。特定的復(fù)句關(guān)系詞語所構(gòu)成的句式,可以看作是特定的復(fù)句格式。
我們總結(jié)了12個(gè)邏輯關(guān)系描述標(biāo)記,即因果關(guān)系(yg)、推斷關(guān)系(td)、假設(shè)關(guān)系(js)、條件關(guān)系(tj)、目的關(guān)系(md)、并列關(guān)系(bl)、連貫關(guān)系(lg)、遞進(jìn)關(guān)系(dj)、選擇關(guān)系(xz)、轉(zhuǎn)折關(guān)系(zz)、讓步關(guān)系(rb)和假轉(zhuǎn)關(guān)系(jz)。
對于多重復(fù)句,不僅要考慮上述分句間的構(gòu)成關(guān)系,還要考慮關(guān)系間的層次關(guān)系。多重復(fù)句是包含不只一個(gè)結(jié)構(gòu)層次的復(fù)句[9]。這是一種由分句和分句按分層聯(lián)結(jié)的方式所構(gòu)成的復(fù)句,包括二重復(fù)句、三重復(fù)句、四重復(fù)句等。為了形式化地表示分句之間的連接關(guān)系和層次構(gòu)成,可將多重關(guān)系復(fù)句形式化為一棵關(guān)系層次樹,如圖3所示。
在此,本文采用Layerof關(guān)系表示分句與分句或分句與一種關(guān)系處于同一層,兩者之間的關(guān)系處于它們的上層。圖3的關(guān)系層次樹可表示為Layerof(并列關(guān)系,分句3,分句4)、Layerof(因果關(guān)系,分句2,并列關(guān)系)等。表1列出了一些主要的概念關(guān)系, 這些關(guān)系表示了概念之間的語義關(guān)系。
表1 概念間的關(guān)系
Partof(分句,復(fù)句) yg(分句1,分句2) Partof(詞,分句)td(分句1,分句2) Partof(短語,分句)js(分句1,分句2) Partof(詞,短語)tj(分句1,分句2) Isa(關(guān)系詞,詞) Layerof(關(guān)系1,分句1,分句2) Attributeof(關(guān)系詞,復(fù)句) Layerof(關(guān)系2,分句1,關(guān)系1) (5)創(chuàng)建實(shí)例
定義某個(gè)類的一個(gè)實(shí)例需要確定一個(gè)類,創(chuàng)建類的一個(gè)實(shí)例和添加屬性的賦值。對于復(fù)句類,針對不同的句法規(guī)則,可創(chuàng)建不同的實(shí)例,可與復(fù)句的語法樹對應(yīng)起來,在此不再詳述。
3 結(jié)束語
本文分析了復(fù)句的結(jié)構(gòu),提取出復(fù)句領(lǐng)域主要的概念,引入本體這種知識(shí)建模方法,從本體基本的建模元語出發(fā)構(gòu)建了復(fù)句本體模型。針對復(fù)句領(lǐng)域,本文擴(kuò)充了語義關(guān)系來完整地體現(xiàn)復(fù)句中隱含的語義,并顯式地表示出來。
復(fù)句的計(jì)算機(jī)處理研究目前在國內(nèi)外都還是一片空白,將本體技術(shù)用于復(fù)句領(lǐng)域的概念建模也是本文的一個(gè)初步嘗試。復(fù)句領(lǐng)域的概念本體描述了該領(lǐng)域的靜態(tài)知識(shí),在此基礎(chǔ)上可以描述該領(lǐng)域的動(dòng)態(tài)知識(shí),即任務(wù)本體。本文對復(fù)句本體進(jìn)行了簡單的概念建模,其富含的語義還需要進(jìn)一步擴(kuò)充,然后將本體模型形式化地表示出來。再者,建立面向復(fù)句句法標(biāo)注的任務(wù)本體也是今后努力的方向。
參考文獻(xiàn):
[1]Dominique Estival,Chris Nowak,Andrew Zschorn.Towards Ontologybased Natural Language Processing[C].The 4th Workshop on HLP and XML,2004.
[2]Michael C Daconta,Leo J Obrst, Kevin T Smith.The Semantic Web: A Guide to the Future of XML, Web Services and Knowledge Management[M].Wiley Publishing,Inc.,2003.
[3]G van Heijst,A Th Schreiber,B J Wielinga.Using Explicit Ontologies in KBs Development[J].IJHCS,1997,42(2/3):183-291.
[4]Günter Neumann.Information Extraction Technologies and Applications[Z].LTlab,DFKI.
[5]李景,等.構(gòu)建知識(shí)本體方法體系的比較研究[J].現(xiàn)代圖書情報(bào)技術(shù),2004,(7):17-22.
[6]金芝.基于本體的需求自動(dòng)獲取[J].計(jì)算機(jī)學(xué)報(bào),2000,23(5):486-492.
[7]魯松,等.漢語多重關(guān)系復(fù)句的關(guān)系層次分析[J].軟件學(xué)報(bào),2001,12(7):987-995.
[8]邢福義.漢語語法學(xué)[M].長春:東北師范大學(xué)出版社,1996.301-434.
[9]邢福義.漢語復(fù)句研究[M].北京:商務(wù)印書館,2001.25-63.
[10]劉群.漢語詞法分析和句法分析技術(shù)綜述[EB/OL].http://www.Chinalanguage.gov.cn/Webinfopub/list.asp?id=473columnid=143 columnlayer=00860143,2005.
[11]周強(qiáng).漢語樹庫構(gòu)建——技術(shù)報(bào)告[EB/OL].http://www.Chineseldc.org/EN/doc/CLDCLAC-2003-005/report.htm,2003.
作者簡介:
胡金柱,男,博導(dǎo),研究方向?yàn)檐浖こ獭⒅形男畔⑻幚恚涣_旋(1983-),女,湖北仙桃人,碩士研究生,研究方向?yàn)檐浖こ獭⒅形男畔⑻幚怼?/p>
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文