面向對象有標復句本體建模

2010-01-01 00:00:00肖升胡金柱姚雙云吳鋒文

計算機應用研究 2010年2期

摘要:基于面向對象方法為帶標志構件的現代漢語復句子類(有標復句)建立本體模型，奠定中文信息處理復句層級的研究基礎。在原有成果的基礎上，利用關系標志與分句間的聯系對標志構件進行句法分析，并在本體構造方法框架的指導下，用UML語言構造有標復句領域相關概念的本體模型。與已有成果相比，改進的模型能更精確、更深入地描寫有標復句的特征。

關鍵詞:本體; 有標復句; 面向對象; 建模

中圖分類號:TP391

文獻標志碼:A

文章編號:1001-3695(2010)02-0552-03

doi:10.3969/j.issn.1001-3695.2010.02.041

Object-orient ontology modeling for tag complex sentence

XIAO Sheng1，2， HU Jin-zhu1， YAO Shuang-yun1， WU Feng-wen1

(1.Dept. of Computer Science， Central China Normal University， Wuhan 430079， China; 2.Dept. of Information Technology， Hunan First Normal College， Changsha 410002， China )

Abstract:Established ontology model for modern Chinese complex sentence with tag components (tag complex sentence) based on object-orient method，lied a foundation for study of complex sentence stage on Chinese information dealing. This paper took syntactic analysis for tag components using the relationship between the link of clause and tag based on the original results.And also established an ontology model for the related concept of the field of complex sentence based on the methodological framework of ontology and UML.The improved model can describe the feature of tag complex sentence more precisely and more profoundly compare with the old model.

Key words:ontology; tag complex sentence; object-orient; modeling

0 引言

本文的主要研究對象是現代漢語有標復句，它是現代漢語復句的一個子類，是使用了關系標志，形成了特定句式的復句[1]。之所以選擇有標復句作為研究對象，看中的正是此類復句語表上出現的標志。這一標志是一種客觀存在并且可以成為客觀標準的形式實體，它的語法功能是連接分句，并標志其相互關系[1];它對計算機識別、處理句內短語起著關鍵作用，并可以從深層控制分句間的邏輯關系[2]。因此，選擇有標復句作為中文信息處理復句層級上的研究對象是可取的。除關系標志帶來的優勢外，有標復句還具有良好的概念層次結構，而文獻[3，4]的研究已證明本體在具有良好概念層次結構的領域有著廣泛的應用前景，因此，將本體和本體理論應用到中文信息處理復句層級上是可行且合適的。但目前這方面的成果并不多，主要體現在文獻[5，6]中。其中文獻[5]分析了復句的靜態結構及它與小句的關系，并用面向對象本體建模方法構造了小句元模型，且在此基礎上初步探討了復句靜態本體模型。文獻[6]則從本體基本建模元語出發構造了復句本體模型。雖然這些成果無疑將有助于復句的本體研究，但它們都未能深入研究關系標志以及分句間的聯系，而這些恰好在有標復句中體現得比較直觀，因此，本課題的一個重要意義在于，以有標復句和關系標志為突破口，研究本體在復句句法分析領域的深層應用。

1 本體及相關概念

近十年來，雖然本體研究的分支日趨完善，但與本體相關的概念和術語卻不盡一致，因此，在研究有標復句本體構造之前，有必要統一以下本體及相關概念的定義。

定義1 本體論(ontology)。它特指哲學的一個分支學科，對客觀存在的一切事物進行系統的解釋或說明，借此來抽象客觀事實的本質及其相互間的關聯。

定義2 概念化(conceptualization)。它指某一概念系統所蘊涵的語義結構，是對某一事實結構的一組非正式的約束規則[7]。

定義3 本體(ontology)。是對于概念化的明確表達[8]。

定義4 本體構造(ontology tectonic)。本體捕獲、本體描述、已有本體集成及對新生本體模型評估的一系列過程[9]。

定義5 本體理論(ontological theory)。它是一個邏輯理論，用于說明一系列詞匯的特定含義。為達成描述概念化范疇的目的，使用一系列邏輯語言來表達，但此語言必須基于其本體約定的限制，從邏輯語言中找出適當的特定模型來說明概念化范疇的特定含義。

文中所涉及到的相關概念均以上述定義為準。

2 有標復句本體構造

2.1 本體捕獲

本體構造的第一步是本體捕獲，即在領域專業知識的配合下確定重要的概念和關系，給出它們的精確定義，并確定其他相關術語[9];具體到本課題，就是要對有標復句進行句法分析，從中挖掘重要的概念和關系，并選取Perez等人定義的五個本體元語(屬性、關系、函數、公理、實例)來構造本體。

根據文獻[10]的觀點，這種挖掘應該作用于兩個方面，一方面是有標復句的實義構件，另一方面是有標復句的標志構件。文獻[5，6]對復句實義構件的挖掘是扎實且深入的，考慮到有標復句是復句的子類，它們的成果對有標復句的本體捕獲肯定是有價值的。但它們沒有挖掘能夠體現有標復句特點的標志構件，也沒有分析標志構件與實義構件間的關系，因此它們的成果對有標復句的本體捕獲而言是不完善的，而如何將其完善正是本文考慮的重點。

標志構件的核心構件是關系標志，分析關系標志時，除了文章前言部分提到的關系標志的語法功能外，還應重點分析關系標志的分類和語表形式。

文獻[2]認為，關系標志應該分為篇章關系標志和分句關系標志，理由是，雖然有些關系標志位于某一分句中，但所表示的關系卻超出了所位居的復句，且往往與前面的句子或段落甚至篇章發生關系，因此應該與連接分句的分句關系標志區分開來，稱為篇章關系標志。

分析語表形式本質上就是分析關系詞語，它包括分析關系詞語的范圍，語法單位大小、類別、充當成分和是否是準標等屬性。

語法學中通常認為關系詞語包括四類:a)句間連詞，它們通常連接分句，不充當句子成分，如“因為、所以、雖然、但是”等;b)關聯副詞，它們既起關聯作用，又充當句子狀語，如“就、又、也、還”等;c)助詞“的話”，它表示假設語氣，總出現在假設分句末尾，標明分句間的假設結果關系;d)超詞形式，它們本身已不是一個詞，如“如果說、若不是、不但不、總而言之”等[1]。

從上述關系詞語的范圍可知，關系詞語語法單位所處的級是不固定的，可能是詞，也可能是比詞大的單位。例如“因為”“所以”是詞，而“與其說”“不如說”則是比詞大的單位。正因為關系詞語語法單位大小不固定，所以關系詞語在詞類系統中的類別也不固定，可以是連詞、副詞、助詞，還可以是多種類別的組合。例如“因為”“所以”是連詞，“都”“就”是副詞，“的話”是助詞，“還是”是副詞+判斷動詞。關系詞語類別的不固定又導致關系詞語在句中充當成分的差異，有的僅充當標明分句關系的語法成分，有的卻能在充當語法成分的同時兼做句子成分。例如在“無論p，都q”的句式中，“無論”只充當標明關系的語法成分，“都”卻既起關聯作用又兼做狀語。雖然關系詞語是標志關系的語表形式，但有的關系詞語并非與一兩種關系發生固定聯系，不是典型標志，只能說是準標[1]。除關系標志這一核心構件外，標志構件還包括層次關系和復句類別兩個配套構件，它們和關系標志一起完成對整個有標復句的管控。

層次關系的主要屬性包括:a)層次數，標志一個有標復句由幾層構成;b)單層關系，標志有標復句中某一層的關系;c)層關系詞語，標志某一層的關系由哪組(個)關系詞語來表達。有標復句句式類別由分句的第一層關系決定，第一層是什么關系就將整個有標復句標志為什么句式，因此，復句類別的屬性值可以由層次關系的單層關系推導出來。

2.2 本體描述

本體捕獲的下一步工作是本體描述，即用合適的描述語言來表達概念和術語[9]。在選擇描述語言時，考慮到本課題的目的只是建立本體的靜態元模型，并不需要描述動態交互，因而可以采用成熟度較高的UML。當然，UML是面向對象的建模語言，它與本體建模之間存在一種映射，對于具體的映射規則文獻[11]作了細致的分析和說明，本文在此不作贅述，只是直接應用。結合文獻[5，6]的成果和上文的句法分析，可以認定有標復句領域實義構件中需要描述的概念有五個，即詞、短語、句子語氣、分句和分句組;標志構件中需要描述的概念有三個，即關系標志、層次關系和復句類別。考慮到文章篇幅，本文只給出與文獻[5，6]中描述有所不同的句子語氣和標志構件中概念的UML類圖及其說明，如圖1~4所示。

圖1中，句子語氣類的序號是指某個句子語氣對象在復句中的線性位置，取值類型是整型;語氣標點是指句子語氣對象所使用的標點符號，取值類型是枚舉型，取值范圍={，、;、。、?、!};是否是分句語氣是指句子語氣對象是分句語氣還是整個復句的語氣，取值類型是邏輯型;第幾分句語氣是指當“是否是分句語氣”取值為真，即是分句語氣時，句子語氣對象是第幾分句的句子語氣;句子語氣類主要有兩個操作，當“是否是分句語氣”取值為真，即是分句語氣時，“組裝成復句”操作為空，當“是否是分句語氣”取值為假，即是整個復句語氣時，“組裝成分句”操作為空。

圖2中，關系標志類的序號是指某個關系標志對象在復句中的線性位置，取值類型是整型;關系詞語是表示關系標志的詞語，取值類型是字符串型;標明關系是指本對象所標明的分句之間的關系，取值類型是枚舉型，取值范圍={因果、推斷、假設、條件、目的、并列、連貫、遞進、選擇、轉折、讓步、假轉}[2];第幾層標志是指關系標志在復句中所處的層次，取值類型是整型;是否是“準標”是指關系詞語是否是典型標志，取值類型是邏輯型;搭配標志序號是指與此關系標志對象共同形成完整關系標志的標志對象的序號，取值類型是整型;詞還是超詞是指表達關系標志的是詞還是比詞大的超詞單位，取值類型是邏輯型;關系標志的主要操作是分句管控。

圖3中，層次關系類的序號表示其對象標志的是有標復句中的第幾個層次，取值類型是整型;層次數是指有某一標復句中共有幾個關系層次，取值類型是整型;單層關系是指某一層次的關系類型，取值類型是枚舉型，取值范圍與關系標志中標明關系的取值范圍一樣。層次關系詞語，表示某一層關系用什么詞語來表達，取值類型是字符串型;層次關系的主要操作是分句組管控。

圖4中，復句類別的序號實際上表示的是對象所屬有標復句的序號，取值類型是整型;句式類別是指某一有標復句的關系類別，取值類型是枚舉類型，取值范圍與關系標志中標明關系的取值范圍一樣。復句類別的主要操作是復句類別標志。在考慮同類關系時，有兩組泛化關系值得注意，如圖5、6所示。

在泛化關系中，如果一般類特化出它的所有子類(不再有其他的子類)時，這種泛化稱為完全(complete)泛化，如果存在某種具有公共父類的多重繼承，這種泛化稱為交疊(overlapping)泛化[12]。句子語氣和復句語氣、分句語氣之間的關系就是完全泛化，如圖5所示;而關系標志和詞關系標志、短語關系標志、非短語超詞標志之間就是一種交疊泛化，如圖6所示。

考慮類間關系時，標志構件的類間關系是重點。如圖7所示，在有標復句中，復句類別由層次關系中的第一層關系決定，所以復句類別與層次關系之間是依賴關系;而每層層次關系也最終由關系標志決定，因此層次關系與關系標志之間也是依賴關系;這種依賴關系的傳遞性也導致復句類別與關系標志之間是依賴關系。這也從側面反映了關系標志在標志構件中的核心地位。

2.3 本體集成

綜合文獻[5，6]的成果和本文的研究，可勾畫出有標復句本體靜態元模型，如圖8所示。

圖8中的“”號表示多個意思，是“1…”的縮寫，如短語可由多個詞組成，分句組可由多個分句組成等。為使圖看上去更簡潔，本文采用了縮寫形式。圖中①表示“is-a”關系，如分句是一種實義構件;②表示“part-of”關系，如實義構件是復句的組成部分;③表示“attribute-of”關系，如關系標志是分句的一個屬性。

2.4 本體評估

在文獻[9]中，Uschold等人提出了一個對所構造本體進行評估的方法學框架，該框架列出了本體評估的三條基本原則:a)對本體應用領域的分類是否完整;b)本體描述與任務背景是否無關;c)新生本體和已有本體集成時重用率是否高。

依據上述三條原則對本課題構造的本體進行評估，可得出如下結論:a)以實義構件和標志構件來對有標復句構筑單位進行分類在語法學上是完整的，但如何將其映射到中文信息處理領域還需要進一步研究;b)本文用UML描述的有標復句本體的抽象程度是合適的，它既能保證與任務背景的無關性又可以為下一步的具體應用奠定基礎;c)由于文獻[5，6]和本課題的研究都是在相同的語法學框架內展開的，在本課題的研究中本體集成的重用率是較高的，但這也可能存在排斥其他理論框架內已有本體的風險。

3 結束語

有標復句是一個非常復雜的領域，對其中的概念進行分析并進行本體構造，目前在國內外都還只是處于初步階段。本文在文獻[5，6]的基礎上嘗試了這方面的工作，通過對標志構件的句法分析，在本體構造方法框架的指導下，用UML語言構造了有標復句領域相關概念的本體模型，并對它們進行了相應的評估。這些在缺乏任務背景的前提下構造的本體并不能馬上應用于特定的任務，但它們的抽象程度以及和已有本體的兼容性是合適的，相信經過進一步修正和擴充，必將成為面向信息檢索有標復句本體庫的基礎。

參考文獻:

[1]邢福義.漢語復句研究[M].北京:商務印書館，2001.

[2]姚雙云.復句關系標記的搭配研究與相關解釋[D].武漢:華中師范大學，2006.

[3]GUARINO N， MASOLO C， VETERE G. OntoSeek: content-based access to the Web[J]. IEEE Intelligent System， 1999， 14(3):70-80.

[4]SHUN S B， MOTTA E， DOMINGUE J. ScholOnto: an ontology-based digital library server for research documents and discourse[J]. Intl J Digital Libraries， 2000， 3(3):237-248.

[5]胡金柱，王琳，肖明，等.漢語復句本體模型初探[J].華中師范大學學報:自然科學版，2005，39(4):466-469.

[6]胡金柱，羅旋，肖明，等.本體論在復句領域概念建模中的應用[J].計算機應用研究，2006，23(10):212-214.

[7]GUARNO N， GIARETTA P. Ontologies and knowledge bases:towards a terminological clarification[M]//MARS N. Towards very large knowledge bases:knowledge building and knowledge sharing. Amsterdam:IOS Press， 1995:25-32.

[8]GRUBER T. Towards principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies， 1995， 43(6):907-928.

[9]USCHOLD M， GRUNINGER M. Ontologies: principles， methods and applications[J]. The Knowledge Engineering Review， 1996， 2(11):2.

[10]邢福義.漢語語法學[M].長春:東北師范大學出版社，2000.

[11]陳凱，何克清，李兵，等.面向對象的本體建模研究[J].計算機工程與應用， 2005， 20(2):40-43.

[12]朱三元，錢樂秋，宿為民.軟件工程技術概論[M].北京:科學出版社，2005.

計算機應用研究2010年2期

計算機應用研究的其它文章: 一種對嵌入式加密芯片的增強DPA攻擊方法; 基于方程式逆序數的軟件水印算法; “數字流域”網絡門戶的研究和設計; 基于混沌的一種圖像加密算法; Kernel PCA與BP神經網絡相結合的變壓器故障診斷; 樂譜圖像樂符分割技術