錢曉雯 華 英
中圖分類號:TP2文獻標識碼:A文章編號:1671-7597(2009)1210115-01
隨著網絡技術的發展,遠程教育越來越受到人們的關注。答疑系統作為網絡教育平臺的一個重要組成部分,在老師和學生之間的交流方面發揮著重要的作用。傳統的答疑系統比較集中在答疑方式和答疑系統的實時交互方面,對其中的關鍵部分-語義的理解,涉及的不是很多。
針對上面的問題,本文提出用領域本體作為語義理解的基礎。本體(ontology)是一種用來描述概念以及概念和概念之間關系的模型,領域本體是本體的一種,它包含該領域的比較完整的知識和豐富的語義關系,把這些資源通過一種方法應用到問答查詢系統中,使得一定程度上解決目前答疑系統中語義的理解不足的問題成為可能。
在問答查找系統中,針對特定領域的答疑,需要建立相應的領域本體。領域本體一般是由該領域的專家來建立。領域本體定義了該領域的一組術語,這些術語稱之為概念。概念和概念之間的關系描述了該領域的概念結構。
目前已有的領域本體很多,出于對各自問題域和具體工程的考慮,構造領域本體的過程也是各不相同的。由于沒有一個標準的構造方法,不少研究人員從實踐出發,提出了不少有益于構造本體的標準,其中最有影響的是Gruber于1995年在文獻中提出的5條規則:
1.明確性和客觀性:本體應該用自然語言對術語給出明確、客觀的語義定義。2.完全性:所給出的定義是完整的,完全能表達所描述的術語的含義。3.一致性:由術語得出的推論與術語本身的含義是相容的,不會產生矛盾。4.最大單調可擴展性:向本體中添加通用或專用的術語時,不需要修改已有的內容。5.最小承諾:對待建模對象給出盡可能少的約束。
當前對構造本體的方法和性能評估還沒有一個統一的標準,這是一個需要進一步研究的方向。目前對于特定的應用,本體的構造方法不完全相同。但在構造特定領域本體的過程中,有一點是得到大家公認的,那就是需要該領域專家的參與。下面,針對我們的答疑應用,采用語義網絡的描述方法來構造領域本體。
領域本體的開發和完善是一個反反復復不斷補充的過程。領域本體中的概念應該貼近于要研究的專業領域中的客觀實體和關系法則。它的構造要經過五個步驟:
1.確定領域本體的專業領域和范疇。可以通過確定專業領域和范疇作為開發領域本體的起點。首先,要明確構建的領域本體將覆蓋的專業領域、應用本體的目的、本體應該在哪些方面發揮作用以及它的系統維護者與應用對象。
2.復用現有的本體。如果系統需要和其它的應用平臺進行互操作,而這個應用平臺又與特定的領域本體或相關概念聯系在一起,那么復用現有的本體是行之有效的方法。許多現成的本體,例如前面提到的Ontolingua的
本體文庫、DAML的本體文庫UNSPSC、和DMOZ等,可以導入到本體開發系統中,本體的格式轉換也并不困難。
3.列出本體涉及領域中的重要術語以及術語的屬性與屬性值。領域本體是描述概念以及概念與概念之間的關系,首先要列舉出該領域中的所有概念以及對該概念的詳細解釋,在特定領域,這些概念就是有關的專業術語。除此之外,針對每個概念,要列出它所有可能的屬性,每個屬性都有對應的屬性值。
4.定義關聯結點。為了對概念和概念之間的關聯關系進行詳細的說明,需要對概念定義關聯結點。例如,為了說明概念“內模式”和“外模式”的區別,在概念“內模式”下存在一個關聯結點:區別,該結點關聯另外一個概念“內模式”。并需要對該關聯結點詳細說明。
5.定義概念之間的各種關系。在領域本體中,概念和概念之間通過關系來交互。在知網中,一共描述了概念之間的8種關系;上下位關系、同義關系、反義關系、對義關系、屬性-宿主關系、整體部分關系、材料-成品關系、事件-角色關系。
知網可以看成是一個龐大的通用本體,構建這樣的本體是件非常費時費力的事情。針對特定領域答疑系統的特點,在我們構建的領域本體中使用了四種關系:繼承關系、部分關系、相關關系和同義關系,其中的繼承關系可以看成是知網中的上下位關系。
1.繼承關系(is_a)。繼承表示概念之間的包含和被包含關系,也可以看成是概念之間的泛化和特化關系。如果概念Ci是Cj的一種特殊概念,那么我們說概念Ci是概念Cj的特化,概念Cj是概念Ci的泛化,概念Ci繼承于概念Cj。概念都有它自己的屬性。如果兩個概念間存在繼承關系,那么繼承的概念將擁有被繼承概念的所有屬性。例如,概念Cj繼承于概念Ci。那么概念Cj將擁有概念Ci的所有屬性,另外還可能有它區別于概念Cj的特殊屬性。
如果概念Cj同時繼承于Ci和Ck。這是一種多重繼承(與面向對象的概念非常相似)。
2.整體部分關系(part of)。概念和概念之間存在著整體部分關系。如果概念Cj是概念Ci的一個組成部分,那么我們說概念Ci和概念Cj之間存在整體部分關系。在數據庫領域中,概念“前像”、“后像”都是概念“運行記錄”的組成部分,所以“運行記錄”和“前像”、“后像”之間是整體部分關系。
3.相關關系(relevant of)。相關關系表明概念和概念由于某個主題而相互關聯。概念 “前像”和“后像”由于都是“運行記錄”的一部分而存在一種相關關系。相關關系可由繼承關系和部分關系中導出, 所以圖中可以不畫出來。
4.同義關系(synonymy of)。在一個領域中,一個概念可能有幾種不同的表示方式,也就是可以用不同的詞語來表示一個相同的概念。例如:“數據庫管理系統”和“DBMS”、“聚集”和“簇集”都是同一概念的兩種不同的說法,所以這兩個概念之間存在同義關系。在圖中,同義關系用一根不帶箭頭的實線相連,繼承關系和部分關系是兩種最主要的關系,相關關系可以從繼承關系和部分關系中體現出來。出現同義關系的概念不是很多。
應用上面的四種關系,我們可以把領域中的概念構建成一個具有等級的網絡結構。構建的過程是一個概念不斷細化或泛化的過程。下面介紹構建等級網絡結構的方法。建立一個等級網絡體系有3種可行的方法。
自頂向下法:由某一領域中最大的概念開始,通過逐層的添加子概念將這些概念細化。最終得到本體的等級網絡結構。
自底向上法:由最底層、最細小的概念定義開始,將這些細化的概念一層一層的組織在更加綜合的概念之下,形成一個等級網絡結構。
綜合法:首先定義很多非常顯而易見的概念,然后分別將它們向上層進行恰當地歸納和向下層進行細化,構成一個等級網絡結構。
至于具體在實踐中采取什么方法構建等級網絡結構, 主要取決于于開發人員對專業領域的個人觀點。由于綜合法是從一些最普通的概念入手,比較符合人的習慣,所以綜合法對本體開發者而言最便捷。
參考文獻:
[1]Ontology Development 101:A Guide to Creating Your First Ontology.http://protege.standford.edu/publications/ontology_development/ontology101noy-mcguinness.htm.