馬旭明 王海榮
摘 要 針對寧夏地區回漢混居而引發的多節日問題,以及現有事件本體模型不能充分表達和節日相關的人、事、物等之間豐富的語義關系等問題。本文提出了FEOM(Festival-oriented Event Ontology Model,面向節日的事件本體模型)和寧夏地區回族傳統節日領域本體的構建方法-六步法,在此基礎之上,構建了寧夏地區回族傳統節日領域本體。該領域本體的構建不僅證實了FEOM的合理性和六步法的可行性,也體現了本體技術廣泛的應用前景。
【關鍵詞】本體的構建 面向節日的事件本體模型 推理機 語義 Web本體語言
1 概述
回族是我國人口較多的一個少數民族,主要集居在寧夏回族自治區。目前有關回族傳統節日的記載更多的來源于一些傳統的存儲介質,利用本體論的思想將這些分散的、非結構化的數據進行整合,且以一種友好的方式展現給互聯網用戶,從而幫助用戶了解回族傳統節日,進而了解回族文化,這對于中國這個多民族國家來講顯得尤為重要。
事件本體是一種面向事件的知識表達方法,是一種領域本體,用來描述事件的本體模型有很多,國外有EO(Event Ontology)、SEM(Simple Event Ontology)、LODE(Linking Open Descriptions of Events)、F-Model(F)、CIDOC-CRM、ABC,國內主要有劉宗田教授的面向事件的本體模型LEO、基于本體的新聞事件模型NOEM。節日是由節日當天以人為中心的各個子事件構成,由于其具有領域特殊性,一方面子事件種類繁多,另一方面每個子事件之間還具有一定的語義關系。本文在SEM的基礎之上提出了FEOM(Festival-oriented Event Ontology Model),該模型更適合用來表示回族傳統節日知識。
一般來講,有兩種常見的本體構建方式:一種是依靠本體專家手工構建,另一種則是在一些機器學習方法的幫助下采用自動或半自動的方法進行構建。目前采用人工構建的方法中,具有代表性的有骨架法、TOVE法、IDEF5法、METHONEOLOGY法,而采用半自動構建的方法有七步法、五步循環法、循環獲取法。本文在七步法的基礎之上提出了適合回族傳統節日領域本體構建的六步法,再借助Protégé本體開發工具來完成回族傳統節日本體的構建。
2 相關概念與術語定義
2.1 基本概念與術語定義
本體是共享概念模型的明確的形式化規范說明。本體的形式化定義為一個五元組{C,R,HR,Rel,A},其中C為本體中概念的集合,R為關系的集合,HR表示概念間的層次關系,Rel表示概念間的非層次關系,A為公理。
為了形成對寧夏地區回族傳統節日領域知識的統一認識,下面對和事件相關的幾個核心類進行了明確的定義。
定義1 事件(Event):指所有發生了的事情,大到歷史事件,小到神話傳說。
定義2 參與者(Actor):指主動或者被動參與事件的實體,可以是有生命或無生命的,也可以是物質或非物質的。
定義3 地點(Place):指事件發生的場所,不一定非得是現實存在的地方。
定義4 時間(Time):是事件所發生事件的一種表示符號,不一定需要確切的時間戳。
2.2 寧夏地區回族傳統節日領域本體構建方法
在眾多本體構建方法中具有代表性的有骨架法、TOVE法、IDEF5法、METHONEOLOGY法、七步法、五步循環法、循環獲取法。本文在七步法的基礎之上提出了一種適合寧夏地區回族傳統節日領域本體構建的方法,即六步法:
(1)確定本體描述的領域并設置“能力問題”。文中本體所要描述的是和寧夏地區回族傳統節日相關的知識。而“能力問題”是指該本體所能夠回答的問題。
(2)列舉寧夏地區回族傳統節日領域內重要的概念。文中主要借助百度百科、《中國穆斯林的禮儀禮俗文化》等來獲取和規范相應的概念,并對列出的概念進行分析獲取它們之間的語義關系。
(3)定義類和類之間的層次結構。從列出的概念中選出那些具有一般性的且表示一類術語的集合的概念作為本體的類,并建立類之間的層次關系。
(4)定義屬性。包括表示實例和實例之間關系的對象屬性以及描述實例取值的數據屬性。
(5)創建實例。將回族傳統節日領域內具有不可再分性的對象作為實例添加給相應的類,再結合步驟
(4)完善實例間的語義關系。
(6)本體的檢測。利用推理機和推理規則在該本體上獲取新的知識,試圖回答步驟(1)中所設置的“能力問題”。
3 寧夏地區回族傳統節日領域知識分析
3.1 寧夏地區回族傳統節日知識分類體系
構建寧夏地區回族傳統節日領域本體的前提是根據該領域的知識特征對其分類,這是一項復雜的科學認識活動,旨在通過領域細分建立知識的分類體系。根據寧夏地區回族傳統節日領域知識的特征,再結合FEOM模型將該領域內的知識按照事件(Event)、參與者(Actor)、地點(Place)、時間(Time)進行分類,圖1為古爾邦節知識分類層次結構圖。
3.2 基于FEOM的寧夏地區回族傳統節日領域本體類和屬性的定義
寧夏地區回族傳統節日的知識分類從各個角度分別表示了和節日相關的各個事件、參與者、地點以及時間,但是,知識分類僅僅是將回族傳統節日相關的知識進行了選取和歸類,還不能表現出各個概念之間的關系。而本體是對傳統節日領域知識的共享概念模型進行明確的形式化規范說明,它描述了領域中重要的概念以及它們之間的關系。
SEM是一個以事件為中心的本體模型,該模型適用于多個領域,像文化遺產、地理和多媒體等。主要描述了和事件相關的人、物、地點以及時間之間復雜的關系,共有17個類和24個屬性。而節日也是由節日當天的一系列事件構成,但節日除了有事件的特性之外還有其自己的特性,比如節日當天的美食、著裝等。故將SEM的部分類和屬性進行了取舍和添加,如圖2所示。屬性方面也做了較大的調整,如圖2所示。
4 寧夏地區回族傳統節日領域本體構建
4.1 本體表示語言
目前國際上主要的本體描述語言有RDF、RDFS、DAML+OIL、OWL等,它們都是基于RDF發展起來的,其中OWL是W3C的推薦標準,目前最新的版本是OWL2。OWL提供了三種表達能力遞增的子語言:OWL Lite、OWL DL、OWL Full,分別用于特定的實現者和用戶團體。考慮到語言的表達能力和推理能力,選用OWL Lite作為回族傳統節日領域本體的描述語言。本文截取以下代碼來簡要說明OWL Lite的語義描述與表達。
[6]Lagoze C,Hunter J.The ABC Ontology and Model[C].International Conference on Dublin Core and Metadata Applications.National Institute of Informatics,Tokyo,Japan,2001:160-176.
[7]劉宗田,黃美麗,周文等.面向事件的本體研究[J].計算機科學,2009,36(11):189-192.
[8]王偉,趙東巖.中文新聞事件本體建模與自動擴充[J].計算機工程與科學,2012,34(04):171-176.
[9]余凡.領域本體構建方法及實證研究[M].武漢大學出版社,2015.
[10]胡兆芹.本體與知識組織[M].中國文史出版社,2014.
[11]Ye Y,Yang D,Jiang Z,et al. Ontology-based semantic models for supply chain management[J].International Journal of Advanced Manufacturing Technology,2008,37(11-12):1250-1260.
[12]李恒杰,李軍權,李明.領域本體建模方法研究[J].計算機工程與設計,2008,29(02):381-384.
[13]Noy N F,Mcguiness D L.A Guide to Creating Your First Ontology[J]. Stanford University,2001(02):14.
[14]Maedche A,Staab S.Ontology Learning for the Semantic Web[M].Ontology learning for the semantic Web.Kluwer Academic Publishers,2002:72-79.
[15]Volz R,Maedche A.Extracting a domain-specific ontology from a corporate intranet[C].The Workshop on Learning Language in Logic and the,Conference on Computational Natural Language Learning. Association for Computational Linguistics,2000:167-175.
[16]Studer R,Benjamins V R,Fensel D. Knowledge engineering:principles and methods.Data Knowl Eng 25(1-2):161-197[J].Data & Knowledge Engineering, 1998,25(1-2):161-197.
作者簡介
馬旭明(1986-),男,寧夏回族自治區石嘴山市人。碩士研究生在讀,工程師+講師。研究方向為語義Web數據模糊查詢。
王海榮(1976-),女,寧夏回族自治區銀川市人。博士研究生,副教授。研究方向為大數據與知識工程。
作者單位
北方民族大學計算機科學與工程學院 寧夏回族自治區銀川市 750000