劉志 郝克俊



摘 要:基于本體編輯工具Protégé,設計了人工影響天氣術語本體知識庫。按照本體構造的“七步法”,定義了術語類,明確了術語類層次關系,定義了術語類的對象屬性和數據屬性;基于自定義的對象屬性,利用HermiT推理機對本體進行了一致性檢查。文章系統組織了人工影響天氣領域的專業術語,為該領域術語研究、人機翻譯、基于語義的信息檢索奠定了基礎。
關鍵詞:人工影響天氣術語;本體知識庫;本體一致性;Protégé
中圖分類號:H083;P48文獻標識碼:ADOI:10.3969/j.issn.1673-8578.2019.06.003
Abstract:Based on the edit tool Protégé, we designed the ontology knowledge base of weather modification terminology. According to the “seven-step” method of ontology construction, we defined the term class, the hierarchical relationship, the object properties, and data properties. Based on the custom object properties, we used HermiT Reasoner to check the ontology consistency. The terms in the field of weather modification were organized, which could provide a basis for the term research, human-computer translation and semantic-based information retrieval in this field.
Keywords:weather modification terminology;knowledge ontology base;ontology consistency;Protégé
本體又稱為“實體”[1],源于哲學概念,用于研究客觀事物的抽象本質,本體的作用是表達知識,方便知識的重用和交互。在本體中,知識可以被正式地表達為一系列的領域相關概念,以及這些概念之間的相互關系。本體組織結構是層次結構化的,Gruber提出 “本體是概念模型的明確的規范說明” [2]。本體可以當作某個領域內不同主體(人、機器等)之間進行交流的一種語義基礎[3],即由本體提供明確定義的詞匯表,描述概念和概念之間的關系,作為使用者之間達成的共識。
本體可以被用來為一個知識領域建立模型,并且支持對這個模型中的實體進行推理。目前,本體已經被廣泛應用于知識工程、自然語言處理、數字圖書館、信息檢索和Web異構信息的處理、軟件復用、面向對象技術和語義Web等領域。本體提供的是一種共享詞表,也就是特定領域之中那些存在著的對象類型或概念及其屬性和相互關系;或者說,本體就是一種特殊類型的術語集,具有結構化的特點,且更加適合于在計算機系統中使用[4]。
目前術語的應用范圍從純語言學研究拓展到機器翻譯、信息檢索、數據挖掘等領域[2]。對術語進行抽取和標注需要構建語料庫。本體描述概念和概念之間的關系,通過本體知識庫,能夠描述術語間關系和術語的屬性信息,將某一領域的術語系統合理整合起來。
一 人工影響天氣術語本體知識庫
人工影響天氣是指在一定的有利時機和條件下,通過人工催化等技術手段,對局部區域內大氣中的物理過程施加影響,使其發生某種變化,從而達到減輕或避免氣象災害目的的一種科技措施[5]。例如,在我國很多地區利用飛機或高炮、火箭等運載工具向云中播撒碘化銀、干冰等催化劑進行的人工增雨、防雹作業。目前,中國還沒有人工影響天氣術語本體知識庫,本文嘗試利用專業資料構建該領域的術語本體知識庫,對人工影響天氣領域相關術語及術語間的關系進行描述,以實現對人工影響天氣領域知識的系統組織,為該領域術語研究、人機翻譯、基于語義的信息檢索提供基礎。
1.本體知識庫構建方法
本體知識庫的構造過程稱為“本體工程”,需要完整的工程化、系統化的方法來支持,Gruber從實踐出發提出了有益于構建本體的標準:明確性、一致性、可擴展性、最小編碼偏好和最小承諾[6],基于該標準,研究者提出了多種構建本體的方法,有KACTUS法、七步法、“骨架”法、TOVE法、MethOntolog法。其中美國斯坦福大學醫學院提出的七步法[7]應用最廣泛,基本流程見圖1。
本文設計的本體知識庫的領域術語部分參考了氣象行業標準《人工影響天氣作業術語》(QX/T 151-2012),部分來源于從文獻、專業書籍中抽取的術語。
2.本體編輯工具
Protégé軟件[8]是斯坦福大學醫學院生物信息研究中心基于Java語言開發的本體編輯工具,提供了本體概念類、關系、屬性和實例的構建界面,屏蔽了具體的本體描述語言,用戶只需在概念層次上進行領域本體模型的構建。有可自行設置的數據輸入模式,可以將Protégé的內部表示轉制成多種形式的文本表示格式,如:XML、RDF(S)、OIL、DAML、DAML+OIL、OWL等系統語言。Protégé 工具本身沒有嵌入推理工具,不能實現推理,但它具有很強的可擴展性,可以插入插件來擴展一些特殊的功能,如推理、提問、XML轉換等。目前最新版本是Protégé 5.5.0 beta 8[8]。
3.本體描述語言
本體描述語言通過定義類以及類的屬性來形式化某個領域,并說明它們之間的屬性,以便對類和個體進行推理。本體描述語言有RDFS、OWL,都是W3C(World Wide Web Consortium)的推薦標準[9],用于對本體進行語義描述。資源描述框架(Resource Description Framework,RDF)[10]使用XML語法和RDF Schema(RDFS)將元數據描述成為數據模型。 通過RDF,人們可以使用自己的詞匯表描述任何資源。一個RDF文件包含多個資源描述,而一個資源描述是由多個語句構成,一個語句是由資源、屬性類型、屬性值組成的三元組,表示資源具有的一個屬性。RDFS,即“Resource Description Framework Schema”,是最基礎的模式語言,RDFS本質上就是RDF詞匯的一個擴展。RDFS比較重要的詞匯見表1。
OWL(Ontology Web Language)[11]是一種本體語言,是RDFS的一個擴展,其添加了額外的預定義詞匯, 常用的詞匯見表2。
二 術語類設計及編碼
1.類及其層級
為了準確定義人工影響天氣領域中各個術語的位置,為術語進行語義限定和語義擴展奠定基礎,需要明確術語層次關系,就是明確類的層次關系,使類之間的語義關系更加清晰。本文以人工影響天氣(weather_modification)作為根節點,根節點下添加雷達觀測(radar_meteorology_observation)、作業監測(operation_monitor)、作業裝備(operation_equipment)、作業技術(operation_technology)、地面作業(ground_operation)、飛機作業(plane_operation)、催化技術(seeding_technology)、效果評估(performance_evaluation)、業務管理(business_management)、技術研發(technology_development)10個大類。作業裝備分為飛機(plane)、高炮(antiaircraft_gun)、火箭(rocket)、發生器(ground_generator)4個類,業務管理類下面又分作業人員(operator)、作業設施(facility)、相關機構(institution)、規章制度(regulations)4個類。其中,相關機構下面分為業務管理機構(business_management_organization)、作業指揮機構(operation_command_organization)、空域申報部門(airspace_declare_organization)、民爆物品管理部門(industrial_explosive_management_organization)4個類;作業設施下面分作業點(operating_spot)、硬件設施(hardware_facility)、軟件條件(software_conditon)3個類。硬件設施下面分休息室(waiting_room)、值班室(duty_room)、射擊平臺(fire_platform)、彈藥庫(ammunition_depot)、裝備庫(equipment_dept)5個類。軟件條件下面分作業點編碼(code)、安全射界圖(safety_shot_chart_cartographic)2個類。Protégé可以將層級結構可視化,圖2為上述部分的層次結構。
2.對象屬性
除了明確類之間的層級,還需要限定類之間的關系,將類之間的語義信息顯性地表現出來。對象屬性就是指類之間的關系,對象屬性是自行定義的,屬性與屬性之間的關系由本體描述語言詞匯限定。
對前文描述的術語部分,定義“裝備配備”(be equipped with),說明作業點配備了哪些作業裝備。該屬性是屬于作業點(rdfs:domain),取值范圍(rdf:range)是裝備。
定義“強制性具備”(mandatory),說明作業點必須配備硬件設施。該屬性是屬于固定作業點(rdfs:domain),取值范圍(rdf:range)是硬件設施。
定義“下轄”(have jurisdiction over),說明管理部門管轄的業務管理部門或作業指揮部門或作業點,該屬性具有傳遞性(owl:TransitiveProperty):若A下轄B,B下轄C,那么A肯定下轄C。
定義“隸屬”(be subordinated to),說明管理部門或作業點的上級機構,該屬性與“下轄”是相反的(owl:inverseOf)。
“業務往來”(related)是指業務管理部門與相關機構之間有業務往來關系,說明管理部門下轄所有作業點都向某個空域管制部門申請作業空域,下轄所有作業點都向某個民爆物品部門申請彈藥儲運許可。定義對象屬性見圖3,“related”屬性的參數設置見圖4。
“related”屬性設置對應的OWL描述為:
rdf:resource="….#operating_spot"/> 根據自定義的對象屬性,部分類的關系結構見圖5。 3.數據屬性 要完整描述類本身的特性,還需要定義類的數據屬性。為了對數據屬性的屬性值進行規范,Protégé提供了6種數據類型,分別是布爾型(boolean)、整數型(int)、單精度浮點型(float)、字符型(string)、時間型(date)、日期時間型(date Time)。