閆 東
(中國航天空氣動力技術研究院,北京 100074)
基于本體的石油地質領域知識服務系統研究
閆 東
(中國航天空氣動力技術研究院,北京 100074)
信息服務主要使用檢索詞匹配的方式來返回檢索結果,致使無法全面獲取與語義知識相關的資源,因而檢索結果無法準確地反映知識資源與用戶檢索需求之間的相似度。經研究,以本體技術和語義檢索技術為基礎的知識服務系統能夠有效彌補傳統信息服務系統的不足,改善由于地質資料標準化程度低、語義不一致而造成的檢索效率低等現象。本文根據石油地質學科知識特點,提出了基于本體的石油地質領域知識服務框架,將本體技術和語義檢索技術應用到石油地質學領域,形成包含資源層、知識層、產品層及服務層的石油地質領域知識服務系統。首先研究領域本體的構建技術方法,從領域資源中抽取知識,建立了結構化的、計算機可讀的石油地質領域知識--領域本體;然后研究面向知識服務的信息資源組織方法,整合了石油地質領域多元、異構資源,形成了面向多類應用需求及層次的石油地質知識產品;最后,利用開源搜索引擎工具包Lucene和Jena本體解析工具包,建立了簡單的語義檢索原型系統,通過基于本體的語義擴展,實現了語義檢索試驗。試驗結果表明,基于本體的石油地質領域知識服務系統能夠準確地為用戶提供檢索結果,提高地質資料知識服務效果。
知識服務;本體;石油地質;語義檢索
目前的信息服務主要是依靠檢索詞匹配的方式來實現資源的查詢與利用,因而檢索詞匹配的程度直接決定了資源的利用率和信息服務的效果。依靠檢索詞匹配方式的檢索系統主要存在的問題是,由于忽略了知識資源的語義層面,因而造成了大量語義知識資源的確缺失,無法準確地反映知識資源與用戶檢索需求之間的相似度[1]。特別是面對海量、異構的地質資料數據,傳統的信息服務系統很難滿足用戶的檢索需求。具有語義匹配功能和本體知識技術的知識服務系統成為當前研究熱點和難點。
隨著信息服務系統的不斷發展,地質資料已從傳統的借閱服務轉變為知識服務,即按照知識結構和語義特征進行資料的組織、共享與服務已經成為必然趨勢。本體能夠構建出清晰的領域知識框架及脈絡,繼承已有的知識資源,避免重復工作,使得知識資源的高效快捷的重用及共享成為可能。在本體的基礎上將行業內的標準規范、統計數據、學科知識脈絡、研究進展和資源索引庫等資源進行多元融合,就可以形成較為豐富完善的領域產品,以產品層作為數據支撐,就可以構建出個性化的領域知識服務系統。結合石油領域特點,本文提出了基于本體的石油地質領域知識服務框架,具體如圖 1所示。

圖1 基于本體的石油地質領域知識服務框架Fig.1 The framework of petroleum geological knowledge service system based on ontology
資源層:石油地質領域的原始資源來自于書籍、研究報告、各類原始數據和統計數據、地質圖庫、油藏模型以及網頁上的資源等各種形式的已有工作成果。
知識層:要實現地質領域的知識服務,首先要建立領域知識架構。地質本體能夠提供包括石油地質領域、構造地質領域、古生物領域等各類地質領域知識的結構化描述、定義及屬性[2]。
產品層:知識服務需要有豐富多樣的產品作為支撐,包括基于本體的學科知識脈絡、數據產品、統計數據產品、研究進展報告及資源索引庫等。這些知識產品一方面提高用戶檢索資源的命中率,找到用戶真正需要的資源;,另一方面還能夠為用戶提供可能與檢索需求相關的參考概念,以及相應的資源。
服務層:學科知識服務的主要途徑是用戶主動檢索。這種檢索可以在機構內網,也可以通過互聯網。知識檢索的對象可以是結構化的領域本體,可以是基于知識網絡索引的一般資源,服務層的目標就是為各種類型用戶滿足各種不同的需求,最終提供個性化服務。
知識服務的根本目的就是能夠直截了當的為用戶提供真正需要的知識和資源,省去用戶自己歸納總結篩選排除的過程。本文所提出的基于本體的地質領域知識服務框架,能夠把松散地存放于各處的原始資料進行加工處理,形成系統的知識結構,將構建成的領域本體進一步開發形成知識產品,最后實現知識服務。
結合石油地質領域的特點,本文構建了石油地質領域本體,并基于開源的全文搜索工具包Lucene等技術實現了石油地質領域知識檢索系統試驗[3]。
手工構建本體是一項耗時耗力的巨大工程,自動化構建本體技術尚不成熟[1,4],鑒于已有完善的《地質敘詞表》和《石油主題詞表》,因而本文提出一種基于敘詞表的半自動化本體構建方法,具體方法如圖2所示。

圖2 敘詞表轉換為本體的流程Fig.2 The process of converting the thesaurus into an ontology
地質敘詞表又稱為地質主題詞表,包含了地質學科的詞匯和詞匯之間的各種關系。敘詞表的語義關系分為“用、代、分、屬、參”,分別用來表示詞匯之間的等同、等級、相關等語義關系。敘詞表包含較全面和權威的領域概念和重要的語義關系,為本體提供了較好的概念基礎。很多研究嘗試基于敘詞表進行構建本體,研究重點在于敘詞表向本體轉換的方法。
由敘詞表構建本體的方法將敘詞表的敘詞作為本體中概念的來源,在敘詞表概念關系的基礎上,修改完善概念的屬性、關系,并添加公理和函數。敘詞表的相關關系沒有更細的劃分,包含了本體一般定義中除了層次關系和等同關系外的所有關系。所以要想建立更精確的領域本體,除了敘詞的注釋,還需要參考其他知識來源,如《石油地質》、《中國石油勘探開發百科全書》等,為本體的類添加需要的關系[4]。
最終通過概念和概念層級的確定、定義概念的屬性、對漢語拼音、敘詞編號、英文譯名、范疇號、注釋項的處理及為概念添加實例等工作[5],構建了輕量級的石油地質領域本體,完成的面向知識服務的石油地質領域本體包含18278個概念,概念之間的關系達到16487個,概念的實例4137個。關系分為等同關系、等級關系和相關關系,其中相關關系除包含敘詞表中固有的相關關系,還增加了相關領域學科,如信息技術及數學地質。實例涵蓋了石油人物、書籍、機構以及重點區域等,具體如圖3所示。
3.1 系統原型設計與實現
如圖4所示,石油地質語義檢索原型系統主要由解析模塊、索引模塊、檢索模塊、語義標引和本體模塊五部分組成[6],其中索引模塊中的語義標引、本體模塊以及檢索模塊中本體搜索為本文在Lucene開源包基礎上新增的部分,并且對原有的排序模塊進行完善優化,形成新的基于權重的排序模塊。各個模塊的具體功能介紹如下。
(1)解析模塊:主要對各種類型的電子文檔進行,目前能夠解析的文檔類型包括 Doc、PDF、Xml和Html,在未來工作中將進一步擴展可解析的文檔類型。
(2)索引模塊:基于Lucene已有的分詞器進行文檔預處理,去除停頓詞,保留主題詞。一方面將高頻主題導入形成石油地質領域概念詞庫,另一方面將高頻主題詞作為每個文檔的標引詞匯,形成語義標引文檔集。
(3)本體模塊:利用Jena實現了本體的解析與推理[7],將本體中的等級、等同和相關關系解析處理,并利用概念擴展算法實現了對檢索詞的語義擴展[8-9],形成新的檢索詞列表。
(4)檢索模塊:將經過本體擴展后的全新檢索詞列表重新作為輸入條件,在本體庫和資源庫中進行查詢,匹配相應數據資源并返回至排序模塊。

圖3 石油地質領域本體層級關系展示Fig.3 The display of the relationships in petroleum geology domain ontology

圖4 基于Lucene的知識檢索系統功能框圖Fig.4 The framework of the retrieval system based on Lucene
(5)排序模塊:根據本體中的概念與概念之間的距離,對匹配到數據資源進行重新排序,并將最終權重計算后的結果作為最終的系統檢索結果返回給用戶[10]。
當用戶輸入檢索詞后,整個原型系統的工作流程如圖5所示,Lucene基礎層完成對文檔的索引和標注,應用層通過Jena本體解析工具和語義擴展算法完成對用戶輸入查詢詞的擴展[1,11-13],并返回新的檢索列表對應的結果,使用應用排序規則實現資源的綜合排序,最終為用戶提供準確的信息服務[14,15]。
3.2 檢索試驗
地質知識檢索系統實現了基于石油地質領域本體的語義查詢,圖6顯示了輸入“油氣田”關鍵詞并檢索石油地質本體的查詢結果頁面[1]。
(1)“油氣田”相關概念:油氣區、油氣藏、油氣田勘探、油氣田開發等,其屬性有“定義”,其實例有中原油田、長慶油田等。
(2)通過擴展“油氣田”的相關概念,可檢索出標引為“油氣藏”、“油氣田勘探”、“油氣田開發”、“油氣田管理”等文檔。
(3)還可以對檢索結果進行深一步的概念查找,如“油氣生成”。
本文將知識服務應用到地質學領域,提出了基于本體的石油地質領域知識服務的框架和解決方案,該框架包括資源層、知識層、產品層和服務層,并實現了基于本體的石油地質語義檢索原型試驗,試驗結果有力的驗證了本文的論點。
同時,由本文的研究可以看出,在大數據時代,數據和資源的結構化是實現數據管理和利用的必需手段。地質領域信息資源也面臨著由異構、非結構化向共享化、知識化的發展。單就石油地質領域,建立覆蓋范圍更廣、粒度更細的本體,還需要更多石油專業人才和信息科學人才的加入。并且,個性化的知識服務也是信息服務發展的必然趨勢。個性化知識服務能夠為用戶提供更有針對性、更便捷的服務,當然同時提高了用戶的學習和工作效率,必將開啟地質領域知識服務的新篇章。

圖5 基于Lucene知識檢索系統架構Fig.5 The structure of the retrieval system based on Lucene

圖6 檢索結果實例Fig.6 The example of the retrieval system
[1] 潘懋, 閆東, 張文靜, 等. 基于本體的地質領域知識服務系統研究[C]// 全國數學地質與地學信息學術研討會.2014.Pan Mao, Yan Dong, Zhang Wenjing, et al. Research on the knowledge service system of geological domain based on ontology [C]// national conference on mathematical geology and geology information, 2014.
[2] 杜睿山, 尚福華, 吳雅娟. 基于本體的石油開發領域知識構建研究[J]. 科學技術與工程, 2010, 10(19): 4656-4662.Du Ruishan, Shang Fuhua, Wu Yajuan. The research on the knowledge of petroleum development based on ontology[J].Science and technology and engineering, 2010, 10(19):4656-4662.
[3] 鄧小亞. 石油領域本體庫的構建研究[J]. 電子設計工程,2011, 19(20): 1-4.Deng xiaoya. Research on the construction of oil domain ontology library [J]. Electronic design engineering, 2011,19(20): 1-4.
[4] 陳曦, 閆東, 潘懋, 等. 基于領域知識庫的地勘單位分類算法[J]. 科學技術與工程, 2017, 17(13): 192-196.Chen xi, yan dong, pan tem, et al. Classification algorithm of geological exploration unit based on domain knowledge base[J]. Science and technology and engineering, 2017, 17(13):192-196.
[5] Knight, Colin, Gasevic, Dragan, and G. Richards. "An Ontology-Based Framework for Bridging Learning Design and Learning Content. " Journal of Educational Technology &Society 9. 1(2006): 23-37.
[6] Tudorache, T, et al. "WebProtégé: A Collaborative Ontology Editor and Knowledge Acquisition Tool for the Web."Semantic Web 4. 1(2013): 89.
[7] 吳紅, 李玉平, 胡澤文. 基于領域本體的專利信息檢索系統研究與實現[J]. 現代圖書情報技術, 2010(6): 71-77.Wu Gong, li Yuping, Hu Zewen. Research and implementation of patent information retrieval system based on domain ontology[J]. Journal of modern information technology, 2010(6): 71-77.
[8] 閆東, 潘懋, 陳小紅, 等. 基于擴展主題詞表的頁巖氣領域本體構建研究[J]. 科學技術與工程, 2015, 15(17): 184-192.Yan Dong, Pan Mao, Chen Xiaohong, et al. Study on approach of building shale gas domain ontology based on extended thesaurus[J]. Science technology and engineering,2015, 15(17): 184-192.
[9] 王瑞軍. 基于元數據模型的電子政務檢索系統的設計與實現[J]. 軟件, 2014, 35(3): 33-34.Wang ruijun. Design and implementation of e-government retrieval system based on meta-data model [J]. Software,2014, 35(3): 33-34馮汝偉, 謝強, and丁秋林. "基于文本聚類與分布式Lucene的知識檢索. " 計算機應用 33. 1(2013):186-188.
[10] 潘志文, 鄧丹君. 基于Lucene 的web 信息檢索系統的設計與實現[J]. 軟件, 2014, 35(5): 37-39.Pan zhiwen, deng danjun. Design and implementation of web information retrieval system based on Lucene [J]. Software,2014, 35(5): 37-39.
[11] 李向偉, 康毓秀. 基于內容的視頻檢索與挖掘關鍵技術研究[J]. 軟件, 2014, 35(8): 26-31.Li xiangwei, kang yuxiu. Research on key technology of video search and mining based on content [J]. Software, 2014,35(8): 26-31.
[12] 浦慧忠. 基于Web 挖掘的用戶興趣建模方法的研究[J].軟件, 2014, 35(7): 126-1280.Pu huizhong. Research on modeling methods of user interest based on Web mining [J]. Software, 2014, 35(7): 126-128.
[13] 周樹理, 嚴建文, 包紅林, 等. 石油勘探開發領域本體構建及應用[J]. 計算機系統應用, 2015, 24(5): 172-176.Zhou shuli, yan jianwen, bao honglin, et al. Ontology construction and application of petroleum exploration and development [J]. Computer system application, 2015, 24(5):172-176.
[14] 宋聞達. 基于深度檢測的用戶行為分析以及Web推送的設計與實現[J]. 軟件, 2014, 35(12): 98-102.Song wenda. User behavior analysis based on in-depth detection and design and implementation of Web push [J].Software, 2014, 35(12): 98-102.
[15] 鮮國建. 農業科學敘詞表向農業本體轉化系統的研究與實現[D]. 中國農業科學院, 2008.Xian Jianguo. The research and realization of ontology transformation system based on agricultural science thesaurus[D], Chinese Academy of Agricultural Sciences, 2008.
Research on Petroleum Geological Knowledge Service System Based on Ontology
YAN Dong
(China Academy of Aerospace Aerodymanics, Beijing, 100074)
In consequence of distributed storage and non-unified processing techniques of the abundant geological data in China, it is difficult to retrieval geological information. Organizing geological resources by knowledge will provide help for geological information management and services. As the development of Artificial Intelligence, the study of Knowledge Services based on Semantic Web technology ontology and semantic search has become a hot topic in information services. In this paper, the knowledge service has been applied to geology. According to the characteristics of geological knowledge, this paper presented the geological knowledge service framework based on ontology. In order to realize the geological knowledge service based on ontology, three key problems need to be resolved: how to build structured and computer-understandable geological knowledge, which is the geological domain ontology; the integration of multiple, heterogeneous geological resources to generate multi-application and multilevel geological knowledge products; the retrieval of geological knowledge. This paper studied the construction method and technology of the geological domain ontology, studied on the model of the petroleum geology knowledge, and edited the petroleum geology ontology using Protégé. On the basis of the geological resources index with ontology, studied the semantic retrieval model based on petroleum geology ontology, and realized the knowledge retrieval system in petroleum geology field based on Lucene.
Knowledge service; Ontology; Petroleum geology; Semantic retrieval
B016
A
10.3969/j.issn.1003-6970.2017.11.020
本文著錄格式:閆東. 基于本體的石油地質領域知識服務系統研究[J]. 軟件,2017,38(11):101-106
閆東(1990-),女,中國航天空氣動力技術研究院,助理工程師,碩士研究生,研究方向:地址信息系統。