程玉娟 方俊偉 賴涵

摘 要 本體作為知識圖譜的核心內容,以圖結構的形式描述知識,隨著知識量的不斷擴大以及知識之間關聯性的增加,本體中概念之間的圖結構也越來越復雜,這給數據庫的存儲能力和表示能力帶來了很大的挑戰。圖數據庫具有天然的圖結構,可以很好地與本體的邏輯結構形成映射關系。本文從本體內容完整性的角度,對比分析了目前常見的9種圖數據庫本體存儲方法,實驗結果顯示目前的方法還無法滿足完整的本體內容導入。
關鍵詞 本體;圖數據庫;存儲
1 本體存儲相關研究
本體內容的導入需要考慮復雜的映射規則。實名類、實例、對象屬性關系、數據屬性關系是本體最核心、最基礎的內容,任何本體存儲方法都必須滿足這四者的存儲需求。在圖數據庫中存儲本體,研究者通常將實名類、實例映射為節點,對象屬性關系、數據屬性關系映射為邊[1-4],也有研究者將對象屬性關系映射為節點,然后通過定義域、值域邊來連接兩端的節點[5],對于多元函數關系我們需要一些特殊的處理方法,目前研究尚少;對于公理,它表示永真的語義信息,類公理、實例公理我們只需要通過公理邊連接頭尾實體[1,5],對于描述屬性關系之間語義信息的公理,一種方法是屬性關系作為邊的情況下,屬性公理映射為邊的屬性[6],另外一種是屬性關系作為節點的情況下,屬性公理作為邊連接兩個屬性關系節點[7];對于匿名類,它在描述公理時候產生,用于豐富實名類的信息,有的情況下可以直接忽略匿名類的存儲,需要存儲匿名類可以根據本體描述的需求生成匿名節點,以子圖的形式來存儲整個匿名節點的信息[8-9];對于規則,它用于擴展知識描述范圍,可以結合公理信息推理出新的概念之間關系[4]。
2 實驗與分析
本次實驗比較了9種圖數據庫本體存儲方法,具體是將本體按照這些方法分別存入到圖數據庫,從本題要素存儲完整性的角度對比和分析它們。這9種方法來自于文獻:[1-9]。
實驗中對本體操作的編程語言為java,實驗環境為:
(1)操作系統:ubuntu 16.04;
(2)CPU:Intel Core i5-7300HQ CPU 2.50GHz
(3)內存:8.00 GB
(4)圖數據庫:Neo4J 3.4.0
實驗結果:
本文將本體拆解為實體、關系、公理、規則四個方面討論存儲的完整性,其中,實體又分為實名類、匿名類、實例,關系分為對象屬性關系、數據屬性關系、函數關系;公理分為類公理、實例公理、屬性公理。表1展示了9種方法的本體各要素存儲情況。由其可知,目前的圖數據庫本體存儲方法,尚無法滿足完整的本體內容導入,特別是對于匿名類、多元函數以及規則的存儲實現。納入比較的9種方法種,graphDB[11]和stardog[12]在完整性方面是相對最好的,stardog支持除規則外的本體內容導入,graphDB基本可以滿足本體的完整導入。
在實驗中我們還發現,這兩種方法在匿名類的處理上,相對于本體,會生成更多的匿名節點,這些冗余信息事實上是可以避免的;對于多元函數的處理也不是很清晰;對于規則的處理,graphDB目前只能滿足基本的規則。
3 結論與展望
本文從本體內容完整性的角度,對比分析了常見的9種圖數據庫本體存儲方法。實驗表明,目前的方法還無法滿足完整的本體內容導入,特別是對于匿名類、多元函數以及規則的存儲實現。
在未來的研究中,我們會提出一種基于Neo4j來實現本體內容的完整存儲。該方法旨在利用圖數據庫中節點、邊來標識本體中的類、實例、關系和公理,利用節點、邊組合的子圖形式來標識匿名類、函數關系等內容,利用數據庫存儲過程實現本體的規則實現。通過本體到屬性圖模型的映射,在保證語義信息不丟失的情況下,減少冗余信息。
參考文獻
[1] 張慧,侯霞,李寧. 本體存儲方法研究[J].北京信息科技大學學報,2016,(3):59-63.
[2] 何向武. 大數據中RDF語義數據存儲優化探討[J].計算機應用與軟件,2015,(4):44-47,61.
[3] 項靈輝,顧進廣,吳鋼. 基于圖數據庫的RDF數據分布式存儲[J] .計算機應用與軟件,2014,44(11):148-156.
[4] 康杰華,羅章璇. 基于圖形數據庫Neo4j的RDF數據存儲研究[J].信息技術,2015,(6):115-117.
[5] 王紅,張青青,蔡偉偉,等. 基于Neo4j的領域本體存儲方法研究[J].計算機應用研究,2017,(8):2404-2407.
[6] Bouhali R , Laurent A . Exploiting RDF Open Data Using NoSQL Graph Databases [J]. AIAI, 2015,(9):179.
[7] Faming Gong,Yuhui MaID,Wenjuan Gong.Neo4j graph database realizes efficient storage performance of oilfield ontology[J]. PLoS ONE,2018,(9):123.
作者簡介
程玉娟(1990-),女,學歷:碩士,專任教師,現就職單位:武漢鐵路職業技術學院鐵道機車車輛學院,研究方向:軟件工程、需求工程、人工智能等。
方俊偉(1995-),學歷:碩士,現就職單位:武漢大學計算機學院,研究方向:知識圖譜、軟件工程等。
賴涵(1981-),男,學歷:博士,講師,現就職單位:重慶工商大學計算機科學與信息工程學院,研究方向:需求工程、云計算、軟件工程等。