史敏軍

摘 要:目前對本體語義關系挖掘映射系統都采用多種策略,這種方式對于權值的選取要較高,若權值選取不當,語義信息的利用就不夠充分,得出的映射結果就會大相徑庭。本文將主要針對語義挖掘的映射多策略及權值計算進行研究,設計一個本體映射原型系統,該系統將能實現本體映射語義關系挖掘的大部分功能,并得到語義映射的實驗結果,最后,將得到的實驗結果與先進的映射系統的結果進行相互比較,測試系統性能,從而驗證本系統的有效性。
關鍵詞:本體映射 權值 語義挖掘
中圖分類號:TP39 文獻標識碼:A 文章編號:1672-3791(2017)11(b)-0031-02
目前本體語義關系挖掘映射系統都采用多種策略[1],其候選映射集的檢索方法時間復雜度較高[2]而且得到的候選映射集容易得出錯誤結果,針對這些問題,本文設計了一種面向語義關系挖掘的本體映射系統,提出了一種全新的本體相關度候選映射集檢索方法。該方法首先通過對本體概念間的名稱相似度[3]進行比較,獲得初始的候選映射集,再利用相關度對其拓展,得出優化的候選映射集。提出了改進了的映射關系挖掘算法,尤其采用權值策略的自適應計算,削弱排除干擾信息,突出價值較高的一個語義信息。
1 系統目標與模塊設計
本文設計的系統稱之為“S-Mapping”語義挖掘映射子系統,通過本系統要實現高效率的候選映射集檢索,優化的候選映射集。本系統由以下幾個模塊組成。
(1)用戶操作模塊。
提供一種UI操作界面,可供用戶進行界面操作,可以很方便的輸入所需要進行驗證的映射本體,并能對最終結果進行輸出顯示。
(2)本體解析模塊。
該模塊能對本體的各種特征進行提取解析,針對檢驗本體映射所需要的各種特征值進行預處理,對不同格式的本體做標準化操作,為本體相似度運算以及映射對的最終確定做好初期準備。
(3)本體語義間關系挖掘模塊。
該模塊是對標準化本體主要用于進行挖掘候選語義關系,通過語義的初步挖掘,縮小需要比對的樣本范圍,減輕下一步的運算復雜度,并提高最終映射結果的精準性。
(4)映射結果輸出模塊。
采用優化的自適應映射算法,將得出的結果進行界面可視化輸出,為后續的查詢和檢索等提供參考服務。
(5)映射結果評價模塊。
為了檢驗映射系統的性能,需要對映射結果進行評價,能自動輸出評估的結果,根據這個評價結果,便于對系統進行改進。
2 系統實現
本系統選用Java作為編開發平臺,Java的與平臺無關性,便于系統的移植。系統還用了UML、Jena、Alignment等開發工具。系統采用了一種全新的本體相關度候選映射集檢索方法,提出了改進了的映射關系挖掘算法,尤其采用權值策略的自適應計算,削弱排除干擾信息,突出價值較高的一個語義信息。
為了克服傳統映射系統采用方法存在的缺點,本文結合本體的標題名稱和自身結構等信息為參考要素,確定映射關系候選集合,從而準確而且全面的找出不同的本體中的語義概念本文認為,當兩映射關系對的結構關系具有全相關性時,則可在映射關系候選集合中直接添加目標概念,這樣與該概念相近的周圍概念也將產生更大的加入映射候選集之中;當兩映射關系對完全無不相關性時,則可以直接丟棄該概念;除此之外,需要注意的是,目標概念是必須遵循名稱相似度和相關性衡量指標來加入映射關系候選集合的。
鑒于此,本文的核心思想是:對源本體和目標本體的概念進一系列預處理操作,如首字母縮寫處理、分詞操作、縮略語查找、排除同名異義以及詞干的抽取等,對于源本體中的任一概念X,經過相似性比較操作,在目標本體中找出與源本體名稱最相似的概念Y,然后以Y概念為錨點得到的初始候選概念映射集,然后再進行擴展,最終得到所需要的候選映射關系的集合。
本系統的關鍵程序代碼如下:
public StructrueMatcher(OntClass cls1,OntClass cls2,ExtendedVector structureMatchingResult(){
srccls=csl1;
tarcls=cls2;
this.structureMatchingResult=structureMatchingResult;
}
public boolean hasSameSuperClass(){
boolean flag=false;
OntClass[] spc1=superClassSet(srccls);
OntClass[] spc2=superClassSet(tarcls);
Outer;
for(int i=0;i<3;i++)
for(int j=0;j<3;j++)
if(spc1[i]!=null&&spc2[j]!=null){
MactchingUnitmu=new MatchingUnit(spc1[i].toString(),spc2[j].toString(),true);
if(structureMatchingResult.contains(mu))
flag=true;
break Outer;
}
}
}
return flag;
3 系統性能評估實驗
本系統的實驗以OAEI提供的標準測試數據集進行實驗[4],與2007年參加OM國際本體映射測試比賽的系統[5]在查全和查準方面進行比較。
從實驗結果表1分析可以看出,本系統進行語義搜索耗費的時間要優于傳統方法,系統性能較傳統方法有了一定的提升。系統參數均衡,在有些地方仍有提升的空間,如: 選映射集數目稍低,某些本體信息的處理結果還不夠理想等。
4 結語
本文針對語義挖掘的映射多策略及權值計算進行研究,設計一個本體映射原型系統,優化改進了本體映射策略,雖然部分處理的結果還不夠理想,還有提升的空間,但這對于今后開展的本體重用和集成等相關研究提供了基礎,同時也為不同本體概念間的查詢提供了技術支持。
參考文獻
[1] 王家琴,李仁發,李仲生,等.一種基于本體的概念語義相似度方法的研究[J].計算機工程,2007,11(33):201-203.
[2] 張芷維.基于語義的本體映射策略以其結合方式[D].中南大學,2008.
[3] 唐杰,梁邦勇,李涓子,等.語義Web中的本體自動映射. 計算機學報,2006,11(29):1956-1976.
[4] Jayant Madhavan Alon Y. Halevy. Composing mappings among data sources[J]. VLDB 2003: Proceedings of 29th International Conference on VeryLarge Data Bases, Los Altos, USA, 2003:572-583.
[5] 潘有能,劉朝霞.本體映射技術在關聯數據中的應用研究[J].情報科學,2015,33(1):54-56,62.endprint