何國英,高 煒
(1.云南師范大學經濟與管理學院,昆明 650500;2.云南師范大學信息學院,昆明 650500)
作為一種結構化存儲和表示數據的模型,本體近幾年來得到了廣泛的關注并應用于計算機科學的各個領域。作為一種模型和工具,隨著本體技術的不斷完善,它又從原先的計算機領域應用到生物醫學〔1〕、地理信息系統〔2〕、教育學〔3〕等其他學科領域。在具體工程應用中,用本體圖G=(V,E)來表示本體的概念層次結構,其中本體圖中的頂點集合V對應相關概念集合,邊集合E對應概念之間的關系集合。本體應用的本質概括起來可分為兩大類:本體相似度計算和本體映射。這兩種應用的實質問題都是本體圖頂點間的相似度計算。
隨著信息處理數據量的日趨龐大,學習算法被引入到本體相似度計算和本體映射中,并逐漸代替原有的啟發式算法。本體學習算法的本質是通過樣本的學習,得到最優函f:V →R。從而得到定義在頂點集V 上的實值得分函數f 將本體圖中每個頂點映射成對應實數,進而通過計算頂點對應實數間的差值的大小來判定兩頂點對應概念間的相似度。該技術的優點在于:由于本體圖被映射到了實直線,兩頂點的相似度變成了它們對應實數在實數軸上的距離,從而增加了直觀性。
文獻〔4〕將排序學習技術應用于在不同本體之間建立本體映射,得到f;文獻〔5〕將圖學習方法與本體圖的結構相融合,得到對應的本體算法;文獻〔6〕和〔7〕給出新的本體相似度計算方法,通過圖上的正則化模型的求解得到實值得分函數f,由此得到本體相似度計算和本體映射策略;文獻〔8〕將k-部排序和半監督算法相融合,提出k-部排序半監督學習算法,并應用于本體。文獻〔9〕和〔10〕對這些本體算法的收斂性進行了理論上的分析。
文獻〔11〕將傳統的回歸方法應用于本體相似度和本體映射并得到相應的算法,同時給出了一些算法的理論結果。該方法與眾不同之處在于它直接得到相似度函數f:V × V → R+? {0},即f 將每一對頂點映射成非負實數。在此基礎上,我們對文獻〔11〕的計算模型加以改進,運用特殊懲罰項對目標函數的光滑性加以控制。本文的組織結構如下:首先提出基于TCP 的新本體回歸模型;其次,得到基于TCP 學習模型的新本體相似度計算和本體映射算法;最后,將此算法應用于生物學“GO”本體和物理教育學本體,通過實驗數據的對比分析來說明本文所提算法的有效性。
對本體圖或多本體圖中部分頂點對給定標記yi∈R+?{0},樣本集可表示為S={(v1,,y1),…,(vn,,yn)}。學習的過程是通過樣本集S的學習得到相似度函數f:V×V →R+?{0}。設虧損函數由于無法預先得知樣本分布情況,因此通過如下經驗模型得到f〔11〕:

本文的主要貢獻體現在對算法(1)的改進,著眼于懲罰項λN(f)的討論。關于懲罰項的選擇,一般可選取融合懲罰項,其中函數h可選擇為Lq泛數,例如選擇L1-泛數后該懲罰項為
文獻〔12〕指出:在回歸經驗模型中使用Lasso懲罰可得到無偏參數估計。文獻〔13〕提出縮減Lasso懲罰(truncated Lasso penalty,簡稱TLP)如下:

其中參數τ 事先給定。本文將算法(1)的框架和縮減Lasso 懲罰項相融合,并采用L2-泛數來計算α,得到如下經驗模型:

算法(2)與算法(1)相比,改進之處在于使用了L2-泛數縮減Lasso 懲罰,使得算法理論上成立無偏參數估計,同時與一般Lasso懲罰相比簡化了模型,降低了計算量。
由以上分析我們得到基于TLP 經驗模型的本體算法,其整體描述如下。
算法A 基于TLP經驗模型的本體相似度計算算法
A1:對本體圖進行預處理。將本體圖中每個頂點的信息用一個向量表示。
A2:選取樣本集,計算標記從而得到S。
A3:通過模型(2)得到最優本體函數f。
A4:將實值得分函數f 作用于本體圖G 中的每個頂點對,得到頂點對應概念之間的相似度。
算法B 基于TLP經驗模型的本體映射算法
B1:對多本體圖進行預處理。設圖G1,G2,…,Gm分別對應本體 O1,O2,…,Om,令G=G1+G2+…+Gm。將G中每個頂點的相關信息用一個向量來表示。
B2:選取樣本集,計算標記從而得到S。
B3:通過模型(2)得到最優本體函數f。
B4:將實值得分函數f 作用于G 中來自不同本體間的頂點對,得到不同本體頂點對應概念之間的相似度。
B5:根據B4得到的相似度,選擇映射策略生成本體映射。
在這一節中,我們將通過兩個具體的實驗來分析新算法的有效性。對于平衡參數λ,可用cross validation 技術〔14〕來得到最優的λ。為了簡化計算,這里我們統一取γ=10-1。在兩個實驗中,第一個實驗本體頂點數量龐大,第二個實驗本體頂點數較少,因此τ的值分別取0.2 和0.5。在選擇了頂點對后,標記yi的值采用如下計算方法得到:

其中vi和分別表示頂點vi和對應的向量。
3.1 本體相似度實驗第一個實驗是采用生物GO本體O1(其數據來自http://www.geneontology.org,大致結構可參考圖1)來驗證算法A 的效率。實驗結果采用P@N〔15〕平均準確率來衡量。
另外,分別將本體回歸算法〔11〕、快速排序算法〔16〕和標準本體排序算法〔4〕作用于GO 本體。將這3種算法得到的P@N準確率與本文算法A得到的準確率進行比較,部分數據見表1。

表1 實驗1部分數據
由表1準確率對比可知,算法A對于GO本體的效率明顯高于本體回歸算法、快速排序算法和標準排序算法。
3.2 本體映射實驗本文的第二個實驗是采用下面兩個“物理教育”本體O2和O3(這2 個本體由文獻〔16〕構建)來驗證算法B的效率。

圖2 “物理教育”本體O2

圖3 “物理教育”本體O3
同樣地,分別將本體回歸算法、快速排序算法和標準本體排序算法作用于“物理教育”本體,將這3種算法得到的P@N準確率與本文算法B得到的準確率進行比較,部分數據見表2。

表2 實驗2部分數據
由表2 準確率對比可知,算法B 對于“物理教育”本體O2和O3間建立本體映射的效率明顯高于本體回歸算法、快速排序算法和標準排序算法。
本文利用對懲罰項的改進進而得到新的經驗計算模型,由此得到基于TLP經驗模型的本體相似度計算和本體映射算法。由于新模型采用了TLP作為懲罰項,使得算法在理論上具有參數無偏估計的特征,進而在一定程度上提高了效率。
〔1〕MORK P,BERNSTEIN P. Adapting a generic match algorithm to align ontologies of human anatomy〔C〕//20th International Conferrence on Data Engineering. 2004:787-790.
〔2〕FONSECA F,EGENHOFER M,DAVIS C,et al. Semantic Granularity in Ontology-Driven Geographic Information Systems〔J〕.AMAI Annals of Mathematics and Artificial Intelligence- Special Issue on Spatial and Temporal Granularity,2002,36(1-2):121-151.
〔3〕BOUZEGHOUB A,ELBYED A. Ontology mapping for web-based educational systems interoperability〔J〕. Interoperability in Business Information Systems,2006,1(1):73-84.
〔4〕高煒,蘭美輝.基于排序學習方法的本體映射算法〔J〕.微電子學與計算機,2011,28(9):59-61.
〔5〕高煒,梁立,張云港.基于圖學習的本體概念相似度計算〔J〕.西南師范大學學報:自然科學版,2011,36(4):64-67.
〔6〕高煒,梁立.基于超圖正則化模型的本體概念相似度計算〔J〕.微電子學與計算機,2011,28(5):15-17.
〔7〕高煒,朱林立,梁立. 基于圖正則化模型的本體映射算法〔J〕.西南大學學報:自然科學版,2012,34(3):118-121.
〔8〕高煒,梁立,徐天偉,等.半監督k-部排序算法及在本體中的應用〔J〕. 中北大學學報:自然科學版,2013,34(2):140-146.
〔9〕高煒,張云港,梁立.Cs相似度函數下正則譜聚類的收斂階〔J〕. 蘭州大學學報:自然科學版,2011,47(2):109-111.
〔10〕高煒,周定軒.與一般相似度函數相關的譜聚類的收斂性〔J〕.中國科學:數學,2012,42(10):985-994.
〔11〕GAO Y,GAO W.Ontology similarity measure and ontology mapping via learning optimization similarity function〔J〕. International Journal of Machine Learning and Computing,2012,2(2):107-112.
〔12〕FAN J,LI R. Variable selection via nonconcave penalized likelihood and it oracle properties〔J〕. JASA,2001(96):1348-1360.
〔13〕SHEN X,PAN W,ZHU Y. Likelihood-based selection and sharp parameter estimation〔J〕. JASA,2012(107):223-232.
〔14〕CAPONNETTO A,YAO Y. Cross validation based adaptation for regularization operators in learning theory〔J〕.Anal Appl,2010(8):161-183.
〔15〕CRASWELL N,HAWKING D. Overview of the TREC 2003 web track〔C〕//Proceedings of the Twelfth Text Retrieval Conference.2003:78-92.
〔16〕HUANG X,XU T,GAO W,et al. Ontology Similarity Measure and Ontology Mapping Via Fast Ranking Method〔J〕.International Journal of Applied Physics and Mathematics,2011,1(1):54-59.