摘要:傳統的匹配系統采用固定分塊的方式處理大規模解剖學本體,普遍存在語義信息的丟失,影響了匹配效果。為此,提出一種動態分塊調節機制,將按匹配情況確定的實體不斷地重新分配到目標塊中,動態地調節各個分塊,從而盡可能地保留語義完整性。此外,針對該問題計算復雜度高的特點,引入了緊湊進化算法對子匹配任務中的閾值以及進行實體重新分配的塊標志位優化,并設計了一種精英解參與的概率向量更新方式對該算法進行改進。實驗在OAEI(ontology alignment evaluation initiative) 的Anatomy測試集上進行,驗證了所提方法對匹配結果質量的提升。此外,和其他匹配系統的對比也展示了所構建匹配系統的先進性。
關鍵詞:大規模解剖學本體;本體匹配;動態分塊調節;緊湊進化算法
中圖分類號:TP301.6文獻標志碼:A
文章編號:1001-3695(2023)01-022-0136-05
doi:10.19734/j.issn.1001-3695.2022.05.0280
Large scale anatomical ontology matching under dynamic partition adjustment
Lyu Qing,Zhou Xin,Li Fenglian
(College of Electrical amp; Power Engineering,Taiyuan University of Technology,Taiyuan 030024,China)
Abstract:Traditional matching systems adopt fixed partitioning methods,which easily lead to the lost of semantic information,to match the large scale anatomical ontologies.In order to preserve the semantic information as completely as possible and improve the quality of matching results,this paper developed a dynamic partition adjustment mechanism.It adjusted the divided blocks dynamically by continuously redistributing the determined entities to the target blocks.In view of the high computation complexity of this matching model,this paper proposed an improved compact evolutionary algorithm to optimize the thresholds of sub-matching tasks and the block flags for redistribution.Experiments on the Anatomy test set of OAEI verify that the dynamic partition adjustment mechanism and improved compact evolutionary algorithm can enhance the alignment quality of matching system.Furthermore,a comparison with other matching systems demonstrates the advance of the proposed system.
Key words:large scale anatomical ontology;ontology matching;partition adjustment;compact evolutionary algorithm
0引言
本體ontology是語義網以及知識圖譜中一個重要的概念,對于知識的表示與共享起到了關鍵的作用[1]。近年來,隨著語義網和知識圖譜的構建及應用技術的發展,各行各業中涌現出了大量的本體。而本體構建者的分布性和主觀性往往會導致所謂的本體異構[2],這種現象嚴重影響了本體間的互操作性,由此引發的本體匹配[3]問題成為了該領域中的一個研究熱點。本體匹配旨在獲取不同本體中實體間的對應關系,通常要通過相似度的計算來衡量實體間對應關系的強弱,然后經過一系列提取和過濾的過程得到最終的匹配結果。基于上述的方式,國內外的學者和機構開發出了一些匹配系統,并且取得了不錯的匹配結果。然而,隨著本體在生命科學領域的應用,出現了一些實體規模上千的大規模本體large scale ontology[4],例如大規模解剖學本體FMA(foundational model of anatomy)和MA(adult mouse anatomy)。對于此類本體的匹配問題,傳統方法難以在較短的時間和有限的內存消耗之內獲得高質量的匹配對。針對這個問題,一些可伸縮性技術被引入到了本體匹配系統中來增強對大規模匹配問題的支持,其中最為典型的就是分而治之的策略[4],即將一個大規模的匹配任務分為若干個規模適當的子匹配任務,然后逐一解決子任務,最后整合每個子任務的匹配結果得到整體的匹配結果。
COMA++[5]是基于分塊的大規模本體匹配系統,它分別將兩個待匹配的大規模本體劃分為多個片段,然后比較劃分好的片段集合,找到兩個本體之間最相似的片段作為直接匹配的子任務。Falcon-AO[6]也使用了基于分塊的方式,但與COMA++不同,它使用了基于本體結構信息的聚類算法將本體劃分為相對較小、彼此不相關的塊,提升了匹配結果的質量。SeeCOnt[7]提出了一種基于種子的聚類方法來劃分本體,它通過度量實體的中心度選出種子作為聚類的中心,相比于其他本體分塊的方式,降低了聚類的計算復雜度,提升了匹配的效率。陳恒等人[8]使用了一種改進的rock聚類算法將本體劃分為若干高內聚低耦合的塊,然后根據Tversky模型計算塊之間的匹配度,最后進行匹配塊中的實體間的匹配。以上匹配系統或方法的匹配結果質量都十分依賴于分塊或聚類算法的性能,但是由于大規模本體結構復雜且異構性強,分塊過程中普遍存在語義信息丟失的問題,而這又會導致子任務中正確匹配對的缺失,最終會影響匹配結果的質量。
針對傳統基于分治策略的匹配系統的不足之處,本文構建了新的大規模解剖學本體匹配框架。該框架基于分塊調節機制對初次劃分后的本體分塊進行動態調節,并通過一種改進型緊湊進化算法ICEA(improved compact evolutionary algorithm)對子任務匹配以及實體再分配的相關參數進行優化,最終提升了匹配結果的質量。
1匹配框架
不同于傳統固定分塊匹配模式,本文構建的基于動態分塊調節機制的大規模解剖學本體匹配框架如圖1所示。
首先,經過解析和預處理將待匹配的兩個本體表示為有向圖O1和O2的形式,其中的節點是本體中的各個實體,它們具有各自的文本信息,例如ID和label,邊表示節點之間的關系,例如is_of以及part_of 的關系;然后,使用基于中心概念的聚類方法對兩個本體分別進行分塊,得到兩個本體塊的集合S1和S2;接下來通過計算S1和S2中塊之間的相關度進行塊的匹配,得到n組匹配上的對應塊組合作為劃分出的n個子任務T1~Tn;最后分別匹配各個子任務,得到n個子匹配結果后,將所有結果集成并評價總的匹配結果。通過改進型緊湊進化算法對本體的分塊調節以及匹配的過程進行優化,如果未達到終止條件,就對分塊進行調節,然后提取各個子任務中的匹配對再次進行集成與評價。如果達到終止條件,就輸出最終的匹配結果。
2動態分塊調節機制
邊緣語義信息的丟失是大規模本體分塊固有的問題[9],此外,分塊后子任務的確定,即塊的匹配也存在相關度計算標準不確定帶來的匹配任務不唯一的問題[7]。針對上述問題,本文提出一種分塊調節機制,通過再分配部分未匹配實體以及相似度較低的實體對,對本體的分塊進行動態調整。本體分塊的調整可以在一定程度上彌補語義丟失導致的正確匹配對的缺失,提升最終匹配結果的質量。
2.1本體分塊
本體的分塊本質上是有向圖的聚類,由于大規模解剖學本體有向圖中的節點數量巨大,使用傳統的層次聚類法[10]的計算復雜度較大,時間消耗較多。本文提出了一種基于中心概念的本體分塊算法,具體步驟如算法1所示。
算法1基于中心概念的本體分塊算法
輸入:待劃分的本體O。
輸出:塊的集合BSet。
a)初始化:
本體O中k個實體的集合eSet={e1,e2,…,ek},分塊的個數n,n個塊B1~Bn都初始化為{},塊的集合BSet={B1,B2,…,Bn}。
b)實體中心度計算:
按式(1)計算所有實體的中心度,并將eSet中所有實體按中心度降序排列。
c)選取n個中心概念放入n個塊中:
首先將eSet中第1個實體作為第1個中心概念放入B1中,隨后從eSet中刪除這個實體;
然后進行n-1次循環:按式(2)計算當前eSet中第1和2個實體的考慮分布情況的中心度cd1和cd2,如果cd1>cd2,則將第1個實體作為第2個中心概念放入B2中,隨后從eSet中刪除這個實體,反之則將第2個實體放入并刪除。重復這個過程直到選出剩下的n-1個中心概念,結束循環。
d)將與中心概念具有直接is_of關系的實體分配到各個塊中:
從第1個塊開始,將當前eSet中和中心概念具有直接is_of關系的實體放入對應的塊中,隨后從當前eSet中刪除這些實體,再對剩下的塊進行同樣的操作。
e)將剩余的實體分配到各個塊中:
根據式(3)依次計算剩余的每個實體和各個中心概念的相關度,將各個實體放入與之相關度最高的塊中。
為了快速地獲取中心概念作為后續分塊的聚類中心,定義實體的中心度cen(e),度量方法如式(1)所示。
cen(e)=|is_of_entities(e)|+|part_of_entities(e)|(1)
其中:is_of_entities(e)和part_of_entities(e)分別代表和實體e有父類或子類關系的實體和有整體或部分關系的實體的集合。
如果簡單地根據中心度的大小決定中心概念的選取,就會忽視本體有向圖中節點的分布,導致中心概念的分布不均勻。為了避免這種情況,如式(2)所示,在度量實體中心度的時候考慮實體的分布情況。
cd(e)=cen(e)×∑ncj=1dis(e,cej)nc(2)
其中:nc為當前已確定的中心概念個數;cej為第j個中心概念;dis(e,cej)為實體e與中心概念cej之間的距離。
實體與中心概念的相關度計算方式如式(3)所示。
rel(e,ce)=|neighe∩neighce||neighe∪neighce|+2×depthsedepthe+depthce2(3)
其中:neighe和neighce代表實體e和ce的全部鄰居節點;depthe、depthce和depthse表示實體e、ce以及兩個實體e和ce的最近公共節點se的深度。
基于中心概念的本體分塊由于需要對k個實體按中心度大小排序,并且后續需要選取中心概念以及分配剩余實體,所以在最差的情況下的時間復雜度為O(k2+n+n)≈O(k2)。而基于層次聚類的分塊方式的時間復雜度可以達到O(k3)[10,11],因此本文分塊算法可以有效地降低大規模本體分治過程的時間消耗。
2.2塊匹配
子任務的確定需要度量塊與塊之間的相似程度,計算方法如式(4)所示。使用兩個塊的中心概念的相似度衡量塊的相似程度,其中ceB1和ceB2為兩個塊的中心概念,它們的相似度計算如式(5)所示。
bsim(B1,B2)=esim(ceB1,ceB2)(4)
esim(e1,e2)=∑|WS1|i=1maxj=1…|WS2|{sim(w1i,w2j)}+
∑|WS2|j=1maxi=1…|WS1|{sim(w2j,w1i)}|WS1|+|WS2|(5)
其中:WS1和WS2表示實體e1和e2的label經過去除停用詞和切割得到的單詞集合;w1i和w2j分別表示WS1和WS2集合中的第i和j個單詞;sim(w1,w2)為兩個單詞的相似度,如果兩個詞在WordNet詞典[12]中為同義詞,則為1,否則為SMOA(w1,w2)[13]。
2.3匹配子任務
子任務的匹配采用抽取加過濾的方式,匹配算法的偽代碼如算法2所示。
算法2子任務匹配算法
輸入:待匹配的子任務集合{T1,T2,…,Tn}。
輸出:子任務匹配結果的集合A。
a)初始化:
每個子任務的匹配結果A1~An,都為{},匹配結果的集合A={A1,A2,…,An},每個子任務的閾值集合ThSet={Th1,Th2,…,Thn},每個閾值都為0~1的實數。
b)計算實體相似度矩陣:
按式(5)計算每個子任務中兩個塊中實體的相似性,將相似度存儲在n個相似度矩陣中,每個矩陣的行列數為對應子任務中兩個塊的實體個數。
c)抽取匹配對:
比較相似度矩陣中最大的相似度和該子任務對應的閾值,若大于閾值,則將該相似度對應的兩個實體的ID作為匹配上的實體對存入匹配結果Ai中,然后將這兩個實體在相似度矩陣中對應的行和列刪除,對該矩陣繼續進行上述操作。若小于閾值,則該矩陣停止抽取。對每個相似度矩陣依次執行抽取的操作,將抽取到的匹配對存入對應的匹配結果Ai中。
基于分治的匹配方法將大規模本體匹配任務分為n個子匹配任務,然后并行匹配子任務。若待匹配的兩個本體的實體規模分別為k1和k2,則匹配所有子任務的時間復雜度為O((k1·k2/n)2),空間復雜度為O(k1·k2/n)。
2.4集成和評價匹配結果
集成匹配結果即將所有子任務的匹配結果集成為一個總的匹配結果,并且保留每個匹配對的相似度值,然后根據式(6)評價匹配結果。
eval_metric=2×∑|Align|i=1sim(pi)|Align|×|Align|min(|O1|,|O2|)∑|Align|i=1sim(pi)|Align|+|Align|min(|O1|,|O2|)=
2×∑|Align|i=1sim(pi)×|Align|∑|Align|i=1sim(pi)×min(|O1|,|O2|)+|Align|2(6)
其中:|O1|和|O2|表示待匹配的兩個本體中實體的數量;|Align|表示總的匹配結果的數量;sim(Pi)表示匹配對Pi的相似度。
2.5動態分塊調節
根據上述分塊和匹配的結果,將未匹配上的實體以及被過濾掉的實體對分配到各自相關度第二高的塊中,然后重新對各個子任務進行匹配對的抽取和過濾。在循環對分塊進行調節的過程中,需要確定哪些實體需要被重新分配,即確定每次子任務匹配所需的閾值。此外,子任務中未匹配上的實體以及低于閾值的實體對并不一定要重新分配,根據每次匹配結果情況的不同,可以設置各個塊對應的標志位,從而有選擇地讓部分子任務中的塊參與重新分配。上述的優化過程將在第3章詳細介紹。
3基于改進型緊湊進化算法的分塊調節優化
在分塊調節的過程中,每個子任務中的塊是否進行實體的重新分配以及哪些實體需要分配都是無法通過人工方式手動解決的問題,而進化算法EA(evolutionary algorithm)[14]廣泛地應用于處理數值優化問題,因此可以將這個問題建模為數值優化問題并通過EA來解決。相比于傳統的EA,緊湊進化算法CEA(compact evolutionary algorithm)[15]使用一個變化的概率向量來模擬種群的進化,不需要對整個種群進行迭代的操作。對于評價昂貴的大規模解剖學本體匹配優化問題,由于每一代個體評價次數的銳減,優化過程的時間消耗必然大幅下降;此外,由特定規模的個體組成的種群被一個概率向量取代,所以算法的內存占用也會降低。常規的CEA在迭代過程中僅根據按概率產生的若干個體更新概率向量,而沒有考慮每一代的精英解對概率向量的影響,因此本文提出一種改進型緊湊進化算法ICEA對大規模本體分塊調節的過程進行優化。
3.1優化模型
本文提出的分塊調節優化模型如下:
max eval_metric(j11,j21,th1,…,j1k,j2k,thk,…,j1n,j2n,thn)
s.t.j1k,j2k∈{0,1},thk∈[0,1](7)
其中:目標函數為2.4節中給出的匹配結果的評價指標,通過對每個匹配子任務中設定的閾值以及判斷是否進行實體重新分配塊的標志位進行優化,使匹配結果的評價指標達到最優;thk表示第k個子任務的閾值,為0~1的實數;j1k用來判斷第k個子任務中屬于O1的實體是否需要重新分配;j2k則是用來判斷屬于O2的實體是否需要重新分配,兩者取值均為1或0。如果為1,則將該子任務中未匹配上以及低于閾值的實體重新分配到對應本體相關度第二高的塊中;為0則依舊保留在原本的塊中。
3.2編碼機制
本文采用二進制編碼,編碼方式如圖2所示。其中j1k和j2k都是1位二進制數,而thk為m位二進制數,m由所需閾值的精度決定。n為匹配子任務的個數,編碼的總長度為n×(m+2)。
3.3改進型緊湊進化算法ICEA
CEA在每一代都可以根據概率向量生成一定數量的個體,通過這些個體之間的比較,可以對概率向量進行更新,從而模擬整個種群的進化。傳統的CEA每一代僅比較根據概率向量生成的兩個個體,并將概率向量收斂后生成的唯一個體作為最終的解。后續的一些改進型CEA[16~18]加入了精英解保留策略,雖然避免了最優解的丟失,但是并未將歷史最優解的信息用于概率向量的更新過程中,對最終結果質量的提升效果是不穩定的。而其他改進策略的引入往往會增加算法的時間和內存消耗,不適用于大規模本體匹配問題。因此,本文提出一種改進型緊湊進化算法ICEA,設計了加入精英解的概率向量更新方式,將精英策略和個體的比較過程結合起來,在保留精英解的同時充分利用了其信息來進行概率向量的更新。算法流程如下所示。
算法3改進型緊湊進化算法ICEA
a)初始化:
編碼的長度l,根據所需閾值的精度和子任務的個數得到。種群規模N,則1/N就為概率向量更新的步長。初始解S0是長度為l的二進制一維數組,并作為初始的精英解ES。初始概率向量pv,長度為l,每一位都為0.5。
b)根據pv向量生成兩個新的個體S1和S2:
pv向量的每一位都是個體在該位置上為1的概率,根據每一位上的概率生成對應位置上的二進制數。
c)進行解的比較:
求出S1、S2和此時的精英解ES的適應度值,即根據對應解得到的匹配結果的評價指標。然后比較三個適應度值的大小,按適應度值從小到大將三個解排列,精英解更新為適應度最大的解。
d)進行概率向量的更新:
按表1中的規則,根據每一個位置上的三個解的二進制數排列情況,對每個位置上的概率進行更新。pv的變化是[0,1]。
e)判別是否收斂:
如果概率向量都為0或1,則算法收斂,輸出此時的精英解以及對應的適應度值;否則回到步驟b)再次執行。
精英解參與的概率向量更新規則如表1所示。其中排列情況是指根據概率向量產生的兩個解和上一代精英解按適應度值從小到大排列之后,每一個位置三個解對應的二進制數的排列情況。更新值為該位置上對應的概率向量變化值,不同的排列情況對應不同的更新值。根據概率向量產生的兩個解具有隨機性,有助于算法的全局搜索,而精英解的引入細化了概率向量的更新,用歷史最優解的信息指引了概率向量的進化方向,有助于算法的局部搜索。
ICEA的時間復雜度為O(l+l+1)≈O(l),空間復雜度為O(l· log N),其中l為編碼長度,N為種群的規模。而EA的時間復雜度為O(N2),空間復雜度為O(N·l),ICEA的時空復雜度都顯著降低。相比于CEA,由于ICEA保留了精英解并且讓其參與了個體的排序和概率向量的更新,雖然時空復雜度一致,但是實際的時間和內存消耗會有小幅度的增加,在后續的實驗中對此進行了驗證。
4實驗結果及分析
OAEI(ontology alignment evaluation initiative)[19]是國際上公認的本體匹配領域的測試與評價平臺。OAEI致力于比較各種匹配系統和技術的性能,通過提供測試數據集并給出評價指標,最終幫助本體匹配工作取得進步。實驗選用OAEI中的Anatomy作為測試數據集,匹配兩個大規模解剖學本體HA(human anatomy)和MA(mouse anatomy)。其中HA是人類解剖學本體,包含3 304個實體,而MA是老鼠解剖學本體,包含2 744個實體。匹配結果的質量評價指標為OAEI采用的查全率recall、查準率precision和F度量值F-measure。
4.1分塊個數n的實驗測定
分塊個數會影響大規模本體匹配的質量和效率,理論上來說,分塊個數越多,需要進行的相似度計算次數就越少,算法的迭代速度就越快,同時每一代的內存消耗也越少。但是,分塊個數的增加意味著確定匹配子任務的難度隨之增加,而每個塊中包含信息量的減少也可能導致子任務中正確匹配對覆蓋的比率減小。考慮測試集本體的規模,實驗按間隔為10,分塊個數為30~200的情況進行了測試。由于F-measure是recall和precision的調和平均值,可以綜合反映匹配結果的查全率和查準率,所以本實驗統計分塊個數不同時F-measure值的情況,實驗結果如圖3所示。
從圖3可以看出,隨著分塊個數的增加,匹配結果的質量并沒有一直下降,而是在0.6~0.85波動。由于本文采用了動態分塊調節的方式,可以在后續的迭代過程中對分塊情況進行優化,所以對分塊個數較大的情況也可以得到較好甚至更好的匹配質量。當分塊個數為110的時候,匹配結果的質量最優,因此在后續的實驗中將分塊個數n設為110。
4.2匹配時間和內存消耗對比
大規模本體匹配的時間和內存消耗與匹配的方式,所用的算法都有密切的關系。本實驗在分塊個數相同的情況下,對比使用傳統的進化算法EA、緊湊進化算法CEA和改進的緊湊進化算法ICEA的時間和內存消耗,對比結果如表2所示。為了保證比較的公平性和數據的可參考性,參與對比的算法均在CPU為Inter Xeon E5-2678 v3@ 2.5 GHz×24,RAM為16 GB,操作系統為Windows 10的PC上進行,編程語言都為Java 11.0.14。
表2中,時間后括號內的數字為收斂的代數,其中EA的代數是根據經驗人為設定的最大迭代次數。從表2中可以看出,無論是每次迭代的平均耗時,還是匹配的全部用時,兩種緊湊進化算法的時間消耗都遠小于傳統的進化算法。其中ICEA迭代一次平均消耗的時間高于CEA,這主要是由算法在概率向量更新過程中個體適應度比較時間增多導致的。但是由于精英解參與了每一代概率向量的更新,強化了算法的局部搜索能力,ICEA收斂所需的代數減少,相較于CEA,ICEA的整體匹配用時縮短。在內存消耗方面,相較于EA,由于概率向量的應用代替了傳統的種群,CEA和ICEA的內存占用都大幅降低。ICEA引入了精英策略,內存消耗略高于CEA。考慮到整體的時間消耗減少以及最終匹配質量的提升,這種程度的內存消耗增加是可以接受的。
4.3匹配結果質量對比
為了驗證本文基于分塊調節和ICEA的大規模本體匹配系統對匹配結果質量的提升,本節首先將基于ICEA和CEA的匹配系統進行匹配結果質量的統計學比較,然后對比基于分塊調節和基于固定分塊方式的匹配系統,最后比較本文提出的匹配系統和其他幾種匹配系統的匹配結果。
前兩個實驗分別用來驗證算法的改進和分塊調節方式對匹配結果質量的提升,采用兩兩對比的方式。其中算法的統計學比較首先通過t檢驗來衡量不同算法的差異,如果實驗得到的t值處于拒絕域中,則t檢驗的原假設不成立,即兩種算法存在差異,然后通過比較兩者的平均值確定表現更優的一者。表3、4所示分別是CEA和ICEA以及分塊調節和固定分塊方式的匹配結果的recall、precision和F-measure,其中固定分塊方式的匹配結果確定,只需運行一次,其他三組則為運行30次計算獲得的平均值和標準差。通過表3的統計數據可以計算得出兩種算法的recall的t值為9.80,precision的t值為1.52,F-measure的t值為4.56。在顯著性水平為0.05時,拒絕域為|t|≥2.045,recall和F-measure的t值處于拒絕域中,從統計學的意義上說明使用兩種算法得到的匹配結果的查全率和F度量值有明顯的差異,而查準率沒有顯著差異。比較recall和F-measure的平均值可以看出,ICEA提升了匹配結果的查全率,即找到了更多正確的匹配對,在查準率變化不大的前提下,提升了匹配結果的F-measure。從表4中兩種分塊方式的對比可以看出,相比于傳統的固定分塊方式,分塊調節的方式在查全率、查準率和F度量值三個指標上都有顯著的提升,這說明通過分塊的動態調節,更多不正確的匹配對通過不斷優化的閾值被過濾,同時由于實體的重新分配,子任務中相似實體對的覆蓋程度也得到了提升。
圖4所示的是本文與其他幾種大規模本體匹配系統的匹配結果對比,其中文獻[8,20,21]、SeeCOnt與Falcon-AO都采用了分塊的匹配方式。LOM-Hybrid[9]是基于reduction anchors,采用一種化簡的方式進行大規模本體的匹配。SANOM[22]采用模擬退火算法和隨機預熱初始化的方式優化本體匹配模型。DAEOM[23]則提出一種稱為深度注意嵌入式本體匹配框架,并引入了最終對齊閾值的自動調整方案來改善匹配結果的質量。此外,MLN-OM[24]、KEPLER[25]以及WikiV3[26]都是近幾年來提出的可以解決大規模解剖學本體匹配的系統。
從圖4中可以看出,在全部12個匹配系統中,本文匹配結果的綜合評價指標F-measure排在第4位,recall和precision分別排名第3和第8。進一步分析,在基于分塊方式的系統中F-measure值僅低于SeeCOnt,recall和precision值排名第2和第5。根據文獻[7],SeeCOnt在子任務的匹配環節使用了Falcon[27]匹配系統,而Falcon集成了兩個強大的匹配系統GMO[28]和V-Doc[29],分別從語言學和結構的角度計算相似度,然后使用啟發性的策略來集成兩者的相似度,從而確定匹配結果。考慮到這個過程的復雜性,本文的子任務匹配采用了簡單的相似度矩陣計算和匹配對抽取的方式,并且最終得到了f度量值較為接近的匹配結果。除SeeCOnt之外,相比于其他匹配系統,本文結果的查全率有較大的優勢,這說明分塊調節的機制使系統找到了更多正確的匹配對。而precision值的微小差距則體現出這種機制會難以避免地將一些錯誤的匹配對放入匹配結果中,造成查準率的相對下降。和基于其他方式的先進匹配系統相比,本文匹配結果的質量也很有競爭力。
5結束語
針對傳統大規模解剖學本體匹配過程中由于分塊固定產生的語義丟失現象進而導致的匹配結果質量不佳的問題,本文提出了一種基于動態分塊調節的大規模匹配框架,然后通過一種改進的緊湊進化算法對分塊調節的過程進行優化。最后的實驗證明,相比于固定分塊方式以及傳統的緊湊進化算法,本文動態分塊調節策略以及改進型緊湊進化算法可以提升匹配結果的質量。另外,相比于其他的幾種大規模本體匹配系統,本文方法對匹配大規模的解剖學本體也有優異的表現。在未來的工作中,希望可以繼續對分塊調整的方式、優化算法的性能進行改進和提升,對匹配框架的適用性和可移植性進行進一步的驗證與探討。
參考文獻:
[1]Khadir A C,Aliane H,Guessoum A.Ontology learning:grand tour and challenges[J].Computer Science Review,2021,39:100339.
[2]Otero-Cerdeira L,Rodríguez-Martínez F J,Gómez-Rodríguez A.Onto-logy matching:a literature review[J].Expert Systems with Appli-cations,2015,42(2):949-971.
[3]Liu Xiulei,Tong Qiang,Liu Xuhong,et al.Ontology matching:state of the art,future challenges,and thinking based on utilized information[J].IEEE Access,2021,9:91235-91243.
[4]Ochieng P,Kyanda S.Large-scale ontology matching:state-of-the-art analysis[J].ACM Computing Surveys,2018,51(4):1-35.
[5]Aumueller D,Do H H,Massmann S,et al.Schema and ontology matching with COMA++[C]//Proc of ACM SIGMOD International Conference on Management of Data.2005:906-908.
[6]Hu Wei,Qu Yuzhong.Falcon-AO:a practical ontology matching system[J].Journal of Web Semantics,2008,6(3):237-239.
[7]Algergawy A,Babalou S,Kargar M J,et al.SeeCOnt:a new seeding-based clustering approach for ontology matching[C]//Proc of East European Conference on Advances in Databases and Information Systems.Cham:Springer,2015:245-258.
[8]陳恒,李冠宇,陳鑫影.模塊化思想在大規模本體匹配中的應用[J].計算機工程與應用,2017,53(8):149-153.(Chen Heng,Li Guanyu,Chen Xinying.Modular thinking’s application in large scale ontology matching[J].Computer Engineering and Applications,2017,53(8):149-153.)
[9]Wang Peng,Zhou Yuming,Xu Baowen.Matching large ontologies based on reduction anchors[C]//Proc of the 22nd International Joint Conference on Artificial Intelligence.2011:2343-2348.
[10]李凱,王蘭.層次聚類的簇集成方法研究[J].計算機工程與應用,2010,46(27):120-123.(Li Kai,Wang Lan.Research on cluster ensembles methods based on hierarchical clustering[J].Compu-ter Engineering and Application,2010,46(27):120-123.)
[11]Schubert E,Sander J,Ester M,et al.DBSCAN revisited,revisited:why and how you should(still) use DBSCAN[J].ACM Trans on DataBase Systems,2017,42(3):article No.19.
[12]Gherbi S,Khadir M T.ONTMAT1:ontology matching using a reasoner and property restriction[J].International Journal of Web Engineering and Technology,2020,15(2):119-139.
[13]Xue Xingsi,Yao Xin.Interactive ontology matching based on partial reference alignment[J].Applied Soft Computing,2018,72:355-370.
[14]Ferranti N,Soares S S R F,De Souza J F.Metaheuristics-based ontology meta-matching approaches[J].Expert Systems with Applications,2021,173:114578.
[15]Xue Xingsi,Liu Jianhua.Collaborative ontology matching based on compact interactive evolutionary algorithm[J].Knowledge-Based Systems,2017,137:94-103.
[16]申元霞,曾傳華,張翠芳.一種自適應緊湊遺傳算法及其仿真研究[J].系統仿真學報,2008(5):1167-1169.(Sheng Yuanxia,Zeng Chuanhua,Zhang Cuifang.Adaptive compact genetic algorithm and simu-lation[J].Journal of System Simulation,2008(5):1167-1169.)
[17]李碧,林土勝,廖亮.基于變異的緊湊遺傳算法[J].計算機工程,2008,34(4):207-208.(Li Bi,Lin Tusheng,Liao Liang.Compact genetic algorithms based on mutation[J].Computer Engineering,2008,34(4):207-208.)
[18]Jiang Chao,Xue Xingsi.A uniform compact genetic algorithm for matching bibliographic ontologies[J].Applied Intelligence,2021,51(10):7517-7532.
[19]Ontology Alignment Evaluation Initiative.Home page of ontology alignment evaluation initiative[EB/OL].(2022-07-08).http://oaei.ontologymatching.org.
[20]Algergawy A,Massmann S,Rahm E.A clustering-based approach for large-scale ontology matching[C]//Proc of East European Conference on Advances in Databases and Information Systems.Berlin:Springer,2011:415-428.
[21]Saruladha K,Aghila G,Sathiya B.A partitioning algorithm for large scale ontologies[C]//Proc of International Conference on Recent Trends in Information Technology.2012:526-530.
[22]Mohammadi M,Hofman W,Tan Yaohua.Simulated annealing-based ontology matching[J].ACM Trans on Management Information Systems,2019,10(1):article No.3.
[23]Wu Jifang,Lyu Jianghua,Guo Haoming,et al.DAEOM:a deep attentional embedding approach for biomedical ontology matching[J].Applied Sciences,2020,10(21):7909.
[24]Li Chunhua,Zhao Pengpeng,Wu Jian,et al.Anatomy ontology ma-tching using Markov logic networks[J].Scientifica,2016,2016:1010946.
[25]Kachroudi M,Diallo G,Yahia S B.KEPLER at OAEI 2018[C]//Proc of the 13th International Workshop on Ontology Matching Co-Located with the 17th International Semantic Web Conference.2018:173-178.
[26]Hertling S.WikiV3 results for OAEI 2017[C]//Proc of the 12th International Workshop on Ontology Matching.2017:198-200.
[27]Hu Wei,Qu Yuzhong,Cheng Gong.Matching large ontologies:a divide-and-conquer approach[J].Data amp; Knowledge Engineering,2008,67(1):140-160.
[28]Hu Wei,Jian Ningsheng,Qu Yuzhong,et al.GMO:a graph matching for ontologies[C]//Proc of K-CAP Workshop on Integrating Ontologies.2005:41-48.
[29]Zhang Hang,Hu Wei,Qu Yuzhong.Constructing virtual documents for ontology matching using MapReduce[C]//Proc of Joint International Semantic Technology Conference.Berlin:Springer,2011:48-63.
收稿日期:2022-05-31;修回日期:2022-07-22基金項目:國家自然科學基金資助項目(62171307)
作者簡介:呂青(1975-),女,山西運城人,副教授,碩導,博士,主要研究方向為本體匹配、知識圖譜、自然語言理解、計算機視覺等;周欣(1995-),男(通信作者),山西忻州人,碩士研究生,主要研究方向為本體匹配、智能優化算法(hequzhouxin@163.com);李鳳蓮(1972-),女,山西運城人,教授,碩導,博士,主要研究方向為基于強化學習的數據分析、非平衡數據集分析及應用、醫學信號處理及其應用研究、企業應用數據分析及應用研究、大數據分析及應用.