曾 輝,江健健,熊李艷,黃衛春
(華東交通大學信息工程學院,江西 南昌 330013)
一種關聯多本體的科技獎勵檢索方法
曾 輝,江健健,熊李艷,黃衛春
(華東交通大學信息工程學院,江西 南昌 330013)
現有的科技獎勵檢索都是基于關鍵詞的匹配,忽略了對用戶查詢的語義理解。針對傳統信息檢索存在的問題以及結合當前面向實際應用的基于本體的語義檢索的特點,提出一種關聯多本體的科技獎勵檢索方法。通過對科技獎勵項目的領域本體構建,對概念相似度計算方法的改進及關聯多本體概念,使擴展詞語更能表達用戶檢索意圖。實驗結果表明,該方法對比傳統查詢檢索和單獨本體擴展檢索獲得了更好的召回率和準確率。
科技獎勵;關聯多本體;本體構建;概念相似性
科技獎勵檢索作為整個科技獎勵平臺的一部分,為用戶及時、方便、準確地獲取相關領域的科技信息提供了保證。現有基于關鍵詞的科技獎勵檢索沒有考慮用戶檢索條件的語義理解,造成返回的查詢結果與用戶所需要的信息內容不匹配。本體作為特定領域內概念以及概念之間關系的集合[1],具有良好的語義表達能力,非常適合用于概念語義的表達。
在面向實際應用的基于本體的信息檢索中,大多是通過單一本體概念間相似度的計算對檢索詞進行擴展再送入搜索引擎中進行檢索,這樣,在召回率上必然大大提高,然而同時也會產生許多無關用戶檢索意圖的結果,準確率提高不明顯。針對大量的擴展概念,如何選擇更能表達用戶意圖的概念組合成為引人關注的研究問題。基于此,提出了一種關聯多本體的概念相似度計算方法來篩選擴展概念以改進科技獎勵的檢索。
針對本體及信息檢索,業界已有不少相關研究:文獻[2]定義了本體的通用描述,即本體是共享概念模型的明確形式化規范說明,從內涵上來看,本體是某個領域的知識抽象表示,能夠在知識層次上描述信息,為不同的主體(用戶、機器等)之間的交流提供了一種語義基礎。基于本體的內涵,文獻[3]通過本體技術的引入,提出了一種智能檢索模型的建立,從而解決網絡教育資源雜亂無章的問題。文獻[4]通過對交通信息進行抽象和分析,提出了一種基于Jena的城市交通領域本體推理和查詢方法。文獻[5]將本體應用在對政務信息進行標引、對檢索條件的擴展和結構化檢索條件的自動生成。文獻[6]提出了一種基于領域本體的混合信息檢索模型,通過建立關鍵詞基礎矩陣和語義擴展矩陣兩層索引矩陣,保證一定的檢索性能。文獻[7]提出了一種基于語義相似度的個性化信息檢索方法,有效地對用戶的查詢請求進行概念擴充,提高了搜索的查全率與查準率。文獻[8]通過分析本體上下文結構,引入結構和實例相似度傳播和快速匹配算法,設計一種復合匹配策略,用于本體映射。文獻[9]通過本體模型和概念相似度的計算對檢索信息進行檢索意圖樹的構建并擴展,得到更好的檢索結果。
縱觀上述研究,目前信息檢索中,都有考慮有效利用本體和語義信息來對文本進行語義檢索。但都只是對單一本體概念進行擴展,沒有將多個本體概念進行關聯,需進一步完善。本文將本體引入科技獎勵檢索系統的主要目的在于對用戶的檢索輸入進行語義分析,針對擴展檢索詞所在本體的不同情況,通過對擴展概念的相似性計算來對擴展概念進行組合、篩選,使擴展后的概念更能體現用戶的查詢表達,提高檢索準確率。
領域本體的構建是實現語義檢索系統的重要基礎和關鍵環節。同時,領域本體對檢索文檔的語義信息標注以及對用戶檢索意圖的解析也都起著至關重要的作用。本文根據文獻[10]提出的方法來構建領域本體。分為4個步驟:
1)確定本體的領域和范圍。模型希望構建有關科技獎勵申報項目所涉及的13個領域,根據每個不同領域所涉及的知識,考慮領域知識的深度和廣度以及關系的復雜程度。
2)獲取領域知識。文本構建的本體知識來源主要是科技獎勵申報領域的文檔信息,專家知識及可復用存在的本體。
3)定義類及其關系,建立本體模型。本階段對收集的知識進行分析抽象,進而建立本體模型。本體類定義要明確,不應包括全部信息,應表示類的最突出屬性。一個新類通常會增加其父類不具備的新的屬性,或覆蓋父類屬性的約束。
4)使用OWL(web ontology Language)網絡本體語言表示本體。為實現本體的形式化表示,我們可以使用OWL表示本體模型。OWL本體包括了類、屬性、個體的描述[11]。OWL提供了豐富的公理,不僅準確描述了知識中的類、屬性、個體,還對它們之間的復雜的邏輯關系進行精確描述,為知識的推理做了良好的準備。
如圖1為本文構建的農業項目領域本體的部分關系圖,采用的是protégé_4.1本體構建工具。

圖1 農業項目領域本體部分關系圖Fig.1 Partial diagram for domain ontology of agricultural projects
通常用戶查詢輸入的方式有3種:單一關鍵詞,多個關鍵詞及自然語言查詢。對于單一關鍵詞,直接用本體概念相似性對檢索詞進行擴展后進行檢索;對于自然語言查詢,通過結合領域概念進行分詞最終轉化為多個關鍵詞的情形。本文主要敘述多個關鍵詞的查詢,其算法流程如下:

概念相似度計算是進行語義擴展的重要步驟,其精度也是提高檢索質量的關鍵。目前常用的計算本體的概念相似度方法有:基于距離的、基于內容的和基于屬性的語義相似度計算。這些方法都是在單一本體中對檢索詞進行概念相似度計算、擴展,沒有考慮兩組擴展詞間的相似度,對其進行的是獨立擴展。如何在給定檢索擴展閾值T的情況下,選擇語義相關性更大的檢索詞對進行組合,本文在文獻[12]提出的相似度計算方法上,提出了一種新的方法來解決概念存在多個本體中的相似性計算方法。
文獻[12]提出的方法通過計算被比較的兩個概念所具有的共同和非共同分類包含的數量來評估概念相似性。C1和C2兩概念節點,定義它們之間的相似度sim計算公式如下:

從公式(1)可以看出,該計算公式得出了一個評估分類特性的一個比值,可以用來比較獨立的本體尺寸和粒度的相似性值。這個公式在多本體環境中是有相關性的,因為它能提供來自不同的本體獲得結果的比較。
通常對查詢概念的擴展分別是對單一本體概念的擴展,用擴展后的詞語對數據源進行獨立檢索,沒有考慮擴展詞語間的關系。文本通過關聯多本體概念,將處于不同本體的兩個概念進行關聯,挖掘該概念的深層次的關聯性,使查詢擴展詞更能表達用戶的檢索意圖。
目前,評估多本體間的概念相似性已有了一些解決辦法,文獻[13]提出的方法是通過合并不同本體成一個唯一的本體。然而這種方法有其必然的缺陷,在處理模糊重疊的概念和避免概念的不一致性時,會導致很高的計算量和人力成本。文獻[14]在區別主要本體和次要本體的差異基礎上,通過連接所有相等的節點把次要本體與主要本體聯系在一起。
然而,由于語言歧義(同義和一詞多義)和不同的知識表示過程中,術語的匹配提供了一個有限的召回率。為使這一問題減到最小,除了考慮常見的共同父節點作為那些術語的匹配,我們也考慮了他們所有的包含,無論有或沒有一個完全相同的標簽。事實上,每個繼承術語等效上層概念的被評估概念遞歸地繼承了所有上層概念包含。圖2、圖3分別為本體O1和本體O2的部分概念關系圖。在評估本體概念相似度時,需要明確以下術語:

路徑長度Path:指本體圖中兩概念節點間路徑的長度。|Path(c1,c2)|為路徑長度。從圖2可知,Path(c1,c2)={c1-s4,s4-s3,s3-sLCS,sLCS-s6,s6-c2}。
得到|Path(c1,c2)|=5。路徑長度與語義相似度成反比。
節點深度Depth:指概念c到根節點的路徑長度,即Depth(c)=|Path(c,root)|。由圖2可知,Depth(c1)=5。概念節點深度越大,表明此概念表示的意義越具體。
最近共同父節點LCS(least common subsumer):指在詞匯分類學上被比較的兩概念具有最短距離的概念。其計算公式如下

從圖2可知,LCS(c1,c2)=SLCS,表明節點SLCS是節點c1,c2的最近公共父節點。
等效上層概念ES(equivalent superconcepts):指所屬不同本體的兩概念節點的父節點中存在等效的概念集合。通過計算兩概念的上層節點,判斷是否存在術語上等效的上層概念,其定義如下

式中:“≡”表示兩概念等效。
不同本體間等值概念之間的檢測已在本體聯合領域中有所研究。基于不同的原理,已經提出了幾種方法來評估不同本體的概念實際上是等效的可能性。許多方法依賴于語義相似度函數來進行評估,需要由專家或來自其他知識源的計算。然而一種無監督的方法是必要的。術語的匹配方法是可行的,他們發現等效概念完全依賴于概念標簽匹配[15]。應用到我們的系統,當提到具有相同文本標簽時,我們可以認為他們是等效上層概念。
概念c1包含在本體O1查詢擴展集合中,概念c2包含在本體O2的查詢擴展集合中。假設概念s3和r3是術語匹配概念,即s3和r3被認為是相同的概念。在這種情況下,易知,ES={s3}。通過得到術語等效概念,我們聯系兩本體,計算他們的共同特征節點集合。
共同特征節點集合CS(common specificity):指由ES元素及其父節點所組成的節點集合。計算公式為


通過找尋兩本體概念的共同特征節點,可以將看似不相關的兩個概念進行關聯起來。最后,通過改進的本體概念相似度計算公式來計算所屬兩個不同本體的概念相似度,公式如下


本實驗以“科技獎勵推薦評審系統”中收集到的各學科研究領域的獎勵申報書作為檢索源,這些文檔涉及了材料、農業、藥物與醫療器械、計算機技術等13個學科領域。由于本體構建工作的復雜性,僅構建了農業領域的相關本體,因此選用的是農業領域200篇申報書作為實驗數據。模型的評價使用的是在信息檢索中常用的準確率(precision)和召回率(recall)作為評價標準。

實驗分別采用關鍵詞匹配、單獨擴展本體和本文提出的關聯多本體方法對農業項目相關領域進行檢索,圖4,圖5,圖6分別為輸入“雜交水稻”的3種不同方法的檢索界面圖:
通過對后臺數據庫的檢索,發現采用關聯多本體的方法,在檢索效率方面明顯要低于單獨擴展本體和關鍵詞匹配。原因是采用關聯多本體方法,需要進行多個本體間相似度計算和篩選,需要耗費一定的時間,但為了準確率和召回率的提高,以滿意度換效率還是可行的。相比目前最強大的搜索系統GOOGLE,兩系統最后都是通過關鍵詞的匹配返回結果,在對關鍵詞處理和后續結果顯示方面存在如下區別:GOOGLE系統將對檢索詞提供關鍵字建議及同義詞擴展,并對結果列表進行優化,召回率差,而且對領域相關知識的查詢不令人滿意;而本系統針對的有限領域語料庫,在檢索效率方面不是很好,但在查準率和查全率方面都有很好的性能。通過人工判斷與“雜交水稻”相關的資源數,與檢索結果進行對比,得到查詢性能對比表,如表1所示。

圖4 關鍵詞匹配檢索界面Fig.4 Matching keywords retrieval interface

圖5 單獨擴展本體檢索界面Fig.5 Separate extension ontology retrieval interface

表1 3種方法的查詢性能Tab.1 Query performance of three methods
由于檢索資源庫數量不大,相關資源數值小,少一兩個相關資源數對計算結果數值會有很大波動。通過多次檢索結果比較發現,在本次試驗條件下,關聯多本體檢索方法可以提供更高的準確率和較好的召回率,可以給用戶更直接、更滿意的檢索結果,具有一定的意義。
針對現有語義檢索模型在查詢擴展中存在的不足,提出了一種關聯多本體的科技獎勵檢索方法。通過改進的關聯多本體間概念的相似度計算方法來對擴展的用戶檢索請求進行關聯、篩選,得出最能表達用戶檢索意圖的檢索詞。通過實驗結果表明確實提高了信息檢索的準確率。同時,由于本體構建工作的復雜和評價指標的不確定性,只對農業項目的領域本體進行了構建,如果在其他領域本體完備的情況下,該方法適用于其他領域的檢索。

圖6 關聯多本體檢索界面Fig.6 Associating multiple-ontologies retrieval interface
[1]NECHES R,FIKES R E,GRUBER T R,et al.Enabling Technology for Knowledge Sharing[J].AI Magazine,1911,12(3):38-56.
[2]WALTMAN L,VAN ECKN J.Some comments on the question whether cooccurrence data should be normalized[J].Journal of the American Society for Information Science and Technology,2007,58(11):1701-1703.
[3]馬驤飛,劉淑麗,孫濱.基于Ontology的網絡教育資源語義檢索模型研究[J].計算機與數字工程,2012,40(12):79-82.
[4]田宏,馬朋云.基于Jena的城市交通領域本體推理和查詢方法[J].計算機應用與軟件,2011,28(8):57-59.
[5]于靜,吳國全,盧燚.基于領域本體的政務信息檢索系統[J].計算機應用,2010,30(6):1664-1167.
[6]熊忠陽,李春玲,張玉芳.一種基于領域本體的混合信息檢索模型[J].計算機工程,2008,34(21):68-70.
[7]謝文玲,潘建國.基于語義相似度的個性化信息檢索方法[J].計算機應用與軟件,2011,28(5):161-164.
[8]凌仕勇,龔錦紅.圖解析方式的復合本體映射策略研究[J].華東交通大學學報,2013,30(3):82-88.
[9]胡川洌,符云清,鐘明洋.基于領域本體的語義查詢擴展[J].計算機應用,2012,21(7):83-89.
[10]韓韌,黃永忠,劉振林,等.OWL本體構建方法的研究[J].計算機工程與設計,2008,29(6):1397-1400.
[11]MICHAEL K SMITH,CHRIS WELTY,DEBORAH L MCGUINNESS.OWL Web Ontology Language Guide[EB/OL].(2004-02-10)[2013-10-20].http://www.w3.org/TR/2004/REC-owl-guide-20040210/2009.
[12]BATET M,SANCHEZ D,VALLS A.An ontology-based measure to compute semantic similarity in biomedicine[J].J Biomed In?form,2011,44(1):118-125.
[13]RODRíGUEZ MA,EGENHOFER MJ.Determining semantic sim-ilarity among entity classes from different ontologies[J].IEEE Trans Knowl Data Eng,2003,15(2):442-456.
[14]AL-MUBAID H,NGUYEN HA.Measuring semantic similarity between biomedical concepts within multiple ontologies[J].IEEE Trans Syst Man Cybern,2009,39(4):389-398.
[15]LAMBRIX P,TAN H.A tool for evaluating ontology alignment strategies[J].J Data Semant,2007,182:182-202.
A Science and Technology Award Retrieval Method of Associating Multiple-Ontologies
Zeng Hui,Jiang Jianjian,Xiong Liyan,Huang Weichun
(School of Information Engineering,East China Jiaotong University,Nanchang 330013,China)
The existing science and technology award retrieval is based on keywords matching technology,which ignores the semantic understanding of user queries.To solve the problem of traditional information retrieval and combine characteristics of current practical application-oriented and ontology-based semantic retrieval,this pa?per proposes a science and technology award retrieval method of associating multiple-ontologies.By constructing the domain ontology for science and technology awards projects and by improving the concept similarity calcula?tion method and associating multiple-ontologies concepts,the proposed retrieval method makes the query expan?sion words further express retrieval intention of users.The experimental results show the method obtains better pre?cision and recall compared with keywords query and single-ontology extensions query.
science and technology awards;associating multiple-ontologies;ontology construction;concept simi?larity
TP391
A
1005-0523(2014)02-0112-07
2013-10-20
國家自然科學基金項目(61363072)
曾輝(1973—),男,副教授,研究方向為數據庫技術,計算機決策支持系統。