沈 熠,趙 琳
(1.上海大學 計算機中心,上海 200444;2.上海大學 計算機工程與科學學院,上海 200444)
?
一種基于影視素材本體的查詢擴展方法研究
沈熠1,趙琳2
(1.上海大學 計算機中心,上海 200444;2.上海大學 計算機工程與科學學院,上海 200444)
在語義搜索引擎系統中,為了使檢索內容在不限制用戶輸入的情況下,檢索結果更接近用戶的需求,提出一種基于影視素材本體的查詢擴展方法。對用戶的檢索文本中的
依據本體模型進行推理并按照相似度語義擴展,旨在得到更符合用戶檢索需求的擴展
集,在此基礎上進行影視素材的檢索,從而提高搜索引擎的召回率。
語義搜索;本體;查詢擴展;影視素材
引用格式:沈熠,趙琳. 一種基于影視素材本體的查詢擴展方法研究[J].微型機與應用,2016,35(15):75-77,81.
基于的搜索引擎的查詢擴展通常以檢索文本中的[1],從而在一定程度上彌補了用戶檢索信息過短的不足,同時提高了搜索引擎的召回率。
為中心進行擴展,與這些
相關的語義概念很少被包含在擴展集中,在這種情況下,當用戶輸入的檢索內容較少時,系統按照擴展集進行檢索得到的結果的準確率與召回率較低,從而無法滿足用戶需求,因此基于
的搜索引擎并不能消除用戶需求與檢索結果的不一致性問題?;诒倔w的
查詢擴展彌補了這一不足,該技術結合本體、搜索引擎、計算機語言學等多種技術,將用戶輸入的檢索文本中的
,以及本體模型中與這些
相關的詞語一起,組成新的、更長的、更能準確表達用戶檢索需求的擴展
集,按照該集合,實現在盡可能充分理解用戶的檢索意圖的基礎上進行信息資源的檢索
本體(Ontology)源于哲學,又稱為本體論、實體論或者存在論。GRUBER T R[2]對本體的定義“本體是共享概念模型的明確形式化規范說明”得到了最廣泛的認可。自2000年人工智能領域引入本體概念以來,本體就引起各個學科的極大興趣。
目前存在多種本體描述語言,由于網絡本體語言(Web Ontology Language, OWL)格式在所有本體語言中具有最強的描述能力,能夠明確表示詞匯表中術語的含義以及術語間的關系,使之在Web內容的可理解性方面要優于其他幾種本體語言,故本文選擇OWL作為本文的本體描述語言。
1.2本體推理
本體中除了直接定義的知識外,還隱含了大量的其他知識,需要使用推理工具進行的推理與查詢,從而獲取蘊含的知識。本文選用Jena[3]作為影視領域本體的推理機,Jena是由惠普公司開發的Java開源工具包,它的推理API能夠憑借其強大的推理功能,操作由OWL描述的本體,目前已經被廣泛地運用于語義網應用。
本文中,Jena推理需要實現的內容有:(1)實現本體持久化到數據庫的操作;(2)推理類間關系,解析影視素材本體模型并生成描述上下位關系概念的三元組集合,用于后續對本體模型中概念相似度的計算。
1.3查詢擴展
為了提高檢索的命中率,在不限制用戶輸入檢索文本內容的情況下,需要通過查詢擴展技術[4],根據用戶輸入的檢索信息中的關鍵詞進行語義擴展。基于本體的查詢擴展技術的引入在信息檢索過程中取得了一定效果。該技術依據領域本體推理得到的知識,通過對本體概念的相似度計算,將與檢索關鍵詞相關的本體中的概念作為查詢擴展的一部分。這種由量化得出的查詢擴展集不僅減少了搜索偏差,而且限制了檢索關鍵詞擴展的范圍,從而在召回率方面有較大提高。為了完成這一目標,需要在建立領域本體模型的基礎上進行語義擴展。
2.1影視素材本體建模
也許因為有了萬姐作比較,一年里我們換了幾個保姆都沒找到稱心的。那天和當初那家中介所的阿姨閑聊,我隨口說起了萬姐,希望她能回來。中介所的阿姨很驚訝地說:“你們不知道嗎?萬姐半年前就去世了?!?/p>
基于影視素材本體的查詢擴展采用語義技術,對本體中的概念進行推理與擴展,而推理與擴展的依據為影視素材本體模型。
本文選用Protégé以圖形化的建模方法構建影視本體模型??梢渣c擊Protégé中對應的項以增加或者編輯類、子類、屬性、實例等。建模完成后保存為OWL格式文件,Protégé將本體自動轉化為OWL格式的語言。影視素材本體建模后的部分效果如圖1所示。

圖1 影視素材本體建模
2.2查詢推理規則
Jena自帶的通用規則[5]不會限制具體領域,主要是根據本體中的實例、公理、規則等檢查概念的可滿足性以及類間層次關系、傳遞、不相交等約束,從而實現查詢隱含信息并擴充隱含知識。當Jena自帶的規則無法滿足系統的推理要求時,可以自定義規則以滿足系統個性化需求。本文借助SPARQL[6]查詢語言,建立自定義查詢規則,從而獲取更加準確的查詢結果。
SPARQL是W3C推出的,其根據定義匹配三元組模板對RDF進行查詢,可以將RDF中滿足一定要求的三元組以集合或者RDF圖的方式作為查詢結果返回。SPARQL提供4種不同形式的查詢[7]:SELECT、ASK、CONSTRUCT、DESCRIBE,其中SELECT是最常用的查詢類型,本文也采用該形式的查詢。SPARQL的查詢語法是一個四元組(GP、DS、SM、R),其中DS、R可根據查詢要求省略,查詢語句格式如表1所示。

表1 SPARQL查詢語句格式
2.3相似度值與查詢擴展閾值的確定
相似度與查詢擴展閾值的詳細計算過程本文不重點討論,只給出簡要的處理方法。
影響概念的語義相似度因素有多種,常見的有:字面相似度、語義重合度、距離相似度、層次差與層次深度、屬性匹配度等。需要結合本體模型結構與性質,將有關的因素考慮到相似度的計算方法中,結合多種影響因素得到概念相似度的計算公式。
獲取本體中概念的相似度后,在進行查詢擴展的過程中,需要確定閾值,用于過濾相似度不滿足閾值的概念,而將滿足閾值的概念加入查詢擴展集。確定閾值的通常做法為:根據本體中小規模測試概念的相似度值以及暫定閾值進行人工評估,判斷相似度滿足閾值的概念間是否滿足系統需求,經過不斷試驗對閾值進行調整,最終確定閾值。
3.1查詢擴展流程
圖2語義相似度擴展流程
本節結合本體模型與推理規則,在參考文獻[1]、[8]的基礎上,總結出對影視素材檢索文本中的進行語義相似度擴展的流程,如圖2所示。其中sim1(A,B) 、sim2(A,B)表示根據a、b則是用于過濾不滿足相似度概念的閾值,本文經過試驗與對參數的不斷調整,最終將a設置為0.51,b設置為0.63。
是否為影視素材本體中的概念,綜合影響概念相似度的多種因素而確定的不同情況下相似度的計算公式;而
語義相似度擴展流程為:首先將檢索文本經過預處理后得到的A,B)計算出的相似度大于閾值a的概念,將這些概念加入到擴展A,B)計算出的相似度大于閾值b的概念加入到擴展的
集。
集;若當前
是影視素材本體中的概念,則查找本體中是否存在與當前
等價的
,若存在,就將等價詞加入到擴展
集中,若不存在,則將本體中根據公式sim2(
集中的
加入到擴展
集,接著依次對
集中的每個
判斷是否是影視素材本體中的概念。若當前
不是本體中的概念,則需要先找出本體中根據公式sim1(
3.2查詢擴展實現
在查詢擴展實現部分,本文選用MySQL數據庫存儲數據。以下是查詢擴展的實現計算過程中用到的數據表:
searchText:用于存儲經預處理后得到的檢索;
classCon:存儲由Jena解析本體文件后得到的概念的信息,包括(結點ID,結點名,結點層次,父結點ID);
classInOnt:存儲本體中滿足閾值b的結點對及其相似度信息,包括(結點AID,結點BID,相似度);
classDouble:存儲屬于預處理得到的但不屬于本體中結點的,以及與該b的本體中的結點信息,以及二者的相似度信息。包括(
,結點ID,結點名,相似度);
的相似度達到閾值
expandKeywords:存儲擴展的,包括(結點ID,結點名,相似度)。
下面給出基于影視素材本體查詢擴展的實現:
(1)獲取領域本體文件;
(2)用Jena解析本體文件,生成描述概念的上下位關系三元組集合,并以文件的形式存于內存中;
(3)對步驟(2)文件中的三元組從根結點出發,依次遍歷每個結點,并將結點信息存至表classCon;
(4)從表classCon中讀取結點并組成所有結點對,按照(結點1,結點2,相似度)的方式寫入表classInOnt,其中相似度值置為0;
(5)依次取出表classInOnt中的未處理過的記錄,根據取出的記錄及本體模型計算影響兩個概念相似度的不同因素值;
(6)根據步驟(5)中計算出的決定語義相似度因素的值,按照公式sim2(A,B)計算出概念對的相似度,修改表classInOnt中對應的相似度值;
(7)檢查表classInOnt中是否有未處理過的記錄,如果有轉至步驟(5);否則轉至步驟(8);
(8)刪除表classInOnt中相似度小于閾值b的結點對,完成本體中結點對的相似度值的更新;
(9)根據步驟(4)~(8),可以完成表classDouble中與結點對的更新,不同的是需要按照公式sim1(A,B)計算概念相似度,保留的a;
與結點對的相似度需滿足閾值
(10)從表searchText中依次取出一個未處理的,判斷是否是本體中的概念,如果是,設置其相似度為1,將該
與相似度值加入擴展
集expandKeywords中,判斷在本體中是否存在與當前
等價的概念,若存在,將等價詞加入到expandKeywords中,等價詞對應的相似度值置為1,轉至步驟(11),否則轉至步驟(12);
(11)從表classInOnt中查找與當前組成的結點對的
,將這些
及結點對的相似度加入到expandKeywords;
(12)從表classDouble中查找與當前組成的結點對的結點,將這些結點及相似度加入到expandKeywords;
(13)檢查searchText中是否存在未處理的,若有,轉至步驟(10),否則轉至步驟(14);
(14)輸出存儲擴展的表expandKeywords,算法結束。
通過上述算法,求得了擴展集。
3.3查詢擴展實驗
為驗證相似度查詢擴展算法的有效性,用影視素材本體模型對該算法進行驗證。選用一段檢索文本“兩個孩子在路上騎自行車”,該文本經預處理后,得到檢索
集中的
“兩個”、“孩子”、“路”、“騎”、“自行車”,對這些
按照3.2節的擴展實現算法進行查詢擴展,得到擴展的
及對應的相似度,如表2所示。
表2擴展結果是否為本體中概念擴展公式經擴展得到的
及相似度值兩個否sim1(A,B)無孩子否sim1(A,B)男孩(0.51)女孩(0.51)路否sim1(A,B)公路(1)路障(0.59)路燈(0.59)騎否sim1(A,B)無自行車是sim2(A,B)自行車(1)公交車(0.63)轎車(0.67)火車(0.67)
從表2中可以看出,檢索文本“兩個孩子在路上騎自行車”經過預處理以及語義相似度擴展,得到擴展的集,對該集合按相似度值從大到小進行排序,如表3所示。
表3擴展結果按相似度排序自行車公路轎車火車公交車路燈路障女孩男孩相似度110.670.670.630.590.590.510.51
由表2、表3可得,按照本文研究的對檢索基于影視素材本體模型進行相似度查詢擴展,得到擴展集中的概念可以較完整地反映用戶的檢索意圖,從而驗證了本文提出的
查詢擴展方法的有效性。
本文基于影視領域本體模型,對素材檢索過程中的查詢擴展進行研究,提出
按照相似度擴展的一種實現方案,即對檢索文本中的
及影視素材本體模型中的概念進行推理并得到相似度滿足閾值的查詢擴展集。實驗結果表明,擴展
集更能充分包含用戶的檢索需求。本文的下一步工作是對檢索結果按照擴展
集中
的相似度關系的排序方式進行深入研究。
[1] 甘健侯,姜躍.本體方法及其應用[M].北京:科學出版社,2011.
[2] GRUBER T R.Toward principles for the design of ontologies used for knowledge sharing [J].International Journal of Human-Computer Studies, 1995, 43(5-6): 907-928.
[3] Getting started with Apache Jena [EB/OL].(2015-××-××)[2016-01-30] . https://jena.apache.org/getting_startedl.
[4] 李帥.基于語義相似度的查詢擴展優化[D].杭州:杭州電子科技大學,2011.
[5] 李兵.基于領域本體的專利語義檢索研究[D].北京:北京理工大學,2015.
[6] W3C.SPARQL Query Language for RDF [EB/OL].(2013-03-21)[2016-01-20].https://www. w3.org/TR/2013/REC-sparql11-query-20130321/.
[7] 岳曉露.語義Web中RDF數據的關聯規則挖掘方法研究[D].大連:大連海事大學,2015.
[8] 呂婧.基于語義網的語義搜索的研究與應用[D].北京:北京工業大學,2013.
Research on keyword query expansion using film material ontology
Shen Yi1, Zhao Lin2
(1.Computer Center, Shanghai University, Shanghai 200444,China;2.School of Computer Engineering and Science, Shanghai University, Shanghai 200444,China)
In sematic search engine stystem,in order to make the retrieval results closer to the needs of users without restricting research text, it proposes an approach of query expansion based on film materials ontology. For user’s search keywords, ontology model is employed to reasoning as well as do sematic expansion based on similarity, thus getting expansion keywords set that more suitable for user’s retrieval requirements, then the research on film materials on the basis of this set is carried out and the recall of search engine is improved.
sematic search; ontology; search expanding; film and television materials
TP391
A
10.19358/j.issn.1674- 7720.2016.15.022
2016-04-05)
沈熠(1989-),男,碩士,初級助理實驗師,主要研究方向:語義處理、軟件工程。
趙琳(1989-),女,碩士,主要研究方向:語義處理、軟件工程。