






摘 要: 在Web網絡環境下,傳統信息檢索方法僅依據簡單的字和詞進行匹配,未考慮知識的描述、處理以及理解等性能,檢索質量和效率低。因此,設計了基于Web的語義檢索平臺,其由數據層、數據訪問層、業務邏輯層、控制層和人機接口層組成。業務邏輯層依據數據訪問層操作數據,并將數據反饋給控制層;控制層是用戶申請和業務邏輯操作間的調控器;人機接口層是用戶同檢索平臺間實現交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。分析Jena在語義檢索平臺中的作用,并在軟件設計部分,分析通過Jena實現語義檢索平臺數據檢索的過程和其中的關鍵代碼。實驗結果表明所設計的語義檢索平臺具有較高的檢索質量和效率。
關鍵詞: Web網絡; 語義檢索平臺; 信息檢索; 軟件設計
中圖分類號: TN926?34; TP301 文獻標識碼: A 文章編號: 1004?373X(2016)16?0014?05
Abstract: In the Web network environment, the traditional information retrieval methods are based on simple word and word matching only, without consideration of the knowledge description, processing and understanding. That is why its retrieval quality and efficiency are low. Therefore, the Web?based semantic retrieval platform was designed, which is proposed of data layer, data access layer, business logic layer, control layer and the man?machine interface layer. The data is operated in the business logic layer according to the data access layer, and fed back to the control layer which is a governor between the user application and business logic operation. The man?machine interface layer is the bridge of interaction between user and retrieval platform. The user complete the information retrieval through the operation interface in this layer. The Jena′s role in the semantic retrieval platform is analyzed. In the software design part, the key code and the data retrieval process of semantic retrieval platform, realized through Jena, are analyzed. The experiment result shows that the designed semantic retrieval platform has high retrieval quality and efficiency.
Keywords: Web network; semantic retrieval platform; information retrieval; software design
0 引 言
隨著計算機技術和網絡技術的快速發展,人們進入了網絡信息時代,使得網絡中的信息量不斷增加。因此,從海量信息中尋求有效檢索方法檢索有價值信息成為相關學者分析的熱點[1?2]。在語義Web網絡環境下,傳統信息檢索方法僅依據簡單的字和詞進行匹配,未考慮知識的描述、處理以及理解等性能,檢索質量和效率低[3?5]。
當前的語義檢索方法都存在一定的問題,如文獻[6]分析了基于關鍵詞語法匹配的檢索方法,通過索引手段完成語義檢索,但是大部分用戶不能依據關鍵詞準確表達自身的檢索需求,導致檢索質量大大降低。文獻[7]設計了基于潛在語義分析的語義檢索方法,該方法通過分析語義的潛在信息間的關聯性,實現有價值信息的檢索,具有較高的檢索質量,檢索效率較低,并且需要耗費大量的資源,不利于廣泛推廣使用。文獻[8]提出了基于內容的語義檢索方法,該方法采用詞形匹配方法完成信息的查詢,其查全率較低,并且檢索結果中存在較多的無效信息,導致查準率較低。文獻[9]分析了基于領域本體的開放存取資源語義檢索平臺,該方法可面向不同種類的語義信息進行檢索,但是需要耗費大量的時間,并且檢索結果質量較差。
針對上述研究的問題,設計了基于Web的語義檢索平臺,給出語義檢索平臺的 Web結構圖,其由數據層、數據訪問層、業務邏輯層、控制層和人機接口層組成。分析了Jena在語義檢索平臺中的作用,并在軟件設計部分,分析通過Jena實現語義檢索平臺數據檢索的過程和其中的關鍵代碼。實驗結果說明,所設計的語義檢索平臺具有較高的檢索質量和效率。
1 Web網絡環境下的語義檢索平臺設計
1.1 基于Web的語義檢索平臺結構設計
采用分層設計思想,塑造Web網絡環境下,基于Web的語義檢索平臺,其結構如圖1所示。該檢索平臺由數據層、數據訪問層、業務邏輯層、控制層和人機接口層組成。
檢索平臺將Jena 語義框架當成推理機,完成語義的推理檢索。平臺通過數據庫與索引表保存數據,采用Spring MVC模式塑造不同的結構層次。底層數據層由索引文件、問題集表以及詞匯表等構成,這些信息塑造在本體的基礎上,通過Jena的數據庫保存方式映射到MySQL 數據庫內;通過JDBC完成數據庫連接和數據訪問工作;業務邏輯層依據數據訪問層操作數據,并將數據反饋給控制層;控制層是用戶申請和業務邏輯操作間的調控器,可將用戶申請和業務邏輯進行并行處理;人機接口層是用戶同檢索平臺間進行交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。
1.2 數據訪問層設計與實現
檢索平臺中的數據訪問層通過MySQL數據保存語義檢索平臺的領域詞匯表和問題集,采用JDBC實現檢索平臺中數據庫的連接和訪問。JDBC的數據庫訪問配置文件 cin.pageendwn內容為:
ctrl Delete=lock
caps=alt
print=enter\:back\://pageendwn\:6514/
class Home=shift
microsoft_class=for.back.enter.Microsoft
word=handaEnjoy
name=alt
檢索平臺的數據訪問層通過JDBC對數據庫進行連接和訪問的具體流程為:通過Class.for Name()創建驅動類;在Driver Manager類內對數據庫驅動進行設置;采集配置文件信息,得到數據庫連接。
1.3 業務邏輯層設計與實現
語義檢索平臺中的業務邏輯層對數據進行操作,并且將數據反饋給控制層。業務邏輯層中的模塊間交互情況如圖2所示。
圖2中的形式化處理模塊向問句匹配模塊以及語義推理模塊提供數據服務,若問句匹配失敗,則運行語義推理模塊。通過索引查詢模塊分析問句匹配以及語義推理模塊。
因為采用Spring MVC 架構,設計Web網絡環境下的語義檢索平臺,所以該檢索平臺中的業務邏輯層采用Spring 注解手段,用@Service標識不同的Service類,進而將對應的類描述成服務類。采用@Reinform注解說明組件的價值度,將價值度反饋到Spring容器中,設置該容器的原始信息和價值度,Spring 配置文件是application Context.xml。
1.4 控制層設計與實現
檢索平臺中的控制層對用戶申請和業務邏輯操作進行調控,將用戶申請和業務邏輯進行并行處理。因為設計的語義檢索平臺采用 Spring MVC 架構,所以將Dispatcher Servlet作為控制層中的關鍵類。該類可對其他Action進行變換和管理,并且完成用戶同檢索平臺間的交互以及平臺中Action 的交互調控。Action 類采用 Spring 注解手段,用@Scroll描述該類,進而標識該類是控制器,通過@Duing Elret注解完成申請和操作手段間的映射,檢索入口控制器 Search Action代碼片段為:
1.5 人機接口層設計與實現
人機接口層是用戶同檢索平臺間實現交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。采用JSP設計用戶檢索的操作頁面,具體包括檢索頁面、全文檢索頁面和語義推理結果描述頁面等。人機接口層采用Ontology技術完成信息的精準檢索,Ontology是一種共享的概念集合,它是一種通用概念的表達,能夠統一用戶的概念,深刻了解用戶的需求,實現精確的信息檢索。詳細的檢索過程為:用戶輸入關鍵詞,并將其反饋給界面模塊,將關鍵詞進行擴展,再從Ontology中檢索該關鍵詞,完成關鍵詞的初步模糊分析,獲取該關鍵詞對應的領域信息。將該領域信息傳遞給用戶,用戶進行再次選擇后,再進行精準的定位檢索。上述描述的人機接口層的工作流程如圖3所示。
1.6 Jena在語義檢索平臺中的作用
設計的基于Web的語義檢索平臺將Jena 語義框架當成推理機,實現語義的檢索。Jena 是一種開放資源,是塑造語義Web檢索平臺的Java結構。其可向依據RDF,RDFS,OWL文件的語義Web創造合理的開發環境,提高基于Web的語義檢索效率。Jena由對RDF文件和模型進行操作的RDF應用程序接口,對RDF,RDFS,OWL文件進行解析的解析器,實現RDF模型的長期性保存,以及基于規則的推理機子系統等組成。Jena的這些組成部分在Web網絡環境下的語義檢索平臺中具體不同作用,如圖4所示。
圖4中XML/RDF文檔為檢索平臺中信息資源的原始存儲格式,這些信息采用 XML/RDF解析器以及RDF API變換成 RDF Model,并保存到計算機中。RDF Model 融合推理機子系統以及Ontology子系統,產生具有語義推理能力的Inf Model或者Ont Model,完成語義檢索。Jena采用RDQL 分析Model的檢索結果,并與用戶進行交互。
2 基于Web的語義檢索平臺實現過程
2.1 數據的導入以及本文模型的塑造
Web網絡環境下,基于Web的語義檢索平臺,依據本文模型實現數據的檢索,通過Protege塑造以及導出數據通過OWL文件格式保存。開發語義檢索平臺時應先導出這些數據,再塑造相應的模型為程序檢索和操作提供基礎。Jena對上述分析過程提供了具體的實現方案,其偽代碼為:
2.2 本體模型的長期化
設計的語義檢索平臺采用Jena的長期化模型保存本體文件和實例,Jena支持的數據庫有Postgre SQL、MySQL以及Oracle。語義檢索平臺中的本文模型長期化過程為:先同數據庫驅動進行連接,塑造HEAssociated 實例。Jena 能夠在同一數據庫中塑造不同的模型,數據庫種類是HEAssociated實例中的末位參數。融合HEAssociated實例同Jena 的Model Shape塑造數據庫模型,長期化本體模型的詳細代碼如下:
2.3 對本體模型進行推理查詢
通過上述過程將語義檢索平臺中的本體模型長期化保存到數據庫內后,再對本文模型進行推理查詢,完成總體語義平臺的檢索。采用Jena工具包,依據用戶輸入的檢索要求完成語義推理,獲取準確的檢索結果,并將檢索結果反饋到用戶界面。進行檢索推理查詢的部分代碼為:
3 實驗分析
通過實驗評估本文設計的基于Web的語義檢索平臺性能,實驗分別采用本文檢索平臺和基于內容的檢索方法,對如表1所示的5個不同的檢索語句進行檢索。
表1 檢索矩陣類型
實驗分別采用本文檢索方法和基于內容的語義檢索方法,對表1中的檢索語句進行檢索,獲取的結果分別如表2~表4所示。其中,表2給出了檢索結果中A/B/C不同價值度等級的命中個數,A,B,C等級的價值度呈現遞減趨勢;表3給出了檢索語句在2種檢索方法下返回的有價值信息數以及2種檢索方式下返回的結果中總的有價值信息數;表4給出了檢索方法的查全率和查準率對比。
分析表4能夠看出,基于內容的檢索方法的平均查全率和查準率分別為49.04%,48.82%。而本文設計的檢索方法的平均查全率和查準率分別為93.72%,76.15%,遠遠高于基于內容的檢索方法,檢索質量較高。將基于內容的以語義檢索方法的查全率和查準率看成參照基數(即都設為 1),由表4可以得出,兩種方法的檢索效果相對對比圖,如圖5所示。
從圖5中可以得出,本文方法相比于基于內容的檢索方法的平均改進效果。分析可得,相對于基于內容的檢索方法,本文檢索方法的查全率和查準確率明顯提升,具有較高的優越性。
4 結 論
在Web網絡環境下,傳統信息檢索方法僅依據簡單的字和詞進行匹配,未考慮知識的描述、處理以及理解等性能,檢索質量和效率低。因此,本文設計了基于Web的語義檢索平臺,其由數據層、數據訪問層、業務邏輯層、控制層和人機接口層組成。業務邏輯層依據數據訪問層操作數據,并將數據反饋給控制層。控制層是用戶申請和業務邏輯操作間的調控器。人機接口層是用戶同檢索平臺間實現交互的橋梁,用戶通過該層中的操作界面完成信息的檢索。分析了Jena在語義檢索平臺中的作用,并在軟件設計部分,分析通過Jena實現語義檢索平臺數據檢索的過程和其中的關鍵代碼。實驗結果表明,所設計的語義檢索平臺具有較高的檢索質量和效率。
參考文獻
[1] 陸泉,劉高,陳靜.一個圖像語義可視化交互標注研究平臺:以“情感語義標注”為例[J].情報理論與實踐,2014,37(8):111?116.
[2] 許泉立,易俊華,楊昆.基于地理本體的空間信息檢索機制初探[J].測繪地理信息,2015,40(1):65?68.
[3] 普措才仁.基于潛在語義分析的藏文Web不良信息檢索算法研究[J].西北民族大學學報(自然科學版),2014,35(4):14?18.
[4] 許鑫,谷俊,袁豐平,等.面向專利本體的語義檢索分析系統的設計與實現[J].圖書情報工作,2014,58(9):96?104.
[5] 張小博,蔣銘.智能媒資檢索系統設計與實現[J].電視技術,2015,39(13):36?39.
[6] 寧琳.一種基于語義擴展的跨語言自動檢索方法的設計[J].現代情報,2014,34(1):155?158.
[7] 張世博,劉博愛,柳朝陽,等.基于潛在語義分析的文檔檢索設計方法[J].北京石油化工學院學報,2015,23(2):37?42.
[8] 楊帆.基于內容的體育視頻檢索系統設計分析[J].電子設計工程,2015,23(20):38?40.
[9] 鮑玉來,畢強.基于領域本體的開放存取資源語義檢索引擎設計與實現[J].情報理論與實踐,2014,37(5):87?91.