
摘要:本體在自然語言處理、人工智能的最新領域使用廣泛。本文嘗試對旅游領域本體的屬性和關系的描述,并通過基于Nutch建立的搜索引擎,在面向北部灣旅游資源,可根據用戶的要求進行排列輸出和本地化查詢,提高了對泛北部灣旅游資源信息檢索的效率。
關鍵詞:領域本體;旅游;搜索引擎;Nutch;泛北部灣
瀏覽網頁是旅行者獲取旅游信息的最主要來源,旅行者經常需要手工查找篩選,而通過傳統搜索引擎進行信息檢索會找到成千上萬的網頁,而真正有幫助的信息需要在這些大量紛繁復雜的網頁仔細尋找,因此需要針對特定范圍的旅游搜索引擎的開發勢在必行。
1相關技術
1.1旅游領域本體構建
本體本質上是概念及其關系之間的模型,必須強調的是這些概念和概念之間的關系必須是能夠被描述、形式化的。這樣較為深刻的內涵知識就能夠通過本體描述的概念及其關系體現出來。本系統將首先闡述基于旅游領域知識本體的領域概念,旅游領域本體概念包括吃、住、行、游、購、娛、簡介這幾項,在建立旅游領域本體數據庫時,基于測試和數據量的角度,數據主要來源于泛北部灣地區的旅游資源,其本體庫如下圖。
作為旅游的另一個主體---游客,也需要構建游客本體。游客在旅游過程中需要和旅游的六大主要元素進行交互,為了提高資源搜索的效率和智能化,游客本體常見屬性為性別、年齡段、工作、學歷、興趣、婚姻狀況等信息。
1.2 Nutch
Nutch是基于Java語言的開源搜索引擎,可為開發人員自行配置符合自己需求的搜索引擎和相關工具。Nutch包括爬蟲Crawler和查詢Searcher 兩個模塊構成。Crawler的功能是從互聯網上抓取網頁并建立相應的網頁索引。Searcher的功能是利用Crawler建立的索引檢索游客輸入的的查找關鍵詞來產生查找結果。這兩個模塊相互關聯只有索引文件,因此兩模塊耦合程度較低。
1.3 Jena推理機
Jena是美國惠普實驗室設計的開放式Java語言框架工具包,它是一種面向本體的、比較成熟的推理機,擁有對本體進行解析、存儲、推理和查詢的函數調用和處理接口。因此本文選擇使用該推理機結合同為Java平臺的開源搜索引擎Nutch實現本系統所要完成的需求。
2系統需求分析
2.1系統基本功能:用戶登錄到發布到Tomcat的網頁上,輸入想搜索的旅游資源關鍵字后,搜索引擎會返回給用戶一系列包含用戶輸入的關鍵字的網頁地址,網頁標題,以及網頁摘要等,用戶可以從顯示的查詢結果信息中選中一個標題,打開就可以瀏覽所選定的網頁信息。
2.2系統模塊組成
(1)網絡爬蟲:任務是從目標源定時抓取信息資源。
(2)用戶接口:用戶接口的作用是輸入用戶查詢,顯示查詢結果,提示用戶相關性反饋機制。用戶接口的主要目的是方便用戶使用搜索引擎,高效率,多方式地從搜索引擎中得到有效,及時的信息。
(3)索引:索引的作用是理解搜索引擎所搜索的信息含義,然后對爬取的網頁進行內容分析,從中抽取出索引項并獲得相關的網頁信息。
2.3索引模塊設計實現
僅僅建設了旅游領域本體和游客領域本體還是不夠的,需要對旅游信息本體數據庫進行更為精確的搜索查詢才能滿足系統的需求,因此本系統利用Jena推理機來提供搜索精確度和效率。
首先需要使用語義精確方法與旅游領域本體中的概念相關聯,建設滿足一致性的公理庫。根據用戶提交的查詢請求,根據該請求生成面向旅游本體的查詢語句。然后基于該公理庫的數據,利用Jena推理機對知識庫中的知識進行檢查和推理,再生成推理查詢結果反饋給用戶。從而實現了旅游領域知識之間的信息聯通,能夠為游客提供更為精確和高效的旅游信息。
3結束語
更為智能的旅游搜索工具將是未來旅游行業技術發展的一個方向,本文介紹的基于旅游領域本體和Nutch的旅游信息搜索引擎的設計在功能上還有一定缺陷,要改進的地方確實很多。但是經過測試,對比的搜索引擎均為全網搜索,搜索結果中會出現大量與泛北部灣旅游資源無關的內容,這就是本搜索引擎有優勢的地方。
參考文獻:
[1]王靜,劉偉峰,汪偉. 面向旅游信息的垂直搜索引擎的設計與實現[J].北京:信息系統工程,2014(3):29-31.
[2]馮欣,王成良. 本體在旅游信息系統中的應用研究[J].北京:計算機與現代化,2010(3):128-132.
[3]吳起立. 基于旅游領域本體的自動分類構建研究[J]經濟研究導刊,2013(27):274-275.
[4]譚月輝,肖冰等 Jena推理機制及應用研究[J]河北省科學院學報,2009(26):14-17.
作者簡介:陳意山(1977年5月-),男,廣西玉林人,碩士,副教授,從事智能教學系統研究。
基金項目:廣西師范大學漓江學院院級科研項目(基于QTI標準的人體動作描述研究)。
(廣西師范大學漓江學院 ?廣西桂林 ?541006)