趙 鑫
(九江學院機械與材料工程學院 江西 九江 332005)
隨著計算機網絡技術的不斷發展和完善,傳統語義web搜索引擎已經不能滿足現代化信息搜索的需求,并日益突顯出各種問題。例如:詞匯搜索孤島、語義表達差異、搜索匹配過于機械化等,給語義描述及信息搜索造成很大的影響。隨著語義web智能化搜索引擎的研究和開發,智能化的搜索引擎將慢慢取代原有的語義搜索引擎,成為語義web新的搜索引擎技術[1]。智能化搜索引擎的出現,為用戶提供了良好的信息檢索平臺、信息查詢平臺、信息瀏覽平臺、信息描述平臺等,優化信息搜索及瀏覽的模式,提高了信息搜索質量,對語義web搜索技術發展具有重要意義。
Web智能化搜索的挖掘技術主要分為三個部分,即web智能搜索結構挖掘、web智能搜索內容挖掘以及web智能搜索記錄挖掘。(1)web智能搜索結構挖掘。主要是通過網頁中的超級鏈接來獲取智能搜索的結構及其之間的關系。利用隱藏在網頁頁面中的多個超級鏈接結構模型,并運用這些結構模型進行web頁面的分類,即可找到其相同或者相似的網站地址。在網頁超級鏈接結構中,可以web智能搜索結構挖掘來進行網頁的分類,并結合所有網站及網頁結構,最終形成網站之間或者網頁之間的信息鏈接網。(2)web智能搜索內容挖掘。主要是通過web中的文檔內容和語義描述來獲取所需的知識信息,即對網頁數據信息的挖掘,其中包括信息搜索結果的挖掘和網頁內容的挖掘。(3)web智能搜索記錄挖掘。主要是在計算機用戶網頁訪問記錄中獲取所需的信息知識,即對web訪問數據的挖掘。
傳統語義web搜索引擎都是運用型號較大的服務器來進行運作,并按照計算機用戶的請求來回應,但是其存在計算機用戶接口單一的缺陷,不能實現定制性、個性化的信息搜索結果。傳統語義web搜索引擎較為機械化,都是在計算機用戶提出信息搜索要求,服務器才會回應用戶要求,沒有實現自動化信息搜索功能。而給予智能化搜索基礎的Agent技術卻能夠解決這些問題。Agent主要對計算機網絡環境進行靈活性運作方式,以滿足用戶對信息搜索的需求[2]。
(1)具有語義推理作用;(2)實現了問答式的搜索功能;(3)多樣化搜索模式的形成;(4)具有查詢條件靈活性特點。
首先,由計算機網絡中的爬行機器人將知識信息從網絡中采集出來,并將其存入語義web全文搜索引擎服務系統中。然后,按照文檔特殊性提取工具對從網頁收集回來的知識信息數據實行特殊性提取動作,被提取出來的知識信息可稱為元數據。再者,由語義本體庫應用意義推理系統對網絡元數據進行語義上的推理,以加深對信息資源內容的了解,并獲得語義擴展之后的特殊性數據信息。最后,對特殊性數據信息實行語義標識,并將其存入語義搜索庫當中。
2.3.1 全文搜索方式
全文搜索是語義web智能化搜索最常用的一種方式,主要由計算機網絡的分詞系統、搜索系統、查找系統及爬行機器人等組合而成。計算機網絡中的爬行機器人主要作用于網絡網頁信息采集服務器;計算機網絡中的分詞系統、搜索系統主要對采集回來的網頁信息實行分詞、標識,并存入搜索引擎資料庫中;查找系統主要是為計算機用戶提供良好的接口,并根據計算機用戶輸入的搜索條件來查找,通過搜索資料庫來獲取所需的信息,并對搜索結果實行排序算法,當信息結果排序結束后,即可反饋給計算機用戶。
2.3.2 語義擴展搜索方式
語義擴展搜索方式的實現可以有效的解決計算機用戶在語義搜索中出現的各種問題。例如:計算機用戶在進行語義搜索時,可能會出現搜索概念較為模糊,無法對搜索關鍵詞進行語義描述的現象,或者要用很多個詞語來描述才能將這個概念表達清楚。語義web智能化搜索中的語義擴展搜索方式可以解決上述所說的問題,在本體基礎上,自主的為計算機用戶所提出的問詞進行語義擴展,擴展的語義詞匯要比傳統搜索方式的準確度要高。語義擴展搜索實現方法主要有:其一,利用計算機特有的語言學理論知識來進行語義擴展搜索。其二,利用本體中的語義推理方式來進行語義擴展搜索[3]。其三,利用本體匹配算法來進行語義擴展搜索。擴展搜索運行方式:其一,利用本體語義推理的方法,使存在元數據庫里的知識信息語義得到擴展,提高語義擴展搜索的效果。其二,優化計算機用戶搜索條件,即對計算機用戶提出的問詞進行語義擴展和延伸,生成語義較高的搜索查找條件,并按照這個搜索條件進行查找,可以有效的提升語義搜索的準確率及查全率。
2.3.3 “問答式”搜索方式
按照計算機用戶提出的問題,直接回應計算機用戶所提出的問題,并提供相關的搜索結果。這種“問答式”的搜索方式,像是系統與人的溝通交流,當計算機提出所需問題時,系統馬上進行回應。
語義推理系統設計及實現目的主要體現在兩個方面:其一,運用語義推理系統來提高語義搜索的效率。其二,運用語義推理來實現搜索詞匯的擴展及規范化,并通過語義推理方法挖掘出其所隱含的知識信息。
語義本體構建方式包括骨架法、TOVE法、lDEF-5方法、METH法及METHONTOLOGY法等。如TOVE法構建步驟為:(1)本體的激發;(2)非形式化的判斷;(3)規范化的術語;(4)形式化定義;(5)形式化制約;(6)本體完備性。
語義分析功能主要是利用計算機用戶提供的搜索詞匯進行語義上的擴展和分析。語義分析功能主要包括兩個部分:其一,在存在同義詞詞表的基礎上,利用搜索詞匯來進行同義詞的匹配。其二,利用語義擴展出同義詞的搜索詞,并與本體信息庫的本體實例和本體類別之間進行關聯性的結合,再于搜索詞匯基礎上進行語義標識。最后可以獲得相關的語義搜索詞組。例如:輸入“環保”的搜蘇詞組,并進行同義詞的擴展查詢:環保的等價詞為環境保護、Environmental protection、EPD。
語義搜索功能主要是利用語義推理器及自定義的語義推理原則對信息庫存在的知識進行語義推理,同時運用語義搜索查找中的SPARQL語言來進行語義搜索查找運作。
[1]張革伕,徐琪.基于語義Web服務的分布式服裝搜索引擎系統設計[J].計算機應用,2009,23(06):67-68.
[2]王美霞.智能語義搜索引擎的探究[J].電腦知識與技術,2009,12(12):90-92.
[3]崔新會,何志強.淺析基于語義web的信息檢索優化及實現[J].科技致富向導,2011,34(20):78-79.