摘要:目前檢索技術(shù)主要依賴于編碼技術(shù),由于編碼描述只能反映出部分語義,因此不能保證語義的匹配;檢索過程是把用戶的查詢關(guān)鍵詞與全文中的每一個詞進行比較,而不考慮查詢請求與文檔語義上的匹配。網(wǎng)絡(luò)信息檢索面臨兩個亟待解決的關(guān)鍵問題,一是搜索的結(jié)果相關(guān)度低,冗余信息太多;二是搜索引擎無法對常識性問題給予回答,智能化水平低。針對上述兩個關(guān)鍵問題,需要運用本體論的相關(guān)知識,提出基于本體的智能搜索引擎模型,該模型能夠根據(jù)用戶的查詢關(guān)鍵字或者詢問問題,進行語義分析,從而提高檢索結(jié)果的相關(guān)度,并且實現(xiàn)一定程度的語義檢索。
關(guān)鍵詞:搜索引擎 本體 智能檢索
1 搜索引擎概述
搜索引擎利用網(wǎng)絡(luò)自動搜索功能,對各種信息資源分門別類地進行標(biāo)引、建庫,并對信息進行理解、提取、組織和處理,從而起到信息導(dǎo)航的作用,幫助人們從不同形式的數(shù)字化信息中進行搜索。
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
1.1 傳統(tǒng)搜索引擎工作原理 傳統(tǒng)搜索引擎一般的工作過程是:首先對互聯(lián)網(wǎng)上的網(wǎng)頁進行搜集,然后對搜集來的網(wǎng)頁進行預(yù)處理,建立網(wǎng)頁索引庫,實時響應(yīng)用戶的查詢請求,并對查找到的結(jié)果按某種規(guī)則進行排序后返回給用戶。搜索服務(wù)器根據(jù)系統(tǒng)關(guān)鍵詞字典,把用戶輸入的搜索關(guān)鍵詞轉(zhuǎn)化為wordID,然后在標(biāo)引庫(倒排文件)中得到docID列表,對docID列表中的對象進行掃描并與wordID進行匹配,提取滿足條件的網(wǎng)頁,然后計算網(wǎng)頁和關(guān)鍵詞的相關(guān)度,并根據(jù)相關(guān)度的數(shù)值將結(jié)果返回給用戶。
1.2 傳統(tǒng)搜索引擎的不足及其改進 傳統(tǒng)的通用搜索引擎AltaVista、百度和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:①不同領(lǐng)域、不同背景的用戶往往具有不同的需求,通用搜索引擎所返回的結(jié)果冗余度高。②基于關(guān)鍵字的檢索的傳統(tǒng)搜索引擎,難以支持根據(jù)語義信息提出的查詢。③傳統(tǒng)搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,搜索引擎服務(wù)器資源的有限性與網(wǎng)絡(luò)數(shù)據(jù)資源的開放性和無限性之間的矛盾將進一步突出。
由于用戶查詢信息一般都是基于某個特定領(lǐng)域進行信息檢索,因此,在局限于某一特定領(lǐng)域或某一特定主題的情況下進行原始信息的收集,可以大大提高信息檢索的精確度,從而出現(xiàn)了基于領(lǐng)域本體的搜索引擎技術(shù),并且這種搜索引擎由于在特定主題的限定下進行數(shù)據(jù)的搜索,要求搜索引擎具有智能化的特性,能夠識別所搜索的網(wǎng)頁是否與其主題相關(guān),并且在搜索的過程中,能夠沿著與主題最相關(guān)的鏈接進行搜索。
2 本體論
本體是某個領(lǐng)域內(nèi)(可以是特定專業(yè)的,也可以是寬泛范疇的)不同主體(人、代理、機器等)之間進行交流(對話、互操作、共享等)的一種語義基礎(chǔ),即由本體提供定義明確的詞匯表,描述概念和概念之間的關(guān)系,作為使用者之間達成的共識。
2.1 本體的概念和作用 本體這個術(shù)語來自于哲學(xué),根據(jù)韋氏詞典的解釋,本體是形而上學(xué)的一個分支。目前本體在人工智能領(lǐng)域得到廣泛研究和應(yīng)用,但尚未形成統(tǒng)一的定義,最廣為流傳的定義:本體是對共享概念模型的形式化明確說明。
本體給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的確定詞匯外延的有關(guān)規(guī)則的定義;其目標(biāo)是捕獲相關(guān)的領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定領(lǐng)域內(nèi)通用的詞匯,并給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義。
2.2 本體的表示 目前有兩種本體表示方法應(yīng)用比較廣泛,一是傳統(tǒng)的四元素表示方法,該方法在世界范圍內(nèi)得到了比較高的認(rèn)同,但是形式過于靈活,不易掌握。二是較新的六元組表示法,這種法因為定義規(guī)范,可操作性強,得到了廣大國內(nèi)研究者的歡迎。
六元組表示法的基本思想就是用一個六元組來表示一個本體。
An Ontology={C,AC,R,AR,H,X}
其中C表示概念的集合。AC表示多個屬性集合組成的集合,其中每個屬性集合對應(yīng)于一個概念。R是一個關(guān)系集合。AR是由多個屬性集合組成的集合,其中每個屬性集合對應(yīng)于R中的一個關(guān)系。H表示概念之間的層次結(jié)構(gòu)關(guān)系,X表示公理集合。
3 基于本體的智能搜索引擎
本體提供了人機交流的機制,使得機器可以理解語義,從而為搜索引擎提高效率奠定了基礎(chǔ)。
3.1 基于本體的智能搜索引擎的設(shè)計思想 Ontology使得傳統(tǒng)的基于關(guān)鍵字的檢索,上升到語義檢索的高度。基于本體的智能搜索引擎的基本設(shè)計思想:①在領(lǐng)域?qū)<业膸椭拢⑾嚓P(guān)領(lǐng)域的本體;②收集信息源中的數(shù)據(jù),并參照已建立的Ontology,把收集來的數(shù)據(jù)按規(guī)定的格式存儲在元數(shù)據(jù)庫(關(guān)系數(shù)據(jù)庫、知識庫等)中;③查詢轉(zhuǎn)換器按照Ontology把用戶查洵請求轉(zhuǎn)換成規(guī)定的格式,在Ontology的幫助下從元數(shù)據(jù)庫中匹配出符合條件的數(shù)據(jù)集合;④檢索的結(jié)果經(jīng)過定制處理后,返回給用戶。
3.2 知識庫 知識庫是智能搜索引擎進行推理和知識積累的基礎(chǔ)和關(guān)鍵,而Ontology則是知識庫的基礎(chǔ)。一般來說,本體提供一組術(shù)語和概念來描述某個領(lǐng)域,知識庫則使用這些術(shù)語來表達該領(lǐng)域的事實。
基于本體的智能搜索引擎模型的重要之處是信息庫和知識庫的交流。知識庫是實現(xiàn)智能搜索的核心,知識庫的豐富也決定著檢索能力和Question-Answer能力的高低。信息庫是知識庫存在和發(fā)展的空間,知識庫就是對信息庫的判斷、提取、分析和概括。智能搜索引擎就是通過知識庫把用戶的查詢請求進行語義分析,然后利用分析結(jié)果檢索信息庫。因此,Ontology作為語義分析和知識共享和重用的重要基礎(chǔ),與知識庫、信息庫一起構(gòu)成基于本體的智能搜索引擎模型的三大支柱。
3.3基于本體的智能檢索技術(shù) 基于本體的智能搜索引擎能夠?qū)崿F(xiàn)語義搜索和一定的推理功能,此系統(tǒng)也應(yīng)具備搜索引擎的各種基本的功能,比如網(wǎng)頁的遍歷和獲取、索引的建立、頁面查找算法等。
基于本體的智能搜索引擎的工作原理和檢索步驟可以概括如下:①搜索引擎通過自動網(wǎng)頁采集器(web spider)來抓取網(wǎng)頁,參照特定詞表將網(wǎng)頁信息分類建立索引,加入索引庫中。②建立領(lǐng)域或者通用的本體。③參照本體,使用本體描述語言(DAML、RDF、OWL)對文檔進行語義標(biāo)注。④標(biāo)注的文檔(相當(dāng)于一個本體的實例)存放在知識庫中。⑤用戶以自然語言輸入查詢請求。⑥查詢過濾器(分析器)對用戶的查詢請求進行語義分析,提取概念和相關(guān)屬性的值。⑦檢索代理結(jié)合標(biāo)注文檔中體現(xiàn)的類和關(guān)系信息以及由查詢過濾器的語義分析結(jié)果,進行邏輯推理,生成查詢實例。⑧查詢實例被傳往信息數(shù)據(jù)庫進行查找匹配,并將處理后的結(jié)果返回給用戶。
利用Ontology技術(shù)重新設(shè)計搜索引擎,使搜索引擎更具智能化檢索結(jié)果更能反映用戶的需求,這類搜索引擎稱為智能搜索引擎。把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,是解決問題的根本和關(guān)鍵,智能搜索引擎基于語義層面的檢索形式,是建立在大規(guī)模的知識庫基礎(chǔ)上,根據(jù)用戶所提供的表達檢索要求進行分析,然后形成檢索策略進行搜索,具有領(lǐng)域化和智能化的特點。
參考文獻:
[1]張娜.基于本體的語義智能檢索系統(tǒng)研究[D].西安工業(yè)大學(xué),2007.
[2]文坤梅.基于本體知識庫推理的語義搜索研究[D].華中科技大學(xué),2007.
[3]李曉明,李星.搜索引擎與Web挖掘進展[M].北京:高等教育出版社,2003,64~72.
[4]馮蘭萍.本體在智能信息檢索中應(yīng)用研究[D].常州:河海大學(xué),2005.
[5]汪鵬.語義Web的研究動向及應(yīng)用前景[J].中國信息導(dǎo)報,2004,41(10):25-26.
[6]朱禮軍.萬維網(wǎng)環(huán)境下基于領(lǐng)域知識的信息資源管理模式研究[D].北京:中國農(nóng)業(yè)大學(xué),2004.
[7]曹志松,曹文君.基于語義Web實現(xiàn)有效Web信息檢索的研究[J].復(fù)旦大學(xué)學(xué)報,2004,(7).