基于本體的智能檢索技術(shù)研究

2011-12-31 00:00:00閆青翟瑞生

中小企業(yè)管理與科技·上旬刊 2011年9期

摘要：目前檢索技術(shù)主要依賴于編碼技術(shù)，由于編碼描述只能反映出部分語義，因此不能保證語義的匹配；檢索過程是把用戶的查詢關(guān)鍵詞與全文中的每一個詞進行比較，而不考慮查詢請求與文檔語義上的匹配。網(wǎng)絡(luò)信息檢索面臨兩個亟待解決的關(guān)鍵問題，一是搜索的結(jié)果相關(guān)度低，冗余信息太多；二是搜索引擎無法對常識性問題給予回答，智能化水平低。針對上述兩個關(guān)鍵問題，需要運用本體論的相關(guān)知識，提出基于本體的智能搜索引擎模型，該模型能夠根據(jù)用戶的查詢關(guān)鍵字或者詢問問題，進行語義分析，從而提高檢索結(jié)果的相關(guān)度，并且實現(xiàn)一定程度的語義檢索。

關(guān)鍵詞：搜索引擎本體智能檢索

1 搜索引擎概述

搜索引擎利用網(wǎng)絡(luò)自動搜索功能，對各種信息資源分門別類地進行標(biāo)引、建庫，并對信息進行理解、提取、組織和處理，從而起到信息導(dǎo)航的作用，幫助人們從不同形式的數(shù)字化信息中進行搜索。

搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。

1.1 傳統(tǒng)搜索引擎工作原理傳統(tǒng)搜索引擎一般的工作過程是:首先對互聯(lián)網(wǎng)上的網(wǎng)頁進行搜集，然后對搜集來的網(wǎng)頁進行預(yù)處理，建立網(wǎng)頁索引庫，實時響應(yīng)用戶的查詢請求，并對查找到的結(jié)果按某種規(guī)則進行排序后返回給用戶。搜索服務(wù)器根據(jù)系統(tǒng)關(guān)鍵詞字典，把用戶輸入的搜索關(guān)鍵詞轉(zhuǎn)化為wordID，然后在標(biāo)引庫(倒排文件)中得到docID列表，對docID列表中的對象進行掃描并與wordID進行匹配，提取滿足條件的網(wǎng)頁，然后計算網(wǎng)頁和關(guān)鍵詞的相關(guān)度，并根據(jù)相關(guān)度的數(shù)值將結(jié)果返回給用戶。

1.2 傳統(tǒng)搜索引擎的不足及其改進傳統(tǒng)的通用搜索引擎AltaVista、百度和Google等，作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如:①不同領(lǐng)域、不同背景的用戶往往具有不同的需求，通用搜索引擎所返回的結(jié)果冗余度高。②基于關(guān)鍵字的檢索的傳統(tǒng)搜索引擎，難以支持根據(jù)語義信息提出的查詢。③傳統(tǒng)搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，搜索引擎服務(wù)器資源的有限性與網(wǎng)絡(luò)數(shù)據(jù)資源的開放性和無限性之間的矛盾將進一步突出。

由于用戶查詢信息一般都是基于某個特定領(lǐng)域進行信息檢索，因此，在局限于某一特定領(lǐng)域或某一特定主題的情況下進行原始信息的收集，可以大大提高信息檢索的精確度，從而出現(xiàn)了基于領(lǐng)域本體的搜索引擎技術(shù)，并且這種搜索引擎由于在特定主題的限定下進行數(shù)據(jù)的搜索，要求搜索引擎具有智能化的特性，能夠識別所搜索的網(wǎng)頁是否與其主題相關(guān)，并且在搜索的過程中，能夠沿著與主題最相關(guān)的鏈接進行搜索。

2 本體論

本體是某個領(lǐng)域內(nèi)（可以是特定專業(yè)的，也可以是寬泛范疇的）不同主體（人、代理、機器等）之間進行交流（對話、互操作、共享等）的一種語義基礎(chǔ)，即由本體提供定義明確的詞匯表，描述概念和概念之間的關(guān)系，作為使用者之間達成的共識。

2.1 本體的概念和作用本體這個術(shù)語來自于哲學(xué)，根據(jù)韋氏詞典的解釋，本體是形而上學(xué)的一個分支。目前本體在人工智能領(lǐng)域得到廣泛研究和應(yīng)用，但尚未形成統(tǒng)一的定義，最廣為流傳的定義：本體是對共享概念模型的形式化明確說明。

本體給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系，以及利用這些術(shù)語和關(guān)系構(gòu)成的確定詞匯外延的有關(guān)規(guī)則的定義；其目標(biāo)是捕獲相關(guān)的領(lǐng)域的知識，提供對該領(lǐng)域知識的共同理解，確定領(lǐng)域內(nèi)通用的詞匯，并給出這些詞匯（術(shù)語）和詞匯之間相互關(guān)系的明確定義。

2.2 本體的表示目前有兩種本體表示方法應(yīng)用比較廣泛，一是傳統(tǒng)的四元素表示方法，該方法在世界范圍內(nèi)得到了比較高的認(rèn)同，但是形式過于靈活，不易掌握。二是較新的六元組表示法，這種法因為定義規(guī)范，可操作性強，得到了廣大國內(nèi)研究者的歡迎。

六元組表示法的基本思想就是用一個六元組來表示一個本體。

An Ontology=｛C，AC，R，AR，H，X｝

其中C表示概念的集合。AC表示多個屬性集合組成的集合，其中每個屬性集合對應(yīng)于一個概念。R是一個關(guān)系集合。AR是由多個屬性集合組成的集合，其中每個屬性集合對應(yīng)于R中的一個關(guān)系。H表示概念之間的層次結(jié)構(gòu)關(guān)系，X表示公理集合。

3 基于本體的智能搜索引擎

本體提供了人機交流的機制，使得機器可以理解語義，從而為搜索引擎提高效率奠定了基礎(chǔ)。

3.1 基于本體的智能搜索引擎的設(shè)計思想 Ontology使得傳統(tǒng)的基于關(guān)鍵字的檢索，上升到語義檢索的高度。基于本體的智能搜索引擎的基本設(shè)計思想：①在領(lǐng)域?qū)＜业膸椭拢⑾嚓P(guān)領(lǐng)域的本體；②收集信息源中的數(shù)據(jù)，并參照已建立的Ontology，把收集來的數(shù)據(jù)按規(guī)定的格式存儲在元數(shù)據(jù)庫（關(guān)系數(shù)據(jù)庫、知識庫等）中；③查詢轉(zhuǎn)換器按照Ontology把用戶查洵請求轉(zhuǎn)換成規(guī)定的格式，在Ontology的幫助下從元數(shù)據(jù)庫中匹配出符合條件的數(shù)據(jù)集合；④檢索的結(jié)果經(jīng)過定制處理后，返回給用戶。

3.2 知識庫知識庫是智能搜索引擎進行推理和知識積累的基礎(chǔ)和關(guān)鍵，而Ontology則是知識庫的基礎(chǔ)。一般來說，本體提供一組術(shù)語和概念來描述某個領(lǐng)域，知識庫則使用這些術(shù)語來表達該領(lǐng)域的事實。

基于本體的智能搜索引擎模型的重要之處是信息庫和知識庫的交流。知識庫是實現(xiàn)智能搜索的核心，知識庫的豐富也決定著檢索能力和Question-Answer能力的高低。信息庫是知識庫存在和發(fā)展的空間，知識庫就是對信息庫的判斷、提取、分析和概括。智能搜索引擎就是通過知識庫把用戶的查詢請求進行語義分析，然后利用分析結(jié)果檢索信息庫。因此，Ontology作為語義分析和知識共享和重用的重要基礎(chǔ)，與知識庫、信息庫一起構(gòu)成基于本體的智能搜索引擎模型的三大支柱。

3.3基于本體的智能檢索技術(shù) 基于本體的智能搜索引擎能夠?qū)崿F(xiàn)語義搜索和一定的推理功能，此系統(tǒng)也應(yīng)具備搜索引擎的各種基本的功能，比如網(wǎng)頁的遍歷和獲取、索引的建立、頁面查找算法等。

基于本體的智能搜索引擎的工作原理和檢索步驟可以概括如下：①搜索引擎通過自動網(wǎng)頁采集器(web spider)來抓取網(wǎng)頁，參照特定詞表將網(wǎng)頁信息分類建立索引，加入索引庫中。②建立領(lǐng)域或者通用的本體。③參照本體，使用本體描述語言(DAML、RDF、OWL)對文檔進行語義標(biāo)注。④標(biāo)注的文檔(相當(dāng)于一個本體的實例)存放在知識庫中。⑤用戶以自然語言輸入查詢請求。⑥查詢過濾器（分析器）對用戶的查詢請求進行語義分析，提取概念和相關(guān)屬性的值。⑦檢索代理結(jié)合標(biāo)注文檔中體現(xiàn)的類和關(guān)系信息以及由查詢過濾器的語義分析結(jié)果，進行邏輯推理，生成查詢實例。⑧查詢實例被傳往信息數(shù)據(jù)庫進行查找匹配，并將處理后的結(jié)果返回給用戶。

利用Ontology技術(shù)重新設(shè)計搜索引擎，使搜索引擎更具智能化檢索結(jié)果更能反映用戶的需求，這類搜索引擎稱為智能搜索引擎。把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面，是解決問題的根本和關(guān)鍵，智能搜索引擎基于語義層面的檢索形式，是建立在大規(guī)模的知識庫基礎(chǔ)上，根據(jù)用戶所提供的表達檢索要求進行分析，然后形成檢索策略進行搜索，具有領(lǐng)域化和智能化的特點。

參考文獻：

[1]張娜.基于本體的語義智能檢索系統(tǒng)研究[D].西安工業(yè)大學(xué)，2007.

[2]文坤梅.基于本體知識庫推理的語義搜索研究[D].華中科技大學(xué)，2007.

[3]李曉明，李星.搜索引擎與Web挖掘進展[M].北京:高等教育出版社，2003，64～72.

[4]馮蘭萍.本體在智能信息檢索中應(yīng)用研究[D].常州:河海大學(xué)，2005.

[5]汪鵬.語義Web的研究動向及應(yīng)用前景[J].中國信息導(dǎo)報，2004，41（10）:25-26.

[6]朱禮軍.萬維網(wǎng)環(huán)境下基于領(lǐng)域知識的信息資源管理模式研究[D].北京：中國農(nóng)業(yè)大學(xué)，2004.

[7]曹志松，曹文君.基于語義Web實現(xiàn)有效Web信息檢索的研究[J].復(fù)旦大學(xué)學(xué)報，2004，（7）.

中小企業(yè)管理與科技·上旬刊2011年9期

中小企業(yè)管理與科技·上旬刊的其它文章: 基于故障類型及影響分析法(FMEA)的天然氣管道評價; 從童年經(jīng)驗看葉廣芩的家族小說創(chuàng)作; 循環(huán)流化床鍋爐除塵裝置的設(shè)計與改進; 網(wǎng)絡(luò)文化與大學(xué)生思想道德修養(yǎng)的幾點思考; 淺析高校學(xué)生管理工作; 淺析大學(xué)學(xué)習(xí)困難學(xué)生的成因及轉(zhuǎn)化策略