999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的智能檢索技術(shù)研究

2011-12-31 00:00:00閆青翟瑞生

摘要:目前檢索技術(shù)主要依賴于編碼技術(shù),由于編碼描述只能反映出部分語義,因此不能保證語義的匹配;檢索過程是把用戶的查詢關(guān)鍵詞與全文中的每一個詞進行比較,而不考慮查詢請求與文檔語義上的匹配。網(wǎng)絡(luò)信息檢索面臨兩個亟待解決的關(guān)鍵問題,一是搜索的結(jié)果相關(guān)度低,冗余信息太多;二是搜索引擎無法對常識性問題給予回答,智能化水平低。針對上述兩個關(guān)鍵問題,需要運用本體論的相關(guān)知識,提出基于本體的智能搜索引擎模型,該模型能夠根據(jù)用戶的查詢關(guān)鍵字或者詢問問題,進行語義分析,從而提高檢索結(jié)果的相關(guān)度,并且實現(xiàn)一定程度的語義檢索。

關(guān)鍵詞:搜索引擎 本體 智能檢索

1 搜索引擎概述

搜索引擎利用網(wǎng)絡(luò)自動搜索功能,對各種信息資源分門別類地進行標(biāo)引、建庫,并對信息進行理解、提取、組織和處理,從而起到信息導(dǎo)航的作用,幫助人們從不同形式的數(shù)字化信息中進行搜索。

搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

1.1 傳統(tǒng)搜索引擎工作原理 傳統(tǒng)搜索引擎一般的工作過程是:首先對互聯(lián)網(wǎng)上的網(wǎng)頁進行搜集,然后對搜集來的網(wǎng)頁進行預(yù)處理,建立網(wǎng)頁索引庫,實時響應(yīng)用戶的查詢請求,并對查找到的結(jié)果按某種規(guī)則進行排序后返回給用戶。搜索服務(wù)器根據(jù)系統(tǒng)關(guān)鍵詞字典,把用戶輸入的搜索關(guān)鍵詞轉(zhuǎn)化為wordID,然后在標(biāo)引庫(倒排文件)中得到docID列表,對docID列表中的對象進行掃描并與wordID進行匹配,提取滿足條件的網(wǎng)頁,然后計算網(wǎng)頁和關(guān)鍵詞的相關(guān)度,并根據(jù)相關(guān)度的數(shù)值將結(jié)果返回給用戶。

1.2 傳統(tǒng)搜索引擎的不足及其改進 傳統(tǒng)的通用搜索引擎AltaVista、百度和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:①不同領(lǐng)域、不同背景的用戶往往具有不同的需求,通用搜索引擎所返回的結(jié)果冗余度高。②基于關(guān)鍵字的檢索的傳統(tǒng)搜索引擎,難以支持根據(jù)語義信息提出的查詢。③傳統(tǒng)搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,搜索引擎服務(wù)器資源的有限性與網(wǎng)絡(luò)數(shù)據(jù)資源的開放性和無限性之間的矛盾將進一步突出。

由于用戶查詢信息一般都是基于某個特定領(lǐng)域進行信息檢索,因此,在局限于某一特定領(lǐng)域或某一特定主題的情況下進行原始信息的收集,可以大大提高信息檢索的精確度,從而出現(xiàn)了基于領(lǐng)域本體的搜索引擎技術(shù),并且這種搜索引擎由于在特定主題的限定下進行數(shù)據(jù)的搜索,要求搜索引擎具有智能化的特性,能夠識別所搜索的網(wǎng)頁是否與其主題相關(guān),并且在搜索的過程中,能夠沿著與主題最相關(guān)的鏈接進行搜索。

2 本體論

本體是某個領(lǐng)域內(nèi)(可以是特定專業(yè)的,也可以是寬泛范疇的)不同主體(人、代理、機器等)之間進行交流(對話、互操作、共享等)的一種語義基礎(chǔ),即由本體提供定義明確的詞匯表,描述概念和概念之間的關(guān)系,作為使用者之間達成的共識。

2.1 本體的概念和作用 本體這個術(shù)語來自于哲學(xué),根據(jù)韋氏詞典的解釋,本體是形而上學(xué)的一個分支。目前本體在人工智能領(lǐng)域得到廣泛研究和應(yīng)用,但尚未形成統(tǒng)一的定義,最廣為流傳的定義:本體是對共享概念模型的形式化明確說明。

本體給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的確定詞匯外延的有關(guān)規(guī)則的定義;其目標(biāo)是捕獲相關(guān)的領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定領(lǐng)域內(nèi)通用的詞匯,并給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義。

2.2 本體的表示 目前有兩種本體表示方法應(yīng)用比較廣泛,一是傳統(tǒng)的四元素表示方法,該方法在世界范圍內(nèi)得到了比較高的認(rèn)同,但是形式過于靈活,不易掌握。二是較新的六元組表示法,這種法因為定義規(guī)范,可操作性強,得到了廣大國內(nèi)研究者的歡迎。

六元組表示法的基本思想就是用一個六元組來表示一個本體。

An Ontology={C,AC,R,AR,H,X}

其中C表示概念的集合。AC表示多個屬性集合組成的集合,其中每個屬性集合對應(yīng)于一個概念。R是一個關(guān)系集合。AR是由多個屬性集合組成的集合,其中每個屬性集合對應(yīng)于R中的一個關(guān)系。H表示概念之間的層次結(jié)構(gòu)關(guān)系,X表示公理集合。

3 基于本體的智能搜索引擎

本體提供了人機交流的機制,使得機器可以理解語義,從而為搜索引擎提高效率奠定了基礎(chǔ)。

3.1 基于本體的智能搜索引擎的設(shè)計思想 Ontology使得傳統(tǒng)的基于關(guān)鍵字的檢索,上升到語義檢索的高度。基于本體的智能搜索引擎的基本設(shè)計思想:①在領(lǐng)域?qū)<业膸椭拢⑾嚓P(guān)領(lǐng)域的本體;②收集信息源中的數(shù)據(jù),并參照已建立的Ontology,把收集來的數(shù)據(jù)按規(guī)定的格式存儲在元數(shù)據(jù)庫(關(guān)系數(shù)據(jù)庫、知識庫等)中;③查詢轉(zhuǎn)換器按照Ontology把用戶查洵請求轉(zhuǎn)換成規(guī)定的格式,在Ontology的幫助下從元數(shù)據(jù)庫中匹配出符合條件的數(shù)據(jù)集合;④檢索的結(jié)果經(jīng)過定制處理后,返回給用戶。

3.2 知識庫 知識庫是智能搜索引擎進行推理和知識積累的基礎(chǔ)和關(guān)鍵,而Ontology則是知識庫的基礎(chǔ)。一般來說,本體提供一組術(shù)語和概念來描述某個領(lǐng)域,知識庫則使用這些術(shù)語來表達該領(lǐng)域的事實。

基于本體的智能搜索引擎模型的重要之處是信息庫和知識庫的交流。知識庫是實現(xiàn)智能搜索的核心,知識庫的豐富也決定著檢索能力和Question-Answer能力的高低。信息庫是知識庫存在和發(fā)展的空間,知識庫就是對信息庫的判斷、提取、分析和概括。智能搜索引擎就是通過知識庫把用戶的查詢請求進行語義分析,然后利用分析結(jié)果檢索信息庫。因此,Ontology作為語義分析和知識共享和重用的重要基礎(chǔ),與知識庫、信息庫一起構(gòu)成基于本體的智能搜索引擎模型的三大支柱。

3.3基于本體的智能檢索技術(shù) 基于本體的智能搜索引擎能夠?qū)崿F(xiàn)語義搜索和一定的推理功能,此系統(tǒng)也應(yīng)具備搜索引擎的各種基本的功能,比如網(wǎng)頁的遍歷和獲取、索引的建立、頁面查找算法等。

基于本體的智能搜索引擎的工作原理和檢索步驟可以概括如下:①搜索引擎通過自動網(wǎng)頁采集器(web spider)來抓取網(wǎng)頁,參照特定詞表將網(wǎng)頁信息分類建立索引,加入索引庫中。②建立領(lǐng)域或者通用的本體。③參照本體,使用本體描述語言(DAML、RDF、OWL)對文檔進行語義標(biāo)注。④標(biāo)注的文檔(相當(dāng)于一個本體的實例)存放在知識庫中。⑤用戶以自然語言輸入查詢請求。⑥查詢過濾器(分析器)對用戶的查詢請求進行語義分析,提取概念和相關(guān)屬性的值。⑦檢索代理結(jié)合標(biāo)注文檔中體現(xiàn)的類和關(guān)系信息以及由查詢過濾器的語義分析結(jié)果,進行邏輯推理,生成查詢實例。⑧查詢實例被傳往信息數(shù)據(jù)庫進行查找匹配,并將處理后的結(jié)果返回給用戶。

利用Ontology技術(shù)重新設(shè)計搜索引擎,使搜索引擎更具智能化檢索結(jié)果更能反映用戶的需求,這類搜索引擎稱為智能搜索引擎。把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,是解決問題的根本和關(guān)鍵,智能搜索引擎基于語義層面的檢索形式,是建立在大規(guī)模的知識庫基礎(chǔ)上,根據(jù)用戶所提供的表達檢索要求進行分析,然后形成檢索策略進行搜索,具有領(lǐng)域化和智能化的特點。

參考文獻:

[1]張娜.基于本體的語義智能檢索系統(tǒng)研究[D].西安工業(yè)大學(xué),2007.

[2]文坤梅.基于本體知識庫推理的語義搜索研究[D].華中科技大學(xué),2007.

[3]李曉明,李星.搜索引擎與Web挖掘進展[M].北京:高等教育出版社,2003,64~72.

[4]馮蘭萍.本體在智能信息檢索中應(yīng)用研究[D].常州:河海大學(xué),2005.

[5]汪鵬.語義Web的研究動向及應(yīng)用前景[J].中國信息導(dǎo)報,2004,41(10):25-26.

[6]朱禮軍.萬維網(wǎng)環(huán)境下基于領(lǐng)域知識的信息資源管理模式研究[D].北京:中國農(nóng)業(yè)大學(xué),2004.

[7]曹志松,曹文君.基于語義Web實現(xiàn)有效Web信息檢索的研究[J].復(fù)旦大學(xué)學(xué)報,2004,(7).

主站蜘蛛池模板: 国产一区二区福利| 国产精品第三页在线看| 色香蕉影院| 国内毛片视频| 在线精品视频成人网| 久青草网站| 波多野结衣亚洲一区| 亚洲v日韩v欧美在线观看| 久久永久视频| 欧美性色综合网| 欧美全免费aaaaaa特黄在线| 婷婷六月综合网| 国产正在播放| 人人澡人人爽欧美一区| 2019国产在线| 国产导航在线| 一区二区欧美日韩高清免费| www.亚洲一区二区三区| 亚洲久悠悠色悠在线播放| 国产精品免费露脸视频| 欧美午夜网站| 91福利在线看| 国产精品白浆无码流出在线看| 亚洲午夜国产片在线观看| 欧美.成人.综合在线| 久久久久久久久久国产精品| 国产精品久久久久久久伊一| 一级看片免费视频| 制服丝袜在线视频香蕉| 欧美成人免费一区在线播放| 人妻无码中文字幕一区二区三区| 成人噜噜噜视频在线观看| 亚洲无码精彩视频在线观看 | 欧美色综合网站| 欧美激情视频一区二区三区免费| 不卡午夜视频| 亚洲黄网在线| 四虎永久在线视频| 国产自产视频一区二区三区| 国产视频自拍一区| 亚洲成人动漫在线观看| 国产成人综合亚洲欧美在| AV在线天堂进入| 青青青国产视频手机| 国产一级毛片yw| 成人午夜网址| 天天躁日日躁狠狠躁中文字幕| 亚洲国产精品一区二区高清无码久久| 欧美怡红院视频一区二区三区| 日韩久草视频| 欧美亚洲欧美| 日韩 欧美 小说 综合网 另类| 香蕉久久国产超碰青草| 91精品日韩人妻无码久久| 国产欧美在线观看一区| 日韩在线欧美在线| 欧美色图第一页| 久久无码av一区二区三区| 国产精品一线天| 欧美天堂久久| 911亚洲精品| 三上悠亚精品二区在线观看| 内射人妻无套中出无码| 亚洲开心婷婷中文字幕| 精品91视频| 91精品国产自产在线观看| 99草精品视频| 一区二区三区成人| 国产真实二区一区在线亚洲| 国产视频一区二区在线观看| a网站在线观看| 亚洲精品无码av中文字幕| 999国产精品永久免费视频精品久久 | 91在线精品麻豆欧美在线| 四虎国产精品永久在线网址| 日本午夜在线视频| 中文字幕天无码久久精品视频免费| 亚洲精品第1页| 日韩精品亚洲一区中文字幕| 熟妇丰满人妻| 国产乱子精品一区二区在线观看| 色偷偷男人的天堂亚洲av|