999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息檢索新技術解析

2007-01-01 00:00:00朱永海
現代教育技術 2007年4期

【摘要】本文結合了計算機科學技術的發展,分析了基于XML的、基于多語言的、基于(多媒體)內容的、基于自然語言(智能)以及基于智能代理的信息檢索新技術,并著重指出了它們的工作過程和原理。

【關鍵詞】基于XML的信息檢索新技術,基于多語言的信息檢索新技術,多媒體信息檢索,智能信息檢索,基于智能代理的信息檢索,信息檢索

【中圖分類號】G434【文獻標識碼】B【論文編號】1009—8097(2007)04—0080—03

一、引言

利用傳統的搜索引擎檢索信息,通常檢索出大量的無用的垃圾信息,以至于人們被淹沒于“海量”的信息之中,而無所適從。在知識時代,人們不再需要這樣的海量信息,而是需要符合用戶需求、對用戶有價值的知識——經過分析、概括和提煉出來信息。而傳統的搜索引擎無法實現由搜索信息向檢索知識轉變的需求,因而出現了“信息爆炸而知識貧乏”的怪象。因筆者認為很有必要追蹤信息檢索的新技術。[1]

二、信息檢索新技術

1.基于XML的信息檢索技術

HTML是目前因特網上廣泛應用的標記語言,存在著難以擴展、交互性差、尤其是基于HTML的搜索引擎存在著返回結果太多和檢索精度差的弊端。而XML可以有效地克服這些不足。與HTML不同的是,XML語言能把數據與數據表示分開。

1.1.XML標記在搜索中的優點

因為搜索引擎可以利用XML文檔中的標簽來確定在文檔中的哪一部分查找,而不是像在HTML文檔中一樣,是在整個文檔中查找,避免了傳統搜索引擎的全文檢索技術。而且,自然語言中的詞經常多義,XML能幫助人們辨別模糊詞義。有助于解決詞義模糊問題,提高檢索的準確性。另外,XML使得能用結構相鄰關系來替代物理相鄰關系進行檢索結果相關性排序。XML可允許利用非文本數據,如數值數據、地理位置等進行檢索。

1.2.基于XML的搜索引擎(XML Search Engine)

基于XML的搜索引擎以信息檢索單位來分有兩種:一種是以文檔為檢索單位,一種是以文檔中的被標注元素為檢索單位。我們通常關心的是后一種。其查詢方法是文檔中的由標記標注的數據段;返回的結果是從整個網頁中抽出的數據段。在查詢時可以在查找到的數據的基礎上,進行計算和格式轉換,合并多個數據中的數據,甚至自動對文檔進行更新。我們利用XML搜索引擎檢索信息,能充分利用XML的標記字段所帶來的上下文信息,大幅度縮小檢索的范圍,提高查詢的準確率。

已開發出的以文檔中的被標注元素為檢索單位的XML搜索引擎有,比較成熟的有XRS(XML Retrieval System)。它是基于BUS (Bottom Up Scheme)技術的用Java實現的一個搜索引擎。采用的基本思想是:在文檔的最低的結構層次上建立索引,在進行查詢的時候在較高的結構層次上計算詞的權重信息。它十分依賴于文檔的結構信息,在已知文檔的結構定義的情況下能夠很好地在數據記錄一級進行文檔的查詢。[2]

2.基于多種語言的信息檢索技術——跨語言信息檢索技術

傳統的搜索引擎中,中英文混合檢索詞是不被支持的,跨語言搜索(Multilingual Search)引擎就能解決這個問題。

跨語言綜合搜索引擎通常是在傳統的搜索引擎的基礎上,增加了兩個功能:一是提交檢索關鍵字時,先翻譯成不同的語種,再檢索。即:檢索詞為同一語種,檢索結果為不同語種。這是一種是架構在單一搜索引擎的基礎上多語種檢索引擎。二是不同(語種)搜索引擎檢索結果之間的集成。是一種架構在多搜索引擎的基礎上多語種檢索引擎。

跨語言搜索引擎的工作過程如下:用戶向系統提交檢索詞,形成一個源語言的搜索式,系統對搜索式進行語言識別,識別出語種后,就對進行提問式的詞法分析和結構分析,然后把這個分析過的搜索式翻譯成各種語言的搜索式,最后把這一系列的搜索式提交給系統進行檢索就可以了。檢索結果是含有多個語種的頁面。如使用多搜索引擎,轉換成不同語言搜索式時還需注意各種搜索引擎搜索式表達方法的不同。[3]

3.基于內容的信息檢索技術——多媒體信息檢索技術

因特網的資源可分為結構化數據和非結構化數據。傳統的搜索引擎只能處理如字符、數字等的結構化數據,而對于多媒體等非結構化的多媒體數據則無可奈何。因而,這些多媒體資料的管理和再利用變得非常困難,需要合適的歸檔體系允許高效的瀏覽、搜索和檢索。傳統的方法是采用文本注釋圖像和視頻信息,但這種方法顯得力不從心,許多應用場合文字不足以描述具有豐富內容的視頻等。而MPEG-7的發布,支持對音視頻內容的元數據和文本描述,并且進一步發展了基于內容的描述和檢索規范,支持盡可能廣泛的應用領域,使資源的全球共享成為可能。并由此而形成了基于內容的檢索CBR(Content-Based Retrieval)。

3.1.CBR檢索特點

基于內容的檢索也稱多媒體信息檢索(Multimedia Search),它是建立在MPEG-7的多重和分層描述的基礎之上的。根據媒體對象的內容語義及上下文聯系進行檢索。具有以下特點[4]: (1)直接對多媒體內容進行分析,抽取特征和語義建立索引。(2)采用相似性匹配的方法逐步迭代求精獲得檢索結果,避免常規數據庫檢索中的精確匹配方法。(3) 采用多種檢索手段,除提取多媒體內容特征進行檢索外,還提供了其它檢索手段,如通過提供樣本圖像進行相似性檢索,或通過人機交互進行瀏覽檢索。

3.2. CBR系統構成

完整的CBR系統一般由兩個子系統構成,即數據庫生成子系統和檢索子系統。每個子系統由相應的功能模塊和部件組成,包括:(1)對象標識;(2)特征提取;(3)數據庫;(4) 搜索引擎;(5) 用戶檢索和瀏覽接口。

3.3.CBR檢索過程

對因特網多媒體資源的CBR檢索歷經特征調整、重新匹配、逐步求精的循環過程:(1)最初用戶可用檢索語言形成一個初始化的檢索,系統提取該示例的特征或把檢索描述映射為具體的特征矢量。(2)將檢索特征與特征庫中特征按一定匹配算法進行相似匹配。(3)按相似度大小,將滿足一定相似條件的候選結果排序后反饋給用戶。(4)用戶挑選候選滿意的結果,或從候選結果中選擇一個示例,經特征調整后形成新的檢索。(5)逐步縮小檢索范圍,直到用戶對檢索滿意為止。[5]

目前,已經出現了許多專門針對多媒體的搜索引擎,其中較成熟的有:Columbia 大學開發的專門用于因特網上圖像檢索的WebSeek、東北大學研制的分布式多媒體信息系統等。

4.基于自然語言的信息檢索技術——智能檢索技術

由于多種原因,用傳統的搜索引擎,在搜索信息時,通常會造成信息丟失、信息太多以及信息無關等多種弊端。造成這些問題的根本原因在于:傳統的搜索引擎對要檢索的問題僅僅采用“機械式”、“孤立的”關鍵詞匹配來實現,缺乏知識處理能力和理解能力,而不能結合句子,在特定的語境或用戶的專業領域中來進行檢索。因此,結合人工智能技術的智能搜索(Intelligent Search)引擎把信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)和自然語言的層面,才能有效地解決這個問題。

基于自然語言的搜索引擎是智能搜索引擎的一種形式,是一種狹義的搜索引擎。它是結合了人工智能技術的新一代搜索引擎,它能夠利用分詞技術、同義詞技術、概念搜索、短語識別和句子理解等技術,來實現信息檢索服務的智能化、人性化特征,從而最終實現利用自然語言進行信息的檢索(Natural Language Search)。再加上智能搜索引擎可以根據互聯網本身的鏈接結構對相關網站用自動方法進行分類,以及結構嚴謹,萃取精華的開放式信息目錄,為每一個查詢迅速提供準確的結果。目前比較成功的智能搜索引擎有FSA,InFind,CompassWare和FAQFinder。

基于自然語言的搜索引擎的實現各不相同、各有特點,但從實現的基本思路上是相通的。下面簡要說明一下其實現過程[6]。

4.1.知識庫

這里的知識庫是對理論上完整知識庫的一種近似,一種局部實現。知識庫是實現基于自然語言搜索的基礎和核心。知識庫中的知識用以為智能搜索引擎分析、概括提供依據和基礎。

4.2.信息庫

信息庫就是互聯網。互聯網是一個巨大的、非結構化而且處于不停變化的信息空間。信息庫可以起到兩方面的作用。首先,信息庫是知識庫存在和發展的空間。其次,信息庫也是用戶所要檢索的內容。

4.3.語義分析、知識管理和知識檢索

要做到基于自然語言的搜索還必須做到知識庫和信息庫結合的問題。要做到兩個核心庫的有機結合,就必須要做到:(1)知識管理。知識管理主要實現知識庫的自增長和結構優化,知識庫的增長的基礎是對信息庫的概括和提取,結構優化是機器自身學習的結果。只有知識庫不斷增長和優化,才能不斷地解決新的信息檢索問題。 (2)語義分析。分析用戶語言的具體含義。借助于分詞技術、詞法分析、語法分析、篇章結構的分析等技術,實現整句分詞、處理同義詞,并根據知識庫分析關鍵詞明確概念或自然語言句子的語義,確定用戶真正用意,并不斷進行自身學習,豐富知識庫。(3)知識檢索。知識檢索是實現基于自然語言搜索的最后一環,通過前面語義分析結果,明確用戶用意,對信息庫進行知識(概念)層次的檢索,從多方位對用戶的問題進行回答。

基于自然語言的信息檢索具有以下優點:(1) 檢索過程智能化; (2) 檢索范圍定位的準確性;(3) 檢索結果的準確性;(4) 檢索結果的綜合性。它重點實現檢索的智能化問題。至于用戶檢索的個性化問題,則可以由智能搜索引擎的另外一種形式——基于智能代理技術的信息檢索來實現。

5.基于智能代理的信息檢索技術

智能代理技術在搜索引擎中的應用,可以看成是搜索引擎發展的主要趨勢和目標。基于智能代理信息檢索(Agent Assisted Search)技術是智能信息檢索的一種高級形式,是信息智能化和個性化的一種結合。

5.1.智能代理概述

智能代理(Agent)是人工智能研究的新成果,一般認為:Agent是一個具有自主性、社會能力、反應性和能動性等性質的基于硬件或(更經常的)基于軟件的計算機系統(實體)。智能代理應用于信息檢索領域之中,成為開發智能化、個性化信息檢索的重要和主流的技術之一。

智能代理具有以下特點[7]:①智能性,②代理性,③移動性,④主動性,⑤協作性,每一個特點都與智能化、個性化的信息檢索的要求不謀而合。

5.2.基于智能代理技術的搜索引擎

智能代理技術在信息檢索中主要可以完成以下功能:①代理,②導航,③解惑,④過濾,⑤發現,⑥整理,⑦推送(報告)。具體來說:

(1) 智能代理可以在任何時候,任何機器上,代理或引導用戶檢索信息。

(2) 智能代理進行機器學習,并且具有從經驗中不斷學習的能力,適當地進行自我調節,提高處理問題能力。

(3) 可以根據用戶的行為,了解掌握用戶的興趣、專業領域等,借助于自身豐富的知識和推理能力,揣測用戶的意圖。也可對用戶的檢索需求進行分析,處理復雜的難度高的檢索任務。

(4)理解用戶用自然語言表達的對信息資源的需求,在一定程度上消除用戶在輸入信息檢索關鍵字上的多義和歧義,縮小并較為精確地接近用戶的檢索需求內容。

(5) 智能Agent可在無法事先建模的、動態變化的信息環境中,獨立規劃復雜的信息檢索步驟,解決信息檢索問題。 它可被看成是代表用戶駐網絡的常設機構,在用戶不參與或不在線的情況下,獨立地、及時地、有針對地發現和索取符合用戶需求資源。

(6)在網絡計算環境下,它可以在網絡上靈活機動地訪問各種資源和服務,還可以為完成特定任務同其他智能Agent進行協商和合作,甚至把自己“遷移”到網絡中的其他主機上去執行任務。

(7)它可以把其檢索來的資源包裝起來, 并可進行聚類,產生個性化模式,同時存入該用戶的個性化模式庫中,引導或代替用戶對這些資源進行訪問, 成為便于通達這些資源的樞紐和中介。或者可及時地、直接地通過某種方式,把檢索的信息推送(報告)給用戶或提醒用戶查收信息。推送的形式可采用頻道式推送、郵件式推送、網頁式推送或專用式推送。

5.3. 基于智能代理技術的實現模式[8]

(1)服務器端智能代理檢索的模型(如圖2)

(2)客戶端智能代理檢索的模型(如圖3)

搜索引擎技術與智能代理技術在網絡信息檢索上結合的發展潛力是巨大的,但要真正實現優勢結合,還有待在機器學習、相關度分析、信息推送等方面進行逐漸的研究和改進。

三、結束語

信息檢索已成為僅次于電子郵件的互連網絡第二大服務,通過新技術的不斷引用,信息檢索技術獲得了長足地發展。促使了目前信息檢索服務中的“信息過載”和“資源迷向”的根本轉變;使信息檢索的問題從“機械式”、“孤立的”關鍵詞匹配、缺乏知識處理能力和理解能力的層面上,提高到基于知識(或概念)和自然語言的智能層面;從而實現了由搜索信息向檢索知識的轉變。并在擴大信息檢索范圍、提高檢索的結果的精確度、提高信息檢索的專業化、智能化、個性化、人性化,乃至整個信息檢索的服務上都有了實質性的轉變和提高。

參考文獻

[1]徐寶文,張衛豐.搜索引擎與信息獲取技術[M].北京:清華大學出版社。

[2]王海波,姜吉發等. XML搜索引擎研究MPEG-7的應用.

[DB/OL]. http://www.ict.ac.cn/xueshu/2001/114.DOC.

[3] Enet.詳細介紹常用的幾類搜索引擎技術

[DB/OL].http://www.enet.com.cn/article/2004/1018/A20041018353138_4.shtml.

[4][5] 林陽.CBR在因特網教育資源檢索中的應用.

[DB/OL].http://www.ecnu.edu.cn/depart/

jiaoxin/article/page3.htm.

[6]中文智能搜索引擎簡介.[DB/OL].http://text88.myrice.com/wenzhang/seach.htm

[7]網絡搜索引擎與智能代理技術[DB/OL].http://www.ecnu.edu.cn/depart/jiaoxin/article/page2.htm.

[8] 呂少剛,李健. 基于MPEG-7和XML描述的智能圖像搜索引擎(2).http://www.ahcit.com/200403/12.doc

主站蜘蛛池模板: 毛片在线播放a| 国内毛片视频| 亚洲男人的天堂视频| 国产人成在线观看| 高潮爽到爆的喷水女主播视频| 婷婷五月在线| 日韩成人在线一区二区| 亚洲国产一区在线观看| 亚洲午夜福利精品无码不卡| 91无码人妻精品一区| 亚洲侵犯无码网址在线观看| 亚洲成av人无码综合在线观看| www.日韩三级| 欧美午夜理伦三级在线观看| 国产毛片久久国产| www精品久久| 青青久视频| 亚洲国产成人久久精品软件 | 99视频全部免费| 亚洲视频免费在线| 国产色婷婷| 亚洲第一极品精品无码| 亚洲AV无码久久天堂| 1769国产精品免费视频| 精品国产福利在线| 精品久久人人爽人人玩人人妻| 欧美区国产区| 亚洲热线99精品视频| 久久香蕉国产线| 亚洲不卡无码av中文字幕| 色偷偷男人的天堂亚洲av| 亚洲欧美国产五月天综合| 亚洲国产理论片在线播放| 麻豆国产在线观看一区二区 | 亚洲天堂免费在线视频| 亚洲一区网站| 亚洲激情99| 亚洲 欧美 日韩综合一区| 国内嫩模私拍精品视频| 精品偷拍一区二区| 欧美成人手机在线视频| 91亚洲精选| 91久久国产成人免费观看| 欧美精品H在线播放| 奇米影视狠狠精品7777| 重口调教一区二区视频| 国产91视频观看| 久久国产精品夜色| 精品国产乱码久久久久久一区二区| 高清免费毛片| 国产精品对白刺激| 亚洲欧美日韩视频一区| 国产日产欧美精品| 综合社区亚洲熟妇p| 一本大道无码日韩精品影视| 精品国产毛片| 福利小视频在线播放| 久996视频精品免费观看| 亚洲成人精品久久| 高清精品美女在线播放| 国产尤物在线播放| 亚亚洲乱码一二三四区| 亚洲国产高清精品线久久| 伊人久久大香线蕉成人综合网| 成人福利在线视频| 欧美亚洲激情| 亚洲日韩精品无码专区| 免费A级毛片无码免费视频| 99久久人妻精品免费二区| 无码高潮喷水在线观看| 91九色视频网| 欧美无遮挡国产欧美另类| 欧美国产菊爆免费观看 | 亚州AV秘 一区二区三区| 超碰免费91| 欧美一区精品| 六月婷婷激情综合| 欧美日韩高清| 播五月综合| 夜夜操国产| 欧美另类视频一区二区三区| 亚洲人成电影在线播放|