999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能信息檢索應用技術研究

2015-03-11 03:29:49宋文賓錢興華
艦船電子工程 2015年7期
關鍵詞:信息檢索語義智能

宋文賓 錢興華 劉 鵬

(中國艦船研究院 北京 100192)

?

智能信息檢索應用技術研究

宋文賓 錢興華 劉 鵬

(中國艦船研究院 北京 100192)

智能信息檢索是在傳統信息檢索技術的基礎上發展起來的一種信息檢索技術,是人工智能與信息檢索等多個領域的結合。論文首先介紹智能信息檢索技術和應用,然后以基于本體的智能信息檢索系統進行體系結構設計,并描述其關鍵技術和檢索流程。

智能信息檢索; 本體; 語義網

Class Number TP393

1 引言

在網絡和電子等技術的發展影響下,每天網絡中產生大量的數據,圖靈獎獲得者Jim Gray提出了一個關于網絡環境下數據量的定律:網絡環境下每18個月產生的數據量等于有史以來數據量之和[1]。如此海量的數據中蘊含著大量有用的信息[2],檢索正是實現信息發現的有效方法。信息檢索是指將信息按照一定的方式組織存儲起來,并根據用戶的需求檢索出有關信息的過程[3]。信息檢索經歷了手工檢索、計算機檢索到網絡化、智能化檢索等多個發展階段,檢索的內容也從最初的獨立的、穩定的、相對封閉的內容變為形式多樣、動態、更新快、分布廣泛、管理松散的數據信息。隨著信息多樣化和信息檢索能力的要求,基于關鍵詞匹配算法的傳統檢索檢索方法雖然快捷、簡單,但檢準率低,已無法有效實現檢索,不能滿足檢索要求和結果的個性化呈現[3]。適應網絡化、智能化以及個性化的需要是信息檢索技術發展的必然趨勢[4],由此智能檢索技術應運而生。

2 智能信息檢索技術及應用

2.1 智能信息檢索技術

智能信息檢索是在傳統信息檢索方法的基礎上,運用人工智能技術,對所檢索的內容分析、理解、推理、決策等,并以良好的形式展現給用戶。它除了提供傳統的快速檢索,相關度排序等功能,還提供用戶角色登記、用戶興趣自動識別、內容的語義理解、智能化信息過濾和推送等功能。智能信息檢索將信息檢索從基于關鍵詞層面提高到基于知識(或概念)層面。理想的智能信息檢索系統應具有的主要功能:提供多種樣式的檢索能力;語義推理能力;基于自然語言或其他語言;信息的及時更新;能力擴充;個性化結果呈現等。

根據信息檢索技術的不同,智能信息檢索系統的特點和應用領域存在較大差異。其中典型的智能信息檢索技術有:基于垂直搜索的信息檢索技術、基于語料庫的信息檢索技術和基于語義網的信息檢索技術等。

2.2 基于垂直搜索的信息檢索技術及應用

垂直搜索是專業領域檢索的典型技術,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務,其具專、精、深的特點,且具有行業色彩。

文獻[5]以12580餐飲垂直檢索為例,提出針對垂直檢索的策略,對垂直檢索的查詢效率、查準率、信息抽取等方面進行改進。垂直檢索相比一般的檢索,其檢索內容的范圍具體,更容易獲取需要的信息。例如搜狗購物、360團購等都是典型購物檢索引擎。

2.3 基于語料庫的信息檢索技術及應用

基于語料庫的信息檢索是以語料庫為基礎,通過在語料庫中對查詢信息的語義匹配分析,查找相關語義的信息內容。基于語料庫的信息檢索技術廣泛應用于不同形式的自然語言之間的信息檢索,例如中英文平行檢索、文言文檢索等。

文獻[6]提出一種基于語料庫的跨語言信息檢索方法。通過語料庫將一種語言形式的檢索語句轉變為其他語言形式,實現跨語言的信息檢索。

2.4 基于語義網的信息檢索技術及應用

基于語義網的信息檢索技術是在對信息進行由下而上組織表示的基礎上,對信息和信息之間關系的發現和檢索。基于語義網的信息檢索技術已經廣泛應用于數字圖書館、電子商務、電子政務等多個領域。

在數字圖書信息檢索領域,文獻[7]提出基于智能引擎的智能信息檢索方法,采用語義網技術體系中的本體方法,在知識層面對數字圖書館中的信息進行表示,從檢索意圖的分析與判斷能力、知識庫動態監視和更新反應功能、各種形式的信息廣泛整合支持、靈活檢索機制、專業層面的強大索引功能等方面改進數據圖書館的檢索效率。

在電子商務領域,文獻[8]智能信息檢索為解決網絡時代企業信息膨脹而提出面向電子商務領域,專門設計改進搜索引擎,提出使用基于語義Web的電子商務核心語言,實現在電子商務領域智能信息檢索的高效檢索和高檢準率。基于代理和機器學習的智能信息檢索技術在電子商務領域中的應用為系統使用者提供更加個性化的信息推送和檢索結果排序,根據對使用者購買記錄、關注點、操作習慣等方面的分析,電子商務中的智能信息檢索為每個使用者提供了“量身定制”的個性化檢索引擎。例如淘寶網,京東商城等電子商務網站都開始將這種個性化的服務提供給用戶。

以上三種典型的智能信息檢索技術在技術、適用范圍、應用情況、各自優缺點等方面的對比如表1所示。基于語義網的信息檢索技術實現了知識層面的信息檢索,尤其在查全率、個性化、隱含知識發現等方面優勢突出,成為智能信息檢索技術中的主流技術之一。本文以基于語義網的智能信息檢索技術為例,對采用該技術系統的體系架構進行設計、對關鍵技術進行介紹。

表1 三種檢索技術的比較

3 基于語義網的智能檢索技術體系架構

基于語義網的智能信息檢索技術是數據資源采用語義網技術體系統一描述的基礎上,引入自然語言識別,采用自然語言對數據進行檢索。它是語義網技術,檢索技術,人機交互技術,自然語言識別技術等多種技術的綜合,本文構建的體系結構由數據獲取、數據語義處理、語言轉換和應用共四層組成,為在應用層面保障交互環境的可信,在四層結構中引入安全和可信技術,其體系結構如圖1所示。

圖1 基于語義網的智能信息檢索體系結構

數據獲取層主要實現對獲取的數據進行處理,為上一層的語義處理提供該領域內數據的來源。根據數據的組織形式,領域中的數據主要分為兩類:結構化數據和非結構化數據。結構化數據采用標準的、統一的格式,對數據進行組織。非結構化數據是指結構未經標準化的文檔、語音資料、視頻資料等。非結構化數據經過識別、提取和轉換等手段對其中的有用信息進行抽取,采用結構化形式進行數據描述。其他領域相關數據和抽取后的結構化數據匯集起來成為領域數據。

數據語義處理層的實現是在對領域內數據采用統一編碼描述的基礎上,運用資源描述框架、本體、邏輯、證明和數字證書等技術,形成領域內本體數據庫,在語義層實現對數據和數據關系的檢索。索引的建立有利于對領域內整體情況的理解,也有利于對知識進行針對性檢索。

語言轉換層主要實現非規范檢索語言到規范檢索語言的映射轉換。若輸入為自然語言,系統通過自然語言識別,對自然語言進行詞法分析、語法分析,并按照規范語法,對自然語言中的元素進行重新組織,形成規范化的查詢語句,例如SPARQL查詢語句等。

應用層是系統對用戶所提供的應用接口。用戶既可以是人也可以是其他系統。安全和可信技術在各層中的具體功能不同,在數據獲取層,安全和可信技術主要確保獲取數據的可信和數據存儲的安全等;在數據語義處理層,它主要控制對數據的非法訪問;在語言轉換層,可信技術要確保轉換規則的正確,保證語言轉換前后語義的正確;在應用層采用的安全和可信技術更為豐富,從應用的角度確保系統整體數據環境和對外接口等方面的安全和可信。

4 基于語義網的智能信息檢索關鍵技術

4.1 領域本體建立

智能信息檢索系統的構建是由智能信息檢索所面對的信息、使用者、系統的功能性要求、非功能性要求、系統的軟硬件環境、安全環境等共同影響的。這些共同的影響因素共同形成了領域特點,針對不同的領域,需要進行領域信息的表示。由于本體具有對信息組織表示和描述信息之間的內在聯系的能力。所以本體論成為知識獲取和表示、規劃、進程管理、數據庫框架集成、自然語言處理和企業模擬等研究領域的核心。基于本體論的知識庫的建立將提供一個內容豐富和現代的框架以實現術語的規范、服務和管理[9]。

為實現對數據的語義檢索,采用本體技術對結構化數據或從非結構化數據中提取的結構化信息進行描述,描述的基礎是領域本體庫的建立。領域本體庫建立的步驟[10]通常為

1) 明確業務領域。一般從領域的具體業務流程出發,重點關注領域所涉及的業務對象、關系、規則、限制、與其他領域關系等;

2) 屬性建立。根據對業務領域的理解,抽象出領域內的實體成為本體,并對其屬性進行描述;

3) 明確屬性約束;

4) 明確本體關系;

5) 明確函數、限制、規則和公理等。

4.2 實例抽取技術

實例抽取采用自動方式,主要實現非結構化數據向結構化數據轉變和結構化數據抽取為實例兩個過程。

非結構數據向結構化數據的轉換常采用基于特征提取的方法。非結構化數據雖然形式多樣,種類很多,但是擁有兩個特點是: 1) 存在大量的冗余的信息; 2) 信息通過各種特征表現出來。通過對非結構化數據進行合理的分類,對每類數據進行特征抽取,這些特征來源于特征庫中定義的特征類型。通過對提取的特征進行值域分析,進行信息轉換和去除無用信息[11]。通過特征提取,將非結構化數據中信息轉變為結構化數據,如圖2所示。

圖2 非結構數據特征提取

格式化數據由于采用固定的格式,所以可以直接通過程序自動抽取為信息的本體描述。

針對結構化數據和非結構化提取后的結構化數據,按照領域本體庫中建立的本體框架,對結構數據中的信息進行抽取,形成實例,并存儲到數據庫中。

例如非結構化數據的輸入為“2014年9月1日11:00,衛星拍攝到某艦船的畫面(附照片),并通過定位確定其經緯度為120.20-29.51,高度為0”。圖片信息中通過圖像處理算法獲取到該艦船為航空母艦,數量為1。通過該數據信息中文字信息和圖片信息的特征提取,獲得信息見表2。

表2 某艦船 特征值信息

對獲取的特征信息中的部分信息抽取,獲得信息實例的描述,用RDF描述如下。

〈目標〉

〈時間〉2014-09-01 11:00.000〈/時間〉

WK〈類型〉水面〈/類型〉

〈型號〉航空母艦〈/型號〉

〈數量〉1〈/數量〉〈高深度〉0〈/高深度〉

〈經度〉120.20〈/經度〉

〈緯度〉29.51〈/緯度〉

〈/目標〉

非結構化數據具有數據量大、信息組織松散等特點,計算機難以直接處理。將非結構化數據的特征進行提取形成結構化數據,使得非結構化數據轉化成為計算機可理解的本體實例。實例抽取技術為智能信息檢索提供了數據基礎。

4.3 語言轉換技術

語言轉換實現非規范檢索語言與語義網檢索語言之間的轉換。非規范檢索語言可以是自然語言、其他系統檢索語言等。自然語言的處理方法主要有基于關鍵詞匹配的方法、基于模式匹配的方法、以句法-語義分析為主的方法、基于大規模語料庫的自然語言處理等。

本文所介紹的體系結構中,使用以句法-語義分析為主的方法作為自然語言處理技術,借助對查詢語句的語義理解,按照語義網檢索語言的格式和規則,進行轉換。例如要將以漢語形式表述的查詢語句“我想查找關于智能檢索領域的最新論文”轉換為語義網查詢語言SPARQL。首先對查詢語句采用分詞技術(通常采用最大匹配度算法)對查詢語句分詞,得到的結果是“我、想、查找、關于、智能檢索、領域、的、最新、論文”。通過對分詞以后的查詢語句進行語義分析,分析得出檢索的結果為論文,屬性中類別為智能檢索領域,并且按照時間倒序排列,最終返回結果為下載地址。轉化為SPARQL語言如下。

PREFIX foaf:〈http://xmlns.com/foaf/1.0〉

SELECT ?題目 ?摘要 ?時間 ?網址

WHERE {?論文 foaf:class “智能檢索”.

?論文 foaf:title ?題目.

?論文 foaf:abstract ?摘要.

?論文 foaf:time ?時間.

?論文 foaf:url ?網址.

}ORDER BY DESC[?時間]

由于自然語言在使用中具有語義上下文相關、模糊、語法不準確等特點,這導致計算機對自然語言理解困難。但強制使用者學習使用語義檢索語言(例如SPARQL等)進行檢索,會很大程度降低系統的易用性。在具體領域應用中,一方面通過培訓和鍛煉可以提高使用者的表達能力,另一方面使用自然語言識別技術提高計算機對自然語言的理解能力。

4.4 基于自然語言的智能信息檢索流程

本文設計基于語義網的智能信息檢索系統的流程,如圖3所示。由于自然語言識別技術不能做到100%的準確識別,為防止自然語言理解的歧義,將檢索語句轉換為SPARQL語句后,再次逆向生成自然語言,并與查詢結果一起返回給用戶作為參考。

4.5 檢索應用技術

智能信息檢索系統為上層的應用提供信息的組織、表示和檢索功能,為應用提供信息保障。本文體系結構中的應用層為基本應用,為更高層的應用提供基本的接口模塊。其中典型的應用為搜索引擎、訂閱、信息呈現等。

圖3 基于自然語言的語義檢索流程

搜索引擎是使用自然語言進行信息檢索的接口。根據搜索引擎的檢索方式和范圍可以分為全文檢索引擎和目錄式搜索引擎。全文檢索引擎通過對整個知識庫的檢索來實現知識發現。目錄式搜索引擎是針對專門的領域或主題,采用樹狀結構建立索引,檢索時實際是對已建立好的索引的分層式瀏覽。兩種檢索方式都是基于知識庫中已形成的信息,相比目錄式搜索引擎,全文檢索引擎的檢索范圍廣,信息更新快,但是檢索效率和準確度低。

訂閱主要是針對領域內一些基于訂制或者主動推動的業務。互聯網中的訂閱應用往往基于SOAP協議實現。典型的應用有RSS訂閱,信息實時訂閱反饋等。基于語義網的智能體系結構為支持模糊訂閱和基于用戶特性的訂閱提供支撐,通過機器學習和智能代理等技術的引入,實現訂閱內容的智能化組織、訂閱條件自動生成、信息及時更新等。訂閱服務為用戶查看信息提供了個性化的選擇。

根據體系結構的不同,信息呈現主要分為B/S結構和C/S結構。特別是Web 2.0等技術的引入,使得B/S結構的展現形式更豐富多樣化,文檔、多媒體等多種信息的顯示都提供了很好的支持。B/S雖然廣泛支持信息的呈現,但對于具體應用的信息呈現缺少針對性,具體業務領域的理解無法深入。C/S結構解決了B/S的這個問題,它面向具體的業務應用,信息呈現的專業化程度更高,更符合用戶使用習慣等。

5 結語

基于語義網的智能信息檢索技術為解決信息的表示、組織和檢索提供了一種解決方案。在未來應用中,智能信息檢索技術將結合其他智能技術共同在智能判斷、輔助決策、綜合分析等多個應用領域發揮重要作用。智能信息檢索系統將推動數據中心向知識中心的轉變。

[1] 曹強,黃建忠,萬繼光,等.海量網絡存儲系統原理與設計[M].武漢:華中科技大學出版社,2014:1-5.

[2] W3C. Linked Open Data[EB/OL]. [2014-6-20]. http://www.w3c.it/events/2014/lod2014/.

[3] 陳沈焰,吳軍華.基于本體的智能信息檢索系統研究[J].微處理機,2009,5:89-91.

[4] 陳曉金,王兵.信息檢索技術研究與實踐[J].情報資料工作,2008,3:33-35.

[5] 許鑫,黃仲清.垂直搜索引擎應用中的若干策略探討——以12580餐飲垂直搜索為例[J].知識組織與知識管理,2009,175(2):62-70.

[6] 張玥杰,連理,吳立德.一種新型的跨語言信息檢索技術[J].計算機科學,2002,29(8):66-72.

[7] 賈宏.基于搜索引擎的數字圖書館智能信息檢索[J].圖書館學研究,2006,3:28-31.

[8] 謝圣獻,謝光.語義檢索在電子商務中的應用研究[J].微計算機信息,2008,12:135-136.

[9] 韓嬌紅.我國智能化信息檢索發展及研究現狀[J].圖書館學刊,2012,1:49-51.

[10] Grigoris Antonios, Frankvan Harmelen: A Sematic Web Primer(Cooperative Information Systems)[M]. Cambridge: The MIT Press,2008:204-218.

[11] 田萬鵬,王建民.一種基于特征的非結構數據演變管理建模框架[J].計算機研究與發展,2010,47(suppl):394-399.

A Study of Intelligent Information Retrieval Technology

SONG Wenbin QIAN Xinghua LIU Peng

(China Ship Research and Development Academy, Beijing 100192)

Intelligent information retrieval is a composite retrieval technology which is an advance stage of information retrieval technology. Firstly, the technology and the application are introduced. Secondly, the architecture of intelligent information retrieval based on ontology is designed. Finally, the key technologies and the flow are given.

intelligent information retrieval, ontology, semantic web

2015年1月4日,

2015年2月28日 作者簡介:宋文賓,男,碩士研究生,研究方向:艦船電子工程技術。錢興華,女,博士生導師,研究方向:系統總體設計。劉鵬,男,高級工程師,研究方向:系統體系結構。

TP393

10.3969/j.issn1672-9730.2015.07.036

猜你喜歡
信息檢索語義智能
語言與語義
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
認知范疇模糊與語義模糊
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产精品久久久久鬼色| 网友自拍视频精品区| 欧美精品1区| 亚洲丝袜第一页| 国产H片无码不卡在线视频| 天天综合网站| 狠狠干欧美| 99re在线观看视频| 欧美一区精品| 亚洲男人的天堂网| 最新国产你懂的在线网址| 亚洲天堂777| 多人乱p欧美在线观看| 欧美日韩在线成人| 亚洲h视频在线| 天天做天天爱夜夜爽毛片毛片| 无码'专区第一页| 国产sm重味一区二区三区| 亚洲人成电影在线播放| 久久精品国产精品青草app| av在线5g无码天天| 亚洲全网成人资源在线观看| 91精品日韩人妻无码久久| 怡春院欧美一区二区三区免费| 人妻精品全国免费视频| 日韩av高清无码一区二区三区| 日本在线亚洲| 视频一本大道香蕉久在线播放 | 国产爽歪歪免费视频在线观看 | 日本一本在线视频| 又黄又湿又爽的视频| 中文无码精品A∨在线观看不卡| 亚洲日韩国产精品无码专区| 国产福利影院在线观看| 亚洲精品国产综合99| 无码精品国产VA在线观看DVD| 99热这里只有精品在线播放| 青青草91视频| 国产激爽大片高清在线观看| 国产经典在线观看一区| 亚洲精品va| 国产精品不卡永久免费| 91国内外精品自在线播放| 成人久久精品一区二区三区| 亚洲色欲色欲www在线观看| 日本一区二区三区精品国产| 国产亚洲视频免费播放| 国产无套粉嫩白浆| 亚洲永久色| 热这里只有精品国产热门精品| 熟妇无码人妻| 91成人精品视频| 思思99思思久久最新精品| 97无码免费人妻超级碰碰碰| 亚洲欧美综合另类图片小说区| 色老头综合网| 91人人妻人人做人人爽男同| 91精品国产丝袜| 国产拍在线| 欧美中文字幕在线二区| 玩两个丰满老熟女久久网| 亚洲国产高清精品线久久| 日韩免费毛片| 色综合中文| 精品在线免费播放| 996免费视频国产在线播放| 99久久精品无码专区免费| 第一页亚洲| 久视频免费精品6| 欧美一级高清片久久99| 久久精品欧美一区二区| 色欲色欲久久综合网| 91小视频在线观看免费版高清| 国产91特黄特色A级毛片| 久操线在视频在线观看| 国产精品亚洲专区一区| 999精品色在线观看| 人妻精品久久久无码区色视| 伊人久久婷婷| 欧美日韩中文国产| 一区二区日韩国产精久久| 一级毛片网|