999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于概念擴展的文獻檢索系統的設計與實現

2015-09-27 06:48:06丁泉勛戴哲明姜鑫
現代計算機 2015年28期
關鍵詞:引擎概念用戶

丁泉勛,戴哲明,姜鑫

(中國電子科技集團公司第三十二研究所,上海 200233)

基于概念擴展的文獻檢索系統的設計與實現

文獻檢索;檢索優化;概念網絡;概念相似度;概念擴展;系統設計

0 引言

文獻檢索系統能夠根據用戶信息需求,快速定位文獻,提高文獻獲取效率,因此伴隨著文獻數量量爆發式增長,文獻檢索系統的重要性不斷提高。文獻檢索系統的是基于關鍵詞進行檢索的,一個常規的檢索流程是:用戶首先將檢索需求轉化為為一組關鍵詞輸入檢索系統;接著信息檢索系統將輸入的關鍵詞組與文獻集合里的每一篇文獻進行相關度計算;最后檢索系統按照每篇文獻的相關度由高到低排序,返回檢索結果。在這個流程中,文獻需求到關鍵詞的轉化至關重要,這決定了檢索結果能否覆蓋到檢索需求。從檢索需求中提取的關鍵詞往往只有其外在的表現形式,而非全部概念,因此,本文在傳統的文獻檢索的基礎上,引入概念擴展功能,通過多次和用戶交互,幫助用戶提煉檢索需求中的概念,豐富關鍵詞組,進而提高檢索效果。

1 體系結構

基于概念擴展的文獻檢索系統主要由文獻采集代理、檢索引擎、概念引擎這三部分構成,如圖1所示。其工作思想主要是:文獻采集代理對文獻服務器中的文獻進行自動采集和內容獲取,將獲取的內容發送到檢索引擎,由檢索引擎的索引模塊完成對內容的分析和索引;對于用戶的檢索請求,將同時由檢索引擎和概念引擎進行處理,檢索引擎將根據用戶輸入的關鍵詞,按照相關度排序返回檢索到的文獻,而概念引擎將根據關鍵詞,從概念庫中查詢出相關的概念,反饋給用戶,使用戶能夠以這些概念作為關鍵詞再次查詢,從而進一步滿足用戶的檢索需求。

圖1 基于概念擴展的文獻檢索系統體系結構圖

2 概念擴展[1]

概念擴展是通過將關鍵詞和概念庫中的概念進行概念匹配實現的,因此概念庫是實現概念擴展的基礎。在基于概念擴展的文獻檢索系統中,概念庫的實現形式是概念網絡。

2.1概念網絡構建

概念網絡是一個帶標識的有向圖,其中節點表示概念,有向邊表示概念之間的關系概念與概念之間的關系一共有三種:子類、實例、屬性。本文選用軍事領域來構建概念網絡,如圖2所示:槍具有扳機、槍管、槍托這幾個屬性;自動步槍、手槍是槍的子類;自動步槍有AK47、M4,手槍有54式這些實例。

圖2 槍械概念網絡示意圖

構建領域的概念網絡是一個復雜的工作,通常需要有檢驗的領域專家利用專門的工具進行構建。在基于概念擴展的文獻檢索系統中,利用在線百科網頁這一知識來源實現了自動化構建概念網絡。本文選取的百科網頁是百度百科,百度百科的知識具有權威性和全面性,且能夠動態更新,同時,百度百科的網頁結構清晰,方便概念和概念間關系的抽取。概念網絡的自動構建流程如下:網頁獲取和預處理、概念抽取、概念關系抽取、形式化表示,生成概念網絡,其體系結構如圖3所示。

2.2概念網絡形似度計算

基于構建完成的概念網絡,概念引擎通過計算關鍵詞和概念庫中概念的相似度,完成對關鍵詞的概念擴展。概念間的相似度有嚴格的數學定義[2]:

用sim(x,y)表示兩個概念x、y之間的相似度值,形式上,相似度計算應當滿足以下條件:

(1)語義相似度的值為[0,1]區間中的一個實數,即sim(x,y)∈[0,1];

(2)如果兩個概念對象是完全相似的,則語義相似度值為1,即sim(x,y)=1時當且僅當x=y;

(3)如果兩個概念對象之間沒有任何共同特征或者概念對象之間相互獨立,那么其語義相似度值為0,即sim(x,y)=0;

(4)相似關系滿足對稱性,即sim(x,y)=sim(y,x)。

圖3 概念網絡的自動構建流程

在計算概念相似度時,綜合考慮計算代價和實際應用效果,本文采用了基于權重的最短路徑法[3]進行計算。該算法是一種基于距離的語義相似度計算方法,它擴展了最短路徑法[4],考慮了概念的位置信息(所在深度和所處區域的密度)和邊所表征的關聯強度,通過將組成兩個概念詞連通路徑的各個邊的權值相加,而不是簡單統計兩個概念詞間邊的數量,來計算兩個概念詞的距離。基于權重的概念相似度計算方法如式(1)所示:

其中,N1和N2分別表示概念x,y與最近公共父節點概念c之間的距離,H表示c到根節點的最短距離。

2.3概念擴展

用戶在進行關鍵詞檢索時,檢索引擎會根據關鍵詞對文獻庫中的文獻進行相似度分析,反饋給用戶最相似的若干文獻;同時概念引擎會通過2.2中算法根據計算出的相似度值從高到低對與關鍵詞相似的概念進行排序并反饋給用戶。例如關鍵詞是“槍”,系統會在文獻庫中檢索與槍相關的文獻,并進行相似度計算和排序;同時,根據關鍵詞計算最相似的概念并取前5個,用戶將得到關鍵詞擴展的概念分別為“步槍”、“手槍”、“自動步槍”、“AK47”,和“M4”,用戶能夠利用這些概念進一步提煉自己的檢索需求,經過多次迭代交互,最終找到自己所需要的文獻。

3 結語

本文對基于概念擴展的文獻檢索系統的設計和實現進行簡單介紹。針對特定的領域,該系統以百科網頁為數據源,采用自動化的方式構建了概念網絡庫。基于概念網絡庫,該系統以概念擴展的方式,在用戶利用關鍵詞檢索的同時,通過將相似概念反饋給用戶,最大程度的幫助用戶提煉自己的檢索需求,提高用戶的檢索體驗。

[1]李蕾.基于語義網絡的概念檢索研究與實現[J]1情報學報,2000(5):525-5311.

[2]韓欣,秦帆.基于概念語義樹的語義相似度計算方法研究[J].Computer Knowledge and Technology.June 2011:3809-3810.

[3]Wu Z,Palmer M.Verb Semantics and Lexical Selection[C].In:Proceedings of the 32nd Annual Meeting of the Associations for Computational Linguistics,1994:133-138.

[4]An Information-Theoretic Definition of Similarity[EB/OL].[2007-12-20].http://www.cs.ualberta.ca/lindek/papers/sim.pdf

Literature Retrieval;Retrieval Optimization;Concept Network;Concept Similarity;Concept Extension;System Design

Design and Implementation of a Literature Retrieval System Based on Concept Extension

DING Quan-xun,DAI Zhe-ming,JIANG Xin
(The 32nd Research Institute of China Electronics Technology Group Corporation,Shanghai 200233)

1007-1423(2015)28-0052-03

10.3969/j.issn.1007-1423.2015.28.013

丁泉勛,戴哲明,姜鑫

(中國電子科技集團公司第三十二研究所,上海200233)

丁泉勛(1987-),男,江蘇泰州人,工程師,研究方向為智能信息檢索

戴哲明(1978-),男,浙江富陽人,碩士,高級工程師,研究方向為軟件工程

姜鑫(1987-),男,江蘇淮安人,碩士,工程師,研究方向為信息檢索

2015-09-08

2015-09-22

在文獻檢索系統中,檢索需求通過關鍵詞來描述,關鍵詞對檢索需求的覆蓋程度決定了檢索結果能否滿足檢索需求。為了改善檢索需求的提煉過程,提高關鍵詞對檢索需求的覆蓋程度,描述一種基于概念擴展的文獻檢索系統的設計與實現。與傳統的文獻檢索系統相比,該系統具備關鍵詞概念擴展的能力,該系統能夠基于百科網頁自動構建概念網絡,通過概念相似度計算從概念網絡中選擇與關鍵詞最相近的概念進行關鍵詞的概念擴展,以此來改善檢索需求的提煉、提高對檢索需求的覆蓋,從而達到優化檢索體驗的目的。

In the literature retrieval system,the retrieval requirement is described by keyword,and the coverage of the retrieval requirement will de-termine whether the retrieval results can meet the needs of the search.In order to improve the extraction process and the coverage of re-trieval requirement,designs and implements a literature retrieval system based on concept extension.Compared with the traditional litera-ture retrieval system,the system has the ability to expand the keywords by using concept network.Aiming to improve the extraction pro-cess,the coverage of retrieval requirement as well as optimizing retrieval experience,the system can automatically construct the concept network based on the encyclopedias web page,extends keywords by selecting the concepts from concept network which are the most simi-lar to the keywords.

猜你喜歡
引擎概念用戶
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發
主站蜘蛛池模板: 日韩在线视频网站| a亚洲视频| 国产91麻豆视频| 啪啪啪亚洲无码| 国产成人免费高清AⅤ| 亚洲综合久久成人AV| 亚洲VA中文字幕| 国产成人超碰无码| 亚洲国产亚洲综合在线尤物| 亚洲天堂免费在线视频| 亚洲三级视频在线观看| www精品久久| 亚洲国产高清精品线久久| 天堂亚洲网| 欧美激情第一欧美在线| 国产美女主播一级成人毛片| 国产欧美高清| 欧美伦理一区| 国产免费一级精品视频| 精品国产自在在线在线观看| 真人免费一级毛片一区二区| 亚洲精品制服丝袜二区| 欧美成人手机在线观看网址| 色AV色 综合网站| 91口爆吞精国产对白第三集 | 伊人久久久大香线蕉综合直播| 日韩欧美高清视频| 六月婷婷综合| 国产精品30p| 无码精品国产dvd在线观看9久| 国产精品欧美激情| 欧美日韩免费| 毛片a级毛片免费观看免下载| 91久久大香线蕉| 久久精品这里只有国产中文精品 | 亚洲中文字幕日产无码2021| 四虎精品国产AV二区| 国产a v无码专区亚洲av| 色有码无码视频| 亚洲码一区二区三区| 亚洲三级网站| 天天躁狠狠躁| 久久99国产乱子伦精品免| 日韩高清一区 | 日本a级免费| 美女扒开下面流白浆在线试听| 欧美国产日韩在线观看| 天堂成人在线| 亚洲 欧美 日韩综合一区| 欧美日本在线观看| 国产精品第页| 欧美在线黄| 日本欧美精品| 久久精品无码一区二区日韩免费| AV熟女乱| 国产精品亚洲综合久久小说| 成人福利在线观看| 色婷婷电影网| 亚洲区一区| 久久国产精品无码hdav| 特级aaaaaaaaa毛片免费视频| 国产AV无码专区亚洲精品网站| 亚洲一区二区三区中文字幕5566| 亚洲综合狠狠| 97久久超碰极品视觉盛宴| 午夜丁香婷婷| 亚洲国产日韩视频观看| 91亚洲影院| 国产成人高清在线精品| 成人年鲁鲁在线观看视频| 四虎国产精品永久一区| 亚洲最猛黑人xxxx黑人猛交| 在线网站18禁| 亚洲欧美不卡| 天天摸天天操免费播放小视频| 国内精品久久人妻无码大片高| 精品伊人久久久久7777人| 久久精品中文字幕少妇| 精品一区二区三区水蜜桃| 国产在线97| 综合久久久久久久综合网| 亚洲天堂免费在线视频|