999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖書館數(shù)字資源一站式檢索模型研究

2017-09-05 09:08:04張衛(wèi)華
河南圖書館學(xué)刊 2017年8期

張衛(wèi)華

關(guān)鍵詞:一站式檢索;分布式數(shù)據(jù)庫(kù);集中式數(shù)據(jù)庫(kù);混合式數(shù)據(jù)庫(kù)

摘要:文章對(duì)比分析了現(xiàn)存的分布式數(shù)據(jù)庫(kù)檢索模型、集中式數(shù)據(jù)庫(kù)檢索模型、混合式數(shù)據(jù)庫(kù)檢索模型的優(yōu)缺點(diǎn),提出了基于語(yǔ)義技術(shù)的圖書館資源檢索模型,并對(duì)其包含的本體字典、檢索歷史抽取庫(kù)和輸出系統(tǒng)功能做了介紹。

中圖分類號(hào):G258文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2017)08-0074-03

信息社會(huì)的發(fā)展,使圖書館的館藏資源越來(lái)越豐富,尤其是電子資源越來(lái)越多,不僅體現(xiàn)在數(shù)量上,在種類上也各不相同。圖書館管理系統(tǒng)的不同,導(dǎo)致各種條目信息也不同,數(shù)字資源庫(kù)有自建數(shù)據(jù)庫(kù)和引進(jìn)數(shù)據(jù)庫(kù),尤其是引進(jìn)的數(shù)據(jù)庫(kù)種類繁多,索引系統(tǒng)和管理方式存在很大的差異,資源的管理和查找極其不便[1],讀者獲取自己需要的信息難度比較大。如果對(duì)各個(gè)數(shù)據(jù)庫(kù)逐一檢索,信息資源的篩選是一項(xiàng)很龐大的工程,因此,目前迫切需要建立一個(gè)統(tǒng)一的信息檢索平臺(tái),實(shí)現(xiàn)對(duì)圖書館各種資源的統(tǒng)一檢索。

1 一站式檢索功能分析

圖書館一站式信息檢索的關(guān)鍵技術(shù)在兼容上,重點(diǎn)是解決分布式異構(gòu)數(shù)字資源的整合和檢索。設(shè)計(jì)檢索平臺(tái)應(yīng)該包含數(shù)據(jù)處理子系統(tǒng)、索引子系統(tǒng)、搜索服務(wù)子系統(tǒng)、輸出子系統(tǒng)四個(gè)主要的系統(tǒng)部分,具體架構(gòu)見(jiàn)圖1。

數(shù)據(jù)處理子系統(tǒng)的主要功能是元數(shù)據(jù)的制作和異構(gòu)數(shù)據(jù)庫(kù)的轉(zhuǎn)換[2]。不同數(shù)據(jù)庫(kù)廠商的數(shù)據(jù)標(biāo)準(zhǔn)是不一樣的,這樣很難將關(guān)鍵詞抽出來(lái)直接使用,需要通過(guò)數(shù)據(jù)庫(kù)處理子系統(tǒng)對(duì)元數(shù)據(jù)進(jìn)行規(guī)范。該系統(tǒng)采用《分類表》《主題詞表》實(shí)現(xiàn)資源的分類和標(biāo)引,并分別從四個(gè)方面進(jìn)行整理:①單位購(gòu)買的大型數(shù)據(jù)庫(kù)(CNKI、維普、超星、書生之家等)采用專門開發(fā)的工具直接制作索引,或者采用關(guān)鍵詞傳送的方式進(jìn)行檢索。②對(duì)于自建的小型數(shù)據(jù)庫(kù)采用數(shù)據(jù)庫(kù)轉(zhuǎn)換形式,統(tǒng)一到SQL SREVER數(shù)據(jù)庫(kù)統(tǒng)一索引。③外文數(shù)據(jù)庫(kù)采用關(guān)鍵詞傳送的形式,不再進(jìn)行數(shù)據(jù)轉(zhuǎn)換,但是對(duì)兩個(gè)模塊都要檢索,并整合輸出。④對(duì)數(shù)據(jù)庫(kù)采用技術(shù)一致的數(shù)據(jù)資源庫(kù),直接進(jìn)行元數(shù)據(jù)的采集和收割。圖書館對(duì)數(shù)字資源進(jìn)行元數(shù)據(jù)的整合,放在統(tǒng)一檢索平臺(tái)中供檢索系統(tǒng)使用。

索引子系統(tǒng)的主要功能是在元數(shù)據(jù)制作完成后,對(duì)數(shù)據(jù)進(jìn)行格式化并建立索引[3]。這個(gè)系統(tǒng)主要還是管理人員進(jìn)行操作,可以對(duì)所包含的數(shù)據(jù)庫(kù)進(jìn)行配置、創(chuàng)建和優(yōu)化工作,根據(jù)單位數(shù)據(jù)庫(kù)情況的不同,建立不同的索引數(shù)據(jù)庫(kù)子庫(kù)。

搜索子系統(tǒng)的主要功能是為讀者提供檢索的頁(yè)面。讀者在檢索子系統(tǒng)里可以選擇檢索范圍,如全部、期刊、圖書、光盤等,按照事先劃分好的大類選擇檢索。讀者也可以進(jìn)行高級(jí)檢索,比如多個(gè)關(guān)鍵詞的邏輯檢索、時(shí)間段的選擇、數(shù)據(jù)庫(kù)的選擇等。另外,搜索子系統(tǒng)還有記錄用戶搜索歷史的功能,將部分檢索式進(jìn)行收錄,形成機(jī)構(gòu)知識(shí)庫(kù)并具有智能推薦功能。

輸出子系統(tǒng)的主要功能是將用戶檢索的結(jié)果輸出并進(jìn)行排序,根據(jù)相關(guān)度算法,將匹配度最高的放在前面,并且具有分類輸出的功能,如果是綜合檢索的話,應(yīng)該將不同類型的資源分類呈現(xiàn)給讀者。

2 檢索模型對(duì)比

圖書館資源一站式檢索系統(tǒng)的建設(shè)模式主要有三種:①自建。圖書館在計(jì)算機(jī)人才充裕的情況下可以自己建設(shè)一站式檢索,這樣成本較低,且符合圖書館的實(shí)際需要,易于維護(hù)和功能擴(kuò)展。②購(gòu)買。資金比較充裕,技術(shù)能力卻不強(qiáng)的圖書館可以采用購(gòu)買的形式搭建一站式檢索。這種建設(shè)模式基本上是購(gòu)買成熟廠商的平臺(tái),在使用的過(guò)程中部分功能可能會(huì)缺失或者浪費(fèi),但是系統(tǒng)穩(wěn)定。③合作。這是目前最合理的一種構(gòu)建檢索平臺(tái)的形式,圖書館根據(jù)自己的需求,提出構(gòu)建的檢索模式,公司負(fù)責(zé)進(jìn)行開發(fā),這樣針對(duì)性強(qiáng),系統(tǒng)穩(wěn)定,但是需要的成本也高。檢索模式的不同很大程度上是數(shù)據(jù)庫(kù)組織模式的不同,對(duì)數(shù)據(jù)庫(kù)的組織一般有分布式、集中式和混合式三種。

2.1 分布式數(shù)據(jù)庫(kù)檢索模式

分布式數(shù)據(jù)庫(kù)檢索模型是直接將存在的數(shù)據(jù)庫(kù)并列,即每一個(gè)數(shù)據(jù)庫(kù)是獨(dú)立的元數(shù)據(jù)和檢索接口,圖書館僅僅做了一個(gè)統(tǒng)一的檢索界面,將用戶輸入的檢索式分別傳入各個(gè)數(shù)據(jù)庫(kù)進(jìn)行檢索,并將檢索結(jié)果匯總到一起反饋給用戶的一種模式。這種模式主要通過(guò)SRW/SRU或者Z39.50協(xié)議來(lái)實(shí)現(xiàn)(見(jiàn)圖2)。

這種模式的優(yōu)點(diǎn)有:①開發(fā)簡(jiǎn)單。圖書館不需要對(duì)現(xiàn)有的數(shù)據(jù)庫(kù)進(jìn)行二次開發(fā)和元數(shù)據(jù)的收割和采集,擴(kuò)展方便,易于維護(hù)。②可以大大節(jié)約用戶的時(shí)間。讀者只需要檢索一次就可以完成對(duì)所有數(shù)據(jù)庫(kù)的檢索。這種模式的缺點(diǎn)有:①這種搜索模式?jīng)]有自己的索引庫(kù)和資源庫(kù),僅僅是一個(gè)檢索接口,不能滿足用戶的深層次檢索和自定義檢索。②如果沒(méi)有對(duì)輸出子系統(tǒng)進(jìn)行二次權(quán)值定義的話,用戶對(duì)輸出結(jié)果的篩選工作量較大,尤其是檢索結(jié)果較多的情況下。③各個(gè)數(shù)據(jù)庫(kù)的檢索方式和標(biāo)引方式不盡相同,這樣用戶在調(diào)整檢索式進(jìn)行二次檢索的時(shí)候容易產(chǎn)生混亂。④不利于機(jī)構(gòu)知識(shí)庫(kù)的構(gòu)建。

2.2 集中式數(shù)據(jù)庫(kù)檢索模型

集中式數(shù)據(jù)庫(kù)檢索模型是指圖書館要建設(shè)一個(gè)收割程序,對(duì)所有數(shù)據(jù)庫(kù)的元數(shù)據(jù)進(jìn)行收割,形成新的索引庫(kù)。用戶將檢索式輸入新建的索引庫(kù)進(jìn)行搜索和匹配,然后將檢索結(jié)果輸出給用戶,提供給用戶的是索引庫(kù)的索引條目,用戶可通過(guò)超級(jí)鏈接查詢和使用原文(見(jiàn)圖3)。這種模式也是目前采用比較多的一站式檢索開發(fā)模式。

這種模式的優(yōu)點(diǎn)有:①節(jié)約檢索時(shí)間,用戶只需一次檢索即可完成所有數(shù)據(jù)庫(kù)的檢索需要。②可以實(shí)現(xiàn)布爾檢索和高級(jí)檢索功能。③圖書館能夠形成自己的索引庫(kù),對(duì)分類詞表維護(hù)比較簡(jiǎn)單,方便提高檢索效率。④由于索引系統(tǒng)為本地程序,方便管理和統(tǒng)一標(biāo)準(zhǔn)的制定。這種模式的缺點(diǎn)有:①相對(duì)于分布式檢索系統(tǒng)來(lái)說(shuō)開發(fā)有一定的難度,對(duì)軟件和硬件的要求較高。②索引庫(kù)建立后,系統(tǒng)擴(kuò)展、接入新的子庫(kù)的工作量大,需要對(duì)元數(shù)據(jù)進(jìn)行更新,實(shí)時(shí)性差。③檢索速度會(huì)受到一定的影響。

2.3 混合式數(shù)據(jù)庫(kù)檢索模型

混合式數(shù)據(jù)庫(kù)檢索模型是采集式和分布式的有機(jī)結(jié)合體,也就是這個(gè)一站式檢索系統(tǒng)中既有分布式檢索,也有采集式檢索。即其中的某幾個(gè)數(shù)據(jù)庫(kù)是分布式的,另外幾個(gè)是采集式的,形成混合式數(shù)據(jù)庫(kù)檢索模型[4](見(jiàn)圖4)。endprint

這種模型的優(yōu)缺點(diǎn)也是上面兩種模型優(yōu)缺點(diǎn)的集中體現(xiàn),其最大的優(yōu)點(diǎn)是增加數(shù)據(jù)庫(kù)的方便快捷度,可以快速加入新的數(shù)據(jù)資源庫(kù),如果是自建的數(shù)據(jù)庫(kù)可以并到采集模型,如果是購(gòu)買的數(shù)據(jù)庫(kù)可以加入分部模型中。這種模型的缺點(diǎn)有:①系統(tǒng)對(duì)硬件和軟件的要求較高,數(shù)據(jù)庫(kù)量較大的情況下會(huì)影響響應(yīng)速度。②檢索不統(tǒng)一,輸出結(jié)果的形式不好控制,不容易進(jìn)行分類。③查重和輸出排序的實(shí)現(xiàn)較困難,檢索噪音較大。

3 基于語(yǔ)義技術(shù)的檢索模型

硬件技術(shù)的發(fā)展日新月異,包括通信技術(shù)的發(fā)展,目前4G/LTE的峰值傳輸速率已達(dá)到每秒100M,而5G的峰值速率將達(dá)到每秒10G[5]。所以,

圖書館在研究模型的時(shí)候盡量要考慮系統(tǒng)的查全率和查準(zhǔn)率,將響應(yīng)速度放在次要位置。語(yǔ)義檢索模型可以在很大程度上解決上面三種模型的不足(見(jiàn)圖5)。本模型與上述模型的不同之處在于多出了本體字典和檢索歷史的學(xué)習(xí)功能。

3.1 本體字典

本體[6]包含四個(gè)最基本的建模關(guān)系:Attribute-of表達(dá)某個(gè)概念是另一個(gè)概念的屬性;Part-of表達(dá)整體與部分的關(guān)系;Kind-of表達(dá)繼承關(guān)系,相當(dāng)于上位類和下位類的關(guān)系;Instance-of表達(dá)實(shí)例與概念的關(guān)系,相當(dāng)于類和對(duì)象的關(guān)系。本體技術(shù)對(duì)抽取的數(shù)據(jù)進(jìn)行控制,形成本體詞典。

語(yǔ)義詞典可以清楚明白地表述詞語(yǔ)間的關(guān)系,并將其引入用來(lái)改善受控詞表。對(duì)搜索引擎的改進(jìn)方法可以借鑒語(yǔ)言學(xué)詞典中對(duì)語(yǔ)義關(guān)系的描述,可以用來(lái)解析自然語(yǔ)言,實(shí)現(xiàn)通過(guò)詞語(yǔ)的意思對(duì)目標(biāo)文檔進(jìn)行深入的檢索,目前北京大學(xué)建立中文概念詞典CCD已經(jīng)取得初步的成果。

一站式檢索系統(tǒng)引入本體詞典技術(shù),將對(duì)分類表、主題詞表進(jìn)行有效的補(bǔ)充,同時(shí)本體和語(yǔ)義技術(shù)所包含的四個(gè)關(guān)系可以有效地對(duì)檢索者的自然語(yǔ)言進(jìn)行語(yǔ)義控制,并且判斷上位類、下位類信息,方便擴(kuò)大和縮小檢索范圍,對(duì)近義詞進(jìn)行檢索,提高查全率。其優(yōu)點(diǎn)有:①經(jīng)過(guò)本體詞典的規(guī)范,將檢索式傳輸?shù)匠槿〉脑獢?shù)據(jù)庫(kù)進(jìn)行檢索或者將本體詞直接傳輸?shù)椒植际綌?shù)據(jù)庫(kù)中進(jìn)行檢索,可以有效提高查全率。②本體是對(duì)事物本質(zhì)聯(lián)系的描述,組成的檢索式更精準(zhǔn),可以克服分布式數(shù)據(jù)庫(kù)不能組合檢索的缺陷。③本體詞典維護(hù)簡(jiǎn)單,一次性構(gòu)建,定期維護(hù)即可。④可以通過(guò)組合框的方式進(jìn)行勾選,選擇性地將檢索詞傳輸?shù)侥骋粋€(gè)或者幾個(gè)數(shù)據(jù)庫(kù)進(jìn)行檢索[7]。

3.2 檢索歷史抽取庫(kù)

檢索歷史可以反映一個(gè)單位或者部分用戶的使用和檢索習(xí)慣,尤其是在高校圖書館,本檢索模型可以通過(guò)本體技術(shù)從檢索歷史中抽取相關(guān)的檢索式和檢索結(jié)果,形成檢索知識(shí)庫(kù),并抽取專業(yè)知識(shí)充實(shí)本體詞典,優(yōu)化檢索效果,實(shí)現(xiàn)學(xué)習(xí)功能。

檢索歷史庫(kù)的優(yōu)點(diǎn)有:①方便形成單位或者部門機(jī)構(gòu)知識(shí)庫(kù),用戶的使用結(jié)果和檢索式的演變過(guò)程本身就是一種知識(shí),本系統(tǒng)可以將優(yōu)秀的檢索式抽取并保存。②實(shí)現(xiàn)對(duì)用戶的檢索提示功能,主動(dòng)將與用戶檢索相關(guān)的檢索式及檢索結(jié)果推送給用戶,供用戶使用或者改變檢索式。③縮短系統(tǒng)的響應(yīng)時(shí)間,通過(guò)歷史檢索式查詢,系統(tǒng)只需要根據(jù)上次的檢索時(shí)間進(jìn)行增量檢索即可,縮短了檢索時(shí)間。

3.3 輸出子系統(tǒng)

本體語(yǔ)義技術(shù)的引入,對(duì)輸出子系統(tǒng)的智能排序有很大的提高。檢索的結(jié)果是對(duì)象和實(shí)例,并且還包含實(shí)體與其之間的聯(lián)系,不再僅僅是超級(jí)鏈接和文檔的形式。通過(guò)研究深度指數(shù)和背景指數(shù),讀者可以理解實(shí)體之間的關(guān)聯(lián)[8],其中深度指數(shù)可以反映出實(shí)體和關(guān)系的規(guī)范化程度,背景指數(shù)可以反映出讀者感興趣的范圍。

在圖書館一站式檢索輸出排序算法中引入實(shí)體關(guān)聯(lián)模型,可以提高查全率,搜索軟件可以很好地滿足用戶的提問(wèn)并體現(xiàn)出各個(gè)實(shí)體之間的關(guān)聯(lián),在關(guān)鍵詞與實(shí)體進(jìn)行匹配的同時(shí),進(jìn)行檢索擴(kuò)充和聯(lián)想[9],同時(shí)還可以根據(jù)檢索結(jié)果的上下位類關(guān)系、來(lái)源數(shù)據(jù)庫(kù)、時(shí)間、數(shù)據(jù)格式等進(jìn)行分類并呈現(xiàn)給讀者,幫助讀者縮短資源的篩選時(shí)間。

4 結(jié)語(yǔ)

隨著信息技術(shù)的發(fā)展及移動(dòng)圖書館、微圖書館等理念和技術(shù)的誕生,未來(lái)圖書館將在技術(shù)和用戶需求的驅(qū)動(dòng)下,聚集更多的業(yè)務(wù)系統(tǒng)和資源類型,讓用戶在一個(gè)平臺(tái)上獲取圖書館或聯(lián)盟所有類型的資源信息,檢索平臺(tái)也將完成從信息檢索到知識(shí)檢索的轉(zhuǎn)變,更加注重網(wǎng)絡(luò)資源和區(qū)域聯(lián)盟資源的整合。基于語(yǔ)義技術(shù)的一站式檢索系統(tǒng)是圖書館知識(shí)發(fā)現(xiàn)最好的解決方案。

參考文獻(xiàn):

[1]楊維超,劉陽(yáng),李淑霞.基于搜索引擎的一站式檢索平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)與現(xiàn)代化,2012(11):220-222.

[2]唐光前.基于.NET Remoting的分布式異構(gòu)數(shù)據(jù)庫(kù)一站式檢索系統(tǒng)模型研究[J].現(xiàn)代圖書情報(bào)技術(shù),2006(8):37-41.

[3]解金蘭,王雅娟.基于新門戶建設(shè)的信息資源一站式檢索服務(wù)研究[J].情報(bào)理論與實(shí)踐,2013(8):62-65.

[4]朱志博,吳海霞.機(jī)構(gòu)聯(lián)盟知識(shí)庫(kù)建設(shè)模式[J].圖書館學(xué)刊,2012(1):60-63.

[5]第五代互聯(lián)網(wǎng)技術(shù)[EB/OL].http://baike.sogou.com/v299325.htm.

[6]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem Solving Methods[C].Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5),1999:1-15.

[7]何美琴,陳剛.區(qū)域高校圖書館一站式書目檢索平臺(tái)研究[J].情報(bào)科學(xué),2011(4):560-562.

[8]Aleman-Meza B.Context-aware Semantic Association Ranking [EB/OL].http://lsdis.cs.uga.edu/lib/download/AHASO3-SWD-Wor kshop.

[9]王清飛.基于語(yǔ)義技術(shù)的搜索引擎模式研究[D].鄭州:鄭州大學(xué),2010.

(編校:崔 萌)endprint

主站蜘蛛池模板: 国产在线拍偷自揄观看视频网站| 五月综合色婷婷| 天天综合网站| 亚洲美女一区| 亚洲—日韩aV在线| www.91在线播放| 91色在线观看| AV在线天堂进入| 992Tv视频国产精品| 97人人做人人爽香蕉精品| 亚洲成人精品| 91久久偷偷做嫩草影院| 欧洲欧美人成免费全部视频 | 亚洲人成网7777777国产| 毛片国产精品完整版| 欧美另类精品一区二区三区| 青草国产在线视频| 粉嫩国产白浆在线观看| 精品五夜婷香蕉国产线看观看| 久精品色妇丰满人妻| 欧美中文字幕在线二区| 99久久精品无码专区免费| 欧美啪啪精品| 国产一级妓女av网站| 色婷婷在线播放| 国产精品极品美女自在线网站| 午夜一区二区三区| 成年人国产视频| 国产95在线 | 啦啦啦网站在线观看a毛片| 国产亚洲精品91| 91成人在线免费视频| 国内精品视频在线| 一本大道香蕉久中文在线播放 | 国产精品九九视频| a亚洲视频| 国产在线观看99| 2048国产精品原创综合在线| 亚洲 欧美 偷自乱 图片 | 亚洲人成电影在线播放| 亚洲综合久久成人AV| 手机在线看片不卡中文字幕| AV无码一区二区三区四区| 在线观看91精品国产剧情免费| 一级毛片免费观看不卡视频| 少妇被粗大的猛烈进出免费视频| 国产成人禁片在线观看| 久久免费精品琪琪| 国内自拍久第一页| 国产无码精品在线播放| 亚洲欧美人成电影在线观看| 巨熟乳波霸若妻中文观看免费| 亚洲人成日本在线观看| 最近最新中文字幕在线第一页| 91蜜芽尤物福利在线观看| 狠狠色噜噜狠狠狠狠色综合久| 亚洲精品男人天堂| 国产最新无码专区在线| m男亚洲一区中文字幕| 精品久久久久久久久久久| 欧美日韩高清| AV不卡在线永久免费观看| 久热中文字幕在线| 国产精品亚洲一区二区三区z| 国产成人精品免费视频大全五级| 午夜高清国产拍精品| 亚洲天堂久久新| 尤物视频一区| 人人91人人澡人人妻人人爽| 国产精品手机视频| 婷婷亚洲最大| 特级毛片8级毛片免费观看| 久草中文网| 亚洲天天更新| 日韩高清一区 | h网址在线观看| 日韩国产综合精选| 国产精品网址在线观看你懂的| 真人高潮娇喘嗯啊在线观看| 波多野吉衣一区二区三区av| 久久国产精品麻豆系列| 亚洲国产成人在线|