張衛(wèi)華??
關鍵詞:一站式檢索;分布式數(shù)據(jù)庫;集中式數(shù)據(jù)庫;混合式數(shù)據(jù)庫
摘要:文章對比分析了現(xiàn)存的分布式數(shù)據(jù)庫檢索模型、集中式數(shù)據(jù)庫檢索模型、混合式數(shù)據(jù)庫檢索模型的優(yōu)缺點,提出了基于語義技術的圖書館資源檢索模型,并對其包含的本體字典、檢索歷史抽取庫和輸出系統(tǒng)功能做了介紹。
中圖分類號:G258文獻標識碼:A文章編號:1003-1588(2017)08-0074-03
信息社會的發(fā)展,使圖書館的館藏資源越來越豐富,尤其是電子資源越來越多,不僅體現(xiàn)在數(shù)量上,在種類上也各不相同。圖書館管理系統(tǒng)的不同,導致各種條目信息也不同,數(shù)字資源庫有自建數(shù)據(jù)庫和引進數(shù)據(jù)庫,尤其是引進的數(shù)據(jù)庫種類繁多,索引系統(tǒng)和管理方式存在很大的差異,資源的管理和查找極其不便[1],讀者獲取自己需要的信息難度比較大。如果對各個數(shù)據(jù)庫逐一檢索,信息資源的篩選是一項很龐大的工程,因此,目前迫切需要建立一個統(tǒng)一的信息檢索平臺,實現(xiàn)對圖書館各種資源的統(tǒng)一檢索。
1 一站式檢索功能分析
圖書館一站式信息檢索的關鍵技術在兼容上,重點是解決分布式異構數(shù)字資源的整合和檢索。設計檢索平臺應該包含數(shù)據(jù)處理子系統(tǒng)、索引子系統(tǒng)、搜索服務子系統(tǒng)、輸出子系統(tǒng)四個主要的系統(tǒng)部分,具體架構見圖1。
數(shù)據(jù)處理子系統(tǒng)的主要功能是元數(shù)據(jù)的制作和異構數(shù)據(jù)庫的轉換[2]。不同數(shù)據(jù)庫廠商的數(shù)據(jù)標準是不一樣的,這樣很難將關鍵詞抽出來直接使用,需要通過數(shù)據(jù)庫處理子系統(tǒng)對元數(shù)據(jù)進行規(guī)范。該系統(tǒng)采用《分類表》《主題詞表》實現(xiàn)資源的分類和標引,并分別從四個方面進行整理:①單位購買的大型數(shù)據(jù)庫(CNKI、維普、超星、書生之家等)采用專門開發(fā)的工具直接制作索引,或者采用關鍵詞傳送的方式進行檢索。②對于自建的小型數(shù)據(jù)庫采用數(shù)據(jù)庫轉換形式,統(tǒng)一到SQL SREVER數(shù)據(jù)庫統(tǒng)一索引。③外文數(shù)據(jù)庫采用關鍵詞傳送的形式,不再進行數(shù)據(jù)轉換,但是對兩個模塊都要檢索,并整合輸出。④對數(shù)據(jù)庫采用技術一致的數(shù)據(jù)資源庫,直接進行元數(shù)據(jù)的采集和收割。圖書館對數(shù)字資源進行元數(shù)據(jù)的整合,放在統(tǒng)一檢索平臺中供檢索系統(tǒng)使用。
索引子系統(tǒng)的主要功能是在元數(shù)據(jù)制作完成后,對數(shù)據(jù)進行格式化并建立索引[3]。這個系統(tǒng)主要還是管理人員進行操作,可以對所包含的數(shù)據(jù)庫進行配置、創(chuàng)建和優(yōu)化工作,根據(jù)單位數(shù)據(jù)庫情況的不同,建立不同的索引數(shù)據(jù)庫子庫。
搜索子系統(tǒng)的主要功能是為讀者提供檢索的頁面。讀者在檢索子系統(tǒng)里可以選擇檢索范圍,如全部、期刊、圖書、光盤等,按照事先劃分好的大類選擇檢索。讀者也可以進行高級檢索,比如多個關鍵詞的邏輯檢索、時間段的選擇、數(shù)據(jù)庫的選擇等。另外,搜索子系統(tǒng)還有記錄用戶搜索歷史的功能,將部分檢索式進行收錄,形成機構知識庫并具有智能推薦功能。
輸出子系統(tǒng)的主要功能是將用戶檢索的結果輸出并進行排序,根據(jù)相關度算法,將匹配度最高的放在前面,并且具有分類輸出的功能,如果是綜合檢索的話,應該將不同類型的資源分類呈現(xiàn)給讀者。
2 檢索模型對比
圖書館資源一站式檢索系統(tǒng)的建設模式主要有三種:①自建。圖書館在計算機人才充裕的情況下可以自己建設一站式檢索,這樣成本較低,且符合圖書館的實際需要,易于維護和功能擴展。②購買。資金比較充裕,技術能力卻不強的圖書館可以采用購買的形式搭建一站式檢索。這種建設模式基本上是購買成熟廠商的平臺,在使用的過程中部分功能可能會缺失或者浪費,但是系統(tǒng)穩(wěn)定。③合作。這是目前最合理的一種構建檢索平臺的形式,圖書館根據(jù)自己的需求,提出構建的檢索模式,公司負責進行開發(fā),這樣針對性強,系統(tǒng)穩(wěn)定,但是需要的成本也高。檢索模式的不同很大程度上是數(shù)據(jù)庫組織模式的不同,對數(shù)據(jù)庫的組織一般有分布式、集中式和混合式三種。
2.1 分布式數(shù)據(jù)庫檢索模式
分布式數(shù)據(jù)庫檢索模型是直接將存在的數(shù)據(jù)庫并列,即每一個數(shù)據(jù)庫是獨立的元數(shù)據(jù)和檢索接口,圖書館僅僅做了一個統(tǒng)一的檢索界面,將用戶輸入的檢索式分別傳入各個數(shù)據(jù)庫進行檢索,并將檢索結果匯總到一起反饋給用戶的一種模式。這種模式主要通過SRW/SRU或者Z39.50協(xié)議來實現(xiàn)(見圖2)。
這種模式的優(yōu)點有:①開發(fā)簡單。圖書館不需要對現(xiàn)有的數(shù)據(jù)庫進行二次開發(fā)和元數(shù)據(jù)的收割和采集,擴展方便,易于維護。②可以大大節(jié)約用戶的時間。讀者只需要檢索一次就可以完成對所有數(shù)據(jù)庫的檢索。這種模式的缺點有:①這種搜索模式沒有自己的索引庫和資源庫,僅僅是一個檢索接口,不能滿足用戶的深層次檢索和自定義檢索。②如果沒有對輸出子系統(tǒng)進行二次權值定義的話,用戶對輸出結果的篩選工作量較大,尤其是檢索結果較多的情況下。③各個數(shù)據(jù)庫的檢索方式和標引方式不盡相同,這樣用戶在調整檢索式進行二次檢索的時候容易產生混亂。④不利于機構知識庫的構建。
2.2 集中式數(shù)據(jù)庫檢索模型
集中式數(shù)據(jù)庫檢索模型是指圖書館要建設一個收割程序,對所有數(shù)據(jù)庫的元數(shù)據(jù)進行收割,形成新的索引庫。用戶將檢索式輸入新建的索引庫進行搜索和匹配,然后將檢索結果輸出給用戶,提供給用戶的是索引庫的索引條目,用戶可通過超級鏈接查詢和使用原文(見圖3)。這種模式也是目前采用比較多的一站式檢索開發(fā)模式。
這種模式的優(yōu)點有:①節(jié)約檢索時間,用戶只需一次檢索即可完成所有數(shù)據(jù)庫的檢索需要。②可以實現(xiàn)布爾檢索和高級檢索功能。③圖書館能夠形成自己的索引庫,對分類詞表維護比較簡單,方便提高檢索效率。④由于索引系統(tǒng)為本地程序,方便管理和統(tǒng)一標準的制定。這種模式的缺點有:①相對于分布式檢索系統(tǒng)來說開發(fā)有一定的難度,對軟件和硬件的要求較高。②索引庫建立后,系統(tǒng)擴展、接入新的子庫的工作量大,需要對元數(shù)據(jù)進行更新,實時性差。③檢索速度會受到一定的影響。
2.3 混合式數(shù)據(jù)庫檢索模型
混合式數(shù)據(jù)庫檢索模型是采集式和分布式的有機結合體,也就是這個一站式檢索系統(tǒng)中既有分布式檢索,也有采集式檢索。即其中的某幾個數(shù)據(jù)庫是分布式的,另外幾個是采集式的,形成混合式數(shù)據(jù)庫檢索模型[4](見圖4)。
這種模型的優(yōu)缺點也是上面兩種模型優(yōu)缺點的集中體現(xiàn),其最大的優(yōu)點是增加數(shù)據(jù)庫的方便快捷度,可以快速加入新的數(shù)據(jù)資源庫,如果是自建的數(shù)據(jù)庫可以并到采集模型,如果是購買的數(shù)據(jù)庫可以加入分部模型中。這種模型的缺點有:①系統(tǒng)對硬件和軟件的要求較高,數(shù)據(jù)庫量較大的情況下會影響響應速度。②檢索不統(tǒng)一,輸出結果的形式不好控制,不容易進行分類。③查重和輸出排序的實現(xiàn)較困難,檢索噪音較大。
3 基于語義技術的檢索模型
硬件技術的發(fā)展日新月異,包括通信技術的發(fā)展,目前4G/LTE的峰值傳輸速率已達到每秒100M,而5G的峰值速率將達到每秒10G[5]。所以,
圖書館在研究模型的時候盡量要考慮系統(tǒng)的查全率和查準率,將響應速度放在次要位置。語義檢索模型可以在很大程度上解決上面三種模型的不足(見圖5)。本模型與上述模型的不同之處在于多出了本體字典和檢索歷史的學習功能。
3.1 本體字典
本體[6]包含四個最基本的建模關系:Attribute-of表達某個概念是另一個概念的屬性;Part-of表達整體與部分的關系;Kind-of表達繼承關系,相當于上位類和下位類的關系;Instance-of表達實例與概念的關系,相當于類和對象的關系。本體技術對抽取的數(shù)據(jù)進行控制,形成本體詞典。
語義詞典可以清楚明白地表述詞語間的關系,并將其引入用來改善受控詞表。對搜索引擎的改進方法可以借鑒語言學詞典中對語義關系的描述,可以用來解析自然語言,實現(xiàn)通過詞語的意思對目標文檔進行深入的檢索,目前北京大學建立中文概念詞典CCD已經取得初步的成果。
一站式檢索系統(tǒng)引入本體詞典技術,將對分類表、主題詞表進行有效的補充,同時本體和語義技術所包含的四個關系可以有效地對檢索者的自然語言進行語義控制,并且判斷上位類、下位類信息,方便擴大和縮小檢索范圍,對近義詞進行檢索,提高查全率。其優(yōu)點有:①經過本體詞典的規(guī)范,將檢索式傳輸?shù)匠槿〉脑獢?shù)據(jù)庫進行檢索或者將本體詞直接傳輸?shù)椒植际綌?shù)據(jù)庫中進行檢索,可以有效提高查全率。②本體是對事物本質聯(lián)系的描述,組成的檢索式更精準,可以克服分布式數(shù)據(jù)庫不能組合檢索的缺陷。③本體詞典維護簡單,一次性構建,定期維護即可。④可以通過組合框的方式進行勾選,選擇性地將檢索詞傳輸?shù)侥骋粋€或者幾個數(shù)據(jù)庫進行檢索[7]。
3.2 檢索歷史抽取庫
檢索歷史可以反映一個單位或者部分用戶的使用和檢索習慣,尤其是在高校圖書館,本檢索模型可以通過本體技術從檢索歷史中抽取相關的檢索式和檢索結果,形成檢索知識庫,并抽取專業(yè)知識充實本體詞典,優(yōu)化檢索效果,實現(xiàn)學習功能。
檢索歷史庫的優(yōu)點有:①方便形成單位或者部門機構知識庫,用戶的使用結果和檢索式的演變過程本身就是一種知識,本系統(tǒng)可以將優(yōu)秀的檢索式抽取并保存。②實現(xiàn)對用戶的檢索提示功能,主動將與用戶檢索相關的檢索式及檢索結果推送給用戶,供用戶使用或者改變檢索式。③縮短系統(tǒng)的響應時間,通過歷史檢索式查詢,系統(tǒng)只需要根據(jù)上次的檢索時間進行增量檢索即可,縮短了檢索時間。
3.3 輸出子系統(tǒng)
本體語義技術的引入,對輸出子系統(tǒng)的智能排序有很大的提高。檢索的結果是對象和實例,并且還包含實體與其之間的聯(lián)系,不再僅僅是超級鏈接和文檔的形式。通過研究深度指數(shù)和背景指數(shù),讀者可以理解實體之間的關聯(lián)[8],其中深度指數(shù)可以反映出實體和關系的規(guī)范化程度,背景指數(shù)可以反映出讀者感興趣的范圍。
在圖書館一站式檢索輸出排序算法中引入實體關聯(lián)模型,可以提高查全率,搜索軟件可以很好地滿足用戶的提問并體現(xiàn)出各個實體之間的關聯(lián),在關鍵詞與實體進行匹配的同時,進行檢索擴充和聯(lián)想[9],同時還可以根據(jù)檢索結果的上下位類關系、來源數(shù)據(jù)庫、時間、數(shù)據(jù)格式等進行分類并呈現(xiàn)給讀者,幫助讀者縮短資源的篩選時間。
4 結語
隨著信息技術的發(fā)展及移動圖書館、微圖書館等理念和技術的誕生,未來圖書館將在技術和用戶需求的驅動下,聚集更多的業(yè)務系統(tǒng)和資源類型,讓用戶在一個平臺上獲取圖書館或聯(lián)盟所有類型的資源信息,檢索平臺也將完成從信息檢索到知識檢索的轉變,更加注重網絡資源和區(qū)域聯(lián)盟資源的整合。基于語義技術的一站式檢索系統(tǒng)是圖書館知識發(fā)現(xiàn)最好的解決方案。
參考文獻:
[1]楊維超,劉陽,李淑霞.基于搜索引擎的一站式檢索平臺設計與實現(xiàn)[J].計算機與現(xiàn)代化,2012(11):220-222.
[2]唐光前.基于.NET Remoting的分布式異構數(shù)據(jù)庫一站式檢索系統(tǒng)模型研究[J].現(xiàn)代圖書情報技術,2006(8):37-41.
[3]解金蘭,王雅娟.基于新門戶建設的信息資源一站式檢索服務研究[J].情報理論與實踐,2013(8):62-65.
[4]朱志博,吳海霞.機構聯(lián)盟知識庫建設模式[J].圖書館學刊,2012(1):60-63.
[5]第五代互聯(lián)網技術[EB/OL].http://baike.sogou.com/v299325.htm.
[6]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem Solving Methods[C].Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5),1999:1-15.
[7]何美琴,陳剛.區(qū)域高校圖書館一站式書目檢索平臺研究[J].情報科學,2011(4):560-562.
[8]Aleman-Meza B.Context-aware Semantic Association Ranking [EB/OL].http://lsdis.cs.uga.edu/lib/download/AHASO3-SWD-Wor kshop.
[9]王清飛.基于語義技術的搜索引擎模式研究[D].鄭州:鄭州大學,2010.
(編校:崔 萌)