王 琳
(柳州鐵道職業(yè)技術(shù)學(xué)院,廣西 柳州 545616)
隨著我國(guó)計(jì)算機(jī)水平提升以及211工程落實(shí),高校圖書館掀起了一股自動(dòng)化檢索的熱潮[1]。隨著這種環(huán)境的推動(dòng),幾乎各大高校都進(jìn)購(gòu)了自動(dòng)化檢索系統(tǒng)。但此類系統(tǒng)普遍涉及底層數(shù)據(jù)庫(kù)結(jié)構(gòu),即傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。常見(jiàn)的自動(dòng)化軟件主要有國(guó)外的INNOPAC升級(jí)版Milllenium以及國(guó)內(nèi)的MELINETS等。分析一個(gè)圖書館自動(dòng)化軟件的價(jià)值,主要可以從以下幾個(gè)方面入手,即底層數(shù)據(jù)庫(kù)、系統(tǒng)結(jié)構(gòu)、語(yǔ)言處理、檢索和機(jī)制等。
全文檢索數(shù)據(jù)庫(kù)是專業(yè)處理各類海量信息的數(shù)據(jù)庫(kù)管理系統(tǒng)。它的工作原理是以代碼形式對(duì)資料內(nèi)容進(jìn)行儲(chǔ)存,并與計(jì)算機(jī)結(jié)合進(jìn)行后續(xù)的檢索查詢和信息處理工作。自改革開(kāi)放以來(lái),投入市場(chǎng)中運(yùn)行的數(shù)據(jù)庫(kù)產(chǎn)品逐年增加,但占據(jù)市場(chǎng)份額超過(guò)90%的鳳毛麟角,大部分產(chǎn)品是關(guān)系型和對(duì)象關(guān)系型。與傳統(tǒng)的數(shù)據(jù)庫(kù)相比較而言,此種數(shù)據(jù)庫(kù)不需要工作人員進(jìn)行大量的標(biāo)引工作,而是可以根據(jù)用戶輸入的關(guān)鍵詞展開(kāi)多角度的檢索,因此被稱為智能檢索。
與關(guān)系數(shù)據(jù)庫(kù)相比,非結(jié)構(gòu)化數(shù)據(jù)庫(kù)檢索機(jī)制的優(yōu)勢(shì)在于靈活性高。簡(jiǎn)單講就是關(guān)系數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)的簡(jiǎn)單、字段以及組合等檢索形式,非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)也能夠?qū)崿F(xiàn)。不僅如此,非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)還能實(shí)現(xiàn)中英文混合檢索、全文檢索等高級(jí)檢索方式,更傾向?qū)I(yè)檢索軟件發(fā)展。當(dāng)下經(jīng)常使用的有詞索引和字索引2大類,從字面意思理解就是一類以詞為單位做原始數(shù)據(jù)進(jìn)行索引,另一類是以字為原始數(shù)據(jù)展開(kāi)索引。2類索引方式優(yōu)勢(shì)不同,詞索引的優(yōu)勢(shì)在于資料查詢準(zhǔn)確,而字索引的優(yōu)勢(shì)在于獲得資料全面,同時(shí)也有容易產(chǎn)生誤查的缺點(diǎn)。
此外需要注意的是此種智能索引機(jī)制在索引前需要依靠分詞系統(tǒng),將整體的索引內(nèi)容進(jìn)行分割后才能完成各項(xiàng)內(nèi)容的分別索引。
數(shù)字圖書館是數(shù)字資源的最終提供者,由此可見(jiàn),數(shù)字圖書館會(huì)購(gòu)買或開(kāi)發(fā)多個(gè)數(shù)據(jù)庫(kù)資源,但相關(guān)的數(shù)據(jù)庫(kù)都不是商家提供的內(nèi)容,因此,用戶在查詢數(shù)據(jù)時(shí),需要重復(fù)登錄、輸入關(guān)鍵詞,造成的影響主要體現(xiàn)在效率低和浪費(fèi)用戶精力等方面。為解決上述問(wèn)題,市場(chǎng)上的數(shù)據(jù)商人,紛紛開(kāi)發(fā)了異構(gòu)統(tǒng)一的檢索平臺(tái),即USP。這是一個(gè)智能化網(wǎng)絡(luò)數(shù)據(jù)庫(kù)檢索平臺(tái),具體功能在于能夠在單一用戶界面上檢索多個(gè)異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)庫(kù),還可以結(jié)合檢索結(jié)果智能去重,為用戶訪問(wèn)數(shù)據(jù)庫(kù)提供了更加便利的條件。
為順應(yīng)時(shí)代發(fā)展,大部分全文數(shù)據(jù)庫(kù)還支持普通檢索、高級(jí)檢索以及二次檢索等要求。以TPI為例,對(duì)比TPI和GOOGLE能夠發(fā)現(xiàn),TPI在檢索范圍和最終結(jié)果兩方面有很強(qiáng)的市場(chǎng)競(jìng)爭(zhēng)力。
再如TRS的Gateway關(guān)系數(shù)據(jù)庫(kù)網(wǎng)關(guān),目前已經(jīng)可以達(dá)到傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在全文檢索方面的拓展需求,不僅能自動(dòng)監(jiān)控?cái)?shù)據(jù)庫(kù)的實(shí)時(shí)更新?tīng)顟B(tài),還可以維護(hù)系統(tǒng)中的索引信息。某圖書館使用該關(guān)系數(shù)據(jù)網(wǎng)關(guān),其自動(dòng)化系統(tǒng)當(dāng)中的書目信息很快實(shí)現(xiàn)了整合和統(tǒng)一的檢索功能,且還利用此網(wǎng)關(guān)中的站點(diǎn)檢索功能實(shí)現(xiàn)了部分信息的本地檢索。
系統(tǒng)個(gè)性化特點(diǎn)方面,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)隨著各種現(xiàn)代化電子資源增加和網(wǎng)絡(luò)資源的不斷發(fā)展,已經(jīng)形成了資源整合的自動(dòng)化集成發(fā)展趨勢(shì)。簡(jiǎn)單講就是能夠?yàn)椴煌?jí)別的用戶提供使用界面,經(jīng)過(guò)一段時(shí)間的發(fā)展,現(xiàn)在一次檢索能夠查看全部資源已經(jīng)實(shí)現(xiàn)。例如:Millenium的MAP模塊,其中整合了全部類型的信息資源,且可以在網(wǎng)絡(luò)數(shù)據(jù)資源的基礎(chǔ)上全文檢索。用戶不論身在何處,都能夠應(yīng)用該模塊檢索到自己需要的資料。
總之,一個(gè)軟件的功能和模塊開(kāi)發(fā),與企業(yè)側(cè)重于對(duì)用戶需求的研究息息相關(guān)[2]。且系統(tǒng)的發(fā)展和優(yōu)化也要注意與圖書館相一致。
多年來(lái)數(shù)據(jù)庫(kù)建設(shè)的過(guò)程當(dāng)中,隨著類型和數(shù)量的增加,數(shù)據(jù)庫(kù)之間關(guān)聯(lián)和數(shù)字資源整合工作的要求不斷復(fù)雜化,即便在統(tǒng)一軟件當(dāng)中建立數(shù)據(jù)庫(kù),也會(huì)由于底層數(shù)據(jù)結(jié)構(gòu)差異,或數(shù)據(jù)庫(kù)字段名稱不同導(dǎo)致連接不通暢的問(wèn)題產(chǎn)生。如:某科研成果庫(kù)使用的是“題名”,而另一論文庫(kù)使用的則是“標(biāo)題”,在后續(xù)的跨庫(kù)連接過(guò)程中,就會(huì)導(dǎo)致方法步驟復(fù)雜化,甚至產(chǎn)生連接失敗的情況。面對(duì)此種情況,許多圖書館在建設(shè)數(shù)據(jù)庫(kù)的過(guò)程中。制定了對(duì)多種文獻(xiàn)資料相應(yīng)的描述和規(guī)范。元數(shù)據(jù)檢索理念早在數(shù)據(jù)庫(kù)最初的建設(shè)過(guò)程中就有所提及。如:都柏林核心元數(shù)據(jù)就是當(dāng)時(shí)提出的概念,其中指出,都柏林元數(shù)據(jù)集屬于一種跨領(lǐng)域和資料庫(kù)的信息資源描述準(zhǔn)繩,在該理念當(dāng)中,信息資源被以“任何具有表示的東西”來(lái)定義。
總而言之,不論是數(shù)據(jù)庫(kù)開(kāi)發(fā)商普遍發(fā)行的單一數(shù)據(jù)庫(kù),還是處理大型的數(shù)據(jù)庫(kù),都需要技術(shù)人員從根本問(wèn)題出發(fā),提升跨庫(kù)檢索和數(shù)據(jù)關(guān)聯(lián)之間的有效性,同時(shí)還要在發(fā)展過(guò)程中具有前瞻性,即分析未來(lái)該行業(yè)發(fā)展趨勢(shì),力求實(shí)現(xiàn)真正意義上的資源無(wú)阻隔交換。