余 春
(武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
開(kāi)放存取運(yùn)動(dòng)倡導(dǎo)學(xué)術(shù)資源的公開(kāi)獲取,促進(jìn)學(xué)術(shù)信息的無(wú)障礙交流,吸引了越來(lái)越多學(xué)者、組織機(jī)構(gòu)參與其中,涌現(xiàn)出巨量的開(kāi)放存取資源。除了人們熟悉的開(kāi)放存取期刊外,還有一種重要的類(lèi)型,就是開(kāi)放存取倉(cāng)儲(chǔ)(簡(jiǎn)稱(chēng)OA倉(cāng)儲(chǔ))。OA倉(cāng)儲(chǔ)包括學(xué)科OA倉(cāng)儲(chǔ)和機(jī)構(gòu)OA倉(cāng)儲(chǔ),前者是以某一學(xué)科或多學(xué)科為主題來(lái)搜集組織數(shù)字化的學(xué)術(shù)成果,為科研人員參與學(xué)術(shù)交流提供方便快捷的平臺(tái),提供及時(shí)發(fā)表成果和新觀點(diǎn)的有效渠道;后者是依附于特定機(jī)構(gòu),搜集、組織、保存、維護(hù)、更新該機(jī)構(gòu)及其社群成員所產(chǎn)生的學(xué)術(shù)成果、科學(xué)數(shù)據(jù)和其他資料,以機(jī)構(gòu)為單位參與學(xué)術(shù)交流,展示其學(xué)術(shù)成果,提升機(jī)構(gòu)的學(xué)術(shù)地位[1]。
OA倉(cāng)儲(chǔ)近年來(lái)得到快速發(fā)展。有研究者在2007年10月14日通過(guò)開(kāi)放存取倉(cāng)儲(chǔ)目錄OpenDOAR檢索到928個(gè)OA倉(cāng)儲(chǔ)[1],而筆者在2010年7月4日利用OpenDOAR檢索到的OA倉(cāng)儲(chǔ)總數(shù)為1696個(gè),在不到3年的時(shí)間里,增加了73%。建立倉(cāng)儲(chǔ)的目的在于與外界進(jìn)行學(xué)術(shù)交流,如何才能讓這些倉(cāng)儲(chǔ)在浩瀚的信息海洋中不會(huì)成為一個(gè)個(gè)的信息孤島?如何提高OA倉(cāng)儲(chǔ)的影響力?這就需要加強(qiáng)OA倉(cāng)儲(chǔ)的互操作性。互操作性是兩個(gè)或多個(gè)系統(tǒng)或組件之間交換信息并使用這些被交換信息的能力,它使得用戶不需要學(xué)習(xí)或了解各種專(zhuān)業(yè)軟件、操作系統(tǒng)、操作界面,就能獲取并使用可互操作的不同系統(tǒng)中的信息,使信息交流變得高效且輕松。OA倉(cāng)儲(chǔ)發(fā)展其互操作性,不僅使世界各地的用戶都能查詢(xún)、獲取倉(cāng)儲(chǔ)中的文檔,還能同時(shí)保持自己獨(dú)特的品牌效應(yīng),令倉(cāng)儲(chǔ)更加開(kāi)放,使倉(cāng)儲(chǔ)中信息內(nèi)容的價(jià)值得到最大化。
在當(dāng)今的信息環(huán)境里,搜索引擎和其他數(shù)據(jù)發(fā)現(xiàn)工具成為人們查詢(xún)、獲取信息的最主要手段。OCLC曾調(diào)查發(fā)現(xiàn),84%的信息查詢(xún)用戶是依靠搜索引擎來(lái)獲取信息的,其中90%的人對(duì)結(jié)果感到滿意[2]。也有研究者提出,OA倉(cāng)儲(chǔ)的互操作性就是倉(cāng)儲(chǔ)系統(tǒng)為人們提供通過(guò)多種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具獲取倉(cāng)儲(chǔ)內(nèi)容的能力[3]。
截至2010年7月13日,有關(guān)圖書(shū)館與信息科學(xué)的OA倉(cāng)儲(chǔ)已有56個(gè),收錄條目數(shù)萬(wàn)條,它們已成為圖書(shū)館與信息科學(xué)研究的重要資源。本研究的目的在于嘗試評(píng)價(jià)圖書(shū)館與信息科學(xué)OA倉(cāng)儲(chǔ)的互操作性,通過(guò)調(diào)查統(tǒng)計(jì)主流搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具收錄圖書(shū)館與信息科學(xué)OA倉(cāng)儲(chǔ)中的資源情況,以期了解這些OA倉(cāng)儲(chǔ)為人們提供利用多種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具獲取倉(cāng)儲(chǔ)資源的能力及圖情領(lǐng)域OA倉(cāng)儲(chǔ)重要的查詢(xún)、獲取途徑,為圖書(shū)信息界相關(guān)人員進(jìn)行研究提供參考。
經(jīng)過(guò)文獻(xiàn)檢索,筆者尚未發(fā)現(xiàn)有此類(lèi)研究的發(fā)表。Markland調(diào)查研究了谷歌搜索引擎對(duì)來(lái)自英國(guó)的機(jī)構(gòu)倉(cāng)儲(chǔ)文獻(xiàn)資源的檢索效率,發(fā)現(xiàn)谷歌與谷歌學(xué)術(shù)搜索的用戶可以檢索到來(lái)自機(jī)構(gòu)倉(cāng)儲(chǔ)的文獻(xiàn),尤其是在用戶知道文獻(xiàn)全名的情況下[4]。Norris等人使用谷歌、谷歌學(xué)術(shù)搜索、OAIster、Open-DOAR查找同行評(píng)議的OA期刊論文,結(jié)果通過(guò)谷歌與谷歌學(xué)術(shù)搜索能查詢(xún)到大多數(shù)論文,而OAIster、OpenDOAR的查詢(xún)結(jié)果則令人失望[5]。Baldwin的研究指出,谷歌學(xué)術(shù)搜索查詢(xún)到的工程學(xué)OA論文,有10%~13%來(lái)自機(jī)構(gòu)倉(cāng)儲(chǔ)[6]。
筆者先根據(jù)一定原則在OpenDOAR中選擇5個(gè)圖書(shū)館與信息科學(xué)的OA倉(cāng)儲(chǔ),并在每個(gè)倉(cāng)儲(chǔ)中隨機(jī)選取8篇樣本文獻(xiàn),然后再選擇9種人們常用的、熟悉的搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具,分別利用這9種工具來(lái)檢索先前選取的樣本文獻(xiàn),根據(jù)檢索結(jié)果,分別統(tǒng)計(jì)各倉(cāng)儲(chǔ)的文獻(xiàn)被檢命中率及每種搜索工具的檢索命中率,以此評(píng)估圖書(shū)館與信息科學(xué)OA倉(cāng)儲(chǔ)的互操作性,以及查詢(xún)獲取這些倉(cāng)儲(chǔ)資源的主要途徑。整個(gè)檢索過(guò)程于2010年6月12日至7月13日期間完成。
OpenDOAR由英國(guó)的諾丁漢大學(xué)和瑞典的隆德大學(xué)圖書(shū)館于2005年2月共同創(chuàng)建,是一個(gè)權(quán)威性的OA倉(cāng)儲(chǔ)目錄,提供高質(zhì)的全世界OA倉(cāng)儲(chǔ)清單。筆者利用OpenDOAR來(lái)選擇“圖書(shū)館與信息科學(xué)”學(xué)科領(lǐng)域的OA倉(cāng)儲(chǔ)(包括學(xué)科資源庫(kù)、機(jī)構(gòu)倉(cāng)儲(chǔ)、政府倉(cāng)儲(chǔ)等類(lèi)型)。為了便于研究,并讓研究更具目的性、有意義及同類(lèi)可比性,設(shè)立以下限制條件:①倉(cāng)儲(chǔ)使用的語(yǔ)言為英語(yǔ);②倉(cāng)儲(chǔ)的主題僅涉及圖書(shū)館與信息科學(xué);③倉(cāng)儲(chǔ)應(yīng)包含至少100個(gè)條目。依照上述條件,從OpenDOAR中篩選出5個(gè)OA倉(cāng)儲(chǔ),見(jiàn)表1。

表1 OpenDOAR中的圖書(shū)館信息科學(xué)OA倉(cāng)儲(chǔ)
搜索引擎已成為人們查詢(xún)、獲取信息的最主要工具,有研究者發(fā)現(xiàn)大多數(shù)對(duì)倉(cāng)儲(chǔ)的下載要求是直接來(lái)自人們使用的搜索引擎。“搜索引擎觀察(Search engine watch)”是對(duì)搜索引擎市場(chǎng)和搜索引擎優(yōu)化的權(quán)威指南,筆者根據(jù)它發(fā)布的報(bào)告選擇了7個(gè)為人們熟悉、好用的通用搜索引擎。
本研究是針對(duì)圖書(shū)館與信息科學(xué)領(lǐng)域的OA倉(cāng)儲(chǔ)與搜索引擎、數(shù)據(jù)發(fā)現(xiàn)工具的互操作性,因此筆者還選擇了OAIster和Scirus這兩種工具。OAIster是描述開(kāi)放文檔資源的聯(lián)合目錄,它通過(guò)獲取那些使用OAI-PMH互操作協(xié)議的數(shù)字資源的元數(shù)據(jù)信息,來(lái)提供對(duì)那些數(shù)字資源的訪問(wèn)。到目前為止,它已擁有超過(guò)2300萬(wàn)條描述數(shù)字資源的記錄。Scirus是2001年由愛(ài)絲維爾公司(Elsevier)發(fā)起的專(zhuān)業(yè)搜索引擎,它能搜索超過(guò)38000萬(wàn)個(gè)學(xué)科專(zhuān)業(yè)的網(wǎng)頁(yè),被譽(yù)為“網(wǎng)絡(luò)最全面的科學(xué)研究工具”。
這樣,就選取了9種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具:Google、Yahoo、Baidu、Ask、Allthe web、AOL、Gigablast、OAIster、Scirus。
在被選取的5個(gè)倉(cāng)儲(chǔ)中,所有文獻(xiàn)都能以年份的順序編排、瀏覽。筆者分別在每個(gè)倉(cāng)儲(chǔ)中以隨機(jī)的方式從2009、2008年的文獻(xiàn)中選擇了8篇文獻(xiàn),各年份文獻(xiàn)大致各占一半。
分別用所選的9種搜索工具來(lái)檢索隨機(jī)抽取的OA倉(cāng)儲(chǔ)文獻(xiàn)。采用高級(jí)檢索的方式,在檢索框中分別輸入文獻(xiàn)的完整題名和著者名稱(chēng)進(jìn)行精確檢索,可能會(huì)檢出一系列來(lái)源不同的與檢索詞完全匹配的文獻(xiàn),但其中只有在信息來(lái)源處標(biāo)注的是所選OA倉(cāng)儲(chǔ)的URL文獻(xiàn)才算是檢索命中結(jié)果。如果沒(méi)有出現(xiàn)匹配的檢索結(jié)果,則再采用其他有可能的檢索途徑,以確定檢索結(jié)果。
①這5個(gè)OA倉(cāng)儲(chǔ)中的樣本文獻(xiàn)沒(méi)有一個(gè)能百分百地被所選擇的搜索引擎或數(shù)據(jù)發(fā)現(xiàn)工具檢索到。被檢命中率最高的是Librarian'sdigitallibrary(65.3%),最低的是E-LIS(19.4%)。5個(gè)倉(cāng)儲(chǔ)的平均被檢中率為51.7%。
② E-LIS倉(cāng)儲(chǔ)的8篇文獻(xiàn),Scirus都能檢索到,OAIster也能檢出6篇,而其他7個(gè)搜索引擎則完全檢索不到。
③ Inform conference proceedings倉(cāng)儲(chǔ)的被檢中率為50%,Google、Yahoo、Ask能百分百地檢索出它的8篇文獻(xiàn),而B(niǎo)aidu、Gigablast則一篇都檢索不到,OAIster與Scirus均分別檢索到1篇,Alltheweb檢出7篇,AOL檢出3篇。
④ Librarian's digital library倉(cāng)儲(chǔ)的 8篇文獻(xiàn),Google、Yahoo、Ask、Alltheweb、AOL 等搜索引擎都能全部檢出,只有Scirus、Baidu 一篇都檢索不到,OAIster檢中 5篇,Gigablast檢中兩篇。

表2 檢索命中情況
⑤OCLC Research Publications倉(cāng)儲(chǔ)的被檢中率為59.7%,Google和AOL能完全檢索出它的8篇文獻(xiàn),而OAIster則一篇都檢索不到,Yahoo檢出7篇,Ask檢中6篇,Allthe web 檢中 5篇,Scirus、Baidu、Gigablast都只檢出 3篇。
⑥SILS Electronic Theses&Dissertations倉(cāng)儲(chǔ)的被檢中率為63.9%,Google、Yahoo完全檢索出它的8篇文獻(xiàn),而B(niǎo)aidu、Gigablast檢索命中率為零,Ask、Alltheweb、AOL 都檢中了7篇,Scirus檢中了5篇,OAIster檢中了4篇。
①Google位居命中率第一位,除了沒(méi)有檢出E-LIS倉(cāng)儲(chǔ)的樣本文獻(xiàn)外,對(duì)其他倉(cāng)儲(chǔ)的樣本文獻(xiàn)全部檢索命中,總檢索命中率達(dá)到80%。而B(niǎo)aidu的表現(xiàn)有些令人失望,5個(gè)倉(cāng)儲(chǔ)中的樣本文獻(xiàn),它只檢出OCLC Research Publications中的3篇,對(duì)其他倉(cāng)儲(chǔ)的命中率皆為零,以總檢索命中率7.5%列于最末位。其他搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具的檢索命中情況見(jiàn)表2。
②OAIster是通過(guò)獲取那些使用OAI-PMH互操作協(xié)議的數(shù)字資源的元數(shù)據(jù)信息,來(lái)提供對(duì)那些數(shù)字資源的訪問(wèn)。在本研究中,采用OAI-PMH協(xié)議的倉(cāng)儲(chǔ)共有3個(gè):E-LIS、Librarian's digital library、SILS Electronic Theses&Dissertations,OAIster對(duì)這3個(gè)倉(cāng)儲(chǔ)的樣本文獻(xiàn)檢出率分別為75%、62.5%、50%,均高于OAIster總檢索命中率40%,也遠(yuǎn)高于它對(duì)另兩個(gè)倉(cāng)儲(chǔ)的檢索命中率。Scirus的情況也類(lèi)似,它對(duì)這3個(gè)采用OAIPMH協(xié)議的倉(cāng)儲(chǔ)的檢索命中率平均為54.2%,遠(yuǎn)超它的總檢索命中率和它對(duì)另兩個(gè)倉(cāng)儲(chǔ)的檢索命中率。而其他7個(gè)搜索引擎則表現(xiàn)相反,由于它們對(duì)E-LIS的檢索命中率為0,它們對(duì)采用OAI-PMH協(xié)議的倉(cāng)儲(chǔ)的檢索平均命中率甚至還要低于對(duì)另兩個(gè)倉(cāng)儲(chǔ)的檢索平均命中率。
③依據(jù)本研究“檢索方法與檢索結(jié)果的確定”規(guī)定,“沒(méi)有檢索命中結(jié)果”可能是有兩種情況,一是檢索出與樣本文獻(xiàn)相一致的文獻(xiàn),但這些文獻(xiàn)的來(lái)源并非所選的OA倉(cāng)儲(chǔ);二是根本沒(méi)有檢索出與樣本文獻(xiàn)相一致的文獻(xiàn)。在實(shí)際檢索中,除了Google和Yahoo只出現(xiàn)第一種情況外,其他搜索工具都出現(xiàn)了上述兩種情況。筆者分別以搜索工具和圖書(shū)館信息學(xué)OA倉(cāng)儲(chǔ)為單位,統(tǒng)計(jì)了它們發(fā)生上述第二種情況的數(shù)量和比率,分列在表3、表4。

表3 搜索工具未檢出樣本文獻(xiàn)的數(shù)量與比例

表4 圖書(shū)館信息科學(xué)OA倉(cāng)儲(chǔ)未被檢出的樣本文獻(xiàn)數(shù)量與比例
①本研究涉及兩個(gè)機(jī)構(gòu)倉(cāng)儲(chǔ)(OCLC Research Publications、SILS Electronic Theses&Dissertations)和兩個(gè)學(xué)科倉(cāng)儲(chǔ)(ELIS、Librarian's digital library),機(jī)構(gòu)倉(cāng)儲(chǔ)的樣本文獻(xiàn)平均被檢中率(61.8%)高于學(xué)科倉(cāng)儲(chǔ)的(42.4%)。這可能是因?yàn)闄C(jī)構(gòu)倉(cāng)儲(chǔ)是依附于機(jī)構(gòu),以機(jī)構(gòu)為單位組織建設(shè)、參與學(xué)術(shù)交流的,它比學(xué)科倉(cāng)儲(chǔ)更具有組織嚴(yán)密性,建設(shè)時(shí)也更著眼于向外界展示機(jī)構(gòu)的學(xué)術(shù)實(shí)力,更趨向于重視互操作性。
②5個(gè)倉(cāng)儲(chǔ)中E-LIS的條目數(shù)量最多(10287條,是其他倉(cāng)儲(chǔ)條目數(shù)的13~41倍),也采用了OAI-PMH互操作協(xié)議,但是它的樣本文獻(xiàn)被檢中率是最低的,僅19.4%,著實(shí)讓人驚訝。聯(lián)系到表4反映的E-LIS未被檢出的樣本文獻(xiàn)占該倉(cāng)儲(chǔ)總樣本文獻(xiàn)檢索量的比例很低(15.3%),這說(shuō)明搜索工具其實(shí)檢索出很多來(lái)自其他信息源的相同文獻(xiàn)。筆者認(rèn)為可能是因?yàn)镋-LIS收錄來(lái)自世界各地圖書(shū)館信息學(xué)界作者自行存檔的論文,這些論文中很大部分都是已經(jīng)發(fā)表、出版過(guò)的期刊論文、會(huì)議文獻(xiàn)、專(zhuān)著摘節(jié)等,在網(wǎng)絡(luò)上的表現(xiàn)就是同一文獻(xiàn)來(lái)源復(fù)雜,有很多出處,E-LIS可能就淹沒(méi)在這些繁復(fù)的來(lái)源出處中了。E-LIS應(yīng)該加強(qiáng)它的互操作性,將它在圖書(shū)館信息學(xué)界的影響力對(duì)外發(fā)揮。
③撇開(kāi)E-LIS,另兩個(gè)采用OAI-PMH協(xié)議的倉(cāng)儲(chǔ)(Librarian's digital library、SILS Electronic Theses&Dissertations)的互操作性表現(xiàn)不錯(cuò),它們的樣本文獻(xiàn)被檢命中率分列5個(gè)倉(cāng)儲(chǔ)中的第1、2位,說(shuō)明采用OAI-PMH對(duì)于增強(qiáng)倉(cāng)儲(chǔ)的互操作性還是必要的。
④通用搜索引擎成為圖書(shū)館信息科學(xué)OA倉(cāng)儲(chǔ)內(nèi)容檢索的最主要工具,7個(gè)搜索引擎的平均檢中率為54.6%,高于兩個(gè)數(shù)據(jù)發(fā)現(xiàn)工具的平均檢中率41.3%。Google、Yahoo、Ask的表現(xiàn)優(yōu)秀,檢索命中率在72.5%~80%,這與其他一些學(xué)者的研究結(jié)果相似。Baidu對(duì)圖書(shū)館信息科學(xué)OA倉(cāng)儲(chǔ)內(nèi)容的檢索命中率最低,反映出它的重點(diǎn)始終是在中文信息搜索引擎上,對(duì)西文信息的搜索能力較弱。
⑤數(shù)據(jù)發(fā)現(xiàn)工具OAIster、Scirus對(duì)采用OAI-PMH的倉(cāng)儲(chǔ)內(nèi)容檢中率較高,尤其是Scirus對(duì)E-LIS的文獻(xiàn)檢中率達(dá)到了100%,表明這兩個(gè)工具擁有獨(dú)特的專(zhuān)業(yè)優(yōu)勢(shì),可以成為通用搜索引擎的有力補(bǔ)充。
⑥結(jié)合表2與表3分析,可發(fā)現(xiàn)搜索引擎、數(shù)據(jù)發(fā)現(xiàn)工具的“未檢出文獻(xiàn)率”與它的“檢索命中率”有逆相關(guān)的聯(lián)系,搜索工具的檢索命中率越高,其未檢出文獻(xiàn)率越低。Baidu、Gigablast的檢索命中率位于末兩位,而其未檢出文獻(xiàn)率高居第二位(并列),表明這兩個(gè)搜索引擎可能不是有效的檢索圖書(shū)館信息科學(xué)OA倉(cāng)儲(chǔ)信息的工具。
⑦圖書(shū)館信息科學(xué)OA倉(cāng)儲(chǔ)的“未被檢出文獻(xiàn)率”越高,說(shuō)明其收錄的獨(dú)特內(nèi)容可能越多,例如Inform conference proceedings倉(cāng)儲(chǔ),其“未被檢出文獻(xiàn)率”在5個(gè)OA倉(cāng)儲(chǔ)中高居首位(40.3%),而它收錄的內(nèi)容是專(zhuān)門(mén)的會(huì)議文獻(xiàn),具有獨(dú)特的學(xué)術(shù)價(jià)值。像這類(lèi)倉(cāng)儲(chǔ)更應(yīng)加強(qiáng)它的互操作性,增強(qiáng)與外界的交流,擴(kuò)大影響力。
由調(diào)查結(jié)果看,圖書(shū)館與信息科學(xué)OA倉(cāng)儲(chǔ)的互操作性不太令人滿意,它們的樣本文獻(xiàn)平均被檢命中率為51.7%,意味著倉(cāng)儲(chǔ)中將近一半的樣本文獻(xiàn)都不能被搜索工具所發(fā)現(xiàn)。搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具已成為用戶發(fā)現(xiàn)信息的最主要工具,圖書(shū)館與信息科學(xué)OA倉(cāng)儲(chǔ)的管理者應(yīng)該堅(jiān)持追隨各種搜索工具的索引編制政策,增強(qiáng)倉(cāng)儲(chǔ)的互操作性,從而努力使其學(xué)術(shù)影響力最大化。
[1]肖希明.信息資源建設(shè)[M].武漢:武漢大學(xué)出版社,2008:234-236.
[2]王行仁.21世紀(jì)萬(wàn)維網(wǎng)時(shí)代圖書(shū)館信息服務(wù)的策略[N].深圳商報(bào),2009-11-19.
[3]Johnson,RK.Institutional repositories:partnering with faculty to enhance scholarly communication[J/OL].D-Lib Magazine,2002(11).http://www.dlib.org/dlib/november02/johnson/11johnson.html.
[4]Markland,M.Institutional repositories in the UK:what can the Google user find there?[J/OL].Journal of Librarianship and Information Science,2006(4):221-228.http://lis.sagepub.com/content/38/4/221.abstract.
[5]Norris,M.,Oppenheim,C.,Rowland,F.Finding open access articles using Google,Google Scholar,OAIster and OpenDOAR[J].Online Information Review,2008(8):709-715.
[6]Baldwin,V.A.Using Google Scholar to search for online availability of a cited article in engineering disciplines[J/OL].Issues in Science and Technology Librarianship,2009(56).http:www.istl.org/09-winter/article1.html.