〔摘 要〕機構庫資源是開放存取資源的重要組成部分,是用戶網上獲取免費資源的重要途徑之一。本文從用戶利用的角度出發,從機構庫的注冊站點、機構庫網站、機構庫聯盟、搜索引擎等幾個方面探討了機構庫資源的獲取策略,以期為用戶利用機構庫資源提供指南。
〔關鍵詞〕機構庫;機構庫資源;獲取策略
DOI:10.3969/j.issn.1008-0821.2011.11.022
〔中圖分類號〕G253.1 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)11-0090-04
The Access Strategies of Institutional Repository ResourcesQin Hui
(School of Information Management,Wuhan University,Wuhan 430072,China)
〔Abstract〕Institutional repository resource is an important part of open access resources.Its one of the most important ways to get free information online.Viewed from users standpoint,this paper discusses the access strategies of the institutional repository resources from the aspects of IR registration sites,site of institutional repositories,institutional repository alliances and Search engines.Hope it will provide guidelines for users to make a good use of the institutional repository resources.
〔Key words〕institutional repository;institutional repository resources;access strategies
機構庫(Institutional Repository,IR)是開放存取資源的重要組成部分,近年來在高校圖書館的帶領下各國都掀起了機構庫建設的熱潮,機構庫的數量激增,為用戶提供了豐富的可免費獲取的資源。但由于機構庫發展時間較短,跟傳統的資源獲取途徑相比,用戶對機構庫的了解相對比較缺乏,許多機構庫資源并沒有得到充分的利用。針對這一現狀,本文將從用戶利用的角度總結機構庫資源的獲取策略,以期為讀者獲取免費機構庫資源提供線索和幫助。
1 注冊站點
IR注冊站點是關于機構庫的資源集成目錄,是將分散的機構庫通過統一的平臺集成起來的網站[1]。它由機構庫建設者提交其相關信息,通過對IR資源進行搜集、描述、組織與傳遞,從而方便用戶對IR資源的集成獲取。目前在全球范圍內影響比較大的開放存取站點有:開放存取倉儲指南(The Drectory of Open Access Repositories,OpenDOAR)、開放存取倉儲注冊(Register of Open Access Repositories,ROAR)、信息環境服務登記系統(The JISC Information Enviroment Service Registery,IESR)、注冊數據提供系統(Registered Data Providers、RDP)。筆者從資源數量、資源描述、檢索瀏覽方式、軟件支持各方面對以上4個IR注冊站點進行比較分析,為讀者選擇利用提供參考。
1.1 資源數量
截至2011年4月4日,OpenDOAR有1 915個注冊機構庫[2],ROAR已收錄2 242個機構庫[3],IESR有14 114條記錄,其中注冊機構庫有1 449個[4],Registered Data Providers收錄1 470個機構庫[5]。不難看出OpenDOAR和ROAR在資源注冊數量上有明顯優勢。
1.2 學科范圍
OpenDOAR對其注冊的機構庫按學科予以分類揭示,包括綜合性學科、科學技術、人文科學、社會科學等29個學科分類,其中綜合性機構庫最多,有1 222個,約占總數的64%。ROAR根據美國國會圖書館分類法的對機構庫進行學科分類,在高級檢索的學科限定中有21個學科大類193個子類。IESR的學科涉及藝術、人文科學、社會科學、衛生保健與醫學、科學及技術等各個方面,特別是在衛生保健與醫學、社會科學收錄比較全面,各學科可分類瀏覽。Registered Data Providers對其收錄的機構庫資源沒有進行學科方面的信息揭示。
除Registered Data Providers外,其他3個注冊站點資源的學科范圍基本相同,都包含了人文、社會、自然科學等各個學科。但在學科的細分、學科揭示和學科瀏覽上存在差別,ROAR學科劃分最為詳細,OpenDOAR和IESR在資源詳細信息中沒有學科的描述項,IESR提供學科瀏覽,分學科查找資源最為方便。
1.3 檢索功能
筆者對4個注冊站點的檢索功能進行調查分析,結果如表1:
從表1可以看出ROAR的檢索功能最為強大,提供簡單檢索、高級檢索和內容檢索(Search repository contents)3種檢索途徑,支持二次檢索,并且可按國家、軟件類型、機構庫類型對資源進行瀏覽,但也存在不支持短語檢索、模糊檢索,沒有提供學科瀏覽等不足。IESR雖然檢索途徑較為單一,只提供簡單檢索,但支持二次檢索、短語檢索、模糊檢索,還提供學科瀏覽。IESR的特色在于系統會自動推薦相關的檢索詞,可從可獲取性、資源類型上縮小檢索范圍,進行二次檢索。OpenDOAR有高級檢索和內容檢索,并可按地域國家瀏覽,提供Repository Statistics的特色檢索功能,為用戶提供各種IR資源的統計圖表的瀏覽。Registered Data Providers的檢索功能相對較差,只在主頁顯示一個注冊清單式的資源列表供用戶瀏覽。缺乏檢索字段的自定義選擇與設置是4個注冊站點檢索上共同存在的缺陷。
1.4 檢索結果處理
OpenDOAR可以自定義檢索結果輸出形式(包括summaries、Full records、Table、Title、Charts、Google Map幾種形式)及每頁顯示數量,可選擇按機構庫名稱、所屬國家、資源數量、所用軟件對檢索結果進行自定義排序。ROAR的檢索結果輸出除了默認的表格形式外,還可以選擇Dublin Core、EP3 XML、HTML Citation等格式,可以按注冊時間、資源數量、名稱、活躍程度排序,ROAR還可對結果進行數據圖表分析處理,可分別以機構庫類型、所屬國家、軟件類型作為統計項,選擇表格、餅圖、柱狀圖、折線圖等不同的圖表類型顯示統計結果。IESR可以從資源的開放獲取性和資源格式類型上進行二次檢索(refine search),提供檢索結果的相關度(百分比),此外每個檢索結果下還列出了相關資源鏈接。Registered Data Providers清單式資源列表可以按機構庫名和URL地址對注冊資源排序。
2 IR網站
機構庫門戶網站是機構庫對外宣傳的窗口,也是用戶檢索并獲取機構庫資源的網絡平臺。用戶登錄機構庫門戶網站,可以直接獲取機構庫資源。但目前機構庫網站數量龐大,如何根據不同的信息需求選擇合適的機構庫顯得尤為重要。從用戶信息需求分析來看,通常可分為兩 種情況:一是查找某學科或者主題范圍的信息;二是查找某個學術單位的資源成果。鑒于此 ,筆者從學科分布和機構類型兩個角度對機構庫進行了整合與分析,以期為用戶選擇利用提 供參考依據。
2.1 機構庫的學科分布
筆者以OpenDOAR中注冊的機構庫資源為樣本,統計各學科的機構庫的數量、所占百分比,并 列舉各學科代表性的機構庫(如圖1所示)。
從統計結果可以看出,多學科綜合性的機構庫占了絕大多數(63%),專門針對某學科的機構庫相對較少,機構庫在學科上多呈現跨學科、綜合性的特征。
2.2 機構性質
機構庫的創建機構主要包括高等院校、科研機構、國家文化信息部門等,由于這些機構的屬性和職能的不同,所創建的機構庫在收錄范圍、目標群體、資源類型等方面也存在較大的差 異,用戶可根據需求選擇合適的機構庫類型。
2.2.1 高等院校
高等院校因其在資源、人才上的獨特優勢,最早開始機構庫的探索研究。高校創建的機構庫也是目前最常見的機構庫類型,其中大多由圖書館負責創建,收錄該校教學圖1 機構庫學科分布注:統計時間2011年4月4日
科研人員及學生的論文、會議論文、預印本、學位論文、研究與技術報告、工作論文和演示稿全文等電子文獻。主要服務群體是高校的師生。高校機構庫中影響較大的有:麻省理工學 院圖書館Dspace at MIT,悉尼大學圖書館創建的eScholarship,加拿大多倫多大學圖書館T -Space,英國劍橋大學創建的Cambridge Dspace,澳大利亞國立大學的Demetrius,日本京 都大學學術情報機構庫(KURENAI),香港科技大學知識庫等、臺灣大學機構典藏庫。
2.2.2 科研機構
與高校機構庫不同,科研機構創建的機構庫具有以下特點:學科指向性更加明確,收集的資源多與該科研機構研究方向相關。資源的來源多樣,不僅收錄本機構成果,還接受相關出版單位、學術科研單位參與項目。資源數量更加豐富,尤其是出版機構的參與,為機構庫提供了持續穩定的資源。如美國國家衛生研究院(NIH)生物醫學和生命科學期刊文獻免費數字資料庫PubMed Central(PMC),目前已有1 216個期刊參與到PMC中,收錄這些合作期刊中發表的或者經過了同行評審的版本,有較高的質量保證[6]。
2.2.3 文化信息部門
國家文化信息部門支持創建的機構庫資金支持雄厚,收錄資源范圍廣泛,學科類型豐富,文獻類型多樣。如由西班牙文化部推動實施的Hispana,匯集了檔案館、圖書館、博物館的數字資源。該庫目前收錄了來自145個機構庫的3 112 914條資源記錄,這些數字資源的重點包括西班牙大學機構庫和各個自治區的數字圖書館提供的西班牙文化遺產資源[7]。
3 機構庫聯盟
所謂機構庫聯盟,就是指兩個以上大學、研究機構及相關組織通過合作的方式構建機構知識庫或共享機構知識庫資源,以集中存繳、元數據收割等方式統一提供知識傳播和知識服務,以實現不同機構間知識產出的共享和利用[8]。
按機構庫聯盟的范圍可以劃分為:洲級IR聯盟、國家級IR聯盟,地區級IR聯盟、校級IR聯盟,這些機構庫聯盟通常由一些著名大學、研究機構牽頭,以項目的形式吸收其他機構的加入,從而實現本洲、本國、本地區以及高校間的知識產出的統一檢索和利用平臺。國內外著名的IR聯盟如表2:
表2 機構庫聯盟
聯盟類型名 稱資源數量參 與 機 構
洲級IR聯盟DRIVER2 500 000歐盟33個國家249個機構庫國家級IR聯盟HAL165 600法國89所大學,62個科研組織,71個專業學院DAREnet724 364荷蘭所有大學和部分研究所JAIRO1 099 965日本174所大學和研究機構JISC Repository Net140 000英國69所大學和學院機構庫校際IR聯盟SHERPA-LEAP聯盟不詳英國倫敦大學13個學院,11個機構庫WRRO聯盟7 999英國利茲大學、謝菲爾德大學、約克大學HKIR6 682大學教育資助委員會8個成員單位地區級IR聯盟DRC169 902俄亥俄州17所大學、文科學院德州數字圖書館知識庫不詳德州數字圖書館協會成員的15所大學TAIR1 018 919臺灣地區113所機構注:統計時間2011年4月5日
4 搜索引擎
利用搜索引擎檢索機構庫的資源是獲取機構庫信息的一種可行的方法,包括Google等通用搜索引擎和針對OA資源的專門搜索引擎。
4.1 通用搜索引擎
由于收集、整理、組織OA文獻資源的機構倉儲系統支持、遵循互操作性OAI-PHM協議,在OAI 注冊認證后,數據便暴露出來,可以被第三方搜索引擎(Google、百度、雅虎等)抓取[9]。這為不了解上述IR資源庫的用戶提供了發現所需資源的良好途徑。利用通用搜索引擎搜索IR資源應注意以下技巧。
4.1.1 檢索詞的選擇
目前對于機構庫有各種不同的稱法,如要查找機構庫資源信息,為了保證盡可能全面無遺漏,可以嘗試使用“機構庫”、“機構知識庫”、“機構倉儲”、“機構典藏”、“Institutional Repository”、“IR”等多種檢索詞。
4.1.2 資源格式限定
搜索引擎不僅支持網頁檢索,還支持多種格式文件的檢索。目前搜索引擎可以搜索PDF、doc、ppt、xls、rtf、swf、ps等類型文檔資源,用戶查找的機構庫資源一般以PDF、doc等文檔形式存在,用戶可以在檢索欄輸入“關鍵詞filetype:PDF(或doc)”對其文件類型進行限定,提高IR資源的查準率。
4.1.3 檢索式的構造
由于不同的搜索引擎的功能和使用邏輯運算符不同,具體檢索時,檢索式中的運算符要根據選定的搜索引擎支持的運算與使用的符號作相應的變化[10]。例如Google默認空格為And操作符,還可以使用OR操作符、精確搜索(+)、補全字詞(*)、排除字詞(-)、詞組搜索(“”)、特定網站搜索(site:)等。例如檢索機構庫時可以“repository AND學校或機構名稱”、“* repository”、“repository site:.edu”、“repository -site:.com”等。
此外還可以利用通用搜索引擎開發的特殊的搜索功能,如Google的自定義搜索引擎,它與一些機構庫注冊站點合作,可以抓取注冊機構庫資源。Google學術搜索可用來查找期刊論文預印本與后印本、學位論文、學術報告等學術文獻的全文和電子資源提供商提供的題錄信息。
4.2 OA專業搜索引擎
許多IR資源分布在隱性網站(invisible web,hidden web)中,而Google等通用搜索引擎對于這部分資源的檢索效果不甚理想。這時可以選擇利用專業搜索引擎來獲取機構庫資源,如Scirus、Citeseer、OALIB等。
4.2.1 Scirus
Scirus收集資源涉及農業、生物學、數學、醫學、社會與行為科學、社會學等眾多學科,類型包括期刊雜志、專家主頁、課件、預印本、專利、IR資源以及各種網站信息,目前收錄4 100多萬條記錄[11]。用Scirus查找IR資源,可利用其高級檢索功能,在其資源來源中進行限定,檢索范圍可限定在1個或多個機構庫中。
4.2.2 Socolar
Socolar提供OA資源的檢索和全文鏈接服務功能,系統資源主要來源于OA期刊和OA倉儲,其中OA倉儲包括學科倉儲、機構倉儲及個人網站,目前系統收錄1 046個OA倉儲的10 219 235篇文章,占整個資源數量的44%[12]。
4.2.3 OALIB
OALIB的提供內容搜索功能,可搜索6 000多種期刊資料和5 000多個Open Access的數據庫資源,絕大部分資源可免費下載全文。此外還提供了OA機構存儲庫資源瀏覽列表,收錄介紹了70多個資源,并提供資源的鏈接地址[13]。
5 結 語
除上述途徑外,圖書館及信息門戶網站的免費網絡資源導航為查找機構庫資源提供了線索,如中國科技論文在線在“OA倉儲”中列出了20種國內外有名的OA 資源鏈接,浙江大學圖書館提供了70多個機構庫資源鏈接;機構庫的排名統計網站也提供了大量機構庫信息,如西班牙的賽博計量學實驗室(Cybermetrics Lab)推出全世界開放獲取機構知識庫排名,以Size、Visibility、Rich Files、Scholar作為指標對1 184個機構庫進行了排名。此外還可以通過開放存取領域的新聞、論壇、博客、討論組、RSS訂閱等途徑,跟蹤了解有關機構庫的最新資源信息。
參考文獻
[1]周志峰.基于資源目錄網站的機構庫分布研究[J].圖書與情報,2009,(6):97-103.
[2]OpenDOAR[EB].http:∥www.opendoar.org,2011-04-03.
[3]Register of Open Access Repositories[EB].http:∥roar.eprints.org,2010-04-03.
[4]IESR[EB].http:∥iesr.ac.uk,2011-04-03.
[5]Registered Data Providers[EB].http:∥www.openarchives.org/Register/BrowseSites,2011-04-03.
[6]PubMed Central[EB].http:∥www.ncbi.nlm.nih.gov/pmc/,2011-04-05.
[7]Hispana[EB].http:∥hispana.mcu.es/es/estaticos/contenido.cmd?pagina=estaticos/presentacion,2011-04-05.
[8]曾蘇,馬建霞,祝忠明.機構知識庫聯盟發展現狀及關鍵問題分析[J].圖書情報工作,2009,(24):106-110.
[9]王通,李偉華,顧英.開放存取學術信息資源的分布與獲取[J].科技創新導報,2010,(3):225-226.
[10]黃如花.論開放存取資源的收集策略[J].圖書情報工作,2008,(12):6-8,46.
[11]Scirus[EB].http:∥www.scirus.com,2011-04-05.
[12]Socolar[EB].http:∥www.socolar.com,2011-04-05.
[13]OALIB[EB].http:∥www.oalib.com,2011-04-05.