董文鴛 袁順波
(1.嘉興學院圖書館 浙江嘉興 314001; 2.嘉興學院商學院 浙江嘉興 314001)
自存儲是20世紀90年代興起的一種開放存取(Open Access, OA)策略之一,旨在推動科研成果的快速傳播與免費共享。一般而言,自存儲的途徑包括個人主頁、機構知識庫和學科知識庫。
所謂學科知識庫,是指用以收集、保存并免費開放關于某一個或多個學科文獻資源的知識庫。與誕生于21世紀的機構知識庫相比,20世紀90年代初期以arXiv.org為代表的學科知識庫的問世更早,經過20多年的發展,全球學科知識庫的發展現狀值得探究,現有研究大多針對包括多種類型的OA知識庫或者機構知識庫的發展現狀進行分析[1-2],并不能完全準確地反映出學科知識庫的發展現狀。為此,文章試圖通過對學科知識庫的發展進程、國家/地區分布、系統軟件、管理政策及資源內容等方面的分析,對全球學科知識庫發展現狀進行掃描。
OpenDOAR(Direct of Open Access Repositories,OA知識庫名錄,http://www.opendoar.org)是在開放社會研究所(Open Society Institute, OSI)、歐洲學術出版和學術資源聯盟(Scholarly Publishing and Academic Resources Coalition Europe, SPARCEurope)、英國聯合信息系統委員會(UK Joint Information Systems Committee, JISC)及英國大學學術圖書館聯盟(Consortium of University Research Libraries, CURL)等機構的資助下,由英國諾丁漢大學(The University of Nottingham)和瑞典蘭德大學(Lund University)于2005年所創建的一個全球OA知識庫目錄網站。[3]該網站致力于收錄全球范圍內各種類型的OA知識庫,并對其進行有效組織與揭示,以方便科研人員對OA資源的檢索與利用,推動OA運動的發展。因此,通過OpenDOAR可以了解到全球學科知識庫的發展現狀。
截至2014年10月1日,OpenDOAR共收錄296個學科知識庫(如圖1所示):

圖1 學科知識庫數量及增長情況
從圖1可以看出,學科知識庫近年來保持著平穩增長的態勢,從2006年至今已新增約200個學科知識庫,說明近年來學科知識庫已經得到了學術機構的認可,預計在未來一段時間內學科知識庫的增長還將得以繼續。需要注意的是,與機構知識庫相比,學科知識庫的發展速度明顯落后,目前OpenDOAR收錄的機構知識庫已經超過了2200個,且基本保持著300個/年的增長速度。分析其原因,主要是因為二者的建設主體存在差別,機構知識庫建設主要依靠高校、科研機構,每所高校或科研機構均可以建設一個或多個機構知識庫,因此在數量上具有優勢屬于情理之中。
在質量方面,學科知識庫的發展取得了較好的成績,產生了一大批具有影響力的學科知識庫(如arXiv.org、Research Papers in Economics、PubMed Central等),尤其是arXiv.org已經成為了最具影響力的跨學科自存儲平臺,得到了物理學、數學、計算機科學等領域科研人員的廣泛認可[4];E-LIS則是圖書情報領域最為知名的學科知識庫,目前已發展成為圖書情報領域的作者、出版商和協會獲取信息資源的重要來源[5]。
經過20多年的發展,自存儲理念已經在全球范圍內得到了較為廣泛的認可,因此各大洲均已建成多個學科知識庫,排名前三位的分別是歐洲(146, 49.3%)、北美洲(96, 32.4%)和南美洲(19, 6.4%)。具體而言,296個學科知識庫分布在51個國家,其中美國、英國和法國排名前三(見表1):

表1 學科知識庫的國家/地區分布
從表1可以看出,排名靠前的國家/地區大多來自于歐洲和美洲,巴西、阿根廷等拉美國家的表現也相對較好,相比之下,亞洲國家/地區落后較為明顯。排在首位的美國目前已經建成了84個學科知識庫,占總數的28.38%。美國一直是引領全球OA運動的前沿陣地,在OA理念的普及程度、OA期刊的創辦與管理、學科知識庫和機構知識庫的建設等方面都處于全球領先的地位,arXiv.org目前由美國康奈爾大學(Cornell University)提供服務并在全球設置鏡像點,Research Papers in Economics、PubMed Central等知名學科知識庫也都由美國的相關學術機構提供服務,因此美國排名第一實屬情理之中。英國也是最早開始學科知識庫建設的國家之一,“自存儲”這一概念最早是由英國南安普頓大學(Univetsity of Southampton)Harnad教授所提出,知名的開源軟件Eprints也由該校開發。Eprints具備良好的靈活性和可擴展性,大大降低了創建學科知識庫的技術難度,因此成為了目前應用最為廣泛的系統軟件之一,有效地推動了英國學科知識庫的實踐發展。同時,英國的自存儲政策也是推動其學科知識庫快速發展的重要原因,英國目前是貫徹執行強制性存儲政策力度最大的國家之一,英國研究委員會(Research Councils UK, RCUK)早在2005年就已制定強制性存儲政策,要求所有接受RCUK資助的科研人員,必須將研究成果的最終版(期刊論文、會議論文)存儲至各分會制定的平臺當中進行免費開放。
印度有7個學科知識庫被OpenDOAR所收錄,排名第9,是亞洲地區被收錄最多的國家,這應該與印度教育國際化程度較高、OA理念較為普及有關。相比之下,亞洲的其他國家/地區表現不夠理想,韓國(2個)、日本(1個)和臺灣(1個)被收錄的數量很少,而我國大陸更是沒有被OpenDOAR所收錄的學科知識庫。近年來OA及其相關主題已經成為我國學術界的一個研究熱點,產出了大量的研究成果,也先后建成了中國科技論文在線、奇跡文庫、中國預印本服務系統等學科知識庫,但總體而言,實踐建設落后于理論研究。現有的學科知識庫中僅有中國科技論文在線發展勢頭較好,中國預印本服務系統中的資源數量少且增長速度較慢,奇跡文庫更是因為維護問題而關閉。因此國內相關學術機構需要行動起來,切實推動學科知識庫的實踐發展。可喜的是,目前已有一定數量的機構開始制定相關政策,如國家自然科學基金委員會最新規定,要求國家自然科學基金全部或部分資助的科研項目和研究論文應在公開發表時,將同行評議后錄用的最終審定稿存儲到國家自然科學基金委員會的知識庫,不晚于發表后12個月實現OA。[6]
大量開源軟件的涌現為學科知識庫的發展奠定了良好的技術基礎。統計表明,除去92個學科知識庫的系統軟件無法確定外,204個學科知識庫共使用了45種系統軟件,其中Eprints和DSpace排名前2位,具體如表2所示。
Erpints是由南安普頓大學針對預印本管理而開發的開源軟件,也是最早支持OAI協議的專業系統平臺之一,利用該平臺能快速、簡便地構建學科知識庫并能根據實際需求進行有效改進,[7]因此該軟件成為目前在學科知識庫建設中使用最多的開源軟件;DSpace是由美國麻省理工大學(Massachusetts Institute of Technology, MIT)和惠普公司合作開發的面向機構知識庫的系統軟件,也是目前知名度最高的自存儲平臺。DSpace是遵循BSD協議的開放源代碼數字存儲系統,該系統可以存儲文本以及多媒體等多種類型文件,同時支持OAI-PMH2.0協議,為數據的存儲于共享提供了優質的數據標準與平臺。[8]同時,學科知識庫與機構知識庫在系統功能方面具有較大的共通性,因此DSpace在學科知識庫的構建中也得到了廣泛應用。

表2 學科知識庫系統軟件使用情況
表2的統計結果還表明,目前可供選擇的學科知識庫系統軟件較多,且絕大多數為免費的開源軟件,這在為學科知識庫構建帶來便利的同時也帶來了如何進行選擇的問題。目前我國機構知識庫大多是在DSpace基礎上進行本地化處理后所構建的,而Eprints則是針對學科知識庫所開發的主流系統軟件,因此今后國內在構建學科知識庫時可以考慮采用DSpace或Eprints作為系統平臺。
管理政策是影響學科知識庫持續發展的關鍵因素,只有制定了完善的內容管理、質量控制以及激勵等政策,學科知識庫才能得到科研人員的支持,其資源建設才能得以順利開展。OpenDOAR通過訪問各學科知識庫網站的“OAI-PMH Identify Response”、“Policies”或“About”等網頁查找有關管理政策的內容,并根據所制定的評價標準給予相應的等級。目前OpenDOAR列出了學科知識庫的資源提交政策、資源內容政策、長期保存政策、元數據再利用政策以及全文再利用政策等5方面的政策等級,對于所有的政策,分別給予“未知”、“未陳述”、“未定義”、“未明確”和“已定義”5個等級;對于元數據再利用政策和全文再利用政策,則還有“禁止再利用”、“不允許自動獲取”、“不穩定”、“允許非商業用途”和“允許商業用途”5個等級,具體如表3所示:

表3 學科知識庫管理政策等級列表
OpenDOAR提供了258個學科知識庫管理政策等級,其中:
(1)資源提交政策,有20個學科知識庫的資源提交政策處于“未知”狀態,占總數的7.7%,處于“未陳述”、“未定義”和“已定義”等級的數量分別為11(4.3%)、185(71.7%)和42(16.3%)。
(2)資源內容政策,處于“未定義”等級的數量最多(183,70.9%),其次是“已定義”(53,20.5%),處于“未知”和“未陳述”的數量分別為13(5%)和9(3.5%)。
(3)長期保存政策,154個學科知識庫處于“未定義”等級,占總數的59.7%,處于“未陳述”、“已定義”和“未知”等級的學科知識庫數量分別為69(26.7%)、18(7%)和17(6.6%)。
(4)元數據再利用政策,處于“未定義”等級的學科知識庫有198個(76.7%),處于“允許非商業用途”、“未知”、“未陳述”和“允許商業用途”的數量則分別為28(10.9%)、14(5.4%)、12(4.7%)和6(2.3%)。
(5)全文再利用政策,179個學科知識庫處于“未定義”等級,占總數的69.4%,處于“允許非商業用途”的有37個,占總數的14.3%。此外,處于“未知”、“未陳述”、“不穩定”、“不允許自動獲取”和“禁止再利用”等級的數量分別為13(5%)、11(4.3%)、11(4.3%)、5(1.9%)和 2(0.8%)。
從上述數據可以看出,目前大多數學科知識庫的管理政策處于“未定義”和“已定義”等級,說明目前學科知識庫的管理政策建設已經取得了一定的成績,這為學科知識庫持續穩定的發展提供了良好的制度保障。但我們也應該看到,現有管理政策還不夠完善,一方面,大多數學科知識庫僅公開了管理政策的主體內容,而沒有全面、詳細地公開具體的管理政策,同時還有一定數量的學科知識庫沒有提供任何管理政策信息或公開管理政策的相關內容;另一方面,各項政策之間也存在著不平衡,作為自存儲資源建設的兩項基本政策,資源提交政策和資源內容政策相對較為成熟,絕大多數學科知識庫均已公開了這兩項政策的主要內容或具體內容,而其余政策的發展則較為落后。因此,學科知識庫的管理政策建設依然任重道遠,在未來的發展過程中,需要對管理政策的相關內容開展更加深入的理論探討和實踐摸索。
學術資源內容是關系到學科知識庫發展的直接決定因素,學科知識庫要避免“有站無車、有車無人”的困境,必須擁有大量類型豐富、組織有序的高質量學術資源。文章將從資源數量、資源類型和學科領域等3個方面對全球知識庫的資源內容進行掃描。
(1)資源數量。統計結果表明,除去37個學科知識庫缺乏數據外,259個學科知識庫共有接近1.1億條資源,平均擁有資源數量41萬余條,有3個學科知識庫的資源數量已超過了1000萬,7個學科知識庫的資源數量在100萬-1000萬之間。與機構知識庫相比,學科知識庫在資源數量方面優勢較為明顯,目前2176個機構知識庫共有7600余萬條資源,平均擁有資源數量為3.5萬余條。分析其原因,主要與學科知識庫發展歷史較長以及對存儲資源的科研人員身份不設限制等因素有關。
在259個學科知識庫中,來自新西蘭的Papers Past資源數量最多,現已擁有超過了4000萬條資源,Europe PubMed Central和Research Papers in Economics緊隨其后,擁有超過100萬條資源的10個學科知識庫,如表4所示:

表4 資源數量排名前十的學科知識庫

8 Predicted Crystallography Open Database 立陶宛 1,062,771 9 Social Science Research Network 美國 1,043,147 10 OpenGrey Repository 法國 1,015,048
從表4可以看出,10個資源數量最多的學科知識庫分別有3個來自于英國和美國,表明這兩個國家不僅是擁有學科知識庫數量最多的國家,同時也是在資源建設方面表現突出的國家。其余的4個學科知識庫分別來自新西蘭、瑞士、立陶宛和法國,也再一次說明學科知識庫在歐美地區,尤其是歐洲地區發展較為普及。
(2)資源類型。與商業數據庫相比,學科知識庫的一大優勢就是能收錄多種類型的學術資源。統計結果表明,目前學科知識庫收錄了期刊論文、專著及專著的部分章節、多媒體資源、未發表的報告及工作論文等,具體如表5所示:

表5 學科知識庫資源類型分布
從表5可以看出,學科知識庫中不僅包括常見期刊論文、專著等常見的學術資源,也包括了商業數據庫中未收錄的灰色資源,如未發表的報告、工作論文以及數據集等,而這些信息資源對于科研人員了解學科內最新研究進展、激發科研靈感以及拓展科研思路都具有較為重要的價值。因此可以說,學科知識庫是對現有商業數據庫的有益補充,也是完善的學術交流體系所不能缺少的重要組成部分,科研人員有必要重視學科知識庫的價值,有效利用當中的信息資源,尤其是傳統學術交流體系中難以獲取的資源。
(3)學科領域。資源內容所屬的學科領域能在一定程度上反映出學科知識庫發展的廣度,統計結果表明,現有的學科知識庫資源共涉及到29個學科領域,囊括了自然科學、社會科學和人文科學等所有主流學科領域,說明自存儲理念在不同的學科領域內得到了有效的普及,各學科的科研人員都可以找到合適的學科知識庫公開自己的研究成果,同時免費了解同行的研究進展。在所有的學科知識庫中,有70個學科知識庫包括歷史與考古學(History and Archaeology)領域的學術資源,排名第一,包含地理學(Geography and Regional Studies)、健康與醫學(Health and Medicine)的學科知識庫數量分列第二、第三。此外,擁有多學科綜合(Multidisciplinary)、法律與政治(Law and Politics)、生物學和生物化學(Biology and Biochemistry)等資源的學科知識庫也較多。
綜上所述,學科知識庫保持著平穩增長的態勢,以Eprints和DSpace為代表的一大批開源軟件為學科知識庫的發展奠定了良好的技術基礎,資源建設也取得了不錯的成績,資源數量較多、資源類型豐富且涉及學科較多。但也還存在著地區發展不平衡、管理政策有待進一步完善等不足。展望未來,需要進一步完善相關管理政策、加強資源質量控制并爭取科研人員更多的支持與參與,以保障學科知識庫的長期穩定發展。
(來稿時間:2014年11月)
1.周志峰. 基于資源目錄網站的機構庫分布研究. 圖書與情報, 2009(6): 97-103
2.田質兵. 全球開放存取知識庫發展現狀分析與啟示.圖書館建設, 2010(12): 43-47
3.OpenDOAR. [2014-10-01]. http://www.opendoar.org
4.arXiv.org . [2014-10-01]. http://arxiv.org/
5.E-LIS . [2014-10-01]. http://eprints.rclis.org/
6.國家自然科學基金委員會. 國家自然科學基金委員會關于受資助項目科研論文實行開放獲取的政策聲明. [2014-10-01].http://www.nsfc.gov.cn/publish/portal0/tab38/info44471.htm
7.Eprints. [2014-10-01]. http://www.eprints.org/software/
8.王媛. 基于DSpace系統的數字圖書館體系結構研究.圖書館工作與研究, 2011(5): 51-53