王 婧 田愛蘋 李文蘭
(1. 天津大學圖書館 天津 300350;2. 天津大學情報研究所 天津 300350)
機構知識庫是一種基于開放理念的信息獲取方式,用于管理和傳播機構各個部門及其成員創(chuàng)作的數(shù)字化產(chǎn)品,允許其被搜索引擎發(fā)現(xiàn)、揭示,便于全球學者、機構之間實現(xiàn)學術交流與分享。
機構知識庫建設最早興起于美國。1991年8月,在美國國家科學基金會和美國能源部的資助下,美國洛斯阿拉莫斯(Los Alamos)國家實驗室的物理學家Dr. Ginsparg發(fā)起創(chuàng)建電子預印本文獻庫arXiv.or,以開放獲取的方式供全球學者訪問利用,旨在促進科學研究成果的交流與共享,機構知識庫(Institutional Repository, IR)在美國初現(xiàn)雛形。21世紀初,隨著建設實踐的不斷深入,美國正式提出IR的概念[1]。2001年,美國俄亥俄州立大學圖書館和首席信息官辦公室聯(lián)合推出了知識庫服務(Knowledge Bank Service),員工、教師和學生可以將自己的作品上傳并長期保存在知識庫中,機構知識庫的建設輪廓逐漸清晰?;萜展緦嶒炇遗c麻省理工學院合作,從事IR的基礎理論研究及操作平臺的開發(fā),于2002年11月,成功開發(fā)出DSpace系統(tǒng)(數(shù)字空間)并投入使用,這是全球最早的機構知識庫軟件平臺。隨著開放獲取運動的興起,機構知識庫在世界范圍內迅速發(fā)展,在OpenDOAR中注冊機構逐年遞增。截至2018年10月,OpenDOAR中共有3 779個注冊機構[2],其中美國537個,英國277個,日本222個。在排名前三的國家中,英國和日本機構知識庫的總和仍小于美國??梢姡绹蕴幱谶b遙領先的地位。我國的注冊機構知識庫有102個,除臺灣地區(qū)的61個注冊機構知識庫外,其它地區(qū)僅有41個,與2014年的38個[3]相比增幅不大,這表明我國機構知識庫建設不僅遠遠落后于美國、英國和日本等發(fā)展較快的國家,近幾年整體發(fā)展也非常緩慢。
我國機構知識庫的概念引自國外,起步較晚,建設情況與國外相比還有一定的差距,為了全面分析國外機構知識庫的相關研究概況,推進我國機構庫建設,文章收集了Web of Science平臺下SCIE、SSCI、CPCI數(shù)據(jù)庫中關于機構知識庫研究的論文數(shù)據(jù)。截至2018年10月15日,Web of Science平臺的SCIE、SSCI、CPCI-S數(shù)據(jù)庫中,在主題字段檢索institution* near/3 repositor*,得到692篇文獻,在此基礎上考慮開放獲取、開放數(shù)據(jù)、機構知識庫、圖書館、DSAPCE等多種相關概念,通過人工篩選,最終獲得540篇相關文獻,其中我國機構和作者共發(fā)表23篇機構知識庫論文。文章以國外作者和機構發(fā)表的517篇機構知識庫論文為數(shù)據(jù)基礎進行研究。
不同類型的文獻所記載的信息內容各有側重,在學術交流過程中起著不同作用。表1為國外作者和機構發(fā)表機構知識庫論文的文獻類型及被引頻次分布情況,可以發(fā)現(xiàn)期刊類型的論文無論是發(fā)文量還是被引量都遠高于其余類型的文獻,對機構知識庫領域的影響不容小覷。

表1 文獻類型及被引頻次分布情況
從已標注所屬機構的論文數(shù)據(jù)來看,國外高校院系是機構知識庫建設實踐的主力,也是機構知識庫研究的主力,發(fā)表的論文無論是數(shù)量還是篇均被引量均高于其他類型的機構,其研究具備系統(tǒng)性并有一定的深度,為我國機構知識庫建設實踐提供了不可替代的理論指導,機構分布情況如表2所示。

表2 機構發(fā)文量分布情況(第一機構)
美國作為最早提出機構知識庫建設的國家,也是機構知識庫領域內影響力最高的國家,發(fā)表的論文無論是數(shù)量還是總被引量都遠高于其他國家,是機構知識庫領域研究的領軍者。國外發(fā)表的SCI論文的國家分布情況如圖1和圖2所示,國外發(fā)文量和被引量最高的國家依次為美國、英國、西班牙。

圖1 國外機構知識庫領域發(fā)文量分布情況

圖2 國外機構知識庫領域總被引量分布情況

表3 發(fā)文量排名前十機構
國外高校院系是機構知識庫相關研究探討的主導力量,為機構知識庫建設實踐提供了不可替代的理論指導。機構知識庫發(fā)文量的機構排名情況如表3所示,發(fā)文量排名第一的機構為馬來西亞的馬來亞大學,其次為美國的羅格斯大學和印第安納大學。
發(fā)文量的時間變化是衡量某個研究領域發(fā)展情況的重要指標之一,在一定程度上可以反映該領域研究的開展程度和研究進度,了解該領域的研究變化趨勢。機構知識庫相關論文的逐年發(fā)文量和五年移動平均發(fā)文量趨勢如圖3所示。

圖3 逐年發(fā)文量情況
據(jù)此可以看出,機構知識庫的研究整體處于技術的發(fā)展階段。將國外機構知識庫的發(fā)展劃分為三個階段:
機構知識庫建設自美國興起后,經(jīng)歷了一段時期的實踐探索,隨著人們對機構知識庫的認識不斷加深,才逐漸形成明確的概念,相關的研究探討也才逐漸興起。萌芽階段的研究內容主要集中在機構知識庫的基礎概念、建設思路、平臺功能及實踐案例介紹等,這些研究成果為在全球推廣機構知識庫建設做出了重要貢獻,也為后續(xù)研究的蓬勃發(fā)展奠定了基礎。2002年,加利福尼亞數(shù)字圖書館的R Tennant[4]即對機構知識庫建設時采用的平臺、實施方式等進行了介紹,提出了以聯(lián)盟的方式發(fā)展機構知識庫的建設思路,指出聯(lián)盟方式發(fā)展機構知識庫可以降低圖書館的建設成本并減少重復工作帶來的資源浪費。2003年,CA Lynch[5]提出了機構知識庫的概念及建設思路,指出機構知識庫可以為高等教育機構提供變革的力量,更好地支持學術活動。惠普公司實驗室與麻省理工學院合作,從事IR的基礎理論研究及操作平臺的開發(fā),于2002年11月,成功開發(fā)出DSpace(數(shù)字空間)并投入使用,收集來自MIT教職員工和研究人員的各種形式的學術成果,并通過開源的方式,提供一系列遵循開放檔案信息系統(tǒng)參考模式的上載、管理、傳播數(shù)字信息的工具,對網(wǎng)絡用戶免費開放,為機構知識庫建設提供了解決方案[6-7]。
機構知識庫對促進學術交流以及學術成果的共享和傳播等都有著積極意義。在歐美等國的引領下,大學與科研院所紛紛創(chuàng)造條件建設機構知識庫,各國機構知識庫的相關研究得到蓬勃發(fā)展,相關論文發(fā)表量開始快速增長,該研究主題已然成為業(yè)內的研究熱點。SJ Bevan[8]以克蘭菲爾德大學為例,對電子論文提交過程中存在的問題進行了分析研究,受到了包括斯洛文尼亞大學聯(lián)盟[8]、拉夫堡大學[9]在內的科研機構的廣泛關注。2006年,英國聯(lián)合信息系統(tǒng)委員會(JISC)對機構知識庫的數(shù)字存儲發(fā)表觀點,探索了為機構存儲庫提供數(shù)字保存服務的模式[10],英國相關政府部門和高校對機構知識庫建設的重視使得英國機構知識庫數(shù)量開始急劇增長。除了歐美等國家,其他地區(qū)也紛紛開始建設機構知識庫。2005年,PJ Lor[11]通過研究發(fā)現(xiàn),機構知識庫建設及開放存取運動對非洲南北、北南、南南方向信息流動有顯著促進作用,印度科學研究所也積極開展機構知識庫的建設工作[12]。S Pinfield[13]指出,最初的機構知識庫開發(fā)主要集中在北美、西歐和大洋洲,特別是美國、英國、德國和澳大利亞。不久之后,日本加大了機構知識庫建設。自2010年以來,其他區(qū)域和國家的庫存量都有所增長,包括東亞(尤其是臺灣)、南美洲(尤其是巴西)和東歐(尤其是波蘭)。在此期間,法國、意大利和西班牙等國保持了平穩(wěn)增長,而中國和俄羅斯等國的增長水平相對較低。在全球范圍內,知識庫主要是基于機構、多學科和英語語言的。它們通常使用開源的符合OAI的機構知識庫軟件,但在明確的許可協(xié)議方面仍不成熟,雖然機構知識庫的大小很難準確評估,但據(jù)可用數(shù)據(jù)表明,目前大型機構知識庫較少,絕大部分為小型的機構知識庫。BC Bjork以ISI和Ulrich’s中的數(shù)據(jù)為樣本,計算出2006年發(fā)表的文章總數(shù)約為1 350 000篇,其中4.6%立即可以公開獲得,在為期一年的禁用期之后又增加了3.5%,得益于機構知識庫,11.3%的論文可用副本可在特定主題或機構存儲庫或作者的主頁上找到[14]。
這一時期機構知識庫聯(lián)盟也逐漸興起,最有代表性的國外機構知識庫聯(lián)盟工程是由使用DSpace系統(tǒng)創(chuàng)建機構知識庫的研究機構和大學圖書館組成的共同體,該聯(lián)盟以技術系統(tǒng)為紐帶,成員遍布世界各地,是工程師在Andrew W.Mellon基金會許可下與美國麻省理工學院和英國劍橋大學共同投資的實驗項目,該項目降低了建庫成本,為推動機構知識庫建設提供了有力的技術保障。加拿大各個大學也積極參加研究圖書館協(xié)會的機構知識庫項目[15-16],成立了CARL機構知識庫實驗項目[17](CARL survey of institutional repositories),為成員提供了建庫指導和學術成果資源[17]。機構知識庫聯(lián)盟既可避免單個學術機構構建機構知識庫時所面臨的資金缺乏、內容征集困難、技術條件不成熟等問題,又可以避免各機構資源重復建設,實現(xiàn)各機構資源分布式整合、統(tǒng)一管理,促成各機構資源開放存取的最優(yōu)化。
機構知識庫研究論文量保持高位,從5年移動平均發(fā)文量趨勢看(見圖3),機構知識庫的整體發(fā)文量仍處于增長階段,但開始出現(xiàn)了波動態(tài)勢,2009年機構知識庫的論文產(chǎn)出略有降低,2010年恢復發(fā)文量高位后,2011—2013年產(chǎn)出開始減少,隨后于2014年達到峰值,隨后又有所降低,這一表現(xiàn)主要與建設實踐中遇到的問題有一定關聯(lián)。目前機構知識庫的建設大多停留在靜態(tài)數(shù)字資源的典藏階段,服務模式單一,用戶與知識原創(chuàng)者缺乏溝通渠道,評價體系不健全,以上現(xiàn)狀帶來了諸多問題,如導致機構知識庫帶來的引文優(yōu)勢并沒有吸引科學家的參與,而大多數(shù)機構知識庫的資源和人員缺乏則帶來了更嚴重的惡性循環(huán)。機構知識庫需要與校園內的數(shù)據(jù)提供者和管理者建立良好的聯(lián)系,才能系統(tǒng)、廣泛地支持數(shù)據(jù)管理工作[18]。目前機構知識庫中作者的自存檔率較低,大部分文獻是由圖書館員或管理人員保管的,導致可用性降低,自歸檔策略是較好的解決思路[19],機構知識庫需要適應廣泛的跨學科數(shù)據(jù)特征,才能解決目前機構知識庫共享障礙的問題[20]。在開放訪問運動中,大學和高校圖書館公開挑戰(zhàn)傳統(tǒng)學術交流體系,緩解傳統(tǒng)學術交流體系和開放獲取之間的沖突是長期以來的問題之一,然而目前并沒有顯示出任何減弱的跡象,機構知識庫的低存儲率一直在持續(xù)。R Cullen[21]指出機構知識庫可以通過存儲如學位論文等更廣泛的數(shù)據(jù)來擴展自身功能,扮演更有價值的角色。2008年,Martinez-Uribe, L[22]指出科研數(shù)據(jù)的重要性,認為科研數(shù)據(jù)管理是機構知識庫未來的發(fā)展方向。通過轉換機構知識庫中的元數(shù)據(jù)模式,增加谷歌學術的索引量,也是解決機構知識庫存儲率低的途徑之一。S Corrall[23]指出,學術型圖書館未來發(fā)展方向之一即為數(shù)據(jù)管理,數(shù)據(jù)存儲是機構知識庫未來的轉型方向。為促進數(shù)據(jù)共享,Y Kim[24]研究了科學、技術、工程和數(shù)學研究人員的數(shù)據(jù)共享行為,指出科研人員自身的態(tài)度、政策約束和機構知識庫的用戶友好度等都對數(shù)據(jù)存儲庫有重大影響,良好的數(shù)據(jù)服務及數(shù)據(jù)存儲工具均可以促進數(shù)據(jù)共享行為。á Borrego[25]通過對西班牙開放獲取執(zhí)行情況的研究,指出西班牙90%的基金資助論文出版商允許向機構知識庫繳存,但機構知識庫對這些論文的覆蓋率很低,僅有14.4%,并且這些繳存的論文大多是圖書館員實施繳存的OA期刊的文章副本。2017年,á Borrego[26]通過對比西班牙13所高校機構知識庫與社交學術網(wǎng)站ResearchGate的學術成果的可用性,發(fā)現(xiàn)這13所高校的研究人員在2014年發(fā)表的論文中,只有11.1%可以在他們所在的機構知識庫中找到,出現(xiàn)這種現(xiàn)象的原因是研究人員對機構知識庫的認知或者操作不熟練,或者是更加認可ResearchGate的傳播優(yōu)勢。這一系列問題一定程度上制約了機構知識庫的發(fā)展,但人們仍然高度關注機構知識庫建設,集中針對機構知識庫建設實踐中的問題展開更深層次的研究。研究的關注點開始轉向用戶需求分析、建設模式調整、服務內容拓展,以及機構知識庫系統(tǒng)功能的深入開發(fā),并將研究內容主要集中在機構知識庫建設的內容模塊、質量評價、服務模式、系統(tǒng)功能和聯(lián)盟機制等更深層次的問題。同時,對機構知識庫的訪問政策、服務模式、版權管理、聯(lián)盟機制和可持續(xù)發(fā)展等的討論也在持續(xù)深入。
論文被引頻次的高低,在一定程度上能夠揭示該論文的學術影響力和情報價值。被引頻次越高說明該文獻的研究成果得到了越多研究者的認同,被研究者參考與借鑒,成為他人的研究基礎,同時也表明與該研究主題相關的研究活動比較集中,該研究主題是同領域的研究熱點。
通過機構知識庫研究的高被引論文,可以分析不同發(fā)展階段關于機構知識庫的研究熱點。根據(jù)ESI高被引論文的定義,并結合文章數(shù)據(jù)樣本量,對于國外的517篇論文數(shù)據(jù),文章取同一出版年發(fā)表的,按被引頻次倒序排列的前1%的論文作為高被引論文,不足1%補足整數(shù)位,如表4所示,2002—2017年機構知識庫領域排名前1%的高被引論文共計16篇,總被引頻次556次,全部為期刊論文,文獻來源較為集中,均為信息科學與圖書館科學類期刊。
通過分析熱點論文,結合相關資料可以清楚地梳理出機構知識庫發(fā)展的脈絡和研究熱點變化:
2004年以前,機構知識庫領域研究還處于萌芽期,2002年,加利福尼亞數(shù)字圖書館的R Tennant即對機構
知識庫建設時采用的平臺、實施方式等進行了介紹,TA Peters[26]指出,機構數(shù)字存儲庫將顯著提高構建機構的聲望,在建立時可從個人、學科、機構、聯(lián)盟及國家等多角度建立,在此基礎上,2003年CJ Stoffle指出,機構知識庫是圖書館未來的發(fā)展方向之一[27]。2003年,CA Lynch提出了機構知識庫的概念及建設思路,指出機構知識庫可以為高等教育機構提供變革的力量,并支持學術活動?;萜展緦嶒炇遗c麻省理工學院合作,從事IR的基礎理論研究及操作平臺的開發(fā),于2002年11月,成功開發(fā)出DSpace(數(shù)字空間)并投入使用,收集來自MIT教職員工和研究人員的學術成果,并通過開源的方式,提供一系列遵循開放檔案信息系統(tǒng)參考模式的上載、管理、傳播數(shù)字信息的工具,對網(wǎng)絡用戶免費開放,為機構知識庫建設提供解決方案。研究熱點主要集中在機構知識庫的概念、特點和系統(tǒng)建設方面,也是機構知識庫領域的研究起點,這一時期的文獻雖少,但這些高被引論文為機構知識庫的研究奠定了基礎。

表4 國外歷年高被引論文
2005—2006年,對于機構知識庫領域的研究開始進入快速發(fā)展的黃金時期,在歐美等國的引領下,圖書館業(yè)界對建設機構知識庫逐漸達成了共識,紛紛創(chuàng)造條件建設機構知識庫,各國機構知識庫的相關研究得到蓬勃發(fā)展。這一時期的主要研究熱點主要集中在機構知識庫建設實踐方面,這些實踐研究也為今后各國機構知識庫建設提供了參考。機構知識庫聯(lián)盟也在這一時期興起,聯(lián)盟內部向著平臺整合,形成統(tǒng)一的機構知識庫服務系統(tǒng)方向發(fā)展,解決了技術開發(fā)能力欠缺、大量人力、物力重復性投入的問題,對機構知識庫的推廣起著重要作用。
2007年以后,針對機構知識庫的研究開始進入穩(wěn)定增長期,此時的研究熱點轉向機構知識庫的可持續(xù)發(fā)展方面,學者們針對諸如機構知識庫運行機理、提升使用率、擴展數(shù)據(jù)服務等機構知識庫建設實踐中的問題展開了更深層次的研究,研究的關注點開始轉向用戶需求分析、建設模式調整、服務內容拓展、開放獲取生態(tài)系統(tǒng)、圖書館在數(shù)據(jù)服務中的自我定位、機構知識庫系統(tǒng)功能的深入開發(fā)等方面。綜上,國外研究對機構知識庫在科研數(shù)據(jù)管理、共享中的地位和作用表示了肯定,并對機構知識庫的建設開展了廣泛的實證研究。
通過上文分析,目前筆者對機構知識庫建設中存在的問題及未來發(fā)展方向總結如下:
論文的版權許可問題。不同機構知識庫中的資源存儲策略有一定區(qū)別,存繳的版本包括發(fā)表前的預印本和正式發(fā)表的版本,對于正式發(fā)表的版本會涉及到出版社的版權許可問題。目前實現(xiàn)開放存取主要有兩大途徑:金色OA和綠色OA,金色OA指整個期刊的文章都可免費獲?。痪G色OA指作者對手稿進行自存檔處理后,存入機構知識庫。機構知識庫存儲中涉及到版權問題的文章即為非金色OA的文章,對于綠色OA文章,機構知識庫大多采用延遲一段時間(一般為6—12個月)或存儲預印本來解決版權問題。目前幾乎所有的公共科研自助者都發(fā)布了支持開放獲取的政策,2013年5月全球研究理事會公布開放獲取行動計劃,歐盟2016競爭力會議要求科技論文在2020年全部OA化,但是完全實現(xiàn)科研人員、出版商、機構三方共同協(xié)作仍需一定過程。
機構知識庫數(shù)據(jù)數(shù)量、質量問題。機構知識庫中資源的收集量偏少成為機構知識庫的普遍問題[28],機構知識庫的作者自我存檔率和全文率并不高,這除了與版權問題相關外,缺乏相應的政策激勵也是重要原因之一,因此機構知識庫建設時應持續(xù)關注全文率、作者自存檔率和文摘率。與此同時,雖然機構知識庫的建設逐漸由收集公開發(fā)表的數(shù)字化資源成果轉向科研數(shù)據(jù)的存儲,但數(shù)據(jù)存儲管理仍任重而道遠,許多并未正式出版但是具有重要科研價值的學術成果并未得到充分重視與認可,數(shù)據(jù)的歸檔與保存仍需要圖書館與學校、社會相關機構持續(xù)進行互補性合作。此外,與傳統(tǒng)期刊相比,機構知識庫最大的弱勢在于沒有嚴格的同行評議過程,因此未來機構知識庫發(fā)展面臨的巨大挑戰(zhàn)之一就是對機構知識庫內容的質量控制,只有保證數(shù)據(jù)的數(shù)量和質量,機構知識庫才能實現(xiàn)可持續(xù)發(fā)展。服務方面,目前機構知識庫的建設大多停留在靜態(tài)數(shù)字資源的典藏階段,服務模式單一,用戶與知識原創(chuàng)者缺乏溝通渠道。通過建立機構知識庫評價體系,提高機構知識庫內容及功能的可用性,是未來機構知識庫可持續(xù)發(fā)展的方向之一。因此,在未來機構知識庫建設中,要優(yōu)化、擴展數(shù)據(jù)存儲服務,提升用戶體驗,建立完善的機構知識庫評價機制,從用戶出發(fā),一方面細化服務,提升服務質量;另一方面擴展服務內容,同時為數(shù)據(jù)質量把關,并制定有效的推廣計劃,提升數(shù)據(jù)的利用率,服務于科研活動,促進知識流動。
機構知識庫元數(shù)據(jù)標準化問題。機構知識庫的元數(shù)據(jù)及功能標準化是實現(xiàn)開放獲取和資源共享的關鍵,資源開放率和全文獲取率的高低直接影響機構知識庫的使用價值和影響力。機構知識庫建立的初衷在于開放共享,提升科研成果的影響力,這就需要機構知識庫建設保證其元數(shù)據(jù)的標準,以便為搜索引擎獲取。根據(jù)統(tǒng)計顯示,目前科研數(shù)據(jù)機構知識庫的數(shù)據(jù)開放性和獲取率仍較低,除了受版權許可問題及科研人員自身意愿所限之外,元數(shù)據(jù)是否標準化也是影響數(shù)據(jù)獲取率的因素之一。因此需要加強機構知識庫元數(shù)據(jù)的標準化,促進機構知識庫之間的數(shù)據(jù)融合,實現(xiàn)數(shù)據(jù)共享。
機構知識庫聯(lián)盟化,擴大數(shù)據(jù)量,提高數(shù)據(jù)價值。機構知識庫聯(lián)盟既可解決單個學術機構在構建自身機構知識庫時面臨的資金缺乏、內容征集難、技術條件不成熟等問題,又可避免各機構資源重復建設;同時各機構間數(shù)據(jù)分布式整合和統(tǒng)一管理也可促進各機構資源融合,擴大覆蓋學科范圍,提升數(shù)據(jù)規(guī)模,為數(shù)據(jù)增值,有利于實現(xiàn)各機構資源開放存取的最大化利用。建立機構知識庫的目的是為了促進科研數(shù)據(jù)的共享,高校機構知識庫聯(lián)盟化對于弱化高校科研活動的小科學特征、建立科學數(shù)據(jù)聯(lián)盟、提高數(shù)據(jù)價值具有重要意義。同時,機構知識庫聯(lián)盟也應積極與政府等相關部門溝通,制定相關的激勵政策和支持,實現(xiàn)機構知識庫的可持續(xù)發(fā)展。
(來稿時間:2019年4月)