張士男 彭 絮 張閃閃
(1.對外經濟貿易大學圖書館,北京100029;2.中國科學技術信息研究所,北京100038)
商業信息資源價格的持續高漲使人們獲取知識的代價過于高昂[1]。雖然近年來我國圖書館的經費始終保持增長態勢,但圖書館經費漲幅和資源價格漲幅間的差距越來越大,圖書館經費的“購買力”不斷下降成為趨勢[2]。開放獲取允許任何人都可以及時、免費、不受任何限制地通過網絡獲取各類文獻,開放獲取學術信息資源迅猛增長,正呈現逐步“成為學術研究主流資源”的趨勢[3],這為掣肘于資源采購經費的圖書館打開一扇窗。黃金霞[4]等從再利用的角度出發,重新界定了廣義的開放資源,并按照來源將其歸納為出版類資源、倉儲類資源和交互式資源3 類。出版類資源強調同行評議、出版途徑、網絡免費獲取,包括開放期刊、開放圖書、開放會議論文等。筆者以開放期刊和開放圖書為例,從影響用戶使用行為和資源再利用的維度,對商業與經濟領域出版類開放學術資源現狀進行調研分析,思考小型圖書館開放資源再利用的方式。
開放獲取學術信息搜索引擎極大地方便了用戶了解開放學術資源當前進展,開放獲取期刊目錄(Directory of Open Access Journals,簡稱 DOAJ)和開放獲取圖書目錄(Directory of Open Access Books,簡稱DOAB)通過目錄揭示開放獲取資源,最大限度地實現了開放資源的集成揭示,詳見表1。筆者以上述兩個平臺為數據來源,從其官網下載CSV格式元數據文件作為初始數據,并對其進行學科遴選、回查官網補充缺省項、處理亂字符、規范化表達元數據值等數據處理,對其收錄的商業與經濟領域開放資源情況進行統計分析,以期為財經類院校圖書館資源建設和服務提供參考。數據存儲和處理工具為Excel,初始數據采集時間為2018年10月24日。

表1 開放獲取學術信息搜索引擎基本信息

續表1
DOAJ 采用美國國會圖書館分類法(Library of Congress Classification,簡稱LCC)進行資源組織,不再設立商業與經濟一級學科,而是將其細分為若干細類分散在一級大類“社會科學”之下。DOAB雖然在其頁面保留了商業與經濟一級學科,但在其可下載的元數據信息中,同樣使用LCC 進行主題標引。結合平臺資源組織特點,通過映射分析,確定商業與經濟領域的學科范疇。
筆者從兩個維度進行數據分析:一是影響用戶使用行為的語種、時間分布維度;二是與圖書館對開放資源再利用密切相關的開放程度、數據質量控制維度。
DOAJ 共收錄了來自128個國家的12198種開放獲取學術期刊,其中9191種期刊的343.5 萬余篇文獻支持全文檢索和利用,包含879種商業與經濟領域期刊。
(1)語種分布
879種期刊涵蓋32種語言,62.68%(551種)期刊為單語種期刊,8.87%(78種)期刊為雙語種期刊,使用排名Top3 的語種分別是英語(76.11,669種%)、印度尼西亞語(17.18%,151種)和西班牙語(16.38%,144種)。
(2)時間分布
879種期刊共有34種開放獲取起始年限,最早可供用戶獲取的期刊起始年是1961年。每年收錄的期刊數量整體呈現上漲趨勢。47.33%(416種)期刊全文從提交到出版時間間隔為12個星期以內,39.93%(351種)期刊全文從提交到出版時間間隔為13至24個星期。

圖1 期刊開放獲取起始年分布

圖2 每年收錄商業與經濟領域期刊數量分布
(3)開放程度
·知識共享許可協議。期刊和論文在元數據層面的使用遵循CC by sa[7]。在全文數據層面,97.16%(854種)期刊遵循CC 知識共享許可協議,2.50%(22種)期刊遵循期刊自己的協議,0.34%(3種)期刊無法確定。使用最多的3種協議是CC by(41.75%,367種)、CC by-nc-nd(19.80%,174種)和CC by-nc(16.15%,142種)。
·機讀性。78.84%(693種)期刊全文允許第三方進行數據抓取,49.72%(437種)期刊的全文具有永久標識符,永久標識符的類型包括DOI、Handles、ARK、IJDS Article ID、UDK、Doc、URN German National Library,其中95.88%(419種)期刊以DOI 作為期刊論文永久標識符。
·數據重用。DOAJ 提供OAI-PMH 服務,允許第三方機構獲取期刊和論文層面元數據,支持第三方按照學科領域進行數據收割[8],提供期刊元數據CSV 格式文件下載。此外,DOAJ 還推出了兩個插件,允許用戶在自己的頁面嵌入預定義檢索結果或檢索框[9]。DOAJ 承諾其提供的所有服務和元數據免費重用[10]。為了更加方便用戶重用數據,提供更加優質的服務,DOAJ 將優化其OAI-PMH 接口以減少深分頁和高內存使用;定期創建整個數據集的轉儲,便于用戶更容易地訪問其完整的數據,而不會對其基礎設施造成壓力[11]。
·數據存儲。24.57%(216種)期刊具有明確的數據倉儲政策,倉儲政策包括Sherpa/Romeo、Diadorim、Dulcinea、string、Digital Library of Slovenia、Deutsche Nationalbibliothek、SEER、Open Harvester System、Open Aire 和WorldCat,其中75%(162種)期刊遵循Sherpa/Romeo 政策。34.47%(303種)期刊通過3種方式實現長期保存,包括加入數字資源長期保存計劃或項目(LOCKSS、CLOCKSS 或 Portico)(16.95%,149種)納入國家圖書館倉儲進行保存(16.50%,145種)和其他(6.71%,59種)。
(4)質量控制
DOAJ 在數據質量控制方面實施了多項舉措。包括發布新的資源遴選標準,在期刊質量審核方面尤其注重出版的質量和科學的質量[12],并從2014年3月起正式實施該標準。推出再申請行動,即所有2014年3月以前收錄的期刊必須提出一份再申請,不符合新的收錄標準和沒有在有效時間內提出再申請的期刊將被剔除,DOAJ 在2013年到2016年5月間剔除了3776種期刊[13],這是增加期刊信息準確性和價值的一項重要舉措。統計顯示99.54%(875種)商業與經濟領域期刊通過再申請。關注期刊可達性,剔除208種不再出版的期刊,避免錯誤鏈接混淆用戶[14],收錄的期刊可達性較高[15]。保證數據實時更新,每天清晨自動從歐洲PMC 平臺收割元數據,采集最新論文[16]。
DOAB 共收錄282個出版機構的1.3 萬余種同行評議學術著作(含200個圖書章節),包含商業與經濟領域圖書463種(含4個圖書章節)。
(1)語種分布
463種圖書涵蓋11個語種,使用排名Top3的語種分別是英語(76.46%,354種)、德語(8.21%,38種)和葡萄牙語(4.54%,21種)。全部圖書均為單一語種圖書。
(2)時間分布
40.17%(186種)圖書近3年出版,60.26%(279種)圖書近5年出版。近5年出版的圖書中,有69.53%(194種)出版當年實現開放獲取,有18.28%(51種)出版次年實現開放獲取,其中一種圖書為預印本《Melting Hadrons,Boiling Quarks:From Hagedorn Temperature to Ultra-Relativistic Heavy-Ion Collisions at CERN: With a Tribute to Rolf Hagedorn》,該書由Springer于2016年正式出版,2015年11月收錄至DOAB。每年收錄圖書數量整體呈現上漲趨勢。

圖3 DOAB每年收錄商業與經濟領域圖書數量分布
(3)開放程度
·知識共享許可協議。圖書元數據層面的使用遵循CC0 1.0。全文數據層面則差異較大,81.43%(382種)的圖書遵循CC知識共享許可協議,15.77%(73種)的圖書遵循出版機構自身的許可協議,1.73%(8種)的圖書遵循的共享許可協議未知。使用最多的3種協議是CC by-nc-nd(30.89%,143種)、CC by-nc(19.65%,91種)和CC by(17.71%,82種)。
·機讀性。提供可進行元數據收割的OAI 協議,并提供了相應的技術參數。
·數據重用。DOAB中全部圖書都可以免費閱讀、分享和非商業性使用。書目元數據允許CSV文件下載和OAI 收割,被刪除的記錄也可以通過OAI進行檢索,支持用戶使用OAI 按照時間(創建、刪除或修改)和學科進行個性化數據定制,并將元數據嵌入本地館藏或書目目錄[17]。支持將DOAB檢索框嵌入第三方應用系統[18],實現第三方系統和平臺資源的無縫連接。
·數據存儲。DOAB不再次進行圖書內容的存儲,而是提供圖書在出版機構網站的鏈接。
(4)質量控制
DOAB只與出版機構合作,如與Springer等知名出版機構合作,收錄其出版的開放圖書,這些出版機構在DOAB 網站被一一列出,方便用戶查閱其同行評議程序和許可政策[19]。DOAB 所收錄的圖書具備兩個特點:一是在開放存取許可條件下可在出版機構網站和知識庫獲取全文;二是圖書出版前應接受獨立的或外部的同行評審,以便進行質量控制[20]。保持每日更新收錄書籍的元數據[21]。
綜合分析商業與經濟領域出版類開放資源分布情況,發現開放期刊和開放圖書的發展有如下特點:(1)使用的主要語言是英語,期刊單語種與多語種并存,圖書全部為單語種。(2)收錄資源數量整體呈增長趨勢,尤其是近兩年增速較快。(3)資源開放程度整體較高。二者分別在元數據層面和全文數據層面進行了知識產權說明,允許用戶在CC 知識共享許可協議下使用元數據,在全文數據層面也是主要遵循CC 知識共享許可協議,這為資源再利用提供了政策支持。相對而言,圖書開放限定比期刊更為嚴格,期刊開放限定在向最大開放性和規范性演化,越來越多的期刊遵循CC by協議,而圖書更多遵循CC by-nc-nd協議。(4)為推廣資源再利用提供技術支持。支持第三方機構通過OAI進行元數據收割,并提供相應的技術參數;提供元數據CSV 格式文件下載;支持用戶在本地頁面嵌入檢索框;支持個性化數據定制。此外,除了在第三方機構嵌入檢索框外,DOAJ 還支持在第三方系統嵌入預定義的檢索結果,除了支持用戶按照學科進行個性化數據定制外,DOAB 還支持用戶按照時間(創建、刪除或修改)進行個性化數據定制。此外,DOAJ 為增強其在中國的使用推廣,進行了戰略性遷移,其檢索功能不再使用谷歌服務器javascript服務[22]。(5)重視數據質量控制,資源可達性高,保持數據每日更新。
從以上調研可以看出,一方面,開放知識系統在加強內容建設和質量控制的同時,積極推進資源重用,提供政策支持和技術支持。另一方面,開放資源分布在不同的網站上,如果圖書館不加以組織和揭示,用戶仍難以有效利用。這將對小型圖書館加強外文資源保障、提升信息服務能力有所啟示。
以筆者所在學校為例,對外文電子書的經費投入在 2015年、2016年和 2017年分別為 19 萬元、30萬元和30 萬元,每年新增外文電子書為1110種、940種和549種,盡管經費投入逐年上漲,但實際購買力在下降。DOAB 中僅2017年就收錄了商業與經濟領域圖書101種,這些圖書是對館藏外文電子書很好的一個補充,且開放知識系統中收錄的資源規模逐年穩步上升,資源可達性強,具有一定的持續性。圖書館在將開放資源納入館藏的過程中,應注意以下幾個方面:首先,發布開放資源使用聲明,促進開放資源合理使用。在知識共享協議下使用不等于合理使用,在向用戶強調遵循開放資源本身協議的同時,要強調非商業性使用、不允許惡意下載等。其次,利用開放知識系統提供的工具,將開放資源嵌入圖書館OPAC 系統,使其成為圖書館資源體系的有機構成。例如,通過OAI 進行DOAJ 和DOAB 元數據收割,將其整合到圖書館OPAC 系統中加以組織和揭示,方便用戶直接進行檢索,或是在圖書館主頁嵌入DOAJ 和DOAB 檢索框。再次,定期對本地數據重新建立索引,以便查詢最新結果,例如,DOAJ 每星期更新索引,用戶可通過OAIPMH 或 API 重新索引、更新、下載 DOAJ 文章元數據[23],圖書館可根據其重新建立索引的時間定期對本地數據進行處理。最后,通過一段時間的使用,搜集用戶反饋,梳理并在網上列出用戶常見問題。
學科館員可以充分利用開放資源特點,拓寬學科服務路徑,提升學科服務能力。①將開放資源納入學科導航平臺。開放學術資源已經在科學研究中發揮重要作用,Tina Baich[24]對印第安納大學2012和2013 學年館際互借中開放資源的知識共享情況進行分析,發現用戶對開放資源的需求呈現增長態勢。開放資源數據質量可靠,更新及時,DOAB 和DOAJ 支持用戶按照學科進行資源定制,為將開放資源納入學科資源門戶提供可靠支持。但由于不同開放知識系統采用不同的知識組織體系進行資源標引和組織,因此,在利用開放資源建立學科門戶時,首要解決的問題是明確不同開放知識系統中的學科領域范疇。②為科研人員進行成果發布提供咨詢服務,促進學術交流。開放獲取是一種日漸流行的學術交流模式,傳統學術成果發表流程繁瑣,出版周期長,影響了科學成果的及時發表與交流,學科館員可對學科領域開放期刊進行深入分析,為科研人員論文發表提供咨詢。引導科研人員選擇合適的出版機構發表專著成果,例如,引導科研人員選擇與DOAB 合作的出版機構進行成果發布,同時向DOAB提出申請,DOAB則會與相應出版機構取得聯系,實現專著的開放獲取,促進學術交流。
蔣巖波等[25]對全國45 所財經院校圖書館數字資源建設情況進行調研,發現近七成圖書館雖然建設了網絡資源鏈接或導航,但是多數館所建內容比較凌亂,有的只是簡單地羅列網絡免費網站鏈接,并沒有實現對開放資源的有效組織。對開放資源的組織可以從兩個層面出發,一是開放資源網絡來源的組織,從包含的資源類型、學科領域、語種等多個角度進行揭示并支持檢索,幫助用戶快速定位擬查找的信息源。二是對開放資源數據的組織,知識組織體系是任何用來定義并組織和表述真實世界物體的術語和符號的系統,在具體應用中被泛指為語義工具,包括同義詞環、敘詞表、分類表和本體等[26]。通過利用語義關系豐富的知識組織體系進行資源組織和揭示,能夠提高科研人員獲取準確文獻數據集的效率。中國科學院以某類開放資源為對象,分別對開放獲取期刊和論文、開放科技課件、開放會議、開放社會信息等開放資源進行集成,并提供檢索、瀏覽、下載、期刊投稿推薦等服務[27]。這為我們帶來啟發。圖書館可以以某一學科單一類別的開放資源為抓手,如以經濟學領域開放圖書為例,從多個開放資源信息源中獲取初始數據,對其進行主題分析和集成展示,形成領域資源庫,引入合適的或創建新的知識組織體系進行資源標引,支持語義檢索,幫助科研人員發現更多相關的全文數據,促進知識發現。
在全球開放獲取運動的推動下,商業與經濟領域信息資源開放獲取正在有條不紊地進行。為推進開放資源的應用,開放資源搜索引擎也在不斷推陳出新,加強內容建設,不斷擴大資源規模,提升資源質量,并推出簡單易用的小工具。在圖書館資源采購經費緊張、知識獲取代價高昂、學術信息交流需求日益迫切的情況下,圖書館應抓住契機,將開放資源納入本地館藏,利用其不斷完善的自身學科資源建設,并對開放資源進行有效組織,提供更高層次的知識服務,促進學術信息交流。