孫銳 楊新涯 魏群義 李燕 廖維



摘要 文獻資產元數據倉儲建設是圖書館文獻資產管理的基礎,在文獻資產元數據倉儲建設中,文獻資產權益的法律保障問題、圖書館合理獲得及使用文獻元數據的權益保障問題及資產元數據組織規范問題的解決是關鍵。文章通過對高校圖書館數字資源采購聯盟(DigitalResource Acquisition Alliance of Chinese Academic Libraries,縮寫為DRAA)采購方案樣本中存檔權、永久使用權、永久訪問權、元數據獲得權等與資產管理密切相關的條款的研究,探討數字資產權益的保障程度;并以重慶大學圖書館為例,提出了基于教育部學科門類進行資源組織的思路,提出了文獻判重標準和數字資產館藏號方案。
關鍵詞 元數據元數據倉儲 文獻資產管理 資產權益 采購協議 數字資產 重慶大學圖書館
分類號 G250
DOI 10.16603/j.issn1002 - 1027.2018.02.003
1 引言
文獻資產管理是圖書館服務的基礎,根據《事業單位國有資產管理暫行辦法》的規定,資產管理以維護國有資產的安全完整、合理配置和有效利用為目標。安全完整指文獻資產有詳細清楚的資產賬目,賬實相符;合理配置指文獻資產滿足讀者和學科發展需要;有效利用指利用效果好,讀者滿意度高。其中安全完整是基礎。圖書館的文獻資產包括紙質資產、虛擬的數字資產和其他載體資產,紙質資產和其他載體資產通過常規的文獻編目形成目錄和財產賬,實現資產的借閱、增加、減少、變動、盤存等管理。數字資產管理則還停留在以“庫”為粒度的粗放式管理上,圖書館網站顯示的是同質化的數據庫陳列服務,數據庫成為一個個信息孤島,無法實現聚類和重組;無法展示具有本校特色的文獻信息資源體系;無法掌握文獻資源完整詳細的館藏情況、利用情況等大數據;無法為用戶提供精細化的信息服務。數字資產的采購經費占國家下撥經費的比例越來越高,成為文獻資產的重要組成部分,數字資產管理水平亟待提高。
重慶大學圖書館正在進行的文獻資產元數據倉儲建設,將圖書以“冊”為基本單元,其余文獻以“篇”為基本單元進行整合,利用資產管理平臺盤點了圖書、期刊論文、學位論文、標準等4類全文數據庫的資產,目前已收集、整理了1.3億條元數據,實現了圖書館元數據百萬級向億級的飛躍。在文獻資產元數據倉儲建設的過程中,有3個關鍵問題值得研究:文獻資產相關權益的法律保障、圖書館合理獲得及使用文獻元數據的權益保障及元數據組織的相關標準。
2 文獻資產權益的法律保障研究
圖書館的紙質資產和其他載體資產具有物理載體,圖書館擁有所有權,可在法律范圍之內為讀者提供外借、復制、館際互借、匯編等服務,通過常規的文獻編目形成目錄和財產賬,實現資產的增減、調配、盤存等管理,符合固定資產要求的資產還要建固定資產賬目,資產權益得到保障。數字資源由于實行許可證制度,資源獲取與擁有相分離,即很多情況下圖書館實際只從出版商那里購買了使用權,沒有實際的所有權。為加強對數字資產的控制,DRAA在《高校圖書館數字資源采購聯盟工作規范(草案)》中第十五條明確規定:一般情況下,所購買數據庫應有存檔權,存檔可采取聯盟公共存檔或成員館白行存檔的方式。此外,成員館可以通過訪問聯盟公共存檔或者成員館自己存檔的數據和數據庫商提供永久訪問的權限兩種方式或其中的一種方式永久使用所購數據庫。存檔權、永久訪問權、永久使用權是與文獻資產屬性密切相關的資產權益。本文對高校圖書館數字資源采購聯盟(Digital Resource Acqui-sition Alliance of Chinese Academic Libraries,以下簡稱DRAA)聯合采購的20個合同期內數據庫的采購方案進行調研,涉及期刊、圖書、學位論文、會議錄、事實數值、參考工具等文獻類型,重點調研許可協議中有關存檔權、永久使用權、永久訪問權等方面的內容。
存檔權(Archive Right):有關主體出于為國家和公眾長遠保護網絡信息和有效開展服務的動機,而擁有的對網絡信息定期或不定期進行捕獲、歸檔、保存等權利,它是有關主體為了履行其所承擔的社會職責所必須具備的職業權利。存檔權是采購方案重要的關注點之一,關乎圖書館所購買的數字資產能否在圖書館長期保存。
使用權(Use Right):從公眾的利益考慮,圖書館對數字資源的使用應該有這樣一些權利,即訪問權、下載權、打印權、有限的館際互借權和有限的上載權,非惡意的或技術過程所必須的無商業利益的解密權等。有學者指出數字圖書館應當在特定的價格范圍內要求最大化的使用形式。美國加州大學為不受制于出版商,獨立創建了CDL電子資源許可協議模型,該模型明確規定:許可協議必須指明當數據庫移除時,加州大學對于已經付費的電子資源擁有永久使用權,資源提供商必須明確描述圖書館及其使用者的權利,也必須相信圖書館擁有監控合法使用信息的能力。
訪問權(Access Rights):國家標準《GB/T4894-2009信息文獻與術語》對“訪問權”的解釋是:獲取或利用圖書館館藏的權利。即訪問權不僅僅是普通意義上的瀏覽,從這個解釋來看,圖書館對數字資源的訪問、下載、打印、館際互借乃至技術過程所必須的無商業利益的解密都是獲取和利用圖書館館藏的方式,屬于訪問權的范疇。因此,使用權(UseRight)與訪問權(Access Right)并無實際意義的差別。
20個數據庫采購方案中出現“永久使用權”、“永久訪問權”等字樣,但均未進一步說明該權利包含的具體內容,大部分方案給予圖書館的是永久訪問權而非永久使用權。
根據表1可以看出:
2.1 僅70%的數據庫給予圖書館永久訪問權/使用權
20個數據庫給予圖書館永久使用權的有2個:PQDT為免費提供,“提供訂購相應篇數的PDF論文全文的永久使用權”,當然,對某一家具體圖書館來講,訂購相應篇數的數量并不多;ScienceDirectOnline為付費提供,協議第13條規定:訂閱者在全部年度訂閱終止時,可選擇2種方式訪問和使用,一種是付費獲得、裝載及技術性格式化其已付費出版年份內全部或部分訂閱題目的電子副本,另一種是支付年度訪問費。給予圖書館永久訪問權的有11個,占55%,其中8個為免費提供,3個為付費提供;6個數據庫在方案里未提及永久使用權和永久訪問權,占30%。
2.2 文獻類型與提供永久訪問權不絕對相關
一直以來,圖書館界普遍認為電子圖書供應商應提供永久使用權或永久訪問權,期刊數據庫供應商應提供購買年限的永久使用權或永久訪問權,事實型/數值型/參考工具型數據庫供應商一般不會提供,基于這種認識,在與數據庫商協議時,圖書館方對擁有電子圖書和電子期刊的永久使用權或永久訪問權的堅持會表現比較強硬,通過對20個方案的分析,發現這個認識有偏頗。
20個方案中涉及的5類文獻均有可提供永久使用/訪問權的方案,也均有未提及永久使用/訪問權的方案。有4個期刊數據庫的方案沒有提及永久訪問權和永久使用權,占樣本中期刊數據庫的比例為30%。明確表明不提供的1個數據庫是律商聯訊(LexisNexis Academic及Lexis.com),其在方案中的表述為:“基于數據庫性質,律商聯訊無法提供存檔服務以及合同以外的服務。”
“Wiley Current Protocols實驗室指南”收錄18000篇同行評審、定期更新的分步式實驗室流程,為參考工具型數據庫,在2017.1.1 - 2019.12. 31的方案里明確表述:連續訂購三年8個實驗室指南以上(含8個)可獲得訂購專輯的訂購當年永久訪問權,其他訂購方式均為訂購當年訪問權。
2.3 大部分數據庫聯合采購方案未提及存檔權
20個方案中有9個方案未提及存檔權,涉及各種文獻類型,占45%;4個方案為付費提供;6個方案為免費提供;1個方案不提供,明確不提供存檔權的數據庫為“LexisNexis Academic及Lexis.com”。
2.4 購買存檔權的費用不菲
4個付費提供的方案均為期刊數據庫,其存檔費用占訂購金額的比例在4-22%之間。美國物理學會數據庫(APS)的存檔費用最高,占Tl級用戶訂購價格的21.59%。如此高的價格將會使圖書館在經費有限的情況下完全不去采購,失去了提供存檔的意義。另外,如何使用存檔權并不清楚,方案中沒有提及,圖書館館員也大都沒有相關知識和經驗。4個付費存檔的數據庫見表2。
2.5 圖書館的資產權益保障現狀不容樂觀
據對20個采購方案的資產屬性條款進行分析,發現從法律角度保障圖書館資產權益的狀況不容樂觀,圖書館界須進一步與數據庫商博弈,爭取更多權益。同時在與數據庫商簽訂采購方案時.應注意條款的完整規范,建議向加州大學學習,建立適合國情并保障圖書館權益的電子資源許可協議模型,進一步規范協議的簽訂。
3 圖書館合理獲得及使用文獻元數據的權益保障研究
元數據是數據的數據,是用來描述和規定數據特征、相互關系以及相應操作的數據的集合,構建完整的圖書館文獻資源元數據倉儲是圖書館對文獻資產進行管理的基礎。數字資產的元數據既有資源集合的元數據,又有資源對象的元數據。資源集合元數據用來描述和管理電子資源的集合,如圖書、期刊、論文集、會議錄等;資源對象元數據用來描述某一具體不可再細分的電子資源,例如一篇論文、一份標準、一篇學位論文。元數據是數據庫的詳細目錄,是建設資產元數據倉儲的基礎,紙質資產的元數據在采購合同中有規定,元數據提供已經成為紙質資產采購合同必備條款之一。數字資產的元數據作為數據庫產品的目錄應由各數據庫商無償提供給購買方,數據庫商可要求購買方承諾在合理范圍內使用。通過對DRAA聯合采購的20個合同期內數據庫的采購方案相關條款的調研,發現情況不容樂觀。
3.1 大部分方案未提及是否可提供元數據
20個聯合采購方案有14個沒有提到是否提供元數據,有6個方案提到可以提供元數據,均為MARC格式數據,僅占30%。提供MARC數據的方案中,有2個為期刊數據庫,3個為圖書數據庫,1個為學位論文數據庫。
3.2提供元數據的方式不明確
提供元數據的方式很重要,是圖書館利用好元數據的基礎和保障,大部分方案沒有提及。例如:《牛津期刊現刊庫聯合采購方案(2017)》:提供免費的MARC記錄。通過這個條款,我們無法知道是以什么方式提供,是自動收割,還是客戶下載,亦或電子郵件發送?
3.3 圖書館獲取元數據的相關對策
通過以上研究,可見圖書館獲取元數據的權益未得到采購方案的充分保障,作為數據庫產品的目錄,應成為數據庫商銷售產品的一部分,理應提供給圖書館,按圖書館所希望的方式提供。元數據是資產管理的基礎,因此在簽訂采購協議時應通過相關條款明確下來。當前情況下,要獲得元數據,需要在續訂時與數據庫商進一步博弈,重慶大學圖書館在建設文獻資產數據倉儲時向所有數據庫商發出征集元數據的通知,數據庫商均能很快響應:有的數據庫商直接提供、有的采用簽補充協議的方式提供、也有的明確表態不提供。經過半年多的努力,獲得了39個數據庫的元數據,合計1.3億條,提供者包括Elsevier、Wiley、Springer等大出版商。
4 文獻資產元數據組織的相關標準研究
文獻資產元數據倉儲建設涉及的標準有元數據標準、分類標準、判重標準等。重慶大學圖書館的文獻資產元數據以都柏林核心元素集(Dublin CoreElement Set,以下簡稱DC)為基礎,結合需要整合的文獻類型特征,形成元數據方案。DC是一個致力于規范Web資源體系結構的國際性元數據解決方案,是成熟而廣為接受的元數據格式,這里不再贅述。本文重點闡述分類標準及文獻判重標準。
4.1 基于教育部學科分類的文獻分類標準
根據文獻的學科屬性進行分類是圖書館組織和揭示文獻的重要方式,國內圖書館多采用《中國圖書館分類法》(簡稱《中圖法》)進行分類,《中圖法》將知識分為5大部類22個大類。《普通高等學校本科專業目錄(2012年)》是高等教育工作的基本指導性文件之一。它規定的專業劃分、名稱及所屬門類,是設置和調整專業、實施人才培養、安排招生、授予學位、指導就業、進行教育統計和人才需求預測等工作的重要依據,該目錄一共12個門類92個專業。增加按教育部《普通高等學校本科專業目錄( 2012年)》的學科門類的分類代碼標引,可為后續的虛擬專業圖書館的資源組織及學科服務提供便利。具體方式是將《中圖法》第五版和教育部學科分類進行映射,將《中圖法》的270個類目映射到92個專業類目,實現教育部學科專業類代碼的自動標引。大量的外文文獻沒有《中圖法》分類號,則根據主題詞、關鍵詞、標題等,依照自建的《主題詞表》進行自動分類標引,該主題詞表以《中國分類主題詞表》為主,補充了部分主題詞,擁有150萬個主題詞,覆蓋范圍比較廣,標引效果比較好。
要做到教育部學科門類與《中圖法》分類號的精確映射很難,學科發展具有交叉、滲透的特點,但是通過教育部學科分類代碼的標引,增加組織文獻的一種方式,可按教育部學科門類集中文獻,具體來說,有以下作用。
(1)快速盤點文獻資產情況,對學校相關專業評估數據的統計、報送及館藏分析極有幫助。圖2是機械類期刊論文的館藏情況。
期刊論文是最重要的學科資源,分散于若干數據庫中,通過資產盤點,以圖表方式展示了機械類期刊論文的館藏總量、主要分布數據庫、語種分布和發表年分布,同時可通過輸入限制條件,如導入資產的批次、作者、標題,進一步篩選并輸出館藏清單。
(2)自動生成若干虛擬專業圖書館,提升學科服務能力。
在“雙一流大學”建設中,文獻資源是學科建設的重要支撐,國家投入了巨額經費購買文獻,但是文獻分散于各數據庫中,在文獻資產元數據倉儲中,除圖書外均以“篇”為基本單元進行元數據的整合,打破了數據庫壁壘;基于教育部分類的標引使文獻能按專業門類集中并展示出來,數字圖書館可以呈現若干虛擬的專業圖書館,極大地提升了資源的顯示度,學科服務更有針對性。
4.2 文獻判重方案
在圖書館文獻管理中,“種”和“冊”的概念非常清晰,衡量一個圖書館的館藏是否豐富,除了看冊數,更重要的是看有多少品種。在數字資產的數據整理中,提供判重的標準非常重要,通過判斷重復,合并相同文獻的元數據,不同來源的同一種文獻認定為復本,在館藏號字段添加館藏號,通過相同數據的合并和館藏號管理,理清數字資產的品種與復本,得到館藏的真實狀況。不同文獻類型重復甄別的規則不同,重慶大學圖書館在資產元數據倉儲建設過程中,先整合了圖書、期刊、學位論文和標準這四類文獻,依據表4的判重規則甄別重復文獻。
(1)文獻判重方案使采購前查重、采購后驗收成為可能,完善了文獻資產管理流程。
依據文獻判重的標準,可利用資產管理系統的數據工具功能為文獻采購進行查重,生成訂購數據,為數字文獻采購及到貨驗收提供依據。查重和驗收是圖書館的常規工作,是文獻采購的重要環節。資產管理系統使用前,由于元數據不完備,業務系統功能不完善,無法對電子資源進行批量查重和驗收,采購書單的驗收采用抽查方式,效率低下,效果欠佳,資產系統的使用使工作流程更加規范,效率顯著提高。
(2)文獻判重方案為文獻的統計分析提供依據。
查重功能可分析數據庫指定導入批次文獻資源的獨有及重復情況,以圖書為例,包括指定批次獨有圖書的情況:獨有數量、學科分布、出版年分布;重復圖書情況:重復數量、學科分布、出版年分布等。對重慶大學圖書館采購的3個中文電子圖書數據庫進行查重后顯示,總量234萬冊電子書中,獨有圖書占76%,掌握重復情況,可分析、對比數據庫的重復數量,見表5。
4.3 館藏號方案
館藏號是文獻收藏單位所保管和收藏文獻的唯一編號,具有唯一識別文獻的功能,是文獻收藏單位資產入賬及銷賬的依據。館藏號的概念源于圖書館對紙本文獻的管理,圖書館將每冊紙本圖書和期刊裝訂本都賦予一個館藏號。圖書館采用機讀目錄以前,館藏號一般是用號碼機打印的流水號;采用機讀目錄以后,館藏號一般是可掃描的條形碼。數字資產的管理也需要館藏號,以實現對數字資產的增加、減量、變動和盤點的精細化管理,以不同的館藏號區分不同館藏來源,使館藏統計更為精確。重慶大學圖書館的數字文獻資產館藏號由三部分組成:機構代碼、文獻類型代碼和流水號。機構代碼采用教育部為高校編制的學校標識碼后5位數,重慶大學為10611;文獻類型代碼由1位阿拉伯數字構成,用于區分文獻類型;流水號由10位阿拉伯數字組成,每類文獻容納數量為十億級。
5 結語
維克托·邁爾·舍恩伯格在《大數據時代》一書指出:大數據目前為我們生活、思維、工作所帶來改變,大數據時代的開啟是一個時代重要的轉型。對于圖書館來說,做數據的擁有者才能更好地管理資源,為讀者提供文獻服務,充分發揮文獻資產的管理者和使用者的作用。文獻資產元數據倉儲建設中關鍵問題的研究,為重慶大學圖書館建設文獻資產元數據倉儲掃清了障礙,初步實現了圖書、期刊、學位論文和標準資產元數據的整合,為服務教學科研打下了堅實的基礎。