摘 要:本文首先對KBART進行概述,然后闡述基于KBART的元數據交換的相關建議,以及基于KBART的期刊元數據的開放存取類型,最后總結KBART針對期刊元數據的開放與共享做出的改進。
關鍵詞:KBART;期刊元數據;開放;共享
1 KBART概述
KBART是知識庫及其相關工具的推薦實施規范,全稱為Knowledge Bases and Related Tools Recommended Practice。作為提高知識庫數據效率和有效性的數字資源規范,KBART為信息供應鏈中的各方提供了關于元數據格式和元數據規范等的直接指導,確保內容提供商與知識庫開發者之間準確的元數據交換,通過改善鏈接解析器和知識庫的數據供應,解決影響開放鏈接的問題[1]。
2007年,英國連續出版物集團(United Kingdom Serials Group,UKSG) 出版了由James Culling撰寫的《鏈接解析器和連續出版物的供應鏈》(Link resolvers and the serials supply chain) 研究報告[2]。Culling在該報告中確認和描述影響開放鏈接有效性的一系列問題,并建議成立一個工作組,目的在于確定和向整個業界推廣“最佳實踐”的解決方案,以改進與知識庫間的元數據交換。2008年1月,由UKSG和NISO(美國國家信息標準協會National Information Standards Organization)組成的聯合工作組正式啟動,開始負責此項工作。由此產生的KBART推薦實踐規范提供了將數據傳輸到知識庫的指南,包括格式和數據交換方法。
第1階段于2010年完成,發布了第一期推薦實施規范(NISO RP-7-2010),目標是改善鏈接解析器和知識庫的數據供應,以提高OpenURL鏈接的效率和有效性,第一階段報告提供了實現此目標的基礎建議。第2階段于2014年完成,在第1階段的基礎上,第2階段的工作重點在于解決那些影響元數據供應中更具體和更復雜的問題上,修訂元數據供應傳輸規范,深入調查用戶需求,改善知識庫的數據供應情況,明確提供商合作框架,同時建立信息門戶,開展系列推廣活動,并提供全面的信息資源。知識庫提供商及其客戶(主要是高校圖書館) 均受益于內容提供商所提供的高質量的數據,發布商也會受益于其內容的準確鏈接。2014年4月發布了第二期推薦實踐規范( NISO RP-9-2014)修正草案。重點修訂內容包括:與聯盟、開放獲取出版物、電子圖書和會議論文集等相關的元數據規范,以及數據交換和傳輸的方法、交換頻率、數據格式、數據發布等。在第二期推薦實踐規范修正草案發布后,工作組過渡到由跨行業專業人士組成的NISO常務委員會。該小組的重點是授予KBART認可并提供社區外展和教育。
2 基于KBART的元數據交換
元數據,通常定義為描述數據的數據,旨在便利存取、管理、共享和處理大量結構化和或非結構化的數據。元數據交換使數據交換各方之間按共同規則描述元數據信息,完成對元數據的存取交換功能。KBART推薦實施規范的一個關鍵組成部分就是對于內容提供商和知識庫供應商之間進行元數據交換的相關建議,而元數據交換是元數據開放與共享的基礎。
2.1 KBART元數據字段
在內容提供商所提供的元數據文件中,應當將表1的這些字段作為列名。由于元數據文件的接收者希望以匹配的格式接收所有文件,因此即使內容提供者無法提供任何信息或者沒有適合特定字段的信息,每個字段也應按表1給出的順序列出來。為避免混淆和不必要的錯誤,內容提供商需要在生成的每個文件上標記列標題。為了提供KBART未作要求的其他用途的附加信息,允許內容提供商在最后一個KBART使用位置(排在第25位的access_type)之后添加額外的元數據字段。NISO常務委員會目前在工作中看到的額外字段包括聯機計算機圖書館中心(OCLC)編號、主題、標題歷史記錄等。
對于多次更改刊名的期刊,在生成基于KBART的元數據文件時,可參考表2。
2.2 元數據文件格式
所有基于KBART的元數據文件都應以純文本形式提供,并編碼為UTF-8。每個文件都應以制表符分隔,并且按照KBART推薦實施規范中的順序排列。與文件中所表示內容相關的所有字段都是必填字段。
2.3 元數據文件命名
KBART推薦的文件命名格式為:[ProviderName]_[Region/Consortium]_[PackageName]_[YYYY-MM-DD].txt。括號中的每個元素代表如下定義名稱的可變部分。
1)ProviderName是托管數據的平臺名稱。該元素有助于區分文件的來源。例如,PsycARTICLES數據庫可通過多家內容提供商獲得,包括EBSCO,Ovid和美國心理學協會。要根據文件的來源填寫相應的內容提供商名稱。
2)Region/Consortium提供關于元數據集的銷售地點,或者可以使用這個數據集的聯盟的相關信息。如果文件是通用的,則應使用“Global”作為此元素。
3)PackageName是元數據集的名稱,因為內容提供商的客戶希望在知識庫中標記它。
4)YYYY-MM-DD是使用ISO 8601日期格式的文件創建日期。
綜上,“TaylorandFrancis_Global_AllTitles_2014-08-30.txt”為符合KBART的文件名 。該文件由TaylorandFrancis提供,標題列表不特定于某個地區或聯盟,包括內容提供商提供的所有標題,創建日期是2014年8月30日。“Springer_Asia-Pacific_Medicine_2016-01-28.txt”也為符合KBART的文件名。該文件由Springer提供,銷往亞太地區,元數據集名稱為“Medicine”,創建日期是2016年1月28日。
2.4 元數據文件交換的方法
生成基于KBART的元數據文件后,內容提供商必須能夠將文件提供給知識庫供應商。首選的傳遞方法是將文件發布到專用網頁或文件傳輸協議(FTP)站點。使用電子郵件進行傳遞并不理想,因為將其納入自動化處理程序非常困難。但是,如果將文件發布到網頁或FTP是無法實現的,則用電子郵件進行傳遞也是可接受的替代方案。
2.5 元數據文件交換的頻率
創建和交付基于KBART的元數據文件不是一次性的行為。要使內容提供商的數據能夠準確地反映在知識庫中,必須定期創建和交付元數據文件。KBART建議大多數內容提供商每月更新一次,但是內容提供商可以依據實際的館藏資源變化率大致調整元數據交換的頻率。
3 基于KBART的期刊元數據的開放存取類型
期刊元數據包括表1中列出的適用于連續出版物的KBART字段。由于有很多文章刊載在期刊中,每一篇文章又包括很多元數據,如標題、摘要、關鍵詞、參考文獻等,因此本文中所提及的期刊元數據也包括這些元數據。
通常無法輕易判定,對于通過開放存取獲得可利用的文章或標題,是免費的還是需要收費的。因為在這方面存在多種可能性,不能簡單地采用二元對立的思維來看待。比如,一個期刊中的單篇或多篇文章可通過作者付費的開放存取獲得,而期刊的其余部分僅可通過訂閱獲得。在某些情況下,發布者會選擇自某一卷或某一期發布以來的一段時間之后,將所有內容進行開放存取。目前基于KBART的期刊元數據的開放存取類型如下:
1)延遲開放存取。可以通過開放存取獲得最近12個月以前的刊名數據,而最近12個月的相關內容需要訂閱。
2)標題轉換開放存取。由不同出版商購買和銷售時,從開放存取或免費獲取的標題轉換為需要付費訂閱的標題。
3)作者付費的混合型開放存取。總的來說,對于內容的訪問需要訂閱,但是一些特定的文章可以在作者付費的支持下,通過開放存取獲得。
在所有這些情況下,很難確定用戶在任何時間都可能被拒絕訪問期刊元數據的原因。因為KBART期刊元數據文件處于標題級別而不是文章級別,所以幾乎不可能解釋各種各樣的開放存取和免費可用的內容模型。KBART建議以后能夠從文章級別進行處理,從而更好地解決這個問題。
4 KBART針對期刊元數據的開放與共享做出的改進
針對期刊元數據的開放存取問題,在第二期推薦實踐規范(NISO RP-9-2014)中,KBART修改了一個字段,并且添加了一個字段和可選的自由文本元數據。這些元數據有望改善最終用戶的訪問權限,而且內容提供商和第三方供應商能夠更容易解決開放存取的問題。
4.1 修改的字段名:notes
對于一些內容提供商來說,他們希望對開放存取范圍進行注釋,尤其是對混合型開放存取的注釋。對此,KBART將使用可選的“notes”字段。“notes”字段仍然是KBART第二階段的自由文本和可選字段,可以比較容易地解釋特定標題(包括但不限于有關開放存取內容的注釋)的細微差別。這可能會為第三方供應商提供幫助,比如鏈接解析器供應商以及圖書館。
4.2 新增的字段名:access_type
這個新的必填字段可以有2個值,包括F和P。使用“F”表示期刊元數據是開放存取或可以免費訪問的。使用“P”表示需要支付某種費用(例如,訂閱、購買等)才能訪問期刊元數據。對于包含免費和付費內容的混合型開放存取期刊,出版商和供應商應根據需要進行多次記錄,以指明免費訪問的范圍和需要支付費用訪問的范圍。例如,如果期刊有一年的推遲間隔,其中最近12個月是付費訪問,這會由兩個記錄表示,第一個記錄在access_type字段中的值是“P”(付費),第二個記錄在access_type字段中的值是“F”(免費),即對于超過12個月的內容是免費的。
當同時采用access_type字段和embargo_info字段時,KBART建議在這兩個字段中都需要進行兩次記錄。一個記錄是推遲間隔之前的免費內容(標記為“F”表示免費),第二個記錄表示需要訂閱的內容(標記為“P”表示需要付費)。
參考文獻
[1]姚曉霞,劉娟娟,鄧石等.突破開放鏈接瓶頸的數字資源規范KBART解析[J].圖書情報工作.2018(6):26-30.
[2]James Culling. Link Resolvers and the Serials Supply Chain[EB/OL].[2019-02-08].http://www.uksg.org/sites/uksg.org/files/uksg_link_resolvers_final_report.pdf.
作者簡介
趙宇曦(1996-),女,漢族,北京,上海大學圖書情報檔案系,碩士研究生,研究方向:檔案學。