摘 要:《MARC字段使用對圖書館元數據實踐的意義》是OCLC于2010年3月發布的研究報告,是OCLC研究部活動“搜集證據說明MARC元數據實踐需要改變”的成果,由“RLG合作伙伴MARC字段使用工作組”在2008-2009年研究完成。報告包括6個部分,第一部分為引論,后五部分為各自獨立的統計分析報告,匯集對多個聯合目錄的MARC字段使用、機器匹配字段、檢索字段等數據,力圖全面反映MARC實踐、提出改進建議并指點MARC的未來。
關鍵詞:MARC OCLC
中圖分類號:G254.364 文獻標識碼:A 文章編號:1003-6938(2010)03-0056-003
Implications of MARC Tag Usage on Library Metadata Practices
Hu Xiaojing (East China Normal University Library, Shanghai, 200062)
Abstract: Implications of MARC Tag Usage on Library Metadata Practices is a report issued by OCLC in March 2010. It’s a result of OCLC Research activity Gather Evidence to Inform Changes Needed in MARC Metadata Practices, and offered by RLG Partnership MARC Tag Usage Working Group between 2008 and 2009. The report includes six sections. After an introduction, there are five independent statistic analysis reports about MARC tag usage, machine matching, search and others. The report focuses on MARC practices and includes recommendations for its improvement. The report also gives its views on MARC’s future.
Key words: MARC; OCLC
CLC number:G254.364 Document code:A Article ID:1003-6938(2010)03-0056-003
2010年3月中旬,OCLC公司發布了一份關于Marc的重要報告——《MARC字段使用對圖書館元數據實踐的意義》。本報告是OCLC研究部“搜集證據說明MARC元數據實踐需要改變”的成果,由“RLG合作伙伴MARC字段使用工作組”在2008-2009年研究完成,合作伙伴來自澳大利亞國家圖書館、紐約公共圖書館、明尼蘇達大學、加州大學伯克利分校與英國劍橋大學。2009年9月OCLC曾發布報告《聯機目錄:用戶和圖書館員需要什么》,本報告是其延續。報告含有對多個大型聯合目錄的大量統計圖表,由于研究目的性很強,一些發現或結論并不一定來自對數據的直接分析。本報告由引論及五個獨立主題組成,每部分撰寫者各不相同。
1 報告摘要
1.1 本報告的研究發現
· WorldCat中只使用很小的MARC 21字段子集:即使包括非書格式常用字段,出現在10%以上記錄中的僅21-30個字段。
·在基于MARC數據元素對記錄進行機器匹配時,諸方各行其事:用于記錄匹配的共同字段只有:頭標5個元素,4個定長字段(008、010、020、022),核心書目數據(1XX、245、246、250、260)。
·盡管機器匹配系統一般使用核心字段與子字段,但某些時候需要超過核心范圍,以驗證匹配的準確性:不可低估使用MARC數據進行匹配算法的復雜性。
·一般圖書館檢索系統僅對字段的一個子集做索引:許多與某一類型文獻相關的字段,對檢索可能很有用,但未被本研究中的主要圖書館系統索引。
·附注字段常用,但機器不一定擅長解釋文本內容:大量使用通用附注500,其他附注字段5XX相對用得少。
·用編目等級作為依據選擇“最完整”記錄全然不可靠。
·目前圖書館系統抓取的檢索日志數據,通常不能對用戶行為提供足夠信息:許多系統不能提供用戶的檢索字段,以及結果是否滿足其提問。
應該說,MARC字段使用不僅僅是如何被編目員使用,也包括如何被圖書館自動化系統所使用,后者在很大程度上影響MARC數據作用的發揮。本報告的主題涉及上述兩方面,但最終的關注點是后者。
1.2 對圖書館MARC元數據實踐的意義
這一部分針對當前編目實踐中的某些現象提出建議:
·滿足本地用戶的需求。用戶希望你花時間點圖版數,還是鏈接到目次或全文?
·未來幾年網上提供全文的文獻數量將持續增加,對“描述性元數據”的需要將減少。應專注于全文關鍵詞檢索不會提供的規范名稱、分類和控制詞匯。
·使用合適的字段反映資源。對特定類型附注使用特定的MARC字段,而不是通用的500附注。
·MARC數據不僅用于用戶檢索與識別,還用于出版物的機器匹配、鏈接、機器操作、收割、內容分析、排序、系統視圖。在使用關聯數據、利用其他來源生成的更完整描述及其他相關信息的環境中,機器匹配用字段的精確性正變得越來越重要。
這部分實際上針對的是MARC的未來。未來的元數據不僅提供給最終用戶直接使用,還將提供給機器間操作,無論是簡化還是強化或復雜化,MARC要具有可持續性,面向機器都將是不可忽視的重要方面。
1.3 MARC的未來?
這一部分提出了對MARC未來的看法,主要包括:
·MARC是特定領域的數據通訊格式,正接近其生命周期的終點。
·未來的系統,如果能夠在FRBR所述方法上滿足用戶需求,并利用新的RDA標準所設想的關聯數據的優勢,將需要更關聯的方法存儲數據。MARC不是解決辦法。
·未來的編碼方案需要有一個強大的MARC轉換對照表,以攝入現有成百上千萬記錄。
·自問:如果我們不必使用MARC,如果我們不局限于以MARC為中心的圖書館系統,我們會如何創建、抓取、建構、存儲、檢索及顯示對象與元數據?
·考慮如何最佳利用關聯數據的優勢,避免創建相同冗余元數據。考慮傳統圖書館環境外的來源。
·與其強化MARC及基于MARC的系統,不如與其他編碼方案和系統互操作。我們必須滿足其他信息體產生的信息需求。
報告的觀點已由標題中的那個問號顯示,但到目前為止,MARC的未來仍不明朗。2002年Roy Tennant曾大聲疾呼“MARC必須死”,Diane Hillmann不久前的樂觀看法是MARC的未來只有5-8年,但Karen Coyle卻悲觀地發現,開發MARC替代品的計劃未受重視。由于替代品尚不可預期,因之MARC的生命期或許還會更長一些。
2 報告正文
2.1 需要強化圖書館數據挖掘
這是由OCLC研究部Timothy J. Dickey撰寫的引論。對圖書館數據進行深入挖掘,是OCLC近年來一直追求的方向,用副總裁兼首席戰略師Lorcan Dempsey的說法,就是“讓數據更努力地工作”。引論針對系統日志,包括OPAC檢索日志,從使用角度,看圖書館自動化系統的索引字段,用戶使用哪些,檢索結果是否滿足其需求。了解哪些字段以及字段中的哪些數據最有助于用戶,無疑能改善圖書館的元數據實踐。
作者指圖書館的系統日志大多不夠精細,要強化數據挖掘,需要以下條件:一是從圖書館檢索界面抓取更完整的事務日志,包括會話ID、IP地址、檢索詞串及索引、分面限定條件、命中指示、站內路徑(看結果、限定檢索、單擊參見、轉到需求項、下載、放棄檢索等);二是流通數據的數據格式更具通用性。
2.2 WorldCat中MARC字段使用
由OCLC研究部Karen Smith-Yoshimura撰寫,介紹2009年9月時,WorldCat數據庫1.457億條書目記錄中MARC 21字段的出現情況,提供圖書、計算機文檔、集成資源、輿圖、混合資料、樂譜、連續出版物、錄音資料、可視資源等9類文獻相應的MARC字段數據,涉及15億條館藏記錄。全部數據在2009年10月已經由OCLC首席科學家Thomas Hickey通過自己的博客發布。
作者特別指出這些數據并不說明這些字段在檢索、匹配等方面的使用,實際上只是編目員對字段使用的統計。MARC字段出現頻率受多種因素影響,比如系統自動生成或相反系統不支持,某些標準規定或標準發生變更、只適用于特定文獻類型,等等,因而頻率高低并沒有絕對的意義。記得某位編目專家也曾指出,不能根據現有記錄中MARC使用情況,確定用戶需要什么、決定未來用什么。
最后作者提出了8點看法,從陳述上看,并非全由觀察前述數據得出,只能說反映了作者對MARC的立場。摘錄其中的四點:
其一,只有略多于1/2的字段出現在1%以上記錄中,再增加新字段理由不足。為適應RDA在2009年增加了新字段,MARC至少在若干年中仍會作為數據通信格式,但今后重點應放在新的數據結構,以容納其他來源的關聯數據。
其二,MARC的冗余加重了維護負擔,使向其他更簡單的方案映射更困難,阻礙了吸收其他來源元數據的優點。
其三,MARC本身太含糊,結構化不足,不便于機器處理與操作。
其四,需要跨出MARC考慮圖書館元數據內容的未來。
2.3 機器匹配中所用MARC字段與子字段
由劍橋大學Hugh Taylor撰寫。作者建立了五個集成數據庫,即檢索記錄用的英國研究圖書館聯合目錄(RLUK)、COPAC(由RLUK數據庫衍生的公共聯合目錄)、WorldCat、前RLG聯合目錄及澳大利亞圖書館目錄(Libraries Australia),分析進行記錄匹配的MARC字段的使用,并與三個標準的必備字段進行比較,這三個標準是:合作編目計劃(PCC)的BIBCO與CONSER標準,OCLC編目級別3(簡編)記錄規定。
2.4 檢索界面與數據元素的比較
由澳大利亞國家圖書館Catherine Argus撰寫。作者針對五個集成數據庫,即AMICUS(加拿大全國聯合目錄)、COPAC、Libraries Australia(澳大利亞圖書館目錄)、WorldCat.org及OCLC的FirstSearch,一是對檢索界面進行對比,包括檢索選項(途徑)、限定選項、排序方式及顯示;二是對各檢索與限定選項涉及的MARC字段與子字段進行對比。報告的結論是,所有數據庫提供相似的檢索與限定選項,MARC索引字段也類似,但這種相似性不一定能證明當前的檢索界面滿足用戶需求。
與第二部分類似,其最終看法并不是直接由數據或者分析得出,更多地反映作者的主觀認識。
2.5 WorldCat中編目等級與字段出現情況
由明尼蘇達大學Chew Chiat Naun撰寫,依不同的編目級別,分析WorldCat記錄中的MARC字段。目的在于了解編目級別是否能如設計的那樣,反映MARC記錄的質量。結論如概要中所述,不一定。
2.6 MARC字段中關系詞及形式/類屬詞
由OCLC研究部Timothy J. Dickey撰寫。作者與紐約公共圖書館Peter Hirsch合作,比較了紐約公共圖書館目錄與WorldCat的多媒體資料中,文獻形式/類屬詞(655$a)及責任關系詞(1xx/7xx$e)的使用。
責任關系詞在USMARC/MARC 21實踐中曾被舍棄。本研究選擇了反映當前編目實踐的2000-2008年WorldCat數據,從統計結果看,除手稿外,關系詞及形式/類屬詞使用比例都相當低。由于此二者的使用將有助于目錄的FRBR化,現在有重拾的傾向。
作者簡介:胡小菁(1964-),女,華東師范大學圖書館副研究館員。