劉潔璇
(南京師范大學圖書館)
機讀目錄 (Machine-Readable Cataloging,MARC)是描述文獻著錄的國際標準格式,MARC21(USMARC)與中國機讀目錄(China Machine Readable Catalogue,CNMARC)對圖像著錄采用了代碼加子字段描述的形式,代碼類型豐富,每種代碼含義各異,很容易被機器自動識別,字段結構與對應關系易于代碼校驗。
MARC是一種結構化數據,CNMARC格式字段比都柏林核心(Dublin Core,DC)元素豐富,信息揭示詳備、檢索體系完備、擴充修改功能強、安全控制操作便捷,其應用優勢主要體現在對圖像的描述、管理方面。將數據從一個系統移動到另一個系統,并進行轉換,正是基于底層的元數據。一方面,認真區分中西文著錄中代碼含義差別有助于提高應用集成的精確度。如,MARC21的008字段按字符位定義數據元素,為區分不同的含義,同一數據元素有時會被定義多種代碼。對圖像代碼含義進行對比分析是避免機器自動識別與文獻實體偏差的前提。另一方面,準確理解字段間的對應關系與結構有助于代碼選擇、校驗。如,MARC21的034字段的編碼形式反映了255字段著錄的與制圖資料有關的比例說明、投影說明、坐標說明,天體圖的赤緯、赤經以及二分點等數學數據說明;MARC21的007字段采用屬性樹結構,由00字符位定義資料類型代碼,再由此代碼定義該資料類型的其他數據元素代碼,在數據管理操作時應注意代碼變化引起的格式變化。
再者,除了參照《國際標準書目著錄》(International Standard Bibliographic Description,ISBD) 外,中文圖書著錄還要考慮我國國情、中文名稱特點、文獻的特殊性。尤其是中國人的姓名具有形式簡短、重名率高的特點,編目工作中對個人知識責任的準確識別直接影響文獻的有效查找、選擇和獲取。[1]隨著網絡交互信息資源、書目數據關聯化的迅速發展,合作信息行為、合作信息查尋與檢索不斷發展,社會標注的應用越來越廣泛。然而社會標注中語義、語法表達及拼寫不規范等問題會影響信息標引、檢索的準確性、全面性。去除標簽噪聲、信息干擾,將為信息資源的標引、組織、檢索提供更開放的共享模式。[2]
同時,編制規范記錄、建立規范文檔、實施規范控制、進行規范維護有助于完善目錄的匯集功能、查詢功能,滿足國際、國內書目資源的共享需求。雖然越來越多的公共圖書館、高校圖書館跟隨美國國會圖書館采用《資源描述與檢索》(Resource Description and Access,RDA)新規則進行編目,但RDA仍以ISBD中的基本數據元素為著錄基礎。基于RDA的測繪制圖資源 MARC21書目數據編目變化主要是著錄規則的變化,如縮略詞的使用。[3]可見,書目標準化研究進一步促進了元數據在知識管理領域的推廣應用,為拓片、輿圖等中國特色古文獻的數字化管理提供了技術標準,為反映我國宏富的傳統文化,解決資源共享中的兼容、映射等問題提供了支持。書目標準化著錄的可持續發展既需要理論的不斷更新,也需要及時的經驗總結。我國長期以來延續使用的編目規則及在此基礎上形成的龐大的CNMARC記錄仍具有重要的研究意義。
隨著網絡資源的冪指數增長及圖像識別、圖像檢索的發展,對文獻特殊細節項的著錄有助于測繪制圖資料的準確定位與知識發現線索的系統梳理。由于知識關聯以數據集成為主要操作,所以,MARC元數據的描述、檢索功能在知識定位、檢索點查重、資源對接、安全管理操作實踐中發揮著重要作用。通曉著錄規則有助于保證書目著錄的一致性、整體性,方便資源共享、數據無障礙交換。
MARC元數據描述、標識了信息資源對象的內容、屬性和外觀特征,記錄了圖像資料的內容、索引及關系,提供了對象的實體位置或網絡地址,反映了數據的更新、遷移等變化,高質量的MARC元數據便于資源定位與獲取。
(1)CNMARC與MARC21的920館藏信息字段揭示了收藏機構及館際互借方式。必備子字段$a揭示了收藏該文獻的成員館代碼,該代碼在OPAC(Open Public Access Catalogue,開放的公共查詢目錄)以文字形式顯示;必備子字段$z揭示了館際互借方式:0不提供館際互借,1返還式館際互借,2文獻傳遞,3提供電子傳遞,4訂購中,9注銷。9XX本地使用塊的規范著錄規定直接關系文獻資源定位。
(2)CNMARC字段間的對應關系映射了文獻間的關聯關系,解讀關系有助于兼顧圖像資料的系統性、完整性獲取。如,MARC21的76X-79X連接款目字段采用標準子字段結構,按照數據功能定義不同的子字段數據內容,說明相關文獻與編目文獻間的關系:空間(年代)關系——書目文獻間的時間性關系。如,先前和后續關系的連續出版物;平行(橫向)關系——書目文獻間的不同版本關系,如,不同語種的版本、不同載體或形式的版本等;層次(垂直)關系——總體對部分或部分對總體的層次關系,如,期刊文章與期刊的關系、附屬叢編對主叢編的關系等。CNMARC的4XX連接款目塊連接了與在編文獻有關的其他實體記錄,CALIS聯合目錄4XX字段采用了嵌套式結構將需要連接的數據字段(包括字段標識符、指示符、子字段標識符和數據)作為子字段內容嵌套在$1子字段內,直觀反映文獻間的叢編、補編(或增刊)、正編(或正刊)、替代/部分替代、吸收/部分吸收、并入/部分并入、合并、分成、譯為、譯自、復制為、復制自、總集、分集等關系。如果違背統一的著錄規則,在不同的應用系統之間移動數據、在一個應用系統組合中管理復雜的接口都將非常困難。
(3)基于關聯數據的書目數據模型BIBFRAME(Bibliographic Framework,書目框架)將為未來網絡世界書目描述帶來改變。BIBFRAME利用關聯數據模型,定義了一套由RDF類、屬性及其關系組成的詞匯。[4]這種新的數據格式通過屬性特征區分不同實體,又通過實體的屬性關系各個實體相互關聯,更適應網絡資源整合、定位。在新技術環境中,MARC元數據定期維護更新機制的建立有助于滿足讀者對圖像信息檢索廣度與深度的需求。隨著電子文獻引用比例的增大,通過對856字段增設DOI(Digital Object U-nique Identifier,數字對象唯一標識符)著錄,在MARC與DC之間建立映射關系,實現二者的相互轉換,使圖書館信息資源與網絡資源合二為一。[5]由于DOI對期刊論文、科學數據的子項(包括圖形、表格、圖片,以及書籍章節/條目等提供編碼注冊),其后綴可以通過分隔開的子字符串(節點)來反映等級信息或粒度層次。出版機構可在期刊論文編碼中增加節點,將期刊論文編碼方案進行擴展得到這些論文部件,如圖表、圖片的DOI編碼方案。[6]通過DOI標識符的多重解析功能,實現圖像知識鏈接和對相關知識的整合、集成。[7]
MARC元數據提供了多種檢索途徑:分類、仿照復分方法便于圖像的批量查找;子字段具有檢索、查重功能;代碼可作為包含或排斥某類圖像資料的限定信息。
圖像資料的積累為考古文化譜系研究的深入、探討中華文明的形成與發展提供了資料基礎。CNMARC的690字段記錄了中國圖書館分類法(Chinese Library Classification,CLC)分類號。分類中出現的類目復分、仿分現象為圖像資料的查找、分類提供了線索。在中國文物考古(K87)中,對于圖錄、題跋等具有共性的類目,在需要詳細分類的類號上直接加上復分類號(圖錄+2,題跋+4);而在K873出土文物圖錄類目復分時需使用《中國地區表》(如甘肅+42)。
壁畫是敦煌學研究的重要分支。為保護敦煌壁畫藝術遺產,敦煌研究院與浙江大學合建的敦煌壁畫數字資源庫系統對壁畫及相關文獻的數字資源采用了三層嵌套式元數據規范描述:以石窟元數據為上層元數據,石窟內的壁畫元數據為中層元數據,研究信息、臨摹信息、拍攝信息等壁畫相關元數據為下層元數據,以支持信息匯聚、分析。[8]從CLC分類檢索上看:敦煌文獻研究集中在G256.1;敦煌學(總論)集中在K870.6;壁畫集中在K879.41;壁畫圖錄集中在K879.412。以“敦煌裝飾圖案”做主題檢索,可以發現《敦煌裝飾圖案》(2010)、《敦煌歷代精品邊飾·圓光合集》(2010)等書目,通過對相關作者、叢編的查重,可不斷發現新的“路標”并建立關聯。
文獻學科內容的主題概念是標引的主要概念和主要對象。深度標引為圖像信息的準確表達、篩選、存儲、檢索、提取提供了有力保障。CNMARC的606論題主題、607地理名稱主題所設子字段,$a款目要素,$x論題復分,$y地理復分,$z年代復分,$j形式復分都具有重要的檢索意義。
多重標引為信息檢索提供了多個檢索入口。賀蘭山在607地理名稱標目中屬自然特征名稱標目,通常記錄在$a款目要素子字段,而在606論題主題標目字段通常記錄在$y地理復分子字段。$j形式復分子字段描述了文獻類型或形式,圖解、圖譜、畫冊、攝影集、圖集、地圖集是圖像資料的常用詞。通過“賀蘭山”主題檢索書目列表可以發現:賀蘭山圖像資料研究涉及神話、原始宗教、石畫、文字、地理、地質、生物、林業幾大學科領域。圖錄具有較高的科學、歷史、藝術、文獻史料價值,多檢索點查重對跨學科、交叉學科間的資料對比、佐證提供了有力支持。
系統地搜集整理圖書中不同時期的各類圖表,對藝術風格演變、流派劃分研究意義重大。如,木刻版畫的構圖、畫風、刀鋒、鐫刻極具時代特色,其摹真常用作畫稿范式,在長達千年的版刻版畫發展史中,書籍中附著的木刻插圖作品林林總總,內容涉及宗教、戲曲、小說等經史子集各類,形式或長版方式、或圓形月光式、或連版或單幅、或上圖下文、或文中插圖。[9]如果僅以“版畫”做主題檢索,檢出的文獻數量過于龐大,難以一一瀏覽,而僅以類號做分類檢索又可能出現漏檢,且這兩種常用的檢索方式對圖像專指度不高。
MARC21與CNMARC對圖書所含圖表著錄采用了代碼及子字段描述。對專著性文字資料所含圖表:MARC21在008字段18-21字符位選用4種代碼(不足用空位,超過選擇主要4種)描述,代碼信息與300字段$b其他形態細節子字段對應;CNMARC在105字段0-3字符位選用4種代碼(不足用空位,超過選擇主要4種)描述,代碼信息與215字段$c其他形態細節子字段對應(見下表)。

表 MARC21、CNMARC專著性文字資料圖表代碼對比
與MARC21相比,CNMARC增加了對透射圖片(n)的定義,以代碼o表示彩飾,刪除了對照片的定義(CALIS規定不使用插圖、照片、手跡等表示圖的來源的字樣)。代碼識別與主題檢索配合使用,可將分散在不同文獻中的同類型圖像(如摹真(a)h、地圖b)解析出來;與CNMARC 6XX主題標引塊$z年代復分或MARC21 6XX主題標引塊$y年代復分配合使用,能進一步提高信息資源的年代專指度。
圖像資源與信息資源的統一揭示是實現各類資源(圖像、文字、影像、網絡資源等)無縫對接的基礎,也是立體呈現研究對象、實現資源整合對接的重要途徑。
隨著定位與定量觀測、遙測技術的不斷成熟,地形圖、遙感影像與圖像、斷面圖、平面圖、投影圖、數學方程、數理模型、立體圖示成為近代地理學的重要描述方式。在機器學習和統計中,一般的圖像關聯數據包含了對象的屬性、同類型對象間的同質關聯和不同類型間的異質關聯。CNMARC、MARC21在地圖資料著錄時,對比列尺、坐標、制圖數學數據等也做了相應記錄。
傳統聚類方法以同質數據為主要對象,如,河洛文化文獻數據庫“河洛碑志拓片”、“洛陽師范學院館藏拓片及志石”子庫對拓片資源數據進行標引時,按照不同文獻種類元數據建立不同的元數據標引模板,再按不同元數據模板分配相應的數據項目分類標引,通過超鏈建立子庫間的關聯。[10]然而,現實的數據分析需要涉及多種類型的數據對象,從學術科研角度看,同一金石器物、拓片、拓片數字圖像雖然記載的內容是重復的,但不同載體形態反映的信息量無法絕對分離。CNMARC的191編碼數據字段描述了拓片的內容與外觀特征。通過856電子資源定位與檢索字段與影像掛接后,能清晰反映器物的銘文圖像、不同時期器物的狀況,全面揭示不同版刻、刻本與復本間的差異;451字段連接了在編文獻同一載體的其他版本,如,不同語種的其他印刷版;452字段連接了在編文獻不同載體的其他版本,如印刷版與電子版、盲文版。
MARC元數據對資源對象使用、保存、管理權限的描述,保障了數據安全風險控制。如,MARC21的307文獻檢索或獲取時間字段記錄了可以獲取文獻或檢索文獻(主要是電子資源)的日期和/或時間信息。355保密級別控制字段包含了有關文獻、題名、文摘、內容附注、作者等信息的保密級別,相關文獻處理說明和外傳規定,包含文獻保密級別的降級和解密數據、保密體系名稱、國家原代碼等內容。357文獻傳播控制字段記錄了編目文獻的原創者(作者、生產者)對文獻傳播控制的說明。561所有權與保管史字段包含了有關編目文獻從產生到檢索獲取這一時間段的所有權及其保管史方面的信息。583業務措施附注字段包含了對文獻檢索、評估、鑒定、分類、復制、微縮、保存、轉移和保護措施,及執行措施的方法或技術,如郵寄方式、處理時粉碎等。856電子資源定位與檢索字段包含了文獻相關電子資源的地址、登錄方式、讀取方式、傳輸方法、口令等重要信息。
大數據環境下,館藏資源的有效組織與序化是圖書館的基本業務,對圖像文獻的內容特征及資源實體對象之間關聯狀態描述的元數據是學科資源重組、關聯應用的基礎。由于CNMARC主要用于數據描述與交換,CNMARC XML格式更適應互聯網+和數字圖書館應用環境。
CNMARC XML結構中,記錄頭標、控制字段、子字段、代碼分別與ISO 2709中的術語、元素名稱相對應。遵循國際通用的標準與規范便于上層應用的設計與開放互聯。通過轉化格式,CNMARC實現以XML語法描述原始資源,并以XML樣式表的方式表達,為XML環境下CNMARC記錄的交換處理及數據變換、復制提供臨時格式。通過OAI-PMH協議收割典藏機構的元數據,Z395.0分布式虛擬聯合數據庫檢索體系,能實現對分布式系統的統一查詢。
CNMARC與MARC21在地圖信息限定檢索、主題聚類統計中具有一定的應用價值,記錄頭標區06字符位代碼反映了記錄類型:a專著性文字資料,e測繪制圖資料。CALIS專著性文字資料著錄參考ISBD(M)、《普通圖書著錄規則》(GB3792-85),測繪制圖資料著錄參考ISBD(CM)、《地圖資料著錄規則》(GB3792.6-87)。當專著性文字資料105字段0-3字符位包含代碼“b”,215字段$c子字段包含“地圖”時,表示該專著含有地圖。如,該條記錄105字段10字符位指示符為1,表示含有索引。圖表索引的使用能進一步提高地圖查檢效率和精確度。測繪制圖資料120字段1字符位對索引進行了詳細的代碼描述;121字段對測繪制圖資料的出版形式進行了詳細的代碼描述;123字段記錄了206字段著錄的測繪制圖資料的比例尺與坐標,為定位包含我國臺灣島、釣魚島、南海諸島等重要島嶼測繪制圖資料,核查南海斷續線、國界線的表示與標注,維護國家領土完整提供識別信息。
從690字段CLC來看,中國地圖主要集中在K992類目。此外,氣候圖入P469,地圖制圖學入P28。6XX主題分析塊$j形式復分子字段與CLC總論復分相結合(加在主表分類號碼后的“-復分號”),便于區分資料類型統計圖表,使地圖析出更加序化。
文獻學科內容的主題概念是標引的主要對象,地理名稱標目是重要檢索點。607字段記錄了某一行政管轄區名稱、某一自然地域的地名、某一歷史地域的地名等。一方面,注重數據元素來源的規范性和數據元素之間的關聯度,明確主題詞規范所依據的詞表類型及人名、地名的取值范圍,有助于強化規范控制;[11]另一方面,對詞表中沒有的歷史地名、歷史遺址以原歷史名稱標目,以我國習見名對江、河、湖、海、山脈等自然特征區域名稱標目,有助于檢索語言與自然語言的結合,適應未來RDA發展要求。
與CNMARC相比,MARC21專著性文字資料008字段18-21字符位包含圖表元素代碼“b”,300字段$b子字段包含“map”時,表示該專著含有地圖。如該條記錄31字符位指示符為1,表示含有索引。測繪制圖資料008字段25字符位說明了測繪制圖資料的出版形式,比CNMARC 121字段定義的代碼更豐富;33-34字符位還對測繪制圖資料的特殊形式進行了定義,在地圖相關制品審查中具有統計意義。
《韓熙載夜宴圖》是中國十大傳世名畫之一,以連環長卷的方式描摹了韓府夜宴的全過程。CNMARC記錄在畫作相關研究資源分層關聯揭示上具有重要意義,通過對CNMARC記錄檢索可以發現以下幾點。
(1) 《顧閎中·韓熙載夜宴圖》(2016)含摹真,高31cm,經折裝。北京師范大學(代碼211260)、淮陰師范學院(代碼232370)都藏有該書,前者不提供館際互借,后者提供返還式館際互借。
(2)電子資源《韓熙載夜宴圖:古代諜報史上的藝術佳作》(DVD,NTSC3.58)載體形態為光盤,播放時長39分鐘,內容涉及古畫鑒賞、歷史事件等。
(3)鄭振鐸的鋼筆手稿《五代顧閎中畫韓熙載夜宴圖》被中國國家圖書館收藏。
(4) 《韓熙載夜宴圖》的相關研究——學位論文。328學位論文附注字段揭示了研究者學位、所屬學科、專業、學位授予單位、學位授予時間等相關信息。
(5) 《韓熙載夜宴圖》圖像志考(2014)以中國畫繪畫研究為主題,含彩圖、肖像、摹真,有書目和索引。
在美術評論、工筆畫/人物畫技法研究中,分析級文獻(又稱析出文獻)具有重要的參考價值。分析級文獻指檢索時要通過另一個書目及其所在位置識別的文獻,如,專著的某一章節或期刊的某篇文章,多層析出文獻包含兩個以上子析出文獻。CNMARC要求析出文獻不僅要著錄析出文獻本身,還應包括連接單元、宿主文獻的標識、析出文獻在宿主文獻中的準確位置(常用頁碼表示)幾部分。[12]有明確責任者(顧閎中)的作品(《韓熙載夜宴圖》)為在編文獻《臆說〈韓熙載夜宴圖〉》的研究對象時,采用604名稱與題名主題字段,其結構與4XX連接款目類似,將著作名稱記錄在$1內嵌套的500統一題名字段,著者名稱記錄在$1內嵌套的7XX知識責任字段,便于建立文獻間關聯。隨著數據庫技術及應用的發展,對特色文獻進行全文掃描并提供網絡檢索、圖像識別,使篇目中的照片、圖版,地圖集中的單幅輿圖、圖片等析出文獻通過856字段建立關聯,能方便讀者反復查閱。
對美術作品的相關研究機構、研究者、研究文獻、臨摹人、臨摹作品收藏地、臨摹作品收藏者、拍攝者、圖片處理信息等元素進行規范描述并分層關聯,有助于通過典籍間的關系考證實現知識溯源。中文個人名稱標目由主標目及其附加成分(限制性信息)組成。普通漢語名稱標目(直序式)為區分同名同姓的人物,附加生卒年;筆名、藝名標目(直序式)也會附加生卒年。如,畫家朱耷(1626-約1705年),號八大山人。在600個人名稱主題標目時,朱耷、八大山人都可作個人名稱的款目要素,都是規范檢索點。CLC K82-64類目集中了中國人物的生卒年表、疑年表、年譜。200字段$f、$g子字段按照規定信息源照實著錄了對文獻的知識內容負主要責任的個人或團體,$f著錄第一責任說明、$g著錄其他責任說明。7XX知識責任者塊一般將繪畫者、攝影者、臨摹者記錄在701、711、721字段,插圖者、插畫者記錄在 702、712、722字段,通過$4子字段的關系詞代碼說明。7XX責任者標目的對應附注記錄在314字段。對個人與文獻間責任關系的記錄方便下一步資源連接。
拓片是記錄中國古代文化的重要載體,為語言文字、書法、篆刻等相關學科發展提供研究素材。如,甲骨文字數量多、字符繁復并具圖畫結構,甲骨拓片字形特征提取是計算機輔助甲骨學研究的關鍵,尋找拓片是應用數學形態學方法進行圖像處理與分析、提取甲骨拓片字形特征指標的前提。[13]CALIS使用CNMARC對拓片的物理特征進行代碼描述,著錄規則參閱《中國文獻編目規則》第五章“金石拓片”。與專著性文字資料相比,金石拓片的規定信息源、主要信息源多取自拓片整體:如,題名一般根據所題文字擬定,器物主人或出資制作器物者加器物名稱;墓主、碑主姓名及寺、觀、廟、堂名稱加石刻形式;題名、題記加題名、題字詞、題記形式;圖像、圖所在地或其內容加畫像、圖形等。責任說明包括撰文者、書篆者、鐫刻者及其責任方式。常用版本名稱包括傳拓朝代+拓本、影印本、石刻本、縮印本等,版本說明的著錄內容應作考證,考證依據須在附注項說明,器物出土的地點、時間、收藏者也著錄于附注項。尺寸是著墨部分的尺寸,著錄為“長×寬”,不足1cm以1cm計算。
對于拓片CNMARC記錄頭標區06字符位選用代碼u,200題名與責任說明字段$b一般資料標識子字段著錄“拓片”。191字段反映了拓片的基本物理形態特征,以所拓制的原文獻所屬資料類別將拓片分為甲骨、金屬、玉、石、陶、竹六大類,當2-3字符位取值aa或ac表示拓片來源為龜骨或獸骨。191字段與690字段相對應,從CLC來看古書契集中在K877下的類目,并與H121古文字學,J292.2碑帖、書法作品,J292.4篆刻、治印及作品、K879.3古代雕塑研究密切相關。除了原始拓片,拓片圖錄、文字、題跋索引也具有較高的文獻史料價值,如Z89:K877組配復分類目下的專著。
為保證國家數字圖書館拓片元數據在功能、數據結構、格式、語義、語法等方面的一致性、整體性及大范圍互操作和數據共享,國家圖書館采用了24個元素,包括14個核心元素、6個古文獻類型核心元素、4個拓片個別元素,并擴展了元素修飾詞及編碼體系修飾詞,實現對拓片原物及由拓片原物復制轉換而成的數字化拓片資源的精確描述。[14]如,對核心元素“題名”的元素修飾詞拓展了首題、額題、陰首題、陰額題、蓋題、中題、尾題;對“相關資源”的元素修飾詞拓展了金石原物、拓片底本、合刻、合拓、合裱、合訂、叢編、子目、書目文獻、錄文,編碼體系修飾詞拓展為URI。對古文獻類型核心元素“收藏歷史”的元素修飾詞拓展了獲得方式、題跋印記;對“文獻保護”的元素修飾詞拓展了文物級別、破損級別。對拓片個別元素“書刻特征”的元素修飾詞拓展了書體、鐫刻特征、銘文行款、字數。元素的專指性、精確性提升了元數據的分析應用價值。由于復用了DC標準,為XML環境下拓片元數據與MARC記錄的交換處理創造了條件。