魯 丹 張 毅
(華東師范大學圖書館 上海 200062)
特藏資源與數字人文緊密結合在一起,近些年隨著數字人文、智慧圖書館等新技術的快速發展,國內外眾多圖書館將各自館內具有鮮明特色及價值的資源(包括圖書、古籍、報紙、期刊、地圖、手稿、卷軸、檔案材料、圖片、書信等)選出,重新編目和組織起來,建立了大量的特藏資源平臺。然而,各大特藏資源平臺彼此獨立,特藏資源彼此孤立,容易形成數據孤島現象,且資源之間存在重復的現象,資源與平臺難以統一管理。特藏資源多站點統一管理平臺的出現,使得特藏資源及站點能夠實現統一管理,圖書館員不用花費巨大的精力維護不同的平臺。同時,資源間能夠彼此聯系,避免資源孤島現象的存在。
特藏資源發展歷史悠久,自15世紀英國圣安魯斯大學成立起,就在收集手稿、照片和大學檔案資料等特藏資源,為教學和研究提供支持[1]。我國特色資源的實踐與研究始于20世紀80年代,上海曲陽圖書館自1989年開始圍繞影視資料特色資源開展建設與服務[2]。特藏資源的定義并不統一,公認的是OCLC(Online Computer Library Center,Inc,聯機計算機圖書館中心)的定義:特藏資源是指以任何形式存在的圖書和檔案資料(比如珍稀書籍、手稿、照片、機構檔案等),具有藝術或經濟價值、獨特性、稀缺性等,有長期保存和獲取的必要,通常置于單獨的館藏空間中。通常,特藏資源的流通是受限制的[3]。特藏文獻資源是高校圖書館核心競爭力的體現,是精準化學科服務的重要資源,是科研的重要趨動力,是教學資料的豐富源泉,是數字學術的重要數據來源,是校園文化、人文情懷、藝術修養的培養基地[4]。國內外的學術型圖書館和公共圖書館都將特色資源的建設與研究放在一個極其重要的位置。
圖書館在推動數字人文發展的時候,首要基礎是特色資源[5]。近年來,數字人文的興起與發展給圖書館特藏資源的建設提供了機遇,圖書館進行了大量的特藏資源建設。特藏資源建設包涵描述、編目、數字化及傳播平臺的建立與維護[6]。在描述與數字化之后,需要對特藏資源進行展示及管理,特藏資源管理平臺即是對特藏資源進行管理、展示的平臺。目前特藏資源管理平臺主要分為三大類:①圖書館自建平臺;②商業管理平臺;③無需新的平臺。不管是自建平臺還是商業平臺,在特藏資源管理平臺的建設過程中會出現一定的難點和問題,包括特藏資源編目時元數據著錄無標準參考,元數據標準不一致,資源重復及平臺獨立的現象。
元數據是描述資源的數據,元數據的結構決定了資源被檢索、利用及共享的方式。特藏資源種類繁多,包括古籍、手稿、圖片、書信等各種類型,每種類型的特藏資源通常擁有獨特的元數據描述。目前,高校圖書館主要采用機讀編目格式標準(Machine-Readable Catalogue,MARC)、DC(Dublin Core,都柏林核心元數據標準)、自建元數據等方式對特藏資源進行描述與揭示[7]。在自行設計元數據方案時,各大高校圖書館通常會在現行元數據的基礎上,結合特藏資源類型及研究者需求設計專門的元數據方案。不同標準的元數據方案,就造成了元數據著錄不一致的問題,這樣容易使得特藏資源平臺用戶和研究者混淆,同時資源也難以被共享。
在特藏資源建設的過程中,也會遇到資源重復的問題。例如,有的資源會存在于不同的特藏資源平臺上。目前,各大圖書館、機構仍是以自身為中心來進行特藏資源的收集、整理、存儲和應用推廣,對特藏資源共識程度較低,這導致在資源建設過程中,會出現資源重復建設的現象[8]。例如,有的特藏資源會存在于不同機構自建的特藏資源平臺上,不僅會導致特藏資源獨特性的價值降低,還會浪費人力物力,導致特藏資源的建設無法繼續。可采用資源池的形式解決資源重復問題,在資源池的基礎上根據需要選擇資源建立不同的特藏資源平臺。
特藏資源管理平臺對特藏資源的內容進行管理及傳播。各大高校圖書館會基于本館特色建立不同的特藏資源平臺。就筆者所在學校,擁有方志數據庫、年譜數據庫、名師庫、杜魯門口述史全集等平臺,特藏資源平臺非常之多,其中有的平臺是自建、有的是由廠家建設。眾多的特藏資源平臺彼此獨立,在建設時需要花費圖書館的經費,在后期也需要不同人維護,難以管理。然而,特藏資源管理平臺本質上是資源管理及揭示系統,擁有一定的共同點。因此,可以建立特藏資源多站點形式的統一管理平臺,不僅可以節省經費,同時還便于館員的后期維護。
基于目前特藏資源管理平臺的問題,高校圖書館應建立一個特藏資源統一管理平臺:能夠兼容不同標準的元數據方案,實現元數據的標準化及特殊化;能夠以資源池的形式管理資源,避免資源的重復;能夠有一個統一的管理后臺,方便操作,實現多站點管理。在滿足基本的條件后,系統還應開放,可擴展,緊跟技術前沿。
Omeka是一個開源的網絡發布平臺,于2008年發布,具有易于安裝與使用、強大而靈活元數據功能、多樣的數據管理能力以及強大的社區支持及核心功能可擴展等特點,許多圖書館、博物館及檔案館將其作為數字資源的管理與展覽系統[8]。Omeka S為機構提供了一個統一的管理平臺,能管理多個站點,用戶在后臺創建不同類型資源,形成資源池,在資源池的基礎上可以創建不同的網站、平臺;Omeka S以JSON-LD作為其數據格式,每個資源(條目、資源和條目集)有一個URI,使用資源描述框架RDF詞匯表,最大限度地提高了與其他數據發布者間的互操作;Omeka S預置了Dublin Core、Dublin Core Type、Bibliography Ontology及Friend of a Friend4種RDF詞表,也可以選擇第三方詞表,實現了元數據的規范與標準;Omeka S擁有強大的社區支持,社區開發維護了眾多插件,包括支持元數據收割協議的OAI-PMH插件,支持CSV文件、XML文件導入的插件,能夠方便實現元數據遷移工作;支持標簽云、地圖展示等資源揭示插件[9]。同時為了使得所管理的圖像資源能夠開放共享,實現了國際圖像互操作框架(International Image Interoperability Framework,IIIF)標準。在基礎的元數據遷移、管理及資源揭示的基礎上,Omeka S支持圖像資源數字化操作的眾包轉錄,支持OCR、文本分析等[10]。用戶只需根據自己的需要安裝相應插件即可。
圖像是特藏資源領域非常常見的一種非文本視覺媒介,具體表現形式十分多樣,包括繪畫、照片、草圖、手稿、印章等。圖像包含了深刻的文化內涵、復雜的時空場景和較為抽象的思想語義,然而圖像容易被禁錮在數據庫中,無法共享和復用[11]。IIIF是一種新興的開放數據框架,通過定義一組通用的應用程序編程接口來確保全球圖像存儲的互操作性和可獲取性。IIIF提供了圖像API(Image API)、呈現API(Presentation API)、認證API(Authentication API)、內容檢索API(Content Search API)、更改發現API(Change Discovery API)以及內容狀態API(Content State API)六種API[12],其中圖像API與呈現API為核心API。圖像API定義了圖像請求API,能夠實現圖像選擇、縮放等圖像細粒度互操作;呈現API定義了圖像展示API,能夠實現圖像開放、共享,圖像能夠嵌入到其他遵循IIIF標準的機構。目前,國內外許多圖書館都將其應用到特藏資源的建設中,并取得了一定的效果。國外大英圖書館、Europeana、哈佛大學圖書館、劍橋大學圖書館等都將IIIF應用到館藏資源的建設中來。國內,廈門大學圖書館的百萬幅數字特藏文獻高清影像,上海圖書館的家譜、期刊、音視頻等諸多領域,復旦大學圖書館的“印藏虛擬圖書館”[13],華東師范大學的近代教科書平臺[14]也都將IIIF引用進來,進行圖像資源的發布。
Omeka S擁有IIIF服務器、圖像服務器和Universal Viewer查看器等插件,安裝了IIIF相關插件后,特藏資源(包括手稿、書籍、相冊等)中的圖片能夠放大縮小旋轉,開放共享。Omeka S是一款非常適合圖書館、檔案館、博物館等領域的特藏資源管理與揭示的平臺。將Omeka S與IIIF相結合,重構圖書館特藏資源庫建設,為特藏資源管理與揭示打開了一條全新的思路,能夠使得特藏資源的建設參與到國際特藏資源的保存與共享當中[15]。東京大學圖書館就是將兩者結合起來,進行館內特藏資源的建設與揭示。
東京大學圖書館特藏資源以站點列表的形式在首頁顯示,共49個站點,包括手稿、畫卷、地圖、文庫、古籍、圖像數據庫等,類型多樣[16]。盡管東京大學圖書館特藏資源類型多樣,但是其大多以數字圖像為載體。東京大學圖書館是在其館藏的基礎上,選擇館藏將其數字化,以圖像的形式在網上發布。東京大學圖書館特藏資源平臺是使用開源內容管理系統Omeka S建立的,每個網站展示不同的特藏資源內容,每個站點對應一種資源的具體展示,資源來源于不同部門,其架構圖如圖1所示:東京大學圖書館在已有的資源基礎上,首先通過原始資源元數據與Omeka S預置的詞匯表及自定義詞匯表對應,將元數據導入Omeka S數據庫中,形成資源池。不管是圖像、地圖、手稿還是其他類型的資源,在Omeka S中都以Item形式存在,Item可通過分類形成Item Set。在Item及Item Set的基礎上可以建立不同機構管理的不同站點,東京大學圖書館在資源池的基礎上,創建了包括“源氏物語”、“富士川文集”及“石本收藏”等49個站點,每個站點屬于不同的機構,通過Omeka S實現不同人員擁有不同權限的管理。Omeka S通過引用IIIF相關模塊,實現所有資源圖像的放大、縮小、旋轉及共享。東京大學圖書館所有的圖像可瀏覽、打印、下載,可復制、修改,支持非商業目的的二次使用(出版、網站使用),使用時需注明引用機構[17]。東京大學圖書館特藏資源的數據集提供四種方式使用,分別為:Excel查看元數據,關聯數據瀏覽器查看RDF數據,Image Annotator為圖片添加注釋,以及元數據的聚合。

圖1 東京大學圖書館特藏資源建設架構圖
Omeka S可通過多站點、多用戶角色配置,實現不同部門不同資源的分別展示,不僅方便使用者查看資源,也方便管理者統一管理資源。
東京大學圖書館特藏資源管理平臺有如下特點:(1)使用Omeka S作為其特藏資源建設平臺,每個特藏資源網站風格一致,多站點統一管理——東京大學圖書館特藏資源平臺首頁擁有49個站點,分別屬于不同的機構,Omeka S實現了不同機構特藏資源網站的風格統一以及資源管理。(2)使用關聯數據描述資源,實現資源的深度揭示——東京大學圖書館在使用基本詞匯表的基礎上,結合資源特性自定義詞表,其詞表在meta-bridge上注冊,具有一定的權威性。(3)使用IIIF發布圖像,圖像資源能夠放大、縮小,開放、共享——東京大學圖書館特藏資源使用IIIF發布其高精度圖像,擁有統一和豐富的圖像訪問功能,支持IIIF客戶端的查看,支持IIIF數據分享,其他機構可根據其IIIF數據調用其資源。(4)提供多種形式的資源下載,促進資源的開放與共享——東京大學圖書館不僅通過IIIF允許其他機構調用其特藏資源,還提供資源下載,元數據提供json-ld、rdf/xml、n-triples等格式導出。數據集支持Excel查看,關聯數據瀏覽器查看,同步發布在Github上。
制定元數據戰略將不僅有利于館藏利用率的提升,更關乎整體社會資源流通及國家大數據戰略的推進[18]。東京大學圖書館注重特藏資源元數據標準與國際化,以RDF為基礎組織內部資源,注重資源開放共享,利用IIIF實現了異構平臺之間圖像資源的共享與復用;將館內所有特藏資源以資源池的形式存于數據庫,在資源基礎上選用Omeka S創建不同特藏資源網站,統一管理,值得國內圖書館借鑒與學習。
特藏資源類型多樣、載體多源、個性化強,采用通用性的元數據標準有利于同類型分散資源的整合與揭示、開發標準化的深度挖掘方法[19]。國內特藏資源領域還缺乏權威元數據標準與規范,沒有通用的標準,會造成元數據著錄不一致,不利于資源整合與發現。目前,上海圖書館在復用國際詞表的基礎上,創建了人名規范本體、古籍本體、家譜本體等。但是特藏資源類型繁多,應在國家層面或者行業層面,針對不同的特藏資源類型,建立元數據標準與規范,讓各大高校圖書館或公共圖書館有標準可參考。
目前,特藏資源領域存在重建設、少互動、缺合作的現象,特藏資源的知識組織形式、特藏數據管理與治理等方面研究不足,特藏資源的建設應考慮建設的長期性與延續性,注重戰略規劃。因此高校圖書館在建設特藏資源平臺時,應從全局出發,統籌考慮全館特藏資源,明確需求,制定特藏資源多站點統一管理建設規劃。在選擇特藏資源統一管理平臺時,不管是商業的還是開源的,都需要注重元數據規范。
高校圖書館在進行特藏資源多站點統一管理平臺的建設時,應依據自身實力,選擇合適的技術方案。除了本文介紹的東京大學圖書館將Omeka S作為其特藏資源多站點統一管理平臺,國內的廈門大學圖書館也將其作為統一管理平臺。廈門大學圖書館的探索表明,應具備國際視野,堅持以特藏資源和圖書館特色為本,采用國際通行的系統和標準,推進特藏資源數字化、數據化和智慧化進程[20]。在調研的基礎上,華東師范大學圖書館也引入了Omeka S作為特藏資源多站點統一管理平臺,逐步遷移相關特藏資源。
從節約經費、方便操作及未來發展等方向上考慮,高校圖書館應綜合考慮現有特藏資源平臺,確定元數據方案,建立統一的資源管理平臺。在平臺建立好后,逐步實現數據的遷移。然而,元數據基礎設施及特藏資源統一管理平臺的建設只是特藏資源建設的基礎工作,為了使特藏資源更好地支持研究工作,未來還有很多的工作要做,例如圖像的標引、古籍的轉錄等。只有將存在于圖書館的特藏資源數字化、數據化、智慧化,才能使得特藏資源真正地支持研究者的研究。