蔡迎春 (上海師范大學圖書館 上海 200234)
特藏資源是圖書館寶貴的教育資源,體現著圖書館的人文底蘊和資源價值,歷來為所有圖書館所重視。據OCLC發布的最新研究報告《推進國家數字平臺:美國公共圖書館和州立圖書館的數字化現狀》顯示,美國92%的公共圖書館擁有本地重要的、獨特的實體特藏,而在過去3年,已有37.6%的圖書館致力于特藏資源的數字化建設[1]。而荷蘭萊頓大學圖書館館長和出版社社長貝爾德 (Kurt De Belder)在2013年的一次講演中曾預測,在15年內高校圖書館將只有特色館藏在本地存儲和管理,其他紙本館藏都將存入國家/地區級的倉儲庫。未來圖書館資源競爭將是以“非正式出版物”為核心的特色館藏競爭[2]。武漢大學圖書館副館長張洪元也提出,圖書館要實現特殊化,體現圖書館特別的理論與價值,就要加強特藏建設、提供特藏空間[2]。
因此,伴隨著整個社會數字化遷移的過程,國內很多圖書館非常關注特藏資源建設,并且在充分考量現有資源特點的基礎上,強化本館資源特色,著力特色資源庫以及特色數據平臺的建設。據2016年的一項調查顯示,所調查的我國179所高校圖書館中有98所擁有特藏資源庫,占比54.7%[3]。其主題范圍涉及到古籍、民國文獻、地方文獻、地方戲曲、文史資料、非物質文化遺產等。但在資源的記錄與揭示上,這些數據庫多是基于書目數據庫的題錄、電子全文、照片、聲像、視頻等數字化的資源集合,很多數據庫中的知識未能得到充分揭示。僅有少數圖書館將數字人文理念和技術結合進特藏資源數字化建設中,并且取得了一些進展,使許多本習以為常的數據,在經過深度挖掘和關聯后,展露出了新的內涵和本質特征。因此,數字人文相關技術在特藏資源建設中的運用亦越來越多地引起圖書館界的關注。

表1 上海地區圖書館特藏資源數字人文建設情況
在國外,數字人文研究多以高校和圖書館為依托,為各類數字人文研究項目提供豐富的數據支持。據美國《圖書館管理雜志》2013年1月登載的一項調查報告顯示,截至2012年11月,全球已有近100個正式的數字人文中心,其中大約有一半在美國。這些數字人文中心約有半數坐落于圖書館內,另有1/4與圖書館保持著某種非正式關系[4]。到了2016年,美國已有41%的圖書館為數字人文項目提供特別服務,17%的圖書館中設有數字學術中心,為多種學科提供支持,5%的圖書館設有專門為人文學科服務的數字學術中心[5]。典型的案例有:美國普渡大學(Purdue University)圖書館利用GIS技術從研究合作、學習支持和活動推廣3個角度提供支持人文及社會學科的服務[6]。美國密歇根大學圖書館參與數字人文項目“Using the Digital to Read Literary Texts in Context”,對20世紀初加利福尼亞地區雜志中的地域文學小說進行整理、篩選及可視化[7]。愛爾蘭的都柏林圣三一學院(Trinity College Dublin)圖書館在發起數字人文項目“The Mary Martin Diary”時,充分利用了圖書館的溝通技巧、項目管理技能、數字化工具和技術以及其他在線資源的使用,為這個多學科合作項目提供了人員、資源及技術保障[8]。
在國內,數字人文項目及相關的實踐雖然引起了一定的關注,但實踐案例主要還是集中在研究機構或人文領域,圖書館應用數字人文相關技術來進行特藏資源建設的實踐案例相對來說還比較少。以上海地區為例,調研的29家高校圖書館中,有19家具有本館特色資源,已建和在建的特藏資源庫達到44個[9]。但是,僅有4家在特藏資源數字化建設中應用了數字人文的相關技術。另外,上海圖書館由于長期的積累,特藏資源豐富,尤其是名人手稿、家譜、地方文獻等,在特藏資源的數字人文建設中,可以說是起到了非常重要的引領作用,具體見表1[10]。
具體分析上海地區圖書館特藏資源數字人文建設情況,一般都是以數據庫或數據集的形式開展,主要集中在文學、藝術、語言學、古籍、歷史文化、檔案等人文領域。就數字人文相關技術而言,應用較多的有規范控制、文本挖掘、關聯數據、信息可視化等。
(1)規范控制是圖書館編目控制中的重要一環。例如,利用人名規范可以方便集中同一責任者的不同著作,也能匯集同一著作的不同版本或譯本。以上海圖書館的“人名規范數據集”為例,作家魯迅的筆名多達100多個,只要建立一個規范檔,就能將魯迅以不同筆名發表的文章都集中在其詞條下。而要將同一人的很多信息集中在一起,就要設置這個人唯一可被機器讀取的標識符,用HTTP的URI表示。這個唯一的標識符,不僅可以是人名,也可以是地名,在互聯網上具有唯一性。
(2)文本挖掘技術以非結構化的文本數據為研究對象,能夠實現從海量的非結構性文本中發現新的模式、規則、趨勢等,為用戶非結構化的文本挖掘與分析研究帶來便利[11]。文本挖掘技術一般在文獻與目錄的研究項目中應用較多,可以方便地實現資料查詢、計量分析、統計等功能,實現文獻的深度利用與開發。以上海財經大學圖書館的“數字人文知識發現平臺”項目為例,通過數據挖掘,可以盡可能全面地揭示電影資源附著的各類信息,并以時間軸、數據地圖、對比的方式呈現數據[12]。
(3)關聯數據是一種已經發展成熟的語義技術實現方式,可以把散落于不同文獻的人、地、時、事關聯起來,形成完整的知識圖,以可視化的方式展示。例如,上海圖書館的“上海年華”項目,主題較廣,涉及到的文獻有報刊、手稿、照片、名人檔案、地圖、地方文獻等資料,上海圖書館正是利用關聯數據技術對館藏特色資源進行全方位的整合,以立體的方式呈現出各事件之間的關聯性。
(4)信息可視化是指從數字資源中發現特定知識并用圖形化方法呈現,并顯示文本中隱含的內容和關系,如GIS技術與地圖繪制等[13]。例如,華東師范大學圖書館的方志庫,利用可視化技術將方志文本中復雜或難以表達的內容,以視覺符號或圖表的形式表達出來,為人們提供一種理解海量復雜文本的內容、結構和內在規律等信息的有效手段,使研究者視覺認知、關聯、推理的能力得到充分發揮。
我們應該看到,數字人文應用在特藏資源數字化建設中取得了一定的成就,在一個項目建設中綜合運用多種數字人文相關技術的情況越來越多。但是,在為人文研究提供了許多便利的工具和方法的同時,許多相關的應用還不是很完備,尤其是對“如何建”“怎么建”等相關問題考慮還不是很成熟,對人文學者研究沒有真正起到幫助作用。以上海外國語大學圖書館的“俄羅斯文學特色文獻數據平臺”項目為例,數據檢索結果可以顯示各數據庫的列表形式展示給用戶,雖然可以清楚看到來源數據庫,但對用戶幫助不大[14]。如果能將資源以更符合用戶需求的條件排序,并能去除其中的重復數據,則可以進一步提高用戶的研究效率,擴展其研究視野。
另外,上海地區其他圖書館在特藏資源建設上應用數字人文相關技術的情況還不是很多,為此筆者進行了相關調研。結果顯示,67%的圖書館對數字人文理念及相關技術還不是很了解;78%的圖書館表示目前本館缺乏既懂數字人文技術、又對人文學者研究需求熟悉的館員;35%的圖書館在特藏資源建設應用數字人文相關技術方面有規劃,但是還未制定出相對成熟的具體方案。調研結果從一個側面反映了目前圖書館對數字人文理念和相關技術還需要深入了解,圖書館缺乏相應的人才儲備。雖然如此,許多圖書館還是計劃在特藏資源建設中結合人文學者的研究需要,嘗試數字人文技術的相關應用和研究。
上海師范大學圖書館在確定了以數字化的特色館藏服務教學和科研的目標以后,擬將館藏民國文獻的整理與研究作為突破口,把“原版民國時期文獻”和建國后出版的“新版民國時期文獻”(包括編校、再版和影印出版)結合起來,建設一個能充分揭示民國時期文獻及整理成果子目內容的目錄數據庫——“民國時期文獻目錄數據平臺”(以下簡稱“數據平臺”),以有效促進人文學者對民國文獻的分析和研究,并使民國文獻整理出版和采集有章可循。
當前民國時期文獻及其整理成果豐碩,本研究通過全國各大圖書館的館藏目錄、各民國文獻主要出版機構目錄等途徑收集的“新版民國時期文獻”近1 000種。但是,到目前為止,尚沒有一個關于“新版民國時期文獻”的目錄數據庫。“數據平臺”將擴展民國時期書目整理的時間外延,首次全面普查1949年后民國文獻整理出版成果,把握民國文獻出版整體情況,揭示已整理出版的民國文獻中所收錄圖書、報刊和檔案的子目內容,彌補解放后民國文獻的整理出版無書目可查的缺憾,可以使民國文獻的書目索引編制更加完整,并具有可持續性。
另外,數字人文相關技術可以有效揭示“新版民國時期文獻”與“原版民國時期文獻”之間的關聯性,有利于發現民國文獻整理是否過于集中于哪些類目,哪些文獻類型或者哪些文獻被重復、過度整理,哪些文獻一直未被重視、甚至被忽視,從而找到并發現文獻整理出版的趨勢和軌跡,便于出版社和圖書館制定出版計劃或進行采購決策。而且,通過數字人文相關技術的應用,可以揭示某一人物、某一事件或某一學科研究進展之間的關聯,并以可視化的方式呈現,幫助學者快速地從海量的數據中發現新的知識,發現人物關系、事件發展脈絡以及某一學科發展軌跡。因此,本項目應用數字人文技術,主要是解決3個方面的問題:一是解決數據檢索、文本對比和文本標注的問題,將人文學者從低水平的重復工作中解放出來;二是基于數據的量化統計和分析研究,對內容數據進行關聯;三是對知識進行多維度呈現,為學者提供一種新的角度來解決問題或發現新問題。
“數據平臺”建設之初,項目組首先邀請到相關領域的專家進行論證,主要是考慮如何建的問題,即如何用數字人文相關技術建立一個多元的、可供分析的“數據平臺”來達到建設目的。
(1)需要建立規范檔
民國文獻出版具有一定的特殊性,如出版地、出版機構名稱變更的情況普遍,民國期刊停刊、復刊、出版周期不固定等情況較多,還有就是著者筆名尤其多。因此,建立規范檔就成為先決條件之一。除了常規的主題規范、文獻類型規范以外,需要對名稱進行規范,尤其是對同名的不同責任者以及同一責任者的不同筆名進行消歧與合并。
(2)具備數據關聯和分析功能
民國文獻中所涉及的人、地、時、事等都具有千絲萬縷的關聯,如果按時間、人物、地點及出版機構等進行多重關聯統計分析,就能夠快速地從海量的數據中發現新的知識,發現人物關系、事件發展脈絡以及出版發展軌跡等。
(3)具備可視化功能
應用可視化工具,能夠為民國時期的出版史研究、文獻版本研究乃至各個學科的專題研究提供較為直觀的分析,把傳統數據庫的檢索結果變成用戶可以開展自主分析的基礎數據,把傳統數據庫檢索結果的平面式輸出轉化為立體化的全方位時空呈現。
(4)具備數據的后續更新和維護功能
“數據平臺”不僅能錄入數據,也應便于查重,實現新版本追加、自動排序以及索引編制功能,解決數據的后續更新和維護問題。另外,還需要具有開放性,為以后進一步增加全文提供接口。
建立“數據平臺”的基礎數據,首先主要是依托《民國時期總書目》和《1833—1949全國中文期刊聯合目錄》及其補編本,以及本項目收集到的“新版民國時期文獻”相關子目。
“數據平臺”的定位不僅僅是儲存與檢索,其既要為人文學者提供研究環境,并幫助他們重新組織知識、發現問題,還要為出版社和圖書館提供出版或采購依據。因此,在項目啟動之初,關于如何利用圖書館現有的人力、物力以及資源條件,將數字人文相關技術應用于“數據平臺”,成為項目亟需解決的問題之一。
(1)共享開放的規范數據集
名稱規范檔的建立是“數據平臺”建設的基礎,也是最重要的環節之一,但是目前利用圖書館現有的人員和技術條件很難實現。因此,在建設時,項目組大量調研了上海地區其他圖書館,尤其是上海圖書館的特藏資源數字化建設,在對規范數據充分了解的基礎上,加強與上海圖書館的合作,利用其開放的人名規范數據集,首先進行先期的規范檔建立,并且在合作共享的基礎上,逐步實現對出版機構等其他相關規范檔的建立。
目前,“數據平臺”已搭建完成,大量基礎數據正在錄入。對于文獻作者,以及題名、摘要中的人名,則直接進入上海圖書館人名規范庫獲取其URI,然后進行著錄。例如,《哲學概論》一書的作者陳大齊,通過規范庫的檢索,其人名URI值為http://data.library.sh.cn/entity/person/p7sfh4jcd1mfa4vt,“數據平臺”就將此URI直接錄入。對于有多個筆名或別稱的作者,如冰心,原名謝婉瑩,筆名冰心女士、男士、素人,所有這些名字的URI賦值都是一致的,均為http://data.library.sh.cn/entity/person/05ebng66w4qjnkhg。
(2)數據關聯及文本分析功能的實現
“數據平臺”在底層數據集建立時,通過對基本數據集、原版數據集、新版數據集和新版子目數據集4個相關子庫所共有或特有的元數據進行規范,并對其關聯性進行確定,從而建立彼此之間的多重關聯關系。因此,利用“數據平臺”可以開展基于數據挖掘的文本分析與統計。
目前,“數據平臺”規范的元數據包括文獻目錄(含內容提要)中的人名、地名、學科主題、原版及新版出版項等信息,可以利用“數據平臺”提供的檢索和分析功能進行文獻主題分布、出版地分布、作者分布、年代分布等分析,并且還可以利用這些信息進行組配式的關聯分析。例如,通過對著作的主題、出版時間分析,揭示某一學術領域的研究或某一學術流派在民國時期的學術史;通過作者及其著作出版時間的分析,勾勒出作者的學術軌跡和學術生平等。又如,如果想要獲取“民國時期敦煌學研究”的相關信息,通過作者與主題的匹配分析,可以看到敦煌學的早期研究者的基本信息,其中,陳垣為中國歷史學家、宗教史學家,向達為中外交通史家,羅振玉為金石學家、考古學家,劉復為語言學家,張大千為畫家等,正是因為這些學者利用敦煌文書提供的原始資料開展各自學科領域的研究,從而推動了敦煌學的起步和發展,并讓敦煌學發展成為一門世界關注的顯學。
(3)可視化工具的應用
可視化工具在“數據平臺”的應用,主要體現在文本分析的可視化和GIS技術的應用上。文本分析的可視化,仍然以“民國時期敦煌學研究”為例,通過學科主題結合時間范圍的分析,能夠繪制出敦煌學在1908-1949年間學術論著發表數量柱狀圖,以此體現敦煌學研究的發展情況,具體如圖1所示。

圖1 民國時期敦煌學研究論著數量
GIS技術在“數據平臺”的應用,主要是通過“中國歷史地理信息系統”(CHGIS)建立地理信息關聯,將地圖的視覺化效果、地理分析功能與“數據平臺”中的地名信息相結合,在中國歷史地圖之上,疊加整合,實現時間和空間兩方面的直觀檢索,提供文獻的出版地分析、作者的地域分布分析以及出版的時空變遷分析等[15]。通過地圖直觀顯示文獻的出版數據,按時間先后順序自動生成地域出版文獻數量、出版機構分布、出版機構遷徙流動路線圖等,實現檢索結果、分析結果的電子地圖呈現。
(4)數據可編輯功能的實現
考慮到出版信息在不斷增加,開放數據接口,可供出版社和圖書館按照平臺要求的格式添加數據,以防止提供數據不準確和完整。因此,在數據提交時,平臺設計了審核流程,以備對數據進行不斷的完善和補充。
在數字人文視域下,圖書館特藏資源的數字化并非必須具備非常成熟的數據人文理念及技術,而是要根據本館現有的條件,同時充分調研人文學者的研究需求,制定具有可操作性、符合本館資源特點的數字化方案。在實際建設時,對于數字人文相關技術的應用,可以考慮先易后難,逐步實現和完善。另外,對于各方面制約和限制,需要前期進行充分論證是否可以通過其他方式得以解決,如人員、技術支持、項目管理、數據保存、元數據選取等。本項目組在“數據平臺”建設中,對于這些關鍵問題的解決體會頗深。
首先是團隊建設。上海師范大學圖書館雖然缺乏熟悉數字人文技術的專業人員,但是通過近些年的積累,不論在民國文獻的整理與研究,還是在研究團隊培養方面都已具有一定的基礎。團隊成員大多是具備文獻整理及相關領域知識背景,了解人文學科發展現狀及態勢的專業館員。因此,對“如何建”以及“怎么建”具有一定的思路和創新想法,可以通過學習彌補在數字人文理念和相關技術應用方面的不足。在項目組制定出“如何建”的思路之后,團隊成員就通過參加數字人文會議、調研和聽取數字人文講座等方式,加強對數字人文的理解,并且結合其他圖書館的相關案例,制定符合本項目特色的解決方案。
其次是合作眾籌。雖然數字人文研究在很大程度上依賴于掌握數據處理技術的專家,但是,在“數據平臺”建設時,在技術準備不充分的條件下,項目組沒有坐以待斃,而是考慮先期使用成熟、穩定的開放數據集,與在數字人文項目方面有成功經驗的團隊進行合作共享。首先利用上海圖書館的“人名規范庫”,然后在合作中,通過不斷的學習和積累,尋求其他相關規范庫的建立。另外,對于項目實施,尤其是平臺設計和基礎數據錄入時,需要大量的人力和物力的情況,則通過眾籌的方法,把技術難題分解,分包給其他有經驗的專業團隊,各個擊破。例如,“數據平臺”的設計,主要是請有經驗的專業人員進行,團隊成員與專業人員通過不斷溝通和測試,進一步完善設計思路和方案;數據錄入則是外包給專業的數據公司,在確保錄入速度的同時,為了保證質量,團隊成員主要是做好專業指導和抽校工作。
再次是營銷工作。這項工作很重要,但也容易被忽視。試想如果“數據平臺”建成以后缺乏宣傳與推廣,或許會導致利用率不高、達不到最初建設目的的尷尬局面。反之,如果能對“數據平臺”的建設加大宣傳力度,不但可以提高使用率,也可以在目標用戶群中形成上海師范大學圖書館民國時期文獻特藏資源的既定印象,從而匯集到更多的民國文獻資源,更加促進圖書館特藏資源的建設。對此,在項目建設前后,上海師范大學圖書館借助多方渠道,加強對民國時期文獻的整理與研究,以及“數據平臺”的推廣,以此獲取圖書館界、出版界和學術界等其他相關機構的支持和幫助。例如,利用上海師范大學圖書館承辦上海高校圖工委刊物《上海高校圖書情報工作研究》的機會,增加“民國文獻整理與研究”固定專欄;在“國家圖書館民國時期文獻保護工作辦公室”的指導下,與上海圖書館、國家圖書館出版社加強合作,舉辦“民國時期文獻整理與研究國際研討會”等。這樣不但可以讓圖書館界或學界知曉上海師范大學圖書館在民國文獻整理與研究方面的作為,而且還可以從資金、資源和技術實現等方面獲得其他機構的幫助,從而輔助本項目的具體實施。更重要的是,可以讓更多的人文學者了解到“數據平臺”建設的重要性以及對相關研究的支撐作用。
最后,在“數據平臺”建設中,項目組還特別強調元數據創建、管理及映射方面的工作,爭取與現行通行標準一致或與國際標準接軌,以便于知識發現。例如,在項目實施時充分考慮到《民國時期總書目》和《1833—1949全國中文期刊聯合目錄》及其補編本的分類排序規則,同時還參照目前國家圖書館正在編纂的《民國時期文獻總目(圖書卷)》進行分類、標引與著錄,使“新版民國時期文獻”目錄與《民國時期總書目》保持基本一致的體例和詳盡的著錄內容。另外,在元數據保存方面項目組也非常注意平臺資源的合法性,書目數據庫中的字段以及文檔結構中獨特的排列方法使用是不是受到版權保護,有沒有侵犯原創作品的版權等問題都咨詢相關專家意見,以免招致不必要的法律糾紛。
數字人文技術的發展給傳統人文領域的研究帶來了新的活力,“數據平臺”的建設及數字人文相關技術在民國文獻領域的應用實踐,給研究者帶來了新的視角,也為數字人文在特藏資源數字化建設上增添了一個新的案例。國內特藏資源數字人文項目中,由圖書館支持或開展的成功案例還比較少,過程中必然會遇到各種挑戰,尤其需要計算機及多媒體領域的技術專家來不斷優化知識組織方法和知識服務功能。在當前數字人文的大趨勢下,圖書館需要借鑒一些成功的案例,或是尋求與其他在數字人文研究及服務方面有成功經驗的圖書館的合作,或是用眾籌的方法來解決技術難題,又或是積極參加數字人文國際會議加強經驗交流。
目前,“數據平臺”已錄入部分數據,各項功能正在測試完善中,仍然需要進一步摸索,在其運行一段時間后,將邀請相關專家再次評估。如果運行效果好,下一步將考慮在目錄數據庫的基礎上進一步擴展數據內容,尋求相關合作,最終增加全文;如果效果不佳,對人文學者研究的影響或推動不盡如人意,則繼續考慮應該如何改進等,這些問題都會是下一步團隊反思和研究的重點。