蘇依紋/四川大學公共管理學院
數字人文項目運用數字技術關聯文獻、擴展內涵、整合開發人文資源,其開發模式受眾多人文研究者青睞[1],全球范圍內在CenterNet上注冊的數字人文研究中心已達200多家[2]。圖書館、檔案館作為文獻與信息資源的保存與供應方,亦參與發起數字人文項目。但相較于圖書館等文獻機構,檔案機構主導的相關實踐明顯不足,有待形成更為完備的方法框架并借助數字人文理論、方法及實踐,推進檔案信息資源開發利用的數字轉向。
檔案機構主導數字人文項目,從實踐情況看,檔案機構主要基于館藏參與歷史保存、記憶構建類數字人文項目,很少主導設計數字人文項目開發并負責主要的管理工作。在大部分數字人文項目中,檔案館館藏與其他機構文獻資源共同構成項目資源基礎,被數據化后在數據層進行融合關聯。除了資源貢獻,檔案機構也著手從方法層面展開系統的項目實踐探索,如廣州市城建檔案館于2002年開發廣州記憶工程[3],歐洲數家檔案館與其他記憶機構聯合設計歐洲大屠殺研究基礎設施項目(EHRI)[4],然而相關實踐尚未形成規模。從理論研究看,成果主要有國外典型數字人文項目對我國檔案資源開發利用的啟示[5-9],數字人文項目中檔案信息資源、地方特色檔案、檔案記憶資源整合模式與開發路徑研究[10-14],數字人文與檔案工作的關聯路徑、影響研究[15-18],數字人文視域下具體技術應用案例研究如檔案信息挖掘、關聯數據技術[19-21]等。
國外檔案機構已開始利用自身館藏、人員探索主導開發數字人文項目,而國內學者尚未充分立足檔案機構主導情境研究數字人文實踐方法。本文以馬里蘭州檔案館奴隸制文化遺產項目為例,使用文獻調查法、案例分析法描述馬里蘭州檔案館主導開發數字人文實踐的關鍵方法與宏觀導向,依此得出可供借鑒的經驗,以期為我國檔案機構主導開發數字人文項目提供應用理論依據。
從檔案館歷史與館藏來看,馬里蘭州比其他州擁有得天獨厚的奴隸制文化資源開發條件。馬里蘭州由地方管控檔案,在美國南北戰爭時期沒有脫離北方聯盟,因此沒有被軍事占領[22],檔案保存完好。馬里蘭州檔案館中有關奴隸制的館藏豐富,具有良好的開發基礎,奴隸制文化遺產項目應運而生。項目的最終目標是形成在線可視化的反抗奴隸制歷史門戶網站,并利用數字技術拓展更多的關聯與研究角度補充敘述被奴役者缺失的歷史。項目目標并非一開始就得以明確,而是源于志愿者的日常工作。最初檔案館志愿者杰里·海森(Jerry Hynson)發現了刑事訴訟卷中巴爾的摩縣法院的教唆黑奴逃逸案審理文件,工作人員出于興趣開始利用文件系列進行案例研究,目的是發現幫助奴隸逃逸或反抗的“無名英雄”。隨著研究范圍擴大又逐步演變成對特定地理區域內被奴役或自由社群反抗奴隸制情況的考察,之后項目在數字技術、計算思維的輔助下形成更廣闊的研究視野,顯現出數字人文項目的特點與形式。
奴隸制文化遺產項目開發總體上經歷了三大流程:(1)資源匯集與數字化。自2001年起,馬里蘭州檔案館員工查看并檢索了館藏中16個縣和巴爾的摩市檔案,從總共30多個檔案系列中提取、整理了有關黑奴生活經歷的信息。項目開發中使用到的文獻類型包括但不限于已出版文獻資源、案例研究資料、檔案系列中的財產估值清單、人口普查數據、自由證明等。(2)數據整合。在數字化與轉錄工作完成后,檔案館將單獨數據表集成于自行開發的數據工具MDSlavery.exe中,該工具依靠Apache Spark開源框架搭建集成數據管道,有效解決了分批轉錄數據重復操作問題,其核心程序包括:數據聚合,將工作人員轉錄的數據合并到一個數據幀中;數據清理,使數據集中的每個字段架構一致,達到可進行可視化分析的質量;數據存儲,數據清除后將其存儲在MongoDB數據庫中。(3)可視化分析與數據關聯。項目組使用可視化工具進行分析,旨在更便捷、快速地探索數據并從中提取視角與數據關聯點啟發。Tableau支持自動分析統計,以及將分析結果以各類圖表的可視化形式呈現。事實上,數據關聯工作是一個貫穿全程的工作,要義是反復“關聯”,直至項目后期的匯總分析[23]。
奴隸制文化遺產項目的最終成果是一個面向公眾、家譜學者、歷史學者的網絡化研究基礎設施,即包含案例故事、數字展覽、數據庫與交互地圖功能模塊在內的門戶網站,以展示被奴役群體的集體經歷、“失憶”數據為目標。各模塊功能如下。(1)案例故事。網站上所展示的近250個案例研究是工作人員從檔案系列與相關已出版文獻中挖掘出的一系列黑人被奴役歷史中的重要事件與研究概述,相當于館藏檔案系列中奴隸故事的匯編與摘要。(2)數字展覽。即馬里蘭州檔案館于2010年至2011年間完成的馬里蘭州五縣“地下鐵路”逃脫故事展,是其案例研究成果之一,反映了“地下鐵路逃脫運動”中出逃的奴隸、奴隸主、協助者之間的復雜關系。(3)數據庫。這是一個在線檔案資源庫數據庫,集中了馬里蘭州所有有關奴隸制生活館藏的數據化成果。其數據條目描述了1830年至1880年的40萬個個人,其中包括黑奴、自由黑人、奴隸主、普通白人等。數據庫支持對姓名、年齡、所屬、文件類型等字段的檢索,且可對檢索結果進行過濾,過濾屬性包括年份、地區以及檢索對象的健康狀態、讀寫能力等。(4)交互地圖。這是所有功能模塊中最具有“數字技術+人文”特色的模塊,體現了項目關聯數據的思維與可視化技術的良好運用。用戶可在地圖上點擊縣區域查看該縣地圖。點擊不同區域可以獲取更為詳細的地圖,地圖指向人物與地理實體,包括居民、教堂、學校、工廠、城鎮等。點擊信息標題可以獲取地圖來源檔案文件指示信息,也支持鏈接到有關案例研究。此外,地圖也支持人名、地圖字段的簡單搜索功能。
在奴隸制文化遺產項目中,關聯工作并非在可視化分析步驟才啟動的,它貫穿全程并要求通力合作,是檔案有機關聯與整體觀的重要體現。從初期持續進行的案例研究工作開始,項目所有參與者都負責發現視角與關聯的工作,在擴展材料敘述視角的同時也努力確保敘述的準確性。如,人口普查數據中黑奴本杰明·斯諾登(Benjamin Snowden)的記錄顯示他出生于1805年,而逃跑公告顯示其出生于1809年。這種誤差到底是當時調查的疏忽,還是表明這是不同的兩個人?這就要求項目組比對多類文件進行確認。在確認調查中能夠發現,文獻材料是基于權力機關的視角形成的,奴隸姓名記錄錯誤的現象十分常見,如奴隸主遺產清單中往往只記錄奴隸的綽號,只能依靠豐富的文獻量與強大的關聯比對才能勉強應對。目前,項目組正朝著更加細化的關聯思路、研究角度努力,開始嘗試關聯更多案例研究信息、人員、地點與事件,如將對多地新聞報紙中有關同一逃亡者公告內容的發布時差、目的地信息等進行關聯挖掘,發現奴隸逃亡路徑與協作逃亡的關鍵地點。
一方面,檔案機構的核心地位表現為馬里蘭州檔案館在項目發起、目標確定與調整、全程管控等方面都體現出最顯著的話語權與行動。另一方面,各方力量在檔案館的倡議與統籌中充分參與,提供資金、技術、人員等:馬里蘭州公共電視臺、摩根州立大學、國家歷史出版與文件委員會等為項目提供資金支持;馬里蘭大學數字人文中心與數字策展創新中心提供工具使用、數據開發與呈現方法等技術支持;馬里蘭大學數字人文中心的學生以志愿者的身份,作為開發基礎工作層面的重要參與者,除了負責基礎轉錄工作與描述任務,還參與文件關系描述、案例研究、數字成果展示方法研究等工作。如“在地下”這一學生子項目就是由學生負責從報紙上搜尋與黑奴相關的所有逃跑公告、購買通知等,并協助檔案館完成故事案例挖掘、嘗試進行文件中復雜關系的描述[24]。
首先,項目的重要服務群體是美國的家譜學者與歷史學者,其開發視角與成果功能都側重挖掘黑奴個體盡可能完整的生平信息,并期望通過數據關聯發現并詳細考察馬里蘭州反抗奴隸制的群體活動,方便學者展開奴隸族系研究及黑奴與政府、奴隸主、普通公眾間的關系研究。其次,其項目最終成果形式——網絡化研究基礎設施也大大增加了其服務研究價值。該網站的網絡化體現在將過程發現全部納入集成開放的研究基礎設施框架中,既包括數據庫類的網狀結構,在奴隸制歷史中的典型人物、事件敘述等關鍵網點也有所覆蓋且相互關聯。除網絡化的知識架構,網站內關于奴隸制信息使用的標準、政策與資源也指引俱全。但也存在一些問題,如用戶與工作人員、與其他用戶群體間缺乏溝通機制,面向用戶的社會化協作開發程度不高等。
數字人文項目的目標導向往往關注補充多元敘事視角,聚焦隱性內容挖掘,這就要求檔案部門應維護檔案有機聯系,將數據關聯工作貫穿于數字人文實踐。一是確立滿足人文研究者的主題檔案利用需求為數字人文開發的主要目標,再依據主題需求從館藏數據中提取關系挖掘目標。二是使用半結構化數據倉儲、語義分析、可視化分析、數據自動批處理等技術,輔助分析及提升關聯效率。三是將檔案有機關聯思維輻射至數字人文開發全程,甚至于項目形成前就開始進行內容關聯工作。奴隸制文化遺產項目時間跨度為20年,可以說前期的案例研究為之后的互動地圖開發的技術路線與關聯設計奠定了扎實基礎,關聯思維一直滲透到后續開發階段。我國檔案機構可在檔案編纂工作中關注內容有機聯系,也可與相關利用館藏進行人文研究的學者進行合作展開案例研究,即在深入的館藏研究后選擇獨特視角開發數字人文項目,并在之后的數字化、整合、數據關聯、可視化分析、成果建設階段不斷擴展聯系。
檔案機構的主導地位不限于檔案機構的獨自行動,而要凸顯其統籌作用和檔案話語權的顯示度。一方面,除了對資源使用的絕對把控,檔案機構在項目初始需厘清項目制度、各主體責任機制并進行流程設計,在開發各階段按照既定目標統籌各方行動并不斷更新決策規劃。另一方面,檔案機構要注重識別和利用社會各類力量。目前業務外包、高校合作已是我國檔案機構拓展業務的工作環節,在實踐過程中還可廣泛尋求與文旅部門的合作,也可采取社會眾包的形式進行。如,2016年上海圖書館發布線上眾包抄錄平臺,持續在平臺發布盛宣懷檔案抄錄任務并支持專業人員與業余愛好者對盛宣懷檔案進行在線抄錄[25]。在眾多合作主體中,高校力量起關鍵性作用,高校研究組織能夠提供專業支持來保障數字人文項目合規并提供成熟的數據分析方法、工具,還能讓學生參與進來,從這一層面來看,檔案機構完全能夠成為學生的數字人文實踐能力訓練基地。目前,我國許多高校已展開數字人文相關研究及實踐訓練,并成立專門的研究中心[26-28],已有檔案機構聯合其力量共同建設數字人文項目,如“廣州記憶數字文獻資源庫”由廣州市國家檔案館主持,中國人民大學信息資源管理學院和中國電信廣東公司協同建設[29]。
為實現數字人文所需的多層次、多維度、跨時空的資源開發利用,檔案機構要相應進行匹配化的資源建設,當前重點是構建網絡化研究基礎設施。我國檔案機構已有數字化研究基礎設施建設經驗,代表性案例是由國家檔案局主導建設的“中國開放檔案共享平臺”,其中近78萬條檔案目錄及原文數據開啟了歷史檔案信息資源“一站式”全國范圍共享的格局[30]。后續工作中,要達到更廣泛的知識關聯共享與協作開發,需要檔案機構內各管理要素的高度集合。檔案機構應開發適用于其數字人文成果形式的網絡專題平臺,在網絡平臺框架內努力以可視化形式呈現關聯后的新知識、新內容;還應詳細擬定平臺使用制度、建設標準與資源指引并予公開;再有,平臺搭建的終極目標是刺激知識融合共享,以及促進用戶與各要素間的交流,應將平臺升級為檔案機構主導設計、監督,主題知識、技術、標準等各要素涌流的協作研究平臺。