李妲


關鍵詞:數字人文;檔案編研;編研主體;編研素材;數字倉儲;多元化;可視化
數字人文(Digital Humanities)于21世紀初逐漸興起,[1]是指將計算機技術與人文學科進行深度融合,以可視化分析、大數據挖掘、知識圖譜關聯等為代表的相關技術作為重要研究方法的交叉研究領域。從數字人文視域探討檔案編研模式問題,通過借助數字人文理念、技術與方法,將有助于在檔案編研中提升選題、選材的科學性,使檔案內容實現深度挖掘,最終使檔案編研成果在內容呈現上更加豐富,從而充分發揮檔案的各種潛在價值。
1 文獻回顧
國內外學界對檔案編研模式研究主要呈現的特征包括等主體、理念、技術三個方面。
在檔案編研模式所涉主體方面。傳統環境下檔案編研模式主要以檔案部門獨立編研或是與機關單位合作編研的模式為主,受限于主體思維單一性,很難對檔案資源進行深入挖掘、分析研究,[2]選題上也存在明顯局限性,主要以大事記、文件匯編等內容為主,未能充分利用信息技術擴大編研主體范圍,[3]吸收公眾參與檔案編研,構建新范式下公眾參與的檔案編研模式。[4]
在檔案編研模式所持理念方面。數字人文基本活動主要包含對檔案、資料等各種資源的儲存、分析、建模等工作,[5]在已開展的數字人文工作中,已有不少結合檔案存檔、收集和保存的研究。[6]因此,檔案編研模式也須順應趨勢,改變編研理念,如把眾包模式引入檔案編研工作,營造社會化的編研氛圍。[7]并且,還可引入價值共創理念,構建以用戶為主導邏輯的檔案文獻編研模式,以此增強檔案編研用戶的參與感,促進檔案編研質量的提升。[8]
在檔案編研模式所用技術方面。數字人文科學提出了一個新興的跨學科框架,[9]運用數字技術參與檔案信息資源采集、分析、呈現等全過程[10]處理,促進檔案內容深度挖掘,提升檔案編研質量。將數字技術融入搜索、加工、展示等檔案編研工作的相關層面,[11 ]有助于提升編研工作的效率。
綜上所述,目前國內外檔案界對檔案編研模式的研究主要集中在探討檔案編研模式的新策略,有少數成果涉及數字人文理念、方法等。本文通過分析檔案編研模式現狀,結合數字人文相關理念及技術,構建了數字人文視域下的檔案編研模式,提出了相應的實現策略,為檔案編研提供參考。
2 檔案編研模式現狀分析
傳統環境下的檔案編研模式已難以適應新時代檔案編研工作的發展需求,并在一定程度上成了新時代檔案編研進一步發展和突破的阻礙。[12]
2.1 檔案編研模式的類型。檔案編研模式可分為獨立編研模式和合作編研模式兩種類型。
獨立編研模式在檔案編研工作中占據主導地位。北京市各市屬機關和檔案機構的編研成果中以檔案部門自編的有687種,占90.51%,與其他部門合編的有72種,僅占9.49%。[13]選題上主要涉及重大事件類、文化類、經濟與城市建設類等,如《北京的名園名山》《檔案中的北京文化》等書籍,服務對象主要為各級各類黨政機關或單位及專家學者,面向社會公眾的成果較少。[14]
就合作編研模式而言,檔案界尚未形成常態化的合作開發機制,[15]合作編研成果占比較小,合作模式在當前編研模式中并非主流。此外,從合作模式主體構成來看,主要為檔案館館際之間以及檔案館與機關機構之間,編研成果主要以史料、文件匯編等出版物或是網絡圖文展覽等為主,與獨立編研模式所形成的成果并無太大區別。如自1949年以來,廣西文獻編研的合作成果主要包括有廣西區檔案館與中央檔案館合編的《廣西革命歷史文件匯集1926-1936》,區檔案館與廣西區民族事務委員會合編的《廣西民族工作檔案選編1950-1965》,區檔案館與廣西書畫院一起攜手編輯的 《紀念廣西壯族自治區檔案館成立五十周年書畫作品集》。[16]
總之,當前我國檔案編研工作中合作編研模式不僅開展少,而且合作對象也較為單一,與數字人文所倡導的跨界、跨領域的合作理念不相匹配。
2.2 檔案編研模式的理念。在選題、選材理念方面,目前還是滿足資政參考、檔案業務、史學研究等內部工作需求為主,社會化編研選題較少,選題較為單一。編研選材上,其內容集中于政務文書,[17]具一定的局限性。
在編研方式理念方面,獨立與合作的編研模式均存在一定的問題,如圖1所示,且存在編研成果物理載體的局限性。在提供利用的方式上主要以用戶到檔案館利用或是將編研成果出版物掃描上網,提供網絡展覽的形式為主。
目前,我國數字化檔案資源已經有了巨大的存量,2019年全國各級國家綜合檔案館館藏電子檔案已達到11 9.3萬GB。[18]隨著我國文件“單軌制”的持續發展推進,必將大力推動檔案編研方式進行數字化轉型,使編研工作能夠合理根據研究需要,提供個性化、智能化和可視化的編研成果,活化檔案館藏、拓展界域,實現資源增值與文化共享。[19]
3 基于數字人文視域的檔案編研模式構建
該模式與傳統環境下檔案編研模式主要區別是編研主體構成上更為多樣,可達到主體跨領域合作、公眾參與、容深度挖掘的目的。
3.1 編研主體層。主體由檔案機構、數字人文研究團隊和社會公眾構成[20]。檔案機構的任務主要體現在標準規范、整合優化資源、組織合作隊伍、打通公眾交互渠道等方面。數字人文研究團隊則將計算機技術融入檔案編研過程中,實現數據采集、處理等。公眾參與檔案編研主要承擔協作式檔案信息分析和輔助式研究開發工作,[21]通過交互平臺積極與檔案館、數字人文研究團隊溝通,反饋成果的利用體驗。
3.2 數字倉儲層。數字人文倉儲即基于知識本體的數字檔案資源的采集、加工、組織和保存,[22]包含數字檔案資源集合,以及對數字檔案資源進行加工處理的各類程序。
數字檔案資源集合是合作編研主體之間經過數據采集后形成的數據保存倉庫。利用數據挖掘工具從數字檔案資源集合中將與檔案編研主題相關的數據進行收集,并對收集后的數據進行分析處理。數據分析的過程主要分為數據提取過程和數據處理過程,可利用自動分類聚類工具、資源描述框架工具(RDF)等可視化分析工具進行處理。
3.3 內容詮釋層。內容詮釋層即利用關聯數據所要表現出來的具體事件進行內容呈現,根據數據所揭示出來的各類事件或是知識點探尋檔案編研的選題和選材。
經過數字人文倉儲的數據挖掘和數據分析程序后,數據之間已建立關聯特征,關聯數據可為某個事件、某個知識點或是某個事實的描述。[23]對此,可利用模型工具、主題分析、聚類分析等方法對關聯數據所描述的內容進行詮釋,通過解釋分析知識圖譜和數據報告找到編研選題和選材從而形成編研成果。如上海市圖書館主導的家譜知識服務平臺利用了關聯數據技術將《中國家譜總目》收錄的六百多個姓氏進行了數據處理,多部家譜數據由此建立了數據關聯,隱含在不同家譜文獻中的知識被有機地組織了起來,梳理出了家族的可視化遷徙圖。
3.4 成果呈現層。成果呈現層利用數字人文方法及技術體系以實現視覺化和知識化服務。
數字人文研究主張跨領域合作理念,數字人文視域下的檔案編研模式由不同領域的合作編研主體構成,通過搭建數字人文倉儲對數據進行分析處理,將編研成果內容進行可視化呈現的模式,正是將數字人文理念與數字人文工具深度融合實現對檔案內容充分挖掘的過程。
4 數字人文視域下檔案編研模式實現路徑
數字人文視域下檔案編研模式以更為創新的思維,以人文研究為導向,更好地實現編研成果的利用服務。
4.1 編研主體多元化的合作。伴隨著數字人文研究項目的不斷發展,檔案機構可尋求多方支持。哈佛大學主導開展的“中國歷代人物傳記資料庫(CBDB)”[26]項目,融合了哈佛大學費正清研究中心、我國臺灣中央研究院歷史語言研究所、北京大學中國古代史研究中心等眾多檔案、歷史、計算機領域的數字人文研究專家,為該項目順利開展提供了強力支撐。以眾包模式吸收公眾成為編研主體也是合作的重要形式。類似做法在圖書館界已有了成功的案例,如上海市圖書館通過眾包項目建設了歷史文獻眾包平臺、驗證碼項目[27]。
4.2 編研素材多維度的融合。利用本體語言設計理念、數據清洗、概念模型工具對各類編研素材進行知識組織,使之聚類與重組,形成多個專題數據庫,從而實現對編研素材的優化、融合。如“影谷項目”的開展聚合了美國南北戰爭期間從“戰爭前夕”到“戰爭期間”再到“戰爭過后”各個階段的各類信件、日記、報紙等全部素材,海量素材經過優化融合后為人文研究提供了重要的參考文獻。[28]
4.3 編研理念多元化的敘事。數字人文項目的目標導向關注補充多元敘事視角,聚焦隱性內容挖掘。[31]檔案機構可開展案例試點工作,將與編研主題相關的數字檔案資源進行數據挖掘,利用語義分析工具、資源描述框架(RDF三元組)、數據自動批處理、地理信息系統工具(GIS)等技術將其進行數據關聯,形成“以點帶面”的形式,在日后其他的檔案編研工作中,讓關聯數據的規模不斷擴大,讓更多的隱性內容得到挖掘。如“威尼斯時光機項目”,從2012年推出至今已歷時11 年,項目內容每年都在增加。項目組通過利用關鍵詞建立不同類型文檔的鏈接,這種大量數據之間的交叉引用將信息組織成一個巨大的關聯數據資源庫,[29]海量信息資源進行關聯組織后便可不斷發現新的研究線索,項目的規模也隨之不斷擴大。
4.4 編研技術可視化的應用。充分運用虛擬現實技術(VR)等相關技術構建具有歷史厚重感的線上線下虛擬展廳,實現感官的體驗效果,如美國國家航空航天局(NASA)與阿波羅計劃檔案館利用VR技術在USA Today網站上提供了體驗式的服務,用戶進入該網站通過VR可體驗到月球漫步的感覺。[30]同時,建立編研成果利用平臺。通過知識圖譜、詞云、電子書籍等形式過強檢索功能。如美國馬里蘭州檔案館開展的奴隸制文化遺產項目形成的在線可視化網站,對250多例黑奴案例故事進行了可視化展示,[31]呈現的形式有電子書籍、圖片集、音視頻以及利用地理信息系統(GIS)構建的可視化地圖。既滿足了普通公眾視覺化的體驗,也滿足了學者們知識化的研究需求。
數字人文檔案編研模式是多元化合作編研選題、選材,形成可視化編研成果,充分發揮檔案價值的有效路徑,有待開展更深入的理論和應用研究。