黃天嬌 邱志鵬 于雯青/云南大學歷史與檔案學院
近年來,對抗戰檔案資源的搶救性發掘成為我國檔案工作的重點之一。隨著抗戰檔案資源的發掘,南僑機工檔案作為抗戰檔案的重要組成部分備受學界關注。2018年5月,云南省檔案局推薦的“南僑機工檔案”被列入《世界記憶亞太地區名錄》[1]。因此,對南僑機工檔案資源的深度開發也成為南僑機工檔案資源開發工作的重點。數字人文技術作為近幾年新興的檔案資源開發手段,將其引入南僑機工檔案文獻遺產的開發,不僅能豐富南僑機工檔案文獻遺產的開發手段和開發路徑,也為南僑機工檔案文獻遺產的宣傳提供更為便捷的途徑。因此,基于數字人文視域,開展南僑機工檔案開發理論研究、路徑研究,對民眾重溫歷史、感受抗戰赤子功勛與不屈不撓的抗戰精神具有深遠意義。
隨著南僑機工檔案文獻遺產發掘工作的展開,南僑機工檔案文獻遺產呈現出內容豐富、載體多樣的特征。基于此,需要從多個角度、多個層次對其進行創新性建構和深度化開發,而“數字人文蓬勃發展和廣泛延展,將提供重構知識的技能和機遇”[2],恰好可以為南僑機工檔案文獻遺產的開發提供技術支持。
數字人文技術源自計算機領域,強調在多媒體技術和互聯網技術的聯合支持下,對檔案資源進行數據處理和數據標引,以在線形式展現南僑機工檔案文獻遺產全貌,為檔案資源開發利用提供深度融合思維。數字人文的計算機技術屬性,使得數字人文在檔案資源的開發過程中強調檔案資源內容的深度融合,數字人文項目踐行融合理念,可以實現檔案資源開發利用的理念革新[3]。針對南僑機工檔案文獻遺產開發而言,要融合多種技術,匯聚多元化理念進行開發。如,以3D、VR/AR/MR、沉浸式體驗等取代海報、展播等傳統展覽方式,可提升用戶的體驗感與參與度[4]。
南僑機工檔案文獻遺產數量巨大、類別多樣、內容豐富,涉及紙質檔案、照片檔案、實物、口述資料等。如,云南省檔案館保管有南僑機工檔案850卷;瑞麗市畹町南洋華僑機工回國抗日紀念館展出有2000余張南僑機工照片和4000余件實物。此外,其他機構也保存有南僑機工檔案文獻遺產。數量豐富、保存分散的南僑機工檔案文獻遺產資源需要借助新技術手段跨時空的便利來開展深度挖掘。數字人文技術的跨時空效應可以滿足南僑機工檔案文獻遺產集中整理發掘的要求,數字人文技術的跨時空工作也為南僑機工檔案文獻的高效開發提供了技術支持。
數字人文技術與南僑機工檔案文獻遺產的結合,除了能豐富檔案資源開發形式以及提升檔案資源開發效率以外,數字人文技術將文檔、圖片、視頻資源一體化開發體現管理的優勢,也在提升南僑機工檔案文獻遺產的開發效果方面有突出表現。具體來看,南僑機工檔案文獻遺產與數字人文技術的結合在資源開發效果上有以下表現:一是資源整合與共享,利用一定的技術手段,加強檔案館與博物館間的機構協同合作,促進館藏資源的整合與共享,盤活館藏資源,為目標群體提供便捷、精準服務,提高館藏資源利用價值。如利用數據庫技術構建網絡平臺,整合云南省檔案館館藏南僑機工檔案與其他地區南僑機工檔案文獻遺產資源,以“資源賦能”思維,為社會提供便捷服務。二是體驗改進與優化,利用虛擬現實技術、增強現實技術等,改變傳統陳展、海報等宣傳方式,打造沉浸式場景,增強南僑機工檔案文獻遺產開發效果。
目前南僑機工檔案文獻遺產分散保存在多個機構當中,沒有實現集中統一管理。這些檔案文獻遺產包括如下四大類:其一,紙質類檔案文獻。主要是南僑機工回國工作后形成的手稿、文告、登記冊、證書、文電、獎狀、公函、書信等。其二,實物類檔案文獻。云南畹町南僑機工回國抗日紀念館保存有南僑機工使用過的馬燈、勛章、手表、扳子、頭盔、摩托車等4000余件實物;華僑博物院、陳嘉庚紀念館分別展示了與南僑機工相關的158件和310余件實物;廣西壯族自治區博物館陳列有南僑機工登記證[5]、行李箱、駕駛證、手表、紀念章等40余件實物。其三,口述類檔案文獻。1987年9月,學者林少川奔赴桂、云、瓊、粵、黔、蜀、閩等地展開調查研究,實地采訪百余位南僑機工及其子孫后代,采集了大量原始口述資料。之后,南僑機工后代湯璐聰與《海南日報》記者走訪滇緬公路,收集了豐富的口述資料。其四,聲像類檔案文獻。華僑博物院、陳嘉庚紀念館分別陳列290幅、350余幅圖片;2015年9月1日,《赤子功勛——華僑抗戰紀實》紀錄片在深圳衛視首次播出,該紀錄片展示了多地保存的南僑機工史料,宣傳了南僑機工抗戰事跡。由此來看,南僑機工檔案文獻資源分散保存在多個機構,檔案內在聯系遭到破壞,不利于資源體系構建和檔案資源共享開發。
其一,地域限制。2014年9月,我國建立南僑機工博物館,館中陳列了2000余份文獻材料、4000余件南僑機工遺物及珍貴的歷史照片。2015年9月,由廈門市委宣傳部和統戰部聯合舉辦的“南洋華僑機工回國抗戰”紀念展在廈門華僑博物院開展,共展出了15件珍貴文物、290幅歷史圖片等。但由于地域空間限制,外地民眾在觀看這些珍貴檔案展覽會產生不便,從一定程度上降低觀看人數,進而限制這段崢嶸事跡的宣傳。
其二,時效限制。2009年8月14日到16日,新加坡國家檔案館、國家檔案局和云南省檔案局等機構聯合舉辦“華之魂僑之光——南僑機工回國抗戰檔案史料”圖片展。該展雖然在昆明、新加坡、北京等多個城市開展,但受場地和展出時間的限制,多數民眾無法隨時隨地瀏覽南僑機工檔案文獻遺產。除了在圖像檔案方面進行挖掘外,部分地方對南僑機工檔案文獻的影視化發掘也在進行。如2015年7月20日,電視劇《南僑機工英雄傳》在上海新聞綜合頻道首次播出;2017年6月,紀錄片《大揭秘之南僑機工之浴血重生》在湖北衛視播出。但受播放時效限制,播放時段有限,民眾易錯過觀看時間,南僑機工抗戰事跡宣傳成效仍有不足。
傳統檔案編研主要分為兩種模式:一是檔案文獻收藏機構編研工作,編研主要是以本單位檔案編研部門為核心力量,以現有館藏為基礎,與圖書館、方志辦和檔案館等部門協作為輔展開工作;二是檔案文獻收藏者完成編研工作,如夏玉清所著《南洋華僑機工:1939—1946》、林少川所著《陳嘉庚與南僑機工》等。傳統檔案編研方式無論是在網絡上還是以出版物的形式傳播,過程均繁瑣復雜,都需要消耗大量時間與人力。就南僑機工檔案文獻編研工作來說,不僅需要整合分散的實體檔案,或從海量網絡數據信息中挖掘、捕捉、篩選出有價值的檔案信息,還需要對其進行提煉、總結,不利于提高工作效率。而數字人文中的文本挖掘技術有助于編研人員及時得到所需信息,實現快速編研,提高編研質量和效率,為社會公眾提供優質的南僑機工檔案文獻編研成果。因此,檔案編研方式亟待創新。
目前,南僑機工檔案文獻遺產資源的數字化開發仍處于紙質檔案數字化加工階段,主要借助現代計算機設備對檔案資源數據進行數字化,但是對數字化的原始數據的標引加工沒有開展。這雖然從一定程度上減輕了數字人文工作者的負擔,但發現并分析問題的過程仍舊是依靠檔案編研人員手工進行檢索和內容編排,并沒有發揮出數字化技術統計分析海量和規范的數字化信息和數據的優勢,沒有真正走進“數據化”階段。傳統檔案資源開發深度不足,不能將檔案信息的粒度從文件級轉變為數據級,從信息單元變為知識節點[6],機器不能對南僑機工檔案資源進行分類、名稱識別、跨媒體檢索、組織和圖像語音識別等。因此,創新檔案資源開發技術是必要之舉。
數字人文視域下,南僑機工檔案文獻遺產應突破不同保管主體、空間等各方面限制,解決各保管主體資源不足、整合難度大、資源分散的問題,從而實現基于抗戰記憶完整性構建南僑機工檔案文獻遺產資源體系,構建完整性檔案資源體系是檔案開發工作的前提。目前,南僑機工檔案文獻遺產主要分散保存在云南省檔案館、廣西壯族自治區檔案館和不同博物館、紀念館、報社、研究會和南僑機工后人手中,導致南僑機工檔案文獻所承載的記憶是碎片化的,不利于南僑機工抗戰事跡的傳播[7]。構建完整的南僑機工檔案資源保護平臺,可以將不同載體形式的南僑機工檔案文獻資源進行統一。
在搭建南僑機工檔案文獻遺產數據庫平臺之初,需要采用數字化、標準化和規范化的形式對南僑機工檔案數據資料進行數據標引,利用數字技術對南僑機工檔案文獻資源的元數據進行統一編碼,在元數據編碼的基礎上,將數據導入南僑機工檔案文獻遺產數據開源系統,建立南僑機工檔案文獻的數字化開發機制,最終形成數字化南僑機工檔案文獻資源平臺。南僑機工檔案文獻遺產資源保護平臺體系框架,由南僑機工檔案數據中心和南僑機工檔案資源用戶服務平臺組成。南僑機工檔案數據中心包括文本目錄、主題索引庫、圖譜索引庫以及影像索引庫;南僑機工檔案資源用戶服務平臺由搜索引擎、檢索結果關聯以及數據可視化三部分組成,其中搜索引擎又分目錄導引和主題詞檢索。
南僑機工檔案資源內容豐富、載體形式多樣。因此,在搭建南僑機工檔案文獻遺產資源數據庫平臺模型之后,需要在文獻資源梳理的基礎上,對不同類型的南僑機工檔案文獻遺產資源進行分類收集和整理。根據南僑機工檔案文獻資源類型的不同,可將南僑機工檔案文獻遺產劃分為原始資料和二次加工資料兩類。原始資料主要是抗戰過程中形成的對南僑機工抗戰活動的直接記錄、圖片、影像、實物等資料;而二次加工資料則是南僑機工檔案的編研成果。南僑機工檔案文獻遺產的原始資料與二次編研成果是構成南僑機工檔案文獻遺產數據平臺的基礎,也是進行可視化加工的資源基礎,因此需要對南僑機工檔案文獻資源的資源體系進行建構。
在明確南僑機工檔案文獻資源的資源體系后,需要針對分散各地的南僑機工檔案文獻遺產開展數據采集活動,為南僑機工檔案文獻遺產的數字人文開發提供原始數據。為了兼顧數據采集的采全率和采準率,文章將南僑機工檔案文獻遺產數據資源的采集原則總結歸納為三個方面。一是跨區域采集,即在南僑機工檔案文獻資源數據的采集過程中要兼顧中外,不僅需要重視本國相關檔案文獻資源的采集,還需要對新加坡、馬來西亞等海外南僑機工活動區域的相關數據資源進行采集;二是跨類型采集,在數據采集中不僅需集中對文獻資源進行采集,對于未公開的音頻、視頻、圖像、實物等資源均需要進行采集;三是跨方法采集,在南僑機工檔案文獻遺產的數據采集過程中不僅要采用傳統的文獻調研法,還需要結合文獻類型采取田野調查法、訪談法等方式,盡可能全面、準確地采集南僑機工檔案文獻資料數據。
此外,在南僑機工檔案文獻遺產資源的數據化采集過程中,需要對檔案資源的數字化采集標準進行固定,借鑒《錄音錄像類電子檔案元數據方案》,在南僑機工檔案資源采集過程中劃分基本元數據,包括題名、編號、日期、責任者、載體形式、語種、來源、關鍵詞、載體、內容、來源、技術參數、格式等,每個元數據包括若干子元數據,如題名元數據包括標題、系列等子元數據。
南僑機工檔案文獻遺產資源的數字人文開發是在數字化檔案資源的基礎上進行的資源整合。因而,對南僑機工檔案文獻資源的數字化加工是數字人文技術應用的前提基礎,只有對內容豐富、載體各異的南僑機工檔案文獻遺產加以數字化并進行統一存儲,才能為基于數字人文技術的南僑機工檔案文獻遺產資源平臺的搭建提供元數據。對南僑機工檔案文獻資源的數據化加工主要包括三個方面:(1)南僑機工檔案紙質資源的數字化掃描;(2)南僑機工檔案資源內容的元數據分類標引;(3)南僑機工檔案文獻資源的元數據描述與分類存儲。通過對南僑機工檔案文獻遺產的數據加工,將采集來的南僑機工檔案數據轉換成數字化設備可以讀取的數據,并加入不同層次的檢索邏輯,為南僑機工檔案文獻資源的可視化展現奠定數據基礎。
南僑機工檔案文獻遺產數字化挖掘的主要目的是借助數字人文技術為南僑機工檔案文獻遺產資源的開發利用服務。主要包含檢索服務、關聯服務和可視化服務三個層次。當用戶處于隨意瀏覽狀態,利用聚類算法、推薦算法、分類算法實現關聯服務;當用戶處于主動檢索狀態,利用主題詞檢索、關鍵詞檢索、責任者檢索、載體檢索實現檢索服務。最后將關聯服務、檢索服務形成的結果可視化展現給用戶。
南僑機工檔案文獻遺產資源的數字化資源建設并非數字化的主要目的,只有對南僑機工檔案文獻遺產的開發利用,才是數字人文技術應用于南僑機工檔案文獻遺產開發工作的根本目的。借助數字人文技術對南僑機工檔案文獻遺產的開發主要路徑有以下三種。
首先,應用文本挖掘技術助力南僑機工檔案信息提取。傳統檔案編研主要以圖書、報紙、舉辦展覽為主,這些開發方式耗時耗力、推廣難度大,可借用文本挖掘技術從海量信息中發現內在聯系,科學分析結果并挖掘內在價值。采用關聯規則采掘算法找到訪問率高的項目,將訪問記錄相似的項目進行匹配與個性化推薦,減少傳輸渠道,提高用戶信息獲取效率。
其次,應用關聯數據技術優化南僑機工檔案檢索服務。通過關聯數據技術梳理南僑機工人物故事、個人情況和其他關系,由面到點、由宏觀到微觀、由大體到具體,厘清內容單元間的潛在聯系,將這關系網絡進行整理與重組,把有聯系的部分利用起來。比如,可檢測出南僑機工出生地、年齡、職業、個人經歷等因素是否相同,利用UI可視化界面幫助用戶智能篩選,達到信息的互聯互通。
最后,應用VR技術創新南僑機工檔案開發形式。VR技術是人文數字領域常用的一種技術,具有開放時間久、傳播范圍廣、傳播多元化等優點,其主要是通過計算機仿真系統構建一個虛擬環境,使用戶享受身臨其境的感覺。當用戶想體驗南僑機工的艱辛時,便可利用VR技術還原當時場景,有助于社會公眾走進歷史,增強中華民族身份認同。