高淞 王向女
(上海大學圖書情報檔案系 上海 200444)
關鍵字:口述歷史檔案;資源開發;數字人文;語義關聯
口述歷史檔案多以聲像檔案等非結構化數據信息形式存在,具有形式上的多樣性、內容的多維性。目前我國檔案學界對口述歷史檔案的研究主要集中在三方面:第一是對于口述歷史檔案概念和內涵的認識如口述歷史檔案的概念、價值、特點,例如吳品才提出口述歷史檔案存在的合理性[1],潘玉民對口述歷史檔案概念和特點進行闡釋[2],楊燁、康永梅以及洪慧娟等人分別對口述歷史檔案的憑證價值[3]、歷史文化價值[4]進行闡述,洪佳慧對口述歷史檔案真實性進行論證[5]等;第二是口述歷史檔案資源建設,如潘玉民對資源建設基本問題進行闡述以及對進展進行評析[6],張玉琴對資源建設中資料采集標準化進行探索[7],劉曉蓓提出口述歷史檔案收集工作以地方特色、印證歷史、補充史料為重點[8],劉偉晶和柳旭對口述歷史檔案保管工作提出動態保護等[9];第三是對口述歷史檔案功能的探索,如王玉龍對口述歷史檔案建構社會記憶的選擇[10]、結合[11]、轉化[12]、互構[13]等機制探索。
涉及口述歷史檔案實際工作方面,研究多集中在采集、保管方面,對于資源的開發方面的研究較少,口述歷史檔案多以聲像檔案為主,具有不同于紙質檔案的多維性,不同于電子文件的非結構化特征,其開發的具體模式也應符合其特性進行構建。
口述歷史的概念發源于20世紀40年代的美國哥倫比亞大學的口述歷史研究室,80年代傳入我國,引發了歷史學界和檔案學界的重視。塞內加爾檔案館長薩利烏·姆貝伊在1988年第十一屆國際檔案大會上對口述資料的闡述是:口述史的查訪結果和口頭傳說的匯集組成了口述檔案,它還包括演講、講座錄音、辯論、圓桌會議錄音、廣播電視、記錄在錄音電話機上的通信和指示,以及合唱或獨唱的錄音等[14]。后我國檔案學者潘玉民作了更加簡練的定義:“口述歷史檔案是為搶救社會記憶而對個人進行有計劃采訪的結果,表現形式為錄像、錄音及文字記錄。”[15]口述歷史檔案以聲像檔案和文字記錄為主。目前國內檔案學界對口述歷史檔案的資源建設討論頗多,館藏也集中了一定的數字化資源。
平民性是口述歷史檔案具備的顯著特征,還有多元性、敘述性、規劃性等特征,例如少數民族、民間技藝傳承人的口述檔案。口述歷史檔案在歷史學、民俗學中也有體現,例如民俗學中的“口述傳統”,口述歷史檔案因其“平民口述”的特征,在檔案家族中增強民眾歸屬感、傳承民族文化的價值難有出其右者。
社會記憶特征也是口述歷史檔案的顯著特征,美國的口述歷史學家唐納德·里奇在所著的《大家來做口述歷史》中提出:“‘記憶’是口述歷史訪問的主題”[16]。臺灣學者王明珂認為口述歷史是“社會記憶”,從這些邊緣的、口述的、被忽略的“歷史記憶”中,探求歷史的本質及其形成過程[17]。那么口述歷史檔案作為口述歷史的結晶,其建構社會記憶、反映社會邏輯的價值相比政府機關等機構產生的檔案更為突出。
文書、聲像檔案具備的基本特征也是不可忽略的,口述歷史檔案具有檔案本身顯著的可資為憑、可資參考的價值。
反映歷史意識與平民性特征相似,是口述歷史檔案具備的感染力的特征。美國歷史學家托什指出的:“應當更加關注口述歷史當中人類的歷史意識的形成,而并非其是否真實,或是否突顯政治意圖。[18]”例如南京大屠殺幸存者的口述歷史檔案,相比其他檔案、文獻資料記載的客觀事實,實際是從另一個視角提供了這一歷史事件的再現和認識,盡管回憶這一過程可能存在信息的部分失真,但其精神、情感的真實性是毋庸置疑的,具備重現歷史意識、防止歷史失憶的價值。
從口述歷史檔案的特點以及價值來看,口述歷史檔案的人文研究價值顯著,從其資源種類、載體來看,具有多樣性的特點,采用傳統的編研開發和直接利用難免不盡如人意。

表1 口述歷史檔案資源特點及價值
目前對于口述歷史檔案資源的建設工作已經比較完備,建立了比較成熟的資源數據庫。按照主題分類,當前建設的口述歷史檔案資源數據庫可分為三類:抗日和紅色革命記憶、地方特色文化傳承、重要歷史事件[19]。牽頭的機構有國家級、省部級和高校單位,建設的資源庫具有一定的資源互構性:以視頻為主,文字、照片為輔。
在具體的資源庫開發方面較為薄弱,多以形成視頻資源為主,例如中國記憶系列欄目、抗戰老兵口述資料中心、吉林省紅色歷史文化專題數據庫、廈門記憶、北京記憶等項目[20]。在資源利用方式上,與普通檔案的利用無異,檔案館圖書館提供簡單的的線上檢索,利用者自行查找并查看資源。可以見得,對于口述歷史檔案的資源開發并沒有貼合資源種類以聲像檔案為主、主題圍繞特定事件和人物、特點上平民性社會記憶性顯著等元素,對其信息的挖掘、資源的開發、利用服務的提供并無創新之處,造成對口述歷史檔案資源的利用難度大,利用方式落后,利用者觀看視頻錄像進行利用識別難度大、費時費力,難以建立不同資源之間的聯系,對人文研究和社會利用獲取都造成了較大的阻礙。
數字人文是在傳統人文研究和教學中深入應用現代網絡和計算機技術的新型跨學科研究領域[21],數字人文可以改造、重塑人文領域的知識,為學者提供規律性、趨勢性、差異化、宏觀性研究的知識和線索,通過設計、計算、分析以及可視化表達的方式擴展學術疆域和潛力,推動人文領域知識研究[22]。數字人文不僅是利用計算機技術運算,更是一種視域和視角,從數字人文視域出發,借助計算機技術對資源進行開發,實現促進人文領域研究的目的。
數字人文的技術體系主要由數字化技術、數據管理、分析以及可視化技術構成。具體而言,例如文本挖掘、數字倉儲、多媒體出版、虛擬現實、信息可視化、地理信息系統等多種信息技術都深入應用在人文研究領域。研究對象包含各種可計算的基礎數據對象,以聲像檔案為主的口述歷史檔案囊括在其中,如格式化數據、圖像、聲音以及自由文本等,針對這些數據進行的計算包括文本分析與檢索、地圖可視化、音視頻檢索等技術,其核心是以數字化的研究對象為基礎,保障和創新人文科學研究的內容、方法和模式[23],進而提供更準確、更全面、更形象的人文研究利用。
數字人文的內涵在于借助數字技術開發為人文研究做鋪墊。從開發上看,前文第一部分對口述歷史檔案的資源特點進行闡述,具有平民性、敘述性、記憶特征顯著等特點,而且口述歷史檔案與口述歷史、口述傳統之間的微妙關系拋開不談,但具有濃厚的人文研究特色顯而易見,對研究檔案學、民俗學、歷史學都有重要作用,相較于文書、科技等類型的檔案,口述歷史檔案的人文色彩更加濃厚,與數字人文的貼合度更高。
從利用上看,應當考慮到其利用者的受眾范圍更加廣泛,例如平民群體,其利用需求與學者研究不同,是其尋找記憶、歷史意識的方式,數字人文可以提供VR/AR技術逼真再現場景、GIS關聯不同地區等多樣化利用形式;而從學者的研究利用上看,口述歷史檔案多為聲像檔案,與學者研究主題相關的可能只是其中微小的一部分,如果通過人為觀看音視頻進行查找利用不現實,也沒有完備、精確的檢索系統和利用平臺,能否發現并利用在一定程度上“隨緣”,這也是導致口述歷史檔案資源建設進展較快,而開發利用較為緩慢的原因之一。
口述歷史檔案資源形式多樣,當前的開發、利用模式與其他類型檔案無大差別,數字人文技術在開發上更加貼合口述歷史檔案的資源特點,也可以解決口述歷史檔案當前的利用難題,因此需要借助數字人文來構建口述歷史檔案資源開發利用模式。
口述歷史檔案的形式分為包括錄音、錄像帶、照片的聲像檔案和記錄口述歷史檔案采集規劃、過程等內容的文書檔案和電子文件,首先對資源的種類進行區分,文書檔案、電子文件和聲像檔案存在較大差別,紙質的文書檔案的開發過程相對已經比較完善,而聲像檔案涉及多維的信息內容和更難識別和組織的數據信息,現實利用存在如“利用需要聲像檔案之中的檢索主題、人物等元素,但卻無法準確定位”“利用者利用無法進行檢索,需要逐個、逐幀觀看聲像檔案尋找與研究主題相關內容”等難題,開發利用模式的構建著重解決這些問題。
在口述歷史檔案的利用中存在的檢索或服務系統問題,實則是從數據信息的挖掘、組織一脈相承,需要構建一個一以貫之的開發框架才能從根源上解決人文研究中有檔難查等問題。框架的構建主要分為以下三個部分(如圖1所示),目的是實現跨越不同媒體、方便利用的檔案資源開發。

圖1 口述歷史檔案資源開發模式
首先是對口述歷史檔案資源信息的挖掘與提取過程。可使用文本挖掘技術對聲像檔案進行信息特征的提取工作,文本挖掘是一種對人文資料的更深層次利用,從半結構或非結構的文本信息中提取有價值、可理解的知識,文本挖掘的過程大體分為對文本的預處理、構建語料庫、提取特征、文本聚類、文本分類等過程,有些文本挖掘項目還伴隨著對挖掘成果的可視化處理,即以表格、圖像等形式將成果生動地表現出來[24]。
第二部分是信息組織,目的是形成以口述歷史檔案內容為核心的語義網絡。對挖掘提取的信息進行語義描述和語義關聯,然后將其進行可視化處理,形成系統的可被檢索的文本化內容。對信息的提取和組織這兩個步驟,本質屬于對資源的描述環節,非結構化的聲像中,人力很難去分辨有幾幀畫面,某人物出現了多少次,或兩份聲像檔案是否出現同一人物,是否存在關聯,并且有些聲像檔案的錄像帶由于長期保管需要,利用時也不可以快進,人為整理其內容幾乎不可能。借助數字人文技術構架一個資源描述框架(Resource Description Framework,RDF),該框架包括三個部分:資源、屬性、陳述[25]。對應檔案資源信息的關聯層面,形成數據關聯網,為檢索和利用提供條件。
第三部分是利用環節。利用的過程中首先是檢索,建立一個涵蓋語義網絡的檢索系統和利用服務平臺,平臺和提供服務的原則其一是為人文學術研究提供知識服務,其二是使得社會利用實現口述歷史檔案歷史意識重現的功能。最后呈現給利用者服務平臺的終端進行利用,通過可視化、VR/AR、語義網絡呈現等形式向利用者更加系統、直觀、全面、精細的提供口述歷史檔案資源。
口述歷史檔案的資源挖掘,是利用數字技術,對資源進行信息提取。口述歷史檔案多為客體全宗,通常是以主題、人物、事件為中心,對于其主題、人物、事件、背景信息的挖掘尤為重要。對聲像檔案中畫面和聲音進行提取,數量內容龐大,人為和簡單的計算難以做到。《數字人文:改變知識創新與分享的游戲規則》一書中提到:“利用高端計算分析和數據可視化解析大規模數據集,可以得到數字化的歷史數據,如維爾托夫電影中的每一個鏡頭,美國20世紀每本雜志的封面和目錄[26]。”對口述歷史檔案的資源挖掘也可達到這樣的程度,即拆分聲像中的鏡頭、畫面、人物、背景為元素,為之后的組織關聯提供條件。
數字人文中的文本挖掘技術可以用來解決口述歷史檔案內容挖掘、信息提取困難。文本挖掘不同于機械整理、歸納,是發現知識的過程,從數據中抽取隱含、未知、潛在有用的模式[27]。文本挖掘的分支技術多樣,不只限于對文字的信息提取,還涉及數據挖掘、處理自然語言、統計、數據庫、可視化等多個領域的知識和技術。該技術在數字人文領域已有成功應用:例如美國北德州大學一歷史領域文本挖掘與可視化應用的項目[28],該項目使用文本挖掘技術對歷史報紙、新聞報道進行處理,從海量數字化的歷史報紙圖片中發現散布的語言模式,通過時間和空間的多維角度利用可視化技術把這種語言模式展示出來。再例如德國的TextGrid項目,基于數字人文視角通過計算機技術為人文藝術學科提供特殊功能應用,如為藝術史提供圖像數據的標注功能;為古典文學提供注釋編輯功能;為音樂提供在XML編輯器中整合筆記等功能。這些成功案例中對圖像和聲音的處理,也正是對口述歷史檔案中聲像檔案文本挖掘的重要部分。
將文本挖掘中的數據挖掘、聚類分析、自然語言處理技術應用到對口述歷史檔案的資源開發中來。聚類分析的聚類不同于分類,聚類要求劃分的類是未知的,研究者也不必事先給出對知識的分類標準。口述歷史檔案內容中所含有的信息有些類似于隱性知識,在不深入研究的基礎上,難以人為歸納出。例如,人類很難分辨出或記住某一檔案中的某一場景的背景畫面和另一檔案中的畫面是否相同,也難以將相關知識歸納起來。借助數字人文技術進行探索性的聚類分析,充分地挖掘、提取其中的信息,并將其進行一定的聚類處理。實現對資源的主題、人物、背景信息等內容的分析處理,對不同資源之間的相同或相似屬性的關聯。例如“四川的老兵口述歷史檔案”和“云南的少數民族檔案”,口述者都曾參加過抗日戰爭中同一場戰役,甚至當時在同一部隊中,那么在同一關鍵詞二者就關聯到一起,對于當時的歷史時期、事件的研究多了一些佐證材料,如果不借助數字人文技術,誰又能將老兵紅色檔案和少數民族檔案關聯到一起呢?即便有人恰好查閱過兩份檔案,但又如何在聲像檔案中找到具體談論此事的那幾分鐘甚至那幾幀呢?更多時候也不過是腦海中閃過一絲想法,就止于此了。文本挖掘、聚類分析就是要將人力不能及和工程量浩大的工作,通過計算機技術更加節約資源的完成,并且收獲更好、更系統、更精確的結果。

圖2 數字人文視域下口述歷史檔案的資源挖掘
對口述歷史檔案的資源組織本質上是構建資源描述框架(RDF)的陳述環節,即將資源的屬性進行描述。口述歷史檔案具有以主題、事件、人物等元素為核心的特征,在資源組織的環節,構建一個以口述歷史檔案為“主核心”、以資源屬性為“副核心”的語義網絡(如圖3所示)。

圖3 數字人文視域下口述歷史檔案的資源組織
對第一步挖掘出的資源屬性,進行結構化的語義標注,對有關聯性的檔案資源進行分析、關聯,語義關聯技術是對口述歷史檔案資源屬性進行陳述的關鍵技術。語義網的構建,具體指的是為了使得資源展開有效、全面的利用,使用語義關系產生的一種網絡,也是一種技術類型[29]。通俗講是利用計算機識別、分析描述出來的語義信息,并在此基礎上進行整合處理,去探求語義信息和資源之間、不同語義信息之間的關系,構建連接,最后發布出RDF序列化格式數據。
通過語義描述和語義關聯技術,不僅要形成一個以口述歷史檔案資源為核心的包括其主題、事件、人物、背景信息等屬性的語義網絡,同時需要將具有相同屬性的不同資源進行關聯,將原本復雜的聲音、圖像等非結構化數據,轉化成具有文本可編輯特征的簡易結構圖。相較于其他組織方法,語義關聯技術更具人文研究的特性,更注重知識的整合分析,而并非機械的整合相同詞條。關聯與聚合的同時具有鏈接新知識的功能,聚合網絡上的相關新資源,不局限在館藏的口述歷史檔案,從而形成一個完整的知識圖譜[30],實現在語義環境下對口述歷史檔案的挖掘和組織。
語義關聯技術不僅對語義網絡構建的作用巨大,對利用環節的作用同樣不可忽視。語義關聯技術作為檢索系統背后的核心技術,在為利用者提供檔案資源時,可以根據利用者的檢索需要,提供其感興趣的內容,在已有資源語義網絡基礎上對資源進行深度聯合、動態提供,具有主動性和智能性;同時針對用戶在檢索中提出的問題,知識檢索系統在語義關聯技術基礎上會做出積極的回應,具有系統和技術與利用者之間的交互性[31]。
數字人文視域下更加注重成果、知識的傳播和普及。傳播和普及的必要條件是平臺與系統,因此數字人文視域下口述歷史檔案的資源利用旨在構建一個以檔案資源語義網為鏈接、口述歷史檔案資源庫為內核的知識服務平臺。
檢索系統是平臺與利用者交流的窗口,數字人文視域下的檢索系統應當具有智能性、動態性和交互性。在大數據時代,大數據的特點“4V”中“Value”,是價值低,傳統的檢索方式主要是信息的匹配檢索,雖然可以檢索出大量的信息,但信息的價值量低,利用者需自行甄別、篩選才能得到有價值的內容。數字人文視域下的檢索系統建立在知識組織的基礎之上,能夠有效實現知識關聯和概念語義檢索的智能化檢索方式。檢索系統基于語義、數據關聯之上,可以在用戶提出需求后進行篩選和智能化處理,根據利用者的身份、利用需要進行深度聯合和傾向性分析,例如學者的研究需要和普通民眾回憶需要存在區別,不同學者研究的領域和側重也有差異,檢索系統的智能化尤為重要;此外,利用者提出利用、疑問、交流的需求后,語義關聯技術下的知識檢索系統對此也會做出非常積極的回應,充分體現人機交互的特性。
數字人文視域下口述歷史檔案開發的最終成果集中體現在平臺的服務上,按照學者、利用者的需求,平臺首先承載的是實現檔案的學術文化功能的期望,要為學者的研究利用提供相應的檔案以資參考,并且基于語義網絡、數據關聯以及口述歷史檔案資源庫提供一定程度的智慧服務,為利用查詢者提供良好的利用體驗。
針對口述歷史檔案的資源特征和價值,還需要滿足歷史意識重現的功能,利用“VR/AR”等技術,嘗試再現一些口述歷史相關的場景、實物等。例如在多力·勞布所著的《證言:文學、精神分析和歷史中的見證危機》中提到,二戰時期,奧斯維辛集中營中一位60多歲的幸存者在回憶猶太人組織起義時說:“我們看到焚尸房的四個煙囪燃起熊熊大火甚至發生了爆炸。人們四散奔逃,火焰直沖云天,那真是令人動容,難以置信”[32]。這樣規模宏大、攝人心弦的一幕僅僅通過口述歷史檔案無法傳達其震撼感與慘烈感,利用數字人文中的VR/AR虛擬現實技術可以在一定程度上還原當時的場景,帶給利用者們沉浸式的經歷和體驗,增強口述歷史檔案的表現力和共情感,彌補冰冷文字表達缺失的遺憾。此外,其實后世通過專家考證,當時其實只有一座煙囪爆炸了,這樣的口述歷史檔案還有價值嗎?無疑是有的,幸存者的證詞表達了一種框架式的破壞,表達了一種更為激進更為關鍵的情感:對納粹的痛恨,當時情緒的震撼等等。這種歷史意識的表達通過“敘述”融匯到口述歷史檔案之中,單純的文字將其難以全貌呈現,倘若通過數字人文的技術還原出當時的場景,帶給人們的震撼和觸動是難以想象的,數字人文視域下口述歷史檔案的開發利用不僅僅是為了開發資源而構建,同時也是為了在利用上“錦上添花”。口述歷史檔案的突出之處在于其歷史意識的表達無出其右,更需要通過數字人文來立體化完整表達,使融匯檔案中的歷史意識再現。
口述歷史檔案形式上以音視頻、圖片等非結構化信息為主,內容上具有平民性、多元性、歷史意識突出等特點,與歷史學、民俗學有較為密切的關系,人文研究色彩濃厚。目前對口述歷史檔案的建設、館藏已經比較完備,但是在開發利用方面比較薄弱,沒有貼合口述歷史檔案資源特點和利用需求的開發利用模式,學術研究和社會獲取存在一定困難。從數字人文視域出發,針對口述歷史檔案資源形式多樣、音視頻利用難度大、資源之間難以建立聯系等問題,運用文本挖掘、聚類分析、語義關聯等核心數字技術構建口述歷史檔案信息挖掘、組織到利用模式的框架,挖掘檔案資源深層次的內容信息并進行聚類分析,構建口述歷史檔案資源的語義網絡,建立不同口述歷史檔案資源之間的聯系。同時以資源庫為核心、語義網絡為鏈接,搭建口述歷史檔案資源的利用服務平臺,為利用者提供更加精確、系統、智能的檢索,為需要口述歷史檔案的學術研究提供利用;同時可以利用VR/AR虛擬現實、地理可視化GIS等技術提供更具體驗感的多維浸入式體驗,進而實現口述歷史檔案歷史意識再現的功能。