魏歌 吳志杰

摘要:基于數(shù)字人文的產(chǎn)生、演變及基本特征分析,從時機、需求和價值三個角度詮釋數(shù)字人文視域下數(shù)字檔案館建設的合理性,認為數(shù)字人文視域下數(shù)字檔案館建設在目標層應構(gòu)建以知識生產(chǎn)和知識利用為導向的數(shù)字資源共享平臺;在資源層應同時兼顧資源收集的廣度拓展以及資源開發(fā)的深度提升;在模式層應選擇符合實際的建設模式;在實施層應完善多元主體協(xié)同建設機制。
關(guān)鍵詞:數(shù)字檔案館 數(shù)字人文 合理性 建設策略
Abstract: Based on the emergence, evolution and basic characteristics of digital humanities, this paper analyses the rationality of the construction of digital archives for digital humanities from aspects of opportunity, requirement and value. This paper builds a strategy system including target level, re? source level, pattern level and implementation lev? el. At target level, digital resource sharing platform oriented by knowledge production and knowledge utilization should be built. At resource level, the breadth of resource construction should be expand? ed and the depth of resource utilization should be improved. At pattern level, the actual construction model should be selected. At implementation level, the coordination construction mechanism of multi? ple subjects should be improved.
Keywords:Digital archives; Digital humanities; Rationality; Construction Strategies
5G、工業(yè)互聯(lián)網(wǎng)、人工智能、區(qū)塊鏈、云計算和大數(shù)據(jù)等廣泛應用的數(shù)據(jù)時代,社會數(shù)字化轉(zhuǎn)型持續(xù)深入、技術(shù)迭代不斷加快和用戶需求多元復雜導致數(shù)字檔案館建設中數(shù)字資源建設不足[1]、技術(shù)應用能力落后[2]、服務方式單一[3]等問題日益凸顯。作為近20年內(nèi)逐漸顯露并臻于火熱的研究領域,數(shù)字人文(Digital humanities)已經(jīng)成為當今人文學科學術(shù)研究和實踐的新潮流[4]。數(shù)字人文研究與實踐對數(shù)據(jù)資源的依賴、對技術(shù)工具的重視、對跨界合作的鼓勵和對知識生產(chǎn)與構(gòu)建的追求能夠為破解數(shù)字檔案館建設面臨的瓶頸性問題提供新思路和新方法,進而更好地發(fā)揮數(shù)字檔案館的價值。本文擬從數(shù)字人文項目特征分析入手,闡明數(shù)字人文視域下數(shù)字檔案館建設的合理性并提出數(shù)字人文視域下數(shù)字檔案館建設的基本策略。
數(shù)字人文起源于人文計算(Humanities Comput? ing)。起初,人文計算僅指人文學者利用語匯索引、超文本卡片、文本分析和計算機語言學等技術(shù)和方法輔助人文學科問題的研究,它被認為是使用計算機進行量化分析的一種人文研究方法,體現(xiàn)出的是方法論上的一種革新[5]。之后,互聯(lián)網(wǎng)的大眾化和個人計算機的普及化使得人文計算的處理對象“從數(shù)字文本逐步擴展到超文本、圖像、視頻、音頻、數(shù)字地圖、網(wǎng)頁、虛擬現(xiàn)實、3D等多媒體,計算的領域也不再單單在文學與語言領域,而是擴展到歷史、音樂、藝術(shù)等多領域”[6]。此時,人文計算的內(nèi)涵已遠遠超出了其所蘊含的字面意義。實踐中,數(shù)字人文開始取代人文計算并逐漸發(fā)展成一個獨立的跨學科研究領域。這一新領域不僅僅局限于字面意義上“數(shù)字技術(shù)”與“人文學科”的簡單融合,更意味著本體論、認識論和方法論上的變革與創(chuàng)新。
數(shù)字人文(Digital Humanities)是一個不斷發(fā)展的概念,難以清晰界定[7]。通過對現(xiàn)有數(shù)字人文項目與實踐的梳理,可以歸納出數(shù)字人文項目的主要特征有:第一,以開放性的數(shù)字人文數(shù)據(jù)庫或數(shù)據(jù)集作為資源基礎。例如,中國歷代人物傳記資料庫(CBDB)項目已經(jīng)系統(tǒng)地收錄中國歷史接近40萬人的重要傳記資料。CBDB將這些數(shù)據(jù)組織成關(guān)系型結(jié)構(gòu)化數(shù)據(jù)庫,使之不僅能夠作為歷史人物研究的參考資料,還可用于統(tǒng)計分析、地理空間分析與社會網(wǎng)絡分析等[8]。第二,以輔助性的數(shù)字技術(shù)工具和程序作為技術(shù)工具。例如,利用網(wǎng)絡可視化應用Gephi能夠進行探索性數(shù)據(jù)分析、鏈接分析、生物網(wǎng)絡分析等,進而實現(xiàn)不同層面的數(shù)據(jù)關(guān)聯(lián)與可視化。第三,以協(xié)同合作為導向的建設模式。例如,中南民族大學王兆鵬教授主持的數(shù)字人文項目“唐宋文學編年地圖”是由文學和計算機科學專業(yè)研究人員、地理學專業(yè)輔助測繪人員、軟件開發(fā)人員、網(wǎng)站建設成員以及項目管理員等一百多人的團隊合作開發(fā)而成[9]。第四,通過定性和定量相結(jié)合的方法對資源進行知識化處理,以探索新知識、發(fā)現(xiàn)新觀點。總而言之,數(shù)字基礎設施、工具支持、跨界合作和知識生產(chǎn)與構(gòu)建是數(shù)字人文實踐與研究的主要特征。
(一)時機合理性:數(shù)字人文引導數(shù)字檔案資源建設由數(shù)量增長轉(zhuǎn)向質(zhì)量提升
“截至2019年底,全國各級國家綜合檔案館館藏電子檔案119.3萬GB。其中,數(shù)碼照片39.6萬GB,數(shù)字錄音、數(shù)字錄像35.9萬GB。館藏檔案數(shù)字化副本1 407.8萬GB。”[10]可見,僅就全國各級國家綜合檔案館館藏數(shù)量而言,我國數(shù)字檔案資源就表現(xiàn)出海量化的特征。數(shù)字化檔案和原生電子檔案雖然改變了檔案的存在方式、方便了檔案信息的獲取與利用,但“數(shù)字檔案資源的利用尚停留在基于目錄的簡單查詢共享,缺乏綜合的數(shù)據(jù)挖掘和深度整合”[11]。數(shù)字人文視域下的數(shù)字檔案館注重利用語義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)、知識圖譜等技術(shù)實現(xiàn)數(shù)字檔案資源的深度揭示與關(guān)聯(lián),能夠使數(shù)字檔案資源結(jié)構(gòu)化、語義化和知識化,進而有效提高數(shù)字檔案資源的建設質(zhì)量。
(二)需求合理性:數(shù)字人文能夠滿足檔案服務的多元化、知識化和互動化需求
隨著互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,用戶檔案利用需求由“單純地利用檔案信息”變?yōu)椤翱释@取有價值的檔案知識”。在此過程中,數(shù)字檔案館不能僅僅基于目錄數(shù)據(jù)庫和全文數(shù)據(jù)庫提供簡單的檔案瀏覽、檢索、借閱和復制等服務,更需要以用戶為中心,主動提供個性化、多元化、知識化和互動化的檔案服務,來強化用戶的獲得感和滿足感。數(shù)字人文視域下的數(shù)字檔案館強調(diào)利用各種先進的數(shù)字技術(shù)與應用工具來豐富檔案用戶體驗并優(yōu)化服務效果。例如,利用數(shù)據(jù)分析技術(shù)對海量檔案數(shù)據(jù)進行文本分析、內(nèi)容分析、社會關(guān)系分析等來進行完整歷史敘事,增強檔案服務的知識性;利用可視化技術(shù)將以文字為主的檔案文本轉(zhuǎn)化為具有交互性的圖形或圖像,以增強檔案服務的互動性;基于大量的實景照片、歷史地圖、手稿資料、考古文物等,利用全息投影技術(shù)、混合現(xiàn)實技術(shù)等重建歷史現(xiàn)場,使體驗者身臨其境,增加檔案展覽的沉浸性和可感知性。
(三)價值合理性:數(shù)字檔案館建設與數(shù)字人文項目具有互相促進的價值基礎
數(shù)字人文視域下數(shù)字檔案館建設既能夠提升數(shù)字檔案館的建設質(zhì)量,也能夠促進數(shù)字人文項目與實踐的發(fā)展,具有“雙贏”的價值。對于數(shù)字檔案館建設而言,數(shù)字人文不僅能夠以數(shù)據(jù)思維和關(guān)聯(lián)思維促進數(shù)字檔案資源建設由“文件級”深入到“數(shù)據(jù)級”[12],而且還倡導數(shù)字檔案館應利用各類數(shù)字人文技術(shù)工具,輔助用戶對檔案資源進行關(guān)系挖掘、多維分析和可視化處理,將數(shù)字檔案館服務由提供資料向提供知識轉(zhuǎn)變。對數(shù)字人文項目而言,數(shù)字檔案館保存的海量可信檔案資源是孕育數(shù)字人文項目的肥沃土壤。大量對數(shù)據(jù)質(zhì)量要求較高的數(shù)字人文項目均依托檔案館館藏并冠以“檔案”之名而實施。例如,美國弗吉尼亞大學數(shù)字歷史研究中心基于弗吉尼亞大學、美國陸軍軍事歷史研究所、賓夕法尼亞國家檔案館、弗吉尼亞軍事學院檔案館等機構(gòu)的館藏而建立的“影谷項目”(The Val? ley of Shadow)[13],法國國家檔案館與斯坦福大學圖書館利用法國大革命期間的手稿資料、實物檔案等建立的能夠滿足作者、主題、時間、地點等多維度檢索需求的“法國大革命數(shù)字檔案館”項目[14]。
(一)目標層:構(gòu)建以知識生產(chǎn)和知識利用為導向的數(shù)字資源共享平臺
數(shù)字檔案館建設目標是調(diào)配建設資源、明確推進方向、解決建設矛盾的重要遵循,能夠決定數(shù)字檔案館建設的基本思路、主要原則和重點任務。因此,數(shù)字人文視域下數(shù)字檔案館建設首先要回答“應建設成為什么樣的數(shù)字檔案館”的問題。對數(shù)字人文而言,一方面,大規(guī)模規(guī)范性較高的、注釋豐富的語料庫是數(shù)字人文的基礎;另一方面,數(shù)字人文強調(diào)促進知識生產(chǎn)與擴散,“關(guān)注研究成果的保存與分享,并將關(guān)聯(lián)數(shù)據(jù)應用于人文學科資源描述,更深層次挖掘人文數(shù)據(jù)之間的關(guān)系,從而實現(xiàn)人文知識的重新構(gòu)建與認知”[15]。因此,數(shù)字人文視域下的數(shù)字檔案館不僅應該強調(diào)將數(shù)字人文的理念、方法與技術(shù)融入數(shù)字檔案館建設中,以便實現(xiàn)資源管理精細化、技術(shù)應用深入化和利用服務知識化,而且也應注重通過知識生產(chǎn)和知識重構(gòu)來實現(xiàn)對人文學科研究的全面支持。這就是說,數(shù)字人文視域下的數(shù)字檔案館是在數(shù)字人文理念引導下,以館藏數(shù)字檔案資源精細化管理為核心,以相關(guān)數(shù)字資源集成化建設為輔助,以數(shù)字人文技術(shù)體系為工具,來將數(shù)字檔案館建設成為以知識生產(chǎn)和知識利用為導向的數(shù)字資源共享平臺。
(二)資源層:同時兼顧資源收集的廣度拓展以及資源開發(fā)的深度提升
在數(shù)字人文視域下數(shù)字檔案館建設目標的指引下,數(shù)字檔案館建設一方面應注重資源收集的多樣性和全面性,通過擴大歸檔范圍和創(chuàng)新資源收集思路實現(xiàn)資源建設的廣度拓展;另一方面應在保證檔案資源安全的前提下,利用數(shù)字人文技術(shù)工具對已開放的檔案資源進行精確揭示、多維分析和深度挖掘以實現(xiàn)檔案資源開發(fā)的深度提升。
數(shù)字人文視域下的數(shù)字檔案館資源收集應以數(shù)字檔案資源收集為核心,積極融合多來源、多類型的數(shù)字資源,以便形成數(shù)字資源集成平臺。其一,數(shù)字檔案資源建設是數(shù)字人文視域下數(shù)字檔案館建設的使命與根本。數(shù)字檔案資源收集應在形式上做到“新舊結(jié)合”,即在保證傳統(tǒng)歸檔范圍中的文件資料應收盡收、應歸盡歸的同時,兼顧對數(shù)據(jù)時代新產(chǎn)生的、具有長期保存價值的數(shù)據(jù)的收集,盡可能保證檔案資源體系的完整性和全面性。數(shù)字檔案資源收集應在內(nèi)容上堅持宏大敘事與微觀敘事相結(jié)合,正如T·庫克所言,“絕不能認為上層精英們產(chǎn)生的文件自然更有‘價值,堅持多元化的敘述,而不是主流敘述,要關(guān)照整個社會和人類全體的歷史經(jīng)驗而不只限于充當國家和公共文件的保管者”[16]。其二,圖書、報紙、期刊論文、年鑒、學科數(shù)據(jù)庫等多來源的數(shù)字資源是數(shù)字人文視域下數(shù)字檔案館資源收集的重點內(nèi)容。數(shù)字人文視域下的數(shù)字檔案館需要通過多來源、多類型的數(shù)字資源來補充和豐富資源體系結(jié)構(gòu),從而為檔案資源的全景式揭示與描述奠定基礎。

檔案資源不同于一般的文獻資源,一些檔案資源具有涉密性特征,在保密期內(nèi)不允許隨意開發(fā)利用。因此,數(shù)字人文視域下數(shù)字檔案館資源開發(fā)利用過程中,應在保證絕對安全的前提下,積極利用數(shù)字人文技術(shù)工具對已開放的檔案資源和多來源、多類型的數(shù)字資源進行關(guān)系揭示和多維分析。通常可以按照資源組織與管理、資源分析與可視化、資源擬實化的步驟來實現(xiàn)資源的深度開發(fā)利用[17]。首先,借助關(guān)聯(lián)數(shù)據(jù)、知識圖譜的知識組織等技術(shù)挖掘檔案之間的有機聯(lián)系,使檔案資源體系呈現(xiàn)出完整的邏輯結(jié)構(gòu)。其次,通過開發(fā)有效的數(shù)據(jù)分析模塊和可視化模塊,對檔案資源進行文本分析、聚類分析、主題分析等,并結(jié)合圖形圖像實現(xiàn)分析結(jié)果的形象化展示,從視覺、聽覺等感官上強化對資源內(nèi)容的感知。最后,結(jié)合虛擬現(xiàn)實技術(shù)、增強現(xiàn)實技術(shù)以及相關(guān)數(shù)據(jù)可視化技術(shù),實現(xiàn)檔案所描述的歷史場景再現(xiàn)。
(三)模式層:選擇符合實際的數(shù)字人文視域下的數(shù)字檔案館建設模式
通常而言,數(shù)字人文視域下的數(shù)字檔案館建設可以采取館內(nèi)主導建設模式、聯(lián)合數(shù)字人文專業(yè)團隊的合作建設模式以及以眾包項目為導向的公眾輔助建設模式[18]。館內(nèi)主導建設模式指現(xiàn)有數(shù)字檔案館建設團隊主動利用數(shù)字人文技術(shù)工具體系來優(yōu)化數(shù)字檔案館的資源建設、功能設定及服務方式等。聯(lián)合數(shù)字人文專業(yè)團隊的合作建設模式指數(shù)字檔案館建設方以項目外包形式將數(shù)字檔案館建設中的資源管理與利用、系統(tǒng)功能優(yōu)化與提升等部分或者全部的任務交給數(shù)字人文專業(yè)團隊進行開發(fā)。以眾包項目為導向的公眾輔助建設模式是比較靈活的建設模式,其鼓勵將數(shù)字人文視域下數(shù)字檔案館建設中的一些工作量繁重、專業(yè)技能和知識要求不高的部分交由社會公眾完成,以激發(fā)公眾的參與興趣,同時,減輕數(shù)字檔案館建設方的工作負擔。例如,通過大眾標引完善數(shù)字檔案資源的元數(shù)據(jù)庫建設、借助公眾力量對數(shù)字資源進行轉(zhuǎn)錄與標引等。數(shù)字人文視域下的數(shù)字檔案館建設可以根據(jù)實際需求采用上述一種或多種建設模式予以實施。三種不同建設模式的優(yōu)劣對比如表1所示。
(四)實施層:完善數(shù)字人文視域下數(shù)字檔案館多元主體協(xié)同建設機制
無論采用何種建設模式,數(shù)字人文視域下數(shù)字檔案館建設均涉及檔案管理人員、技術(shù)開發(fā)人員、人文研究學者、檔案用戶等多元主體。在此情況下,為了確保各個參與主體充分發(fā)揮主觀能動性,形成多元主體的協(xié)同建設優(yōu)勢,應建立和健全數(shù)字人文視域下數(shù)字檔案館多元主體協(xié)同建設機制。
第一,明確不同參與主體在協(xié)同建設機制中的責任分工。不同建設模式的責任分工不盡相同,對于館內(nèi)主導建設模式而言,數(shù)字檔案館建設團隊是發(fā)起者與主導者,承擔數(shù)字人文視域下數(shù)字檔案館建設的主要責任和第一責任,他們應該明確團隊內(nèi)部不同小組或成員的具體責任。例如,檔案管理員負責劃定開放檔案資源范圍、提供數(shù)字資源的相關(guān)內(nèi)容等,技術(shù)人員負責數(shù)字人文技術(shù)應用、數(shù)字人文相關(guān)需求實現(xiàn)以及界面展示效果優(yōu)化等,人文研究學者則負責提供一些可行的建設思路與需求等。對于合作建設模式而言,應該在項目招標時明確數(shù)字人文專業(yè)團隊的具體責任和項目成果的具體要求。以眾包形式進行的建設模式則無須公眾承擔過多責任,主要由數(shù)字檔案館建設方明確眾包項目的內(nèi)容、任務與具體要求。
第二,保證數(shù)字人文視域下數(shù)字檔案館建設多元主體間的有效溝通與交流。數(shù)字人文視域下的數(shù)字檔案館建設是一項長期、系統(tǒng)、復雜的工程,缺乏有效的溝通與交流將無法保證建設質(zhì)量并影響建設目標實現(xiàn)。通常應該通過定期的線上和線下、正式和非正式等交流方式促進多元主體間的有效溝通,使其相互理解、達成共識。
數(shù)字人文的理念、方法與技術(shù)工具能夠為解決當前數(shù)字檔案館建設中的瓶頸問題提供新思路,這對優(yōu)化數(shù)字檔案館資源建設質(zhì)量、提升數(shù)字檔案館功能建設水平和增強數(shù)字檔案館知識服務能力等具有重要意義。本文僅從宏觀角度探析數(shù)字人文視域下數(shù)字檔案館建設的價值與實現(xiàn)的基本路徑,未來需要更多、更為全面細致的研究,才能保證數(shù)字人文視域下數(shù)字檔案館建設的落地與實現(xiàn)。
*本文系河北大學在讀研究生創(chuàng)新能力培養(yǎng)資助項目“數(shù)字人文環(huán)境下雄安新區(qū)檔案資源開發(fā)利用研究”(項目編號:HBU2020SS010)的階段性研究成果。
注釋及參考文獻:
[1]陶水龍.大數(shù)據(jù)時代下數(shù)字檔案館面臨的機遇與挑戰(zhàn)[J].中國檔案,2013(10):66-68.
[2]李寶玲.數(shù)字檔案館建設的機遇、挑戰(zhàn)與思考[J].檔案管理,2020(2):27-28.
[3]王順,徐華.大數(shù)據(jù)時代我國數(shù)字檔案館信息服務的問題與對策[J].北京檔案,2018(10):17-20.
[4]王兆鵬,邵大為.數(shù)字人文在古代文學研究中的初步實踐及學術(shù)意義[J].中國社會科學,2020(8):108-129;206-207.
[5]陳靜.歷史與爭論:英美“數(shù)字人文”發(fā)展綜述[J].文化研究,2013(4):206-221.
[6]朱本軍,聶華.數(shù)字人文:圖書館實踐的新方向[J].大學圖書館學報,2017,35(4):23-29.
[7]貝里M.,費格約德.數(shù)字人文:數(shù)字時代的知識與批判[M].王曉光,譯.大連:東北財經(jīng)大學出版社,2019:7.
[8]徐力恒.唐代人物資料的數(shù)據(jù)化:中國歷代人物傳記資料庫(CBDB)近年工作管窺[J].唐宋歷史評論,2017(0):20-32;381.
[9]搜韻網(wǎng).唐宋文學編年地圖[EB/OL].[2020-09-29].https://sou-yun.cn/PoetLifeMap.aspx.
[10]國家檔案局政策法規(guī)研究司.2019年度全國檔案行政管理部門和檔案館基本情況摘要(二)[EB/OL].(2020-09-04)[2020-10-06].https://www.saac.gov.cn/daj/zhdt/ 202009/23bee44fdf594f048619334774968c7d.shtml.
[11]楊冬權(quán).在全國數(shù)字檔案館(室)建設推進會上的講話[J].中國檔案,2013(11):16-21.
[12]錢毅.技術(shù)變遷環(huán)境下檔案對象管理空間演化初探[J].檔案學通訊,2018(2):10-14.
[13]Valley of the Shadow.What is the valley project?[EB/OL].[2020-10-16].https://valley.lib.virginia.edu/VoS/us? ingvalley/valleyguide.html.
[14]龍家慶,王玉玨,李子林,等.數(shù)字人文對我國檔案領域的影響:挑戰(zhàn)、機遇與對策[J].檔案學研究,2020(1):104-110.
[15]柯平,宮平.數(shù)字人文研究演化路徑與熱點領域分析[J].中國圖書館學報,2016,42(6):13-30.
[16]庫克,李音.銘記未來:檔案在建構(gòu)社會記憶中的作用[J].檔案學通訊,2002(2):74-78.
[17]劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國圖書館學報,2017,43(5):32-41.
[18]楊千.數(shù)字人文視域下我國檔案資源合作開發(fā)模式研究[J].檔案與建設,2019(10):8-12.
作者單位:1.河北大學管理學院2.中國人民大學信息資源管理學院3.中國人民大學電子文件管理研究中心