陳茜月
(鄭州大學檔案與校史館 鄭州 450000)
元宇宙作為當下備受關注的技術新寵,已成為各領域的熱點話題。元宇宙起源于上世紀末尼奧的科幻小說《雪崩》中構建的網絡世界Metaverse,是基于互聯網而生的、能與物理世界信息相通且平行存在的虛擬世界,因具備沉浸式體驗的特點而被看作是3D 版的超大互聯網平臺[1]。作為一個虛擬生態體系,元宇宙空間(又稱元宇宙、元宇宙場域,下文統一簡稱為元宇宙)具備的去中心化、超高計算能力、高度互聯互通等特點可以為物理世界在信息處理、數據交互等方面的現存困境提供有效解決方案,為信息管理領域開拓研究思路。當前圖情學科部分學者已開展對元宇宙的研究,主要涵蓋圖書館管理[2-7]、信息管理[8-9]等方向。檔案領域針對元宇宙的討論也逐步升溫,已有的研究成果集中在檔案服務方面,包括檔案展覽[10]、檔案文創[11]、民間藝術檔案[12]、檔案宣傳[13]、服務模式[14]等,也有學者提出檔案領域元宇宙的研究基礎[15]、檔案館融入元宇宙的展望[16]、元宇宙視域檔案空間構建[17]、元宇宙應用風險[18]等。
檔案領域針對元宇宙的研究日漸豐富,但目前在元宇宙場域下檔案數據方面的研究較為單一,針對基本問題的解析、管理方法的討論、技術手段的運用相關研究并未見到,此類基礎研究的空缺或在一定程度上制約元宇宙和檔案學的深度融合。筆者認為針對元宇宙場域下檔案數據的研究工作應始于對基本問題的明晰和核心概念的探究,這是后續研究工作的重要起點;在此基礎上需對元宇宙場域下檔案數據的管理框架開展研究,分別梳理元宇宙場域下檔案數據的業務邏輯、構建元宇宙場域下檔案數據管理模型,這是研究檔案管理問題的脈絡主線,是理清元宇宙如何對檔案數據的產生、流轉、存儲、利用等關鍵問題的重要方式;實現元宇宙場域下檔案數據的高效管理必須依靠技術手段保障,在梳理好基礎問題和管理框架后,如何利用元宇宙技術做好檔案數據的技術保障也是不容忽視的研究內容。
在對元宇宙場域下檔案數據開展研究工作之前,應先明確研究對象的有關基本問題:一是研究對象的概念,即元宇宙場域下(為方便表述,本文后續將簡稱為場域下)檔案數據的來源和組成;二是研究對象的構建過程,即場域下檔案數據的構建過程中須經歷三個階段和兩個過程;三是研究對象的數據形態,即場域下檔案數據有何種存在形態及各自特點、依托載體。核心概念的明確能為后續研究提供邊界清晰、來源明了、形態全面的研究對象,有助于構建健全有效的管理手段、選擇方案最優的技術保障。
物理世界中有關檔案數據的定義最早見于國家檔案局2019 年公布的《基于非關系型數據庫的檔案數據存儲規范(征求意見稿)》指出“檔案數據包括電子檔案的內容數據、傳統載體檔案數字化副本的內容數據以及兩者的元數據(含目錄數據)”[20]。檔案界有學者提出了廣義層面檔案數據的定義:所有系統中生成的具有檔案屬性的數據都應納入檔案數據管理范疇[21]。
元宇宙的發展始終圍繞虛實融合與時空再構這兩個核心命題[22],在其構建過程中需要經歷三個階段:數字孿生階段、虛擬原生階段和虛實共生階段[23]。數字孿生階段的主要目標是仿造,即對物理世界進行模擬、復制、虛構,此時物理世界和孿生世界是涇渭分明的;虛擬原生階段是指孿生世界通過人工智能手段完成搭建并無需物理世界參與即可獨立運轉;虛實共生階段能實現物理世界和虛擬世界的相互融合、相互作用、實現共生[24]。基于上述元宇宙構建三階段理論,作為元宇宙檔案資源的重要組成,檔案數據也相應的需要經歷孿生、原生和共生三個階段,并分別產生孿生檔案數據(twin archival data)、原生檔案數據(original archival data)及共生檔案數據(symbiotic archival data)。據此,參考物理世界對檔案數據的概念界定[20],嘗試將元宇宙場域下檔案數據定義為物理世界檔案數據的孿生備份、場域下原生出的電子檔案的內容數據以及場域下與前兩者相關的元數據(含目錄數據)。
研究場域下檔案數據構建過程的目的是為了剖析研究對象,為后續構建管理框架和搭建關鍵技術提供準確支撐。由于元宇宙構建必經三過程——數字孿生、虛擬原生和虛實共生[23]據此來實現虛實結合和空間搭建,所有身處其中的檔案數據也不例外的需要經歷此三過程。本文根據提出元宇宙場域下檔案數據的兩個構建過程——由實構虛和由虛向實。
一是由實構虛的過程,即由物理世界的檔案數據構建場域下檔案數據的過程。“由實構虛”是虛擬世界對物理世界的模仿,是以物理世界的檔案數據為原型構建數字孿生檔案的過程,是數字孿生階段到虛擬原生階段的轉變。由于場域下數據管理方式與物理空間的信息系統在底層邏輯、數據表示及業務邏輯上有較大差異,因此應當對包括檔案庫房、檔案實體、檔案電子資源在內的全部檔案信息進行數字化重造(digital reconstruction),用于構建與物理世界平行的場域下檔案數據虛擬空間。在由實構虛階段產生的檔案數據稱為孿生檔案數據(twin archival data),它是物理世界中的檔案數據到虛擬世界的映射,是將物理世界中多形態的檔案數據通過虛擬現實XR 技術等處理后轉為元宇宙能理解的、數字形態的孿生檔案數據,能滿足虛擬世界中檔案信息的展示、管理并傳播需求。
二是由虛向實的過程,是元宇宙自我構建過程的一部分。“由虛向實”是對虛擬世界中各類檔案主體和檔案業務進行自我創造的過程,期間形成了獨立于物理世界的檔案數據體系,并通過平行執行的方式作用到物理世界以實現對物理世界的檔案管理產生影響,即包含兩個階段——第一階段元宇宙場域下檔案數據自主體系建立及第二階段虛實二世界之間相互作用。第一階段產生的檔案數據稱為原生檔案數據(original archival data),是獨立于物理世界的檔案數據,由虛擬世界的自我體系產生出來,是物理空間中不存在的、虛構的檔案數據信息,例如元宇宙場域下虛擬人的出生信息、虛擬單位組件情況、虛擬學校的教學成績單等均是基于虛擬世界自我創造的本體所產生的檔案資源,與物理世界沒有直接的對應關系。第二階段虛擬空間與物理空間相互作用中產生的檔案數據是共生檔案數據(symbiotic archival data),它是在孿生檔案數據及原生檔案數據相互融合、相互作用、共同交互的過程中產生的。
結合本文1.1 節闡述的元宇宙構建三階段和場域下檔案數據的孿生、原生、共生三階段,可以解析出場域下檔案數據存在孿生態、原生態、共生態三種數據形態。其中孿生態檔案數據(twin archival data)是對物理世界的檔案信息資源的模擬和復制,原生態檔案數據(original archival data)是由元宇宙構建的、與物理世界沒有直接關聯的檔案數據,共生態檔案數據(symbiotic archival data)是在孿生檔案數據及原生檔案數據相互融合、相互作用、共同交互的過程中涉及到的檔案數據。
表1 列出了場域下檔案數據的三種形態,并對其信息載體、信號性質、保存介質和管理方法展開對比分析。就信息載體維度而言,孿生態檔案數據是對物理世界的擬真復刻,構成了物理世界的孿生空間,故孿生態檔案數據存在于孿生空間內;原生態檔案數據是場域下檔案數據虛擬空間產生的數據信息,其信息載體是元宇宙;共生態檔案數據是產生于元宇宙并能與物理世界數據互通的數據信息,故同時存在于物理世界及元宇宙。從信號性質維度分析,孿生態是物理世界檔案信息的復刻,因此是物理世界檔案數據;原生態檔案數據遵循元宇宙的基本數據格式要求,具備場域下數據的基本特征即連續的語義信號;共生態檔案數據是最高形態的檔案數據,能與上述多種形態數據交互通信。在保存截止和在數據管理維度上,在場域下數據不論何種存在形態都遵循元宇宙去中心化的構建理念即存儲在云服務器中并采用基于區塊鏈的分布式數據管理方法。

表1 元宇宙場域下檔案數據存在形態
數據管理手段是數據運轉的核心和規范,也是數據生命的起點和終點,明確檔案數據在元宇宙的管理框架對研究檔案資源和二者融合具有重要指導價值。在構建數據管理模型之前,應先明確場域下檔案數據的業務邏輯,這是理清檔案數據在元宇宙如何產生、流轉、存儲、利用等數據操作的重要基礎。本節從檔案業務和元宇宙自身特性著手,對場域下檔案數據的業務邏輯和管理模型開展研究工作。首先從場域下檔案數據業務邏輯入手,遵循產生、收集、歸檔、存儲、利用五個關鍵業務節點和基礎層、業務層和表示層的三層邏輯,構建了場域下檔案數據業務邏輯架構;并基于此業務邏輯和元宇宙體系參考模型[25]提出了場域下檔案數據管理參考模型。
物理世界的檔案數據多以離散的、碎片化的結構方式出現,檔案資源和應用場景以平面展示和功能實現為主,檔案管理和業務部門間數據交互性差;相反,場域下信息和數據的組織方式更加直觀、可視,語義信息和邏輯推理能力更高,應用和服務以更直觀的體驗為主,數據底層具備統一化標識。因此在語義和推理方面,元宇宙檔案數據更利于理解和推演;在知識構建上,元宇宙更利于檔案知識圖譜構建;在應用服務上,元宇宙趨向更直觀、場景融合的3D 孿生檔案服務;在數據交互上,元宇宙支持多元敘事、復原歷史、情感共鳴等開放融合功能。物理世界檔案數據的處理邏輯包括產生、收集、歸檔、存儲、利用五個主要環節。場域下檔案數據仍考慮以此五環節為主,結合元宇宙去中心化、沉浸式體驗等特性,勾勒出場域下檔案數據的業務邏輯參考架構(見圖1)。

圖1 元宇宙場域下檔案數據業務邏輯架構
圖1 從基礎層、業務層和表示層的五個環節構建元宇宙場域下檔案數據業務邏輯。第一是基礎層,包括數據的產生和收集階段。檔案數據的產生階段包括檔案孿生數據的產生和檔案原生數據的產生,其中檔案孿生數據是存在于物理世界中的檔案實體、檔案電子文件數據、檔案元數據、檔案聲像數據、檔案特殊格式數據資源等全部檔案信息在數字化重造后形成的檔案信息;檔案原生數據是在元宇宙場域下產生的檔案相關數據,包括元宇宙自身及各業務系統的元數據、檔案條目數據、業務系統數據、電子檔案數據、音視頻數據等。在收集階段中,物理世界的目錄移交、數據加工處理、文字識別、信息提取、業務系統接口等流程將不再存在,場域下檔案數據的收集工作更為簡化,這是因為包括參與主體在內的檔案資源均是電子數據,故只需對數據合規性包括數據格式、數據來源、數據可靠性等進行判定。這是元宇宙數據共享共治機制和平權原則的底層架構決定的。因此,物理世界中諸多割裂的獨立的業務系統壁壘將被打破,實現數據一統。元宇宙的物理世界孿生應用可以相互連接,通過“平行執行”的反饋控制實現對物理世界檔案數據的優化,構建檔案數據虛擬空間的獨立生態系統。第二是業務層,包括檔案數據的歸檔和存儲。檔案數據的歸檔過程更為簡潔,只需完成時間戳和簽章的加載。在檔案數據的存儲方面,元宇宙的數據共享底層架構能完美解決物理世界數據冗余問題,文件數據不必多處產生副本。第三是表示層,主要涵蓋檔案數據利用環節。由于元宇宙信息自身具有去離散化和高度語義化的特點,故數據來源語義化程度更高,同時有人工智能等技術的加持,可知檔案數據在知識構建、智慧編研、決策推理等方面將有新的突破。
北京信息產業協會發布的《2022 年中國元宇宙白皮書》[25]提出了元宇宙體系參考模型,明確了虛擬世界與物理世界通過擬真仿生、平行執行的方式進行交互。本文基于此參考模型[25],嘗試構建元宇宙場域下檔案數據管理參考模型(reference Model of Archival Data Management in Metaverse,MADMM)。元宇宙首先對物理世界存在的檔案主體包括物理設施、管理角色及各種檔案資源等進行數字化重造,同時構造出孿生檔案數據并完成檔案數據虛擬空間的搭建。本文以生存周期內對檔案數據產生約束的管理對象為標準,將MADMM 抽象為底層邏輯、參與主體和應用服務三個模塊。
底層邏輯是數據管理的基本準則[26],物理世界和元宇宙均需按照各自空間內的業務流程和檔案法規進行管理。就參與主體來說,由物理世界的檔案數據、人員主體、硬件設備轉變為元宇宙的檔案數據和虛擬人,其中物理世界的檔案數據不僅包括物理世界中實體檔案信息和電子檔案信息,也包括檔案館舍等硬件設施,這是由檔案數據虛擬空間是物理世界的完全擬真的本質特性決定的;人員主體由物理世界的檔案管理員、業務部門檔案員、查檔者等全部檔案參與者變更為虛擬人(即平行世界中對物理世界管理角色的模擬),由于管理角色在物理世界檔案管理過程中起到了主導性地位,因此在場域下檔案管理過程中仍需將管理角色——虛擬人(即人員主體)放置在主導位置;設施設備由物理世界的物理樓宇、硬件設施轉變為元宇宙中的虛擬存儲,這是由元宇宙提供的故不需要額外標注。檔案數據管理的主要目標是為應用場景提供服務,所以在應用邏輯層面上的檔案數據應當從紙片化的2D 信息轉換為沉浸式體驗的3D 格式且數據化知識化算法化智能化的檔案數據信息。圖2 是對元宇宙場域下檔案數據管理參考模型MADMM 抽象后的形式化表達。

圖2 元宇宙場域下檔案數據管理參考模型
檔案數據如何融入元宇宙、元宇宙如何處理好檔案數據,這是檔案和元宇宙融合應用應思考的問題。元宇宙是技術的集大成者,故在探討場域下檔案數據的管理問題時應根據數據特點選擇相應技術做保障。場域下檔案數據的有效管理不僅需要基礎硬件層的支撐,也要核心技術做保障。本節結合元宇宙技術參考架構[27],對場域下檔案數據管理的關鍵技術進行探究,并提出元宇宙場域下檔案數據管理關鍵技術架構(見圖3)。

圖3 元宇宙場域下檔案數據技術架構
檔案數據虛擬空間的搭建離不開通信和網絡技術做好基礎保障,檔案數據的利用服務等業務需要XR等交互設備的支撐以實現真正的沉浸感。這對通信和網絡技術有更高的要求,以滿足低延時、高渲染、強重構的需求。
通信設施能為元宇宙檔案數據的管理提供底層支撐。5G 時代的大規模天線、新型多址、全頻譜接入、現金調制編碼等技術已投入使用,能實現用戶體驗速率達1Gbps,時延低至1ms,用戶連接能力達100萬連接/平方公里。6G 技術(第六代移動通信標準)正在研發中,其傳輸能力或比5G 提升100 倍,網絡延遲可能從毫秒降到微秒級并支持泛在千兆、毫秒級時延,最大限度保證虛擬空間的通信設施水平和交互體驗[28]。
網絡傳輸技術主要實現網絡節點的連接和通訊(又稱點對點),是沒有中心服務器、依靠用戶群交換信息的互聯網體系,在處理檔案數據通信中具有“物流”的作用。不同于物理世界的中央網絡,對等網絡的每個用戶端既是處理節點也扮演服務器的角色,其具有去中心化與健壯性的特點。每一個節點既接收檔案數據也產生檔案數據。節點之間通過維護一個共同的區塊鏈來維持檔案數據通信。區塊鏈網絡中的每一個節點都可以創造新的檔案數據區塊,在新區塊被創造后會以廣播的形式通知其他檔案數據節點,其他節點會對這個區塊進行驗證,當全區塊鏈網絡中超過51%的用戶驗證通過后,這個新區塊就可以被添加到主鏈上。
運算能力是檔案數據流轉中的重要一環,云計算能夠提供包括服務器、存儲數據庫、網絡、軟件、分析和智能處理等計算服務。該技術使得檔案數據不再需要像物理世界一樣處理大量硬件設置、軟件補丁等管理性事務,能以較低成本實現數據備份、災難恢復,在云上冗余站點對數據進行鏡像處理。由于云計算在工作效率、可靠性、安全性上的出色表現,可以用來處理安全性要求較高的檔案數據問題。
檔案數據的存儲對象是檔案數據虛擬空間及場域下檔案數據資源。前者可理解為元宇宙場域下的“檔案館”,其是由物理世界經擬真技術搭建出的空間結構、場景、主體等,本質層面的存在方式仍是數據。場域下檔案數據類型復雜、處理方式多樣,故無法用一種數據存儲技術和標識技術完成[28]。但元宇宙的底層數據庫在處理超大數據規模、多樣化數據、多數據處理模式方面有極大優勢。針對檔案數據的兩大來源和自身特點,考慮使用去中心化(區塊鏈)、數字孿生、三維可視等技術完成數據存儲和標識。
區塊鏈技術貫穿于場域下檔案數據管理的全流程中。在數據存儲上,區塊鏈展現的是分布式技術的核心思想——去中心化及“區塊+鏈”的存儲結構,同時元宇宙搭建的基礎邏輯是不以某個主體的意志為轉移,建立在去中心化的平權式共享機制和共治機制之上。因此檔案數據虛擬空間是建立在去中心化的運行機制上的,故采用分布式數據管理方法是必然。一是分布式數據管理技術能滿足檔案數據體量持續增大的現實需求;二是能將檔案數據交互和響應需求切分成分布式事務分配到參與節點,由數據片分布處理,以提高檔案數據的效率。數字孿生可理解為物理世界在虛擬世界的映射,狹義的說即用物理實體孿生出檔案數據,是物理世界數據信息和場域下數據信息相互提供檔案數據存儲的一種技術手段。三維可視化是使用三維模型數據庫進行數據保存,輸出格式包括MAX、FLT、OSG 等。
場域下檔案數據交互包括與物理世界的平行執行交互以及虛擬世界生態體系內的數據通信交互。平行執行交互是在人工構建的虛擬空間和物理世界之間搭建閉環反饋,實現兩個世界的虛實互動和平行管理。不僅需要系統間的平行運轉,也需要人(主體)、物、信息(數據)的平行交互。這即是前文闡述的“由虛向實”的數據流轉過程。為保證物理世界與元宇宙之間的互聯互通,需要使用物聯網技術和交互技術做好保障。
物聯網技術為物理世界接入元宇宙提供了可靠基礎,交互技術為虛擬空間提供高沉浸感、高仿真虛擬的檔案服務體驗。分布式技術在處理場域下檔案數據時是基于去中心化思想的。物理世界中的信息管理手段以中心模式為主,為保證檔案數據庫節點數據的一致性,各節點需并發的進行數據讀寫,此舉不利于數據量增長且延長了數據交互的時間成本,限制了數據空間的擴展和性能提升。因此元宇宙選擇分布式管理的區塊鏈技術作為檔案數據交互的基本技術手段,為場域下檔案數據提供去中心化的存儲和安全認證工作。同時在密碼算法上利用數字簽名、哈希函數和非對稱加密技術[27]保證檔案數據交互在去中心化的情況下能夠安全的進行。場域下檔案數據流轉和交互遵循的是去中心化的平權方式,以此避免數據中心的產生,是區塊鏈技術在檔案數據交互中的一個體現。
感知交互技術為元宇宙提供了沉浸式虛擬現實體驗,是輸入端和輸出端的深度融合,由軟硬件元素共同組成。交互技術包括一或多個捕獲檔案主體輸入的輸入(Input)設備及一或多個顯示檔案主體反饋的輸出(Output)設備。
存在于元宇宙中每個主體和事物都擁有自己的數據信息,因此數據安全和隱私保護是元宇宙數據管理的重點議題。場域下檔案數據的安全性既包括檔案數據的可用性,也包括數據不被篡改的可靠性可信性。檔案數據虛擬空間中保障數據安全及隱私主要考慮使用區塊鏈的非同質化通證,本質是區塊鏈中具有唯一性的可信數字權益憑證[27],用來保障價值歸屬與流轉,實現元宇由經濟系統運行的穩定、高效、透明和確定性。
數據智能方面重點體現在檔案數據的重要使命——利用和服務場景中。場域下檔案數據在語義和推理方面具有特殊優勢,被賦予了“智慧天賦”。人工智能算法正向類腦網絡和強化學習等方向發展,包括計算機視覺智能語音、意圖識別、自然語言處理、內容(物品、場景、情節)生成、分析預測等,為場域下檔案數據智能化服務提供有力支撐。
元宇宙是人工智能、區塊鏈、5G 通信和數字孿生等技術的集大成者,是平行于現實世界的獨立生態體系。元宇宙場域下檔案數據將以何種方式產生、存在、推演,檔案數據須遵循何種管理模型及業務邏輯,哪些技術能夠在檔案數據生命周期的全流程中提供可靠保障,這些是檔案領域在面對元宇宙技術熱潮時應思考的基礎性問題。本文從基礎問題入手展開研究工作,分別給出元宇宙場域下檔案數據的概念、構建過程及存在形態,并從業務邏輯和管理模型兩方面構建了元宇宙場域下檔案數據的管理框架,最后提出了保障元宇宙場域下檔案數據的關鍵技術手段和技術框架。研究內容立足基礎理論、著眼管理手段、根植技術方法,為元宇宙和檔案學進一步融合研究提供了支撐。