于志瑩 于英香
(上海大學圖書情報檔案系 上海 200444)
隨著信息技術的發展,電子文件大量產生,檔案界積極探索電子文件的管理問題,“保持電子文件真實、可靠、完整、可用的‘四性’是世界各國對電子文件管理目標的共識”。[1]區塊鏈獨有的技術特征,契合電子文件四性維護的要求。《2017年國家檔案局科技項目立項選題指南》[2]與《2018年國家檔案局科技項目立項選題指南》[3]都將“區塊鏈技術在電子檔案管理中的應用”列為科技項目選題之一,2019年,習近平指出“要抓住區塊鏈技術融合、功能拓展、產業細分的契機,發揮區塊鏈在促進數據共享、優化業務流程、降低運營成本、提升協同效率、建設可信體系等方面的作用。”[4]積極探索基于區塊鏈技術的電子文件四性維護具有重要的理論意義和實踐價值。
區塊鏈技術應用于電子文件管理的研究也是近幾年的事,主要集中在對基于區塊鏈技術的電子文件應用前景、長期保存以及可信性維護方面的研究。基于區塊鏈技術的電子文件前景探析方面的研究,如劉越男從管理的技術環境、專業功能、檔案鑒定、檔案部門的地位、信息資產的保存等方面對區塊鏈應用于文件檔案管理提出質疑并提出解決措施;[5]林昕等人通過對區塊鏈應用于檔案管理的SWOT分析,提出戰略定位;[6]王子鵬以RecordKeeper項目、TrustChain模型、可信保護框架模型、ARCHANGEL項目作為研究對象并指出區塊鏈應用于電子文件管理的優點。[7]基于區塊鏈技術的電子文件長期保存方面的研究,如劉越男通過分析區塊鏈技術在保證數字檔案長期保存方面的長處、不足和風險,得出其中需要注意的事項;[8]聶云霞等人通過分析可信電子文件長期保存的價值、區塊鏈在保證可信電子文件長期保存的作用,從頂層設計、政策、法律、人才、觀念、轉變管理等方面提出區塊鏈應用于可信電子文件長期保存的措施。[9]基于區塊鏈技術的電子文件可信性維護方面的研究,如王平等人通過對區塊鏈與電子文件的共性及電子文件可信保護要素分析切入, 借鑒OAIS模型, 提出“信息區塊”概念及基于區塊鏈技術的電子文件可信保護框架。[10]
總的來說,檔案界對區塊鏈在電子文件管理中的應用研究較多且內容豐富,一些研究論述了區塊鏈如何維護電子文件的某些四性特征,如王平,李沐妍,姬榮偉在《基于區塊鏈技術的電子文件可信保護框架研究》一文中論述了區塊鏈技術在維護電子文件真實性、可靠性、完整性的適用性等,[11]但整體來說對區塊鏈技術適用于電子文件四性的完整闡述以及電子文件的全程管理與區塊鏈技術結合的具體路徑研究較少。本文通過分析區塊鏈技術在電子文件四性維護的適用性,構建出電子文件元數據入鏈的具體路徑,以期使區塊鏈技術參與到電子文件的全流程管理,更好的維護電子文件的四性特征。
目前關于區塊鏈的定義還沒有統一的標準,簡單來說“區塊鏈是一種按照時間順序將數據區塊以鏈條的方式組合成特定數據結構,并以密碼學方式保證不可篡改和不可偽造的去中心化共享總賬。”[12]目前區塊鏈已經形成分布式、免信任、 時間戳、非對稱加密和智能合約五大技術特征,對應的特點為分布式存儲、不可篡改性、可追溯性、安全性、可編程性。[13]根據工信部《中國區塊鏈技術和應用發展白皮書》[14]可將其歸為狹義的概念和廣義的概念,狹義的概念主要指區塊鏈是一種鏈式的數據庫,按照時間順序生成數據單元,每個數據單元即為一個區塊,如前面所說的分布式賬本,而廣義的區塊鏈代表一種技術概念,這種技術由多種技術相互融合組成,包括分布式、時間戳、智能合約等技術形式,如前面提到的技術特征。另外,根據區塊鏈網絡中心化程度的不同,分化出三種不同應用場景下的區塊鏈,分別為公有鏈、聯盟鏈和私有鏈。任何組織或個人都可以加入公有鏈,查看區塊鏈上的信息(如早期的比特幣),聯盟鏈只允許授權的節點加入,查看區塊鏈上的信息,所有節點都在一家公司中的區塊鏈稱為私有鏈。[15]
根據《信息與文獻—文件管理的國際標準》(ISO15489),一份文件關鍵性的特征為:真實性、可靠性、完整性、可用性。[16]由于電子文件的易修改性,信息與載體的可分離性,形成的虛擬性等特性,使電子文件的原始記錄性認定起來比較困難,重新界定的電子文件的原始記錄性,認為只要電子文件的內容信息是真實準確的,就說電子文件是原始的。[17]文件的真實性可證明文件所記錄的是否是活動真實發生的,是否由文件中所記載的創造或發送的代理人在活動中創造或發送的;可靠性指其文件的內容可準確全面的反應交易、活動的過程或所證實的事實,并且在隨后的交易或活動過程中可被依賴;完整性是指文件應受到保護,不得擅自更改,文件是一個完整的不可改變的文件;可用性指文件在一段時間內的檢索、呈現和解釋,被利益相關者認為是合理的。[18]信息時代對文件全程無紙化的倡導也越來越強烈,電子文件的單軌制管理已成大勢所趨,[19]在電子文件單軌制管理呼聲越來越高的當下,如何維護電子文件的四性,做好電子文件管理各個流程的工作是亟待解決的問題。
針對電子文件四性特征維護,我國出臺了相關標準,如《電子文件歸檔與電子檔案管理規范》[20]、《錄音錄像類電子檔案元數據方案》[21]等,學者也進行了相關研究,如陳永生等人指出,電子檔案的真實性保障措施主要針對檔案實體和管理過程兩個方面制定,在實體方面主要通過時間戳和數字簽名技術來保障文件的內容和來源的真實性,管理方面主要通過電子文件的元數據信息對其進行追溯,通過格式管理,基于封裝包的數字遷移保障其長期可用。[22]由此可見,目前有許多電子文件管理的方法,但針對電子文件四性的管理還存在許多問題,如存在由于人為操作導致電子文件信息失真不可靠,由于存儲載體壽命的有限,記錄格式的轉變,導致其信息不可用,在移交過程中,雖然按照操作規范進行操作,但由于相關人員的疏忽,電子文件不完整等情況。[23]區塊鏈技術特征表現出的分布式存儲、不可篡改性、可追溯性、安全性等與其四性要求的技術特征有強烈的契合之處。
保證電子文件的真實性中,很重要的一方面就是防止電子文件信息被非法篡改,區塊鏈技術的免信任特性主要特點就是不可篡改性,區塊鏈中的信息被篡改,每個節點都會收到通知,如果區塊鏈中超過一半的節點不同意信息的篡改,那么此次信息的篡改就無效,[24]因此,區塊鏈中的信息篡改代價高且困難。應當注意的是,區塊鏈中信息篡改代價高,并不意味著無法篡改,若其中51%的節點同意信息篡改,信息便會篡改成功,如2018年以來,比特幣分叉幣等虛擬貨幣遭到多起“51%攻擊”,[25]但由于區塊鏈中信息的不可刪除性,即使信息被篡改也無法刪除篡改前的信息,從而彌補電子文件修改不留痕跡而帶來的危害。區塊鏈的可追溯的功能,使電子文件信息每時每刻的狀態都被監控,即使信息被修改成功,也可追溯信息修改時的狀況。另外電子文件在信息傳遞過程中也可能被截取,從而造成信息的非法篡改,區塊鏈中的公鑰、私鑰通過非對稱加密技術的應用使信息的傳輸十分隱蔽,安全性高,從而有效防止信息在傳播過程中被篡改。[26]
利用電子文件,要保證所利用的信息是可靠的。由于電子文件的形成與管理分屬于不同單位,檔案人員無法時時刻刻監管電子文件的形成過程,難以從源頭上保證電子文件的可靠性。利用區塊鏈技術則可在這一問題上取得很大成效,在電子文件形成過程中,為了保證其可靠性,要盡可能的減少人為的參與,此時引入區塊鏈技術,通過智能合約可自動執行相關流程,電子文件按照合約中的相關要求和規范形成,不僅減少人員的參與,還可提高電子文件形成的規范性。另外在電子文件的整個生命周期中,還可以依據時間戳技術記錄每時每刻電子文件的狀態,使其具有可追溯性,共識機制增強區塊中數據的可信性,從而更好的保障電子文件的可靠性。[27]但需要注意的是,區塊鏈技術不能阻止電子文件形成者有意或無意的使內容偏離客觀事實。[28]
不完整的信息與完整的信息所反映的內容不盡相同,有時甚至大相徑庭,因此,為了保證用戶利用信息的全面性,應該維護電子文件的完整性。維護電子文件信息的完整性主要指維護全宗內電子文件的有機聯系即檔案鏈的完整性以及元數據的完整性。[29]在實際工作中,由于人為的操作,可能會造成電子文件信息收集的不完整,破壞電子文件之間的有機聯系。利用區塊鏈技術收集電子文件,通過各個節點的商榷制定收集范圍的協議,運用智能合約自動執行協議,搜集相關電子文件,可有效避免人為的疏忽。通過共識機制,各節點可檢查存儲的電子文件種類、件數等交易細節,通過各節點的檢查與相互配合,也可保障電子文件的完整性。另外區塊鏈高度透明可追溯的特征,可最大程度上維護檔案鏈以及元數據的完整性,并保證其無法擅自修改。
管理電子文件,就是為了能及時提供電子文件為用戶所利用,保持電子文件的長期可用,才能更好的提供電子文件為用戶所利用,實現管理電子文件的目的。電子文件可用性面臨的首要挑戰就是由于技術的更新換代,電子文件格式轉變而無法讀取,區塊鏈的技術架構并未涉及由于數據格式的轉變而出現數據不可讀問題,目前主要通過遷移,仿真等技術來解決這一問題,但這一過程需要人工定期完成,智能合約的自動化在這一方面又表現出其優越性,在未來也許會通過智能合約來推動電子文件的格式轉化。[30]另外在文件的傳輸、存儲、壓縮、加密、系統與媒體轉換中,可能會出現由于電子文件存儲載體的壽命有限,電子文件受到破壞或是安全出現漏洞,導致電子文件不可用的情況。區塊鏈的分布式存儲功能,使得鏈上的數據存儲與去中心化的所有節點上,即使某一節點發生意外,只要存在一個正常的運行的節點,區塊鏈的數據便可恢復而不影響區塊鏈上后續數據的記錄與更新,從而保障電子文件長期可用。[31]區塊鏈中的加密技術,可使電子文件在保存原貌的情況下,保障其安全性,從而保障電子文件的可用性。[32]
鑒于區塊鏈技術在電子文件四性維護中的適用性表現,相信電子文件的管理有了區塊鏈技術的參與,其四性特征可得到更好的維護。而如何利用區塊鏈技術維護其四性特征?最主要的就是電子文件的入鏈。由于電子文件存在的數量巨大,產生的速度飛快,一般來說,放在區塊鏈中的信息都是經過精心選擇的,[33]Lemieux教授從功能角度,將區塊鏈系統中的文件劃分為賬本文件、交易/事務文件和輔助文檔三種類型。其中放入區塊中的一般為賬本文件,主要指“提供與執行交易/事務有關的背景或輔助信息,與交易/事務信息形成檔案聯”,[34]一般為憑證性很強的信息,電子文件的元數據便具有這種特征,因此本文選取的管理模式為鏈下建設專門的電子文件管理系統實現電子文件的捕獲、存儲、分類、處置等工作,鏈上對電子文件元數據進行捕獲并存儲在區塊鏈中,通過鏈上信息與鏈下電子文件管理系統、業務管理系統等所存儲信息的鏈接,實現電子文件四性的維護。[35]電子文件的四性維護貫穿于電子文件管理的整個生命周期,如何使區塊鏈參與電子文件管理的整個生命周期?不同階段的電子文件對應不同的保管場所,電子文件在其生命周期中主要對應兩個保管場所,分別為文件生成單位和保管單位,根據去中心化程度的不同,不同場景下的區塊鏈可分為不同的區塊類型,電子文件不同的保管場所可分別對應區塊鏈中的私有鏈和聯盟鏈。電子文件一般由生成單位向保管單位移交,對應的元數據由私有鏈向聯盟鏈轉移。依據電子文件不同存儲地點的特性不同,將其路徑劃分為兩個階段。階段一為元數據入私有鏈,階段二為私有鏈中元數據轉移至聯盟鏈及聯盟鏈中節點外數據入鏈。
這一階段主要是文件生成部門對電子文件的管理,其主要內容就是維護電子文件向檔案館移交前的四性特征。
以公司的各個部門為節點組成一條私有鏈模型(見圖1)。鏈上存有電子文件的元數據信息,另外各部門之間的電子文件往來均在區塊鏈上發生,其行為軌跡被區塊鏈所記錄,從而實現對電子文件四性的維護。

圖1 電子文件管理私有鏈節點組成
由于定稿形成后文件一般不做修改,因此選擇從定稿階段存儲相關信息。其鏈下定稿信息的存儲為通常的電子文件管理系統存儲信息的過程,即其他業務系統生成定稿,開始履行電子文件的現行價值,失去現行價值后,按照移交規定,電子文件管理系統對電子文件進行捕獲與存儲。鏈上定稿元數據的捕獲過程為:首先依據相關標準,將需要捕獲的電子文件元數據種類存儲到智能合約中,定稿形成后,通過執行智能合約對定稿的價值進行判定,對于在保存范圍外的定稿元數據,存儲請求被駁回,對于在保存范圍內的定稿元數據,由產生文件的部門獲得的公鑰對其元數據信息加密,接著提出存儲請求,通過共識機制將這些信息封裝成新的區塊,存儲在區塊鏈中(見圖2)。[36]

圖2 電子文件定稿信息存儲流程
從定稿開始,電子文件形成部門對電子文件的每次處理都發生在私有鏈中,相關信息經過類似的流程存儲在區塊鏈中,存儲信息的區塊又分為區塊頭和區塊體,區塊頭封裝了當前版本號、前一區塊地址、當前區塊的目標哈希值、時間戳等信息,區塊體則含有文件的元數據信息以及保存描述信息,[37]這些信息使生成的區塊具有唯一性,存儲的信息具有不可更改性,可追溯性,可驗證性,如ARCHANGEL項目可通過區塊鏈中存儲的電子檔案哈希值驗證利用者所獲得的電子檔案是否與最初狀態一致,[38]從而更好的保障所利用檔案的真實性。
這一階段對應的是電子文件保管部門對電子文件的管理。主要內容為電子文件保管部門對電子文件保管和利用過程中的四性維護。
其主要參與部門為各級別的檔案室、檔案館。同一縣級企業檔案室、事業單位檔案室、其他部門檔案室以及縣級檔案館分別為節點組成一條聯盟鏈;同一市級企業檔案室、事業單位檔案室、其他部門檔案室以及市級檔案館分別為節點組成一條聯盟鏈;同一省級企業檔案室、事業單位檔案室、其他部門檔案室以及省級檔案館分別為節點組成一條聯盟鏈(見圖3)。

圖3 聯盟鏈節點組成
由圖1和圖3可知,私有鏈與聯盟鏈的結合點為檔案室(見圖4),企事業單位,其他部門通過私有鏈結合到一起,結合中包括檔案室,而企業單位、其他部門的檔案室又通過聯盟鏈與檔案館結合在一起。

圖4 私有鏈與聯盟鏈的結合方式
電子文件向檔案室移交后,檔案室需將電子文件管理系統中具有永久保存價值的電子文件,按照移交規定,通過邏輯歸檔或物理歸檔實現電子文件向檔案館的移交,使檔案館對其進行管理,維護保管、利用等工作中的四性特征。隨著電子文件向檔案館移交,私有鏈中保存的相關元數據須轉移至聯盟鏈,此時需要利用一種技術,使檔案數據可以由私有鏈向聯盟鏈中傳輸,跨鏈技術很好的滿足了這一需求。當檔案室的檔案向檔案館移交,私有鏈中相應的元數據通過跨鏈技術也需向聯盟鏈移交,其具體過程為:首先將需要在聯盟鏈存儲的電子文件元數據類型存儲在智能合約中,檔案室的檔案向檔案館移交,觸發智能合約的啟動,根據智能合約判定信息是否在保存范圍內,在保存范圍外的元數據,存儲請求被駁回,在保存范圍內的元數據,經過公鑰加密,提出存儲請求,通過跨鏈技術、共識機制將這些信息存儲在聯盟鏈中(其流程與圖2類似)從而實現信息的捕獲。
聯盟鏈中節點上發生的保管、利用過程信息可直接存儲在聯盟鏈。但電子文件移交檔案館后,利用者不僅包括聯盟鏈中的節點,還包括其他普通用戶,普通用戶一般處于聯盟鏈中的節點之外。節點外的利用者的利用流程為:首先用戶提出利用請求,身份驗證通過后,鏈下提供電子文件為用戶利用并記錄電子文件利用的相關信息,如利用的時間、利用者的相關信息、歸還的時間等。將這些需要存儲到聯盟鏈中的信息類型記錄到智能合約中,鏈上通過執行智能合約,將利用中的相關信息經過檔案館公鑰加密,通過共識機制記錄到區塊鏈中(見圖5)。[39]通過鏈上與鏈下的配合,對電子文件保管、利用、處理等各種相關信息都能進行捕獲,從而維護電子文件的真實性、完整性、可靠性與可用性。

圖5 聯盟鏈中節點外電子文件利用流程
區塊鏈技術是一種新的技術,其技術特征與電子文件的管理有許多契合之處,正是這些契合之處使我們相信管理電子文件有了區塊鏈的參與,其四性特征可得到很好的保障。但是區塊鏈技術并不能解決電子文件管理中的所有問題,以上所探索的基于區塊鏈技術的電子文件管理模式也存在許多問題,如私有鏈模式中其節點屬于同一個公司,可能存在節點共同舞弊的行為,可信性受到懷疑;聯盟鏈模式中需要用到跨鏈技術,跨鏈技術成熟度較低等。[40]雖然區塊鏈技術應用于電子文件管理仍存在許多問題,但是不可否認的是,區塊鏈技術在檔案專業的研究使檔案專業煥發出新的活力,區塊鏈技術在電子文件管理方面的種種適用性也表明其在電子文件管理方面的應用是值得期待的!