陳栩杉/國防大學政治學院
錄音錄像類電子檔案是指具有查考和利用價值并歸檔保存的錄音類電子文件和錄像類電子文件,是經數字錄音設備和數字攝像設備形成的依賴計算機等數字設備閱讀、視聽、處理,可在通信網絡上傳送的數字音頻文件和數字音視頻文件[1]。與文書類電子文件、照片類電子檔案相比,錄音錄像類電子檔案具有物理結構復雜、管理要求特殊等特點[2],這對維護其真實、完整、可用、安全的管理目標提出了更高的要求,如何確保錄音錄像類電子檔案的真實性和完整性更是成為促進資源開發利用和長久保存工作有效實施的關鍵。
隨著區塊鏈應用于電子檔案管理的理解不斷深入,檔案學界、機構、企業圍繞應用價值[3—8]、路徑模式[9—11]、模型系統[12—16]、行業實踐[17—20]等方面展開了理論研究和應用實踐。從國內研究現狀看,檔案行業對區塊鏈技術的認識和理解從“爭先恐后”到“并不必然使用”,從應用前景展望到模型架構設計再到落地實踐探索,可謂是由淺入深、由點及面、初具形態,但仍以典型項目、典型場景的試點為主,應用對象類型主要面向文書類電子文件及其管理系統,缺乏針對錄音錄像類電子檔案特點設計的、基于區塊鏈技術的管理模式、模型系統等研究,還沒有成熟的實驗結果,存在眾多問題亟待探索和解決。
與此同時,英國國家檔案館等機構主導的ARCHANGEL項目借鑒聯盟鏈的技術框架,結合深度神經網絡模型,開發出基于音視頻內容的哈希算法,用于計算錄像類電子檔案的內容哈希值,該值上鏈后可作為驗證檔案完整性的重要依據,在應對錄像類電子檔案管理過程中可能出現的合理轉換(如格式轉換、遷移等)和非法篡改(如刪除音視頻幀、替換頭像等)均有較好效果。因此,本文在分析該項目針對錄像類電子檔案完整性驗證的基本思路、技術架構與流程的基礎上,論述了應用區塊鏈技術實現我國錄音錄像類電子檔案存證的啟示與思考。
ARCHANGEL項目由英國國家檔案館、英國薩里大學、開放數據研究所等機構聯合開發,旨在建立一個確保電子檔案長期完整性的去中心化平臺,用于在檔案管理和開放利用過程中驗證電子檔案的來源可信性和內容真實性,增強數字時代檔案機構權威地位和用戶信任程度。需要注意的是,這里的“完整性”是指檔案內容的真實性且未經非授權的更改或破壞,包含檔案學領域中“真實性”和“完整性”的兩層含義。
項目的總體思路是基于區塊鏈技術建立一個分布式平臺,由多個檔案機構負責管理維護。
每個檔案機構在檔案移交進館時,將原始檔案存證信息(即原始檔案哈希值)、檔案文件名或全局唯一標識符(Global Unique Identifier,GUID)、標識哈希算法的唯一標識符(如SHA-256)、附加元數據(如檔案管理員的注釋、移交時間、版本信息等)、專用哈希算法代碼或模型的哈希值(可選)等寫入區塊鏈。上述信息組合構成區塊鏈上的一個新區塊,加入鏈尾,并依托網絡對新區塊進行一致性檢測,形成共識。
用戶利用GUID或哈希值搜索、識別所需的區塊,通過計算所需利用檔案的哈希值,并與存儲在區塊中的原始存證信息進行比較,從而驗證該檔案的完整性。整個驗證過程是獨立的、透明的、可重現的,任何人在任何時間都能完成。
1.2.1 基本思路
錄像類電子檔案與一般的文本類電子檔案相比,由于其物理結構和管理要求具有特殊性,并不適合采用與文本類完全一致的處理方式,其原因主要有兩個方面。
一是錄像類電子檔案的文件存儲容量相較于一般文本類電子檔案要大得多,錄像類電子檔案的處理過程顯然需要消耗更多內存,對計算機等設備的硬件要求較高,在相同硬件條件下運算速度比一般文本類要慢得多。
二是出于保密和隱私保護等目的,錄像類電子檔案的原始內容并不會上鏈,上鏈的只是原始檔案的哈希值,如果采用SHA-256等標準哈希算法,就會造成用戶利用檔案時計算的哈希值與鏈上的哈希值出現不一致的情況。比如,以OAIS模型描述的信息包括提交信息包(Submission Information Packages,SIPs)、檔案信息包(Archival Information Packages,AIPs)、傳播信息包(Dissemination Information Packages,DIPs)等。當用戶利用時,AIPs(看作是原始記錄)與DIPs有可能不一致,因為檔案提供利用時通常會使用不同格式的副本(如為了降低文件下載容量,一個MXF格式的視頻檔案會轉換成MPG4格式)。同時,由于原始檔案的文件格式面臨過時風險,有可能需要遷移至新的格式。這些都會造成無法向用戶證明提供利用的檔案與館藏原始檔案一致。
因此,ARCHANGEL項目考慮定制開發一種新的哈希算法,該算法應具備一個特性,即文件格式的轉換對最終的哈希值沒有影響,但對內容的更改會產生截然不同的哈希值。這樣做,一是能給用戶提供正確的驗證依據,二是能防止檔案內容的篡改,三是能幫助檔案管理人員確保檔案格式的轉換或遷移工作已成功完成,避免由于軟件原因導致轉換過程中部分內容被截斷或丟失。
1.2.2 技術架構與流程
在驗證錄像類電子檔案完整性的技術架構中,項目采用了“鏈上+鏈下”混合的存儲策略。鏈上多個檔案機構共同維護兩個哈希值,一是錄像類電子檔案內容的哈希值,由定制開發的專用哈希算法生成;二是專用哈希算法代碼的哈希值,由SHA-256算法生成。鏈下各個檔案館分別存儲錄像類電子檔案的原始文件和各個視頻片段的檔案內容編碼。鏈上和鏈下數據依賴唯一標識符(Unique Identifiers,UID)進行對應關聯。
同時,為了進一步降低計算資源的消耗、提高區塊更新速率,項目采用了權威證明(Proof of Authority,PoA)的共識機制,利用檔案機構的法律地位和聲譽建立起基于權威共識的驗證機制,以犧牲部分去中心化來實現高吞吐量、可持續性和可擴展性。授權節點的訪問密鑰是預先進行分配和授權的,所有區塊是由授權節點通過多數共識定期封裝,新的節點通過現有授權節點的多數共識被授予訪問權。
在具體實現過程中,項目設計了一個深度神經網絡模型,用于提取錄像類電子檔案中音視頻流的時序內容哈希值(Temporal Content Hash,TCH)。該模型經過訓練后,即使視頻內容中出現很小的幀損壞(人臉、場景替換等)或時間不連續(拼接、截斷等),都會產生不同的TCH值;但若僅是視頻編碼格式的轉換,則會產生幾乎相同的TCH值。可見生成滿足需求的TCH值并根據該值判定錄像類電子檔案完整性是關鍵環節,其流程主要分為以下幾個步驟。
第一,將錄像類電子檔案的數字音視頻文件拆分成多個視頻片段,對每個片段中的音頻流和視頻流分別提取對應的特征序列。第二,利用深度神經網絡模型(如CNNLSTM),對每個視頻片段的特征序列進行訓練,得到該片段的音頻流TCH值和視頻流TCH值。在訓練過程中,除了將原始文件作為訓練數據之外,還要將相同文件經過格式轉換后的樣本數據納入訓練數據集,以便得到判定視頻是否被篡改的門限值。第三,將每個視頻片段的唯一標識符、模型代碼哈希值、音頻流TCH值、視頻流TCH值、門限值等上鏈。第四,用戶根據提供的訓練模型代碼,計算得到所需驗證視頻片段的音頻流TCH值和視頻流TCH值,與鏈上存儲的對應TCH值比較,若差異超過門限值,則認為待驗證的視頻片段被篡改了。
ARCHANGEL項目突破了傳統電子檔案管理的信任模式,將基于機構的信任轉變為基于技術的信任,不可否認從技術角度上看,該項目擁有一個復雜且設計精密的技術結構,但即使再完美的系統也存在缺陷,其根源與技術、管理之間沖突息息相關,主要表現在透明與隱私、安全與速度這兩個方面。在透明與隱私沖突的層面,開放和透明是基于區塊鏈驗證檔案完整性的核心,如果失去了透明性,區塊鏈就無法履行職責,但檔案本身的保密性和隱私安全使得這種透明性往往成為其應用在檔案管理上的一個局限因素,上鏈內容不可刪除或更改的優點反而可能帶來國家、社會、單位、個人隱私安全泄露的風險。在安全與速度沖突的層面,基于區塊鏈的數據結構要求每個被添加或更改的區塊都需要解決哈希難題,以極高成本保證數據不被操縱或偽造,但這大大降低了新數據上鏈的速度,與檔案管理環節、活動對速度和可擴展性的要求形成對比。因此,如何選擇一個平衡兩類沖突的折中方案,是立足電子檔案管理根本需求,找到技術與管理結合最優路線的關鍵。ARCHANGEL項目選擇上鏈的內容只包含檔案文件名、唯一標識符、檔案內容哈希值、算法唯一標識符、算法代碼哈希值、附加元數據等信息,部分情況下甚至文件名都不上鏈提供,最大程度避免了隱私和敏感信息的泄露。同時,選擇將新區塊寫入的權限和共識過程只授予預先選定并被確定為可信任的檔案機構節點,通過寫入權限的限制放寬了區塊鏈創造信任的條件,以隱藏的中心化屬性換取各類應用所需的高處理速度、高延展性和低成本投入需求。
國家檔案局從2017年起陸續發布了《錄音錄像檔案數字化規范》(DA/T 62—2017)、《錄音錄像類電子檔案元數據方案》(DA/T 63—2017)、《錄音錄像檔案管理規范》(DA/T 78—2019)等行業標準,在主題內容、責任者、業務背景、編碼標準、關鍵技術參數、知識產權管理等元數據層面以及歸檔范圍、收集、整理、著錄、存儲備份、轉換遷移等實體管理層面進行了統一規范,為檔案館(室)開展錄音錄像類電子文件歸檔與電子檔案管理實踐提供了切實可行的支撐和作業標準指南。但從各項標準規范的內容來看,其出發點基于規范、指導錄音錄像類電子文件、電子檔案、實體檔案管理工作,描述、管理對象是以卷、件為單元,因此其管理粒度仍處于案卷級、文件級粒度,還未下沉到檔案內容特征層面的屬性描述。這就造成如果需要對檔案的真實性進行驗證,本質上依賴的還是機構信任,檔案機構和檔案管理人員在標準規范的約束下對檔案來源、內容的真實可靠性負責,即使此時將相關元數據、管理流程信息上鏈,也無法完全保證檔案內容的真實性,且備份轉換、格式遷移等操作帶來的不同版本重復上鏈操作,也會增加管理工作的復雜程度和用戶的驗證難度。ARCHANGEL項目針對錄像類電子檔案設計的專用哈希算法,將管理對象粒度細化至音視頻流特征粒度,并基于特征直接生成檔案內容哈希值,形成檔案內容存證信息,且這種存證信息不會隨格式遷移變化,能夠保證正常管理工作的合規合法性,這相當于在案卷級、文件級層面之下又增加了一道內容特征級,三層式的管理粒度涵蓋了從高維語義信息到低維信號特征的“三保險”,彌補了檔案內容信息的驗證手段,構成了自頂向下的、多維細粒度的檔案真實性驗證機制。
管理協同就是把局部力量進行合理排列組合,來完成某項工作和項目。錄音錄像類電子檔案相較于一般類的電子檔案,無論是收集范圍還是收集要求都更具有獨特性。比如,錄音錄像類電子檔案記錄的大多是本地區政治、經濟、文化、體育與社會事業等重大活動,本地區地理概貌、城鄉建設、名勝古跡、自然風光、民風民俗和人物宣傳等題材,本單位工作活動、重要會議、外事活動、重點工程、重要人物等主要職能和基本歷史面貌,較少涉及其他地區或單位的文件收集和流轉。而且錄音錄像類電子檔案的聲音影像質量、歸檔格式、技術參數、存儲備份結構方式等均有較大差異,更容易在各個檔案機構之間形成“信息孤島”“應用孤島”“資源孤島”。因此,錄音錄像類電子檔案的管理協同就是將封存在各個檔案機構中的信息、業務、資源進行時間、空間和功能結構的重組,解決檔案機構作為傳統可信中心機構存在的分布式環境、多主體交互、主體間信任度低問題,實現信息協同、業務協同、資源協同,產生一種具有“競爭—合作—協調”的能力。ARCHANGEL項目展示了數字檔案機構的協作本質,依托檔案機構權威地位和彼此館藏信任的方式,通過分布在多個獨立檔案機構的區塊鏈平臺,利用PoA的權限機制保證“鏈下資源的來源可靠”和“鏈上資源的共識維護”,跨越機構之間的邊界建立起一種全新的互信方式,對降低單個檔案機構信任風險、提升機構間檔案信息整合效應提供了共贏的解決方案。
一要試點出臺法規標準,明確管理流程中各部門、各單位的責任分工。在現有電子檔案全程管理過程中,每一個環節、每一項活動通常都有相應的標準規范予以支持,如綜合性標準、元數據標準、管理系統標準、保存標準等,對實施具體管理工作提供了依據。區塊鏈的引入將用戶對檔案機構的信任部分轉移到對技術、協議的信任,系統完備性所產生的技術依賴在一定程度會導致檔案機構、檔案管理人員責任的缺失,因此需要在戰略層面、宏觀層面出臺具有指導意義的法規標準,厘清區塊鏈系統與檔案機構之間的責任邊界,對形成部門、檔案部門、信息化部門和保密部門的責任分工予以明確。
二要擴大應用場景,充分發揮區塊鏈應用價值。從區塊鏈本身的技術特征以及它能夠存儲各種數據的特點進行分析,可以發現其應用場景包括存在/非存在證明、時間證明、身份證明、作者證明、順序證明等[21]。從包括ARCHANGEL項目在內的現有區塊鏈與檔案業務結合的案例來看,前4個應用場景均有涉及,也就是對單個文件的存在與否、時間戳、身份信息、版權信息等都能進行驗證,但順序證明的應用鮮有見到。順序證明適用于證明事件發生的先后順序,在資源按照同一標準進行分配時尤為重要,筆者認為順序證明可用于同一全宗、案卷內錄音錄像類電子檔案的管理,即在驗證單個檔案完整性的基礎上進一步驗證全宗和案卷的完整性,從橫向和縱向兩個層面考慮檔案完整性的驗證機制,這在檔案整理、移交等典型場景下判斷是否有缺漏、篡改等時頗為重要。
三要在平臺中融入科學的獎勵機制,提升檔案機構和用戶的使用興趣和接受度。區塊鏈在技術上的不盡成熟和法律地位的不確定性,都會使檔案機構、用戶不能夠信任區塊鏈。目前的應用優勢如保證檔案完整性、提升機構公信力、資源相互支撐等,大多是針對機構的,但這些優勢是否足以抵消檔案機構耗費的各類成本,需要思考。此外,用戶因為權限受限無法加入共識過程,也就無法得到相應工作量的獎勵,這會降低用戶加入平臺的想法。因此,需要設計公平公正的獎勵機制,進一步激發用戶參與的動力。