楊海杰 石進 盧明欣
摘? 要:探討區塊鏈、分布式存儲技術在電子文件可信管理中的適用性。梳理電子文件管理方式的演進,以維護電子文件真實性、可靠性、完整性、可用性為目標,構建一種基于鏈上鏈下的電子文件可信管理系統模型,并依據電子文件可信管理的目標對模型進行評價。區塊鏈、分布式存儲技術在電子文件可信管理領域具有可行性,本文提出的模型能夠基本滿足電子文件可信管理的要求,且具有訪問控制、加密存儲、高效檢索等優勢。為應用區塊鏈技術實施電子文件可信管理提供了一種參考。
關鍵詞:區塊鏈;分布式存儲;電子文件;信任
分類號:G273.3
Abstract:? This paper aims to discuss the applicability of blockchain and distributed storage technology in the trusted management of electronic files.This paper firstly reviewed the evolution of electronic archive management. Then with the goal of maintaining the authenticity, reliability, integrity, and availability of electronic archives, a model of a trusted management system for electronic archives based on on-chain and off-chain was constructed. and based on the model is evaluated by the target of credible management of electronic archives. It has been found that it is feasible to apply blockchain and distributed storage technology to the field of trusted management of electronic archives. The model proposed in this paper can basically meet the requirements of trusted management of electronic archives, and has access control, encrypted storage, and efficient retrieval and other advantages. This paper has provided an application model of blockchain technology in the trusted management of electronic archives.
Keywords:? Blockchain; Distributed storage; Electronic archive; Trust
隨著信息化發展,電子文件逐漸替代傳統紙質文件,成為社會信息資源的主要載體,[1]電子文件的可信管理也成為檔案管理領域的研究熱點。國內外學者關于電子文件可信管理的研究多集中于政策策略、管理策略,很少有研究從技術角度提出行之有效的電子文件可信管理系統模型,因此現有研究不能很好地滿足各類系統環境下電子文件管理的可信要求。目前,具有去中心化、不可篡改等特性的區塊鏈技術以及具有高并發性、高可用性、高擴展性的分布式存儲技術在電子文件管理領域具有重要應用價值,本文引入這兩種技術,提出一種基于鏈上鏈下的管理系統模型,這對從技術角度完善電子文件可信管理具有積極推動作用。
1 相關研究現狀
由于電子文件在產生、傳輸、存儲過程中依賴計算機等電子設備,通常以光、電或數字信號等形式存在,失去了傳統文件載體的固化和束縛,天生具有易修改、易偽造的特征,[2]“可信”問題隨之而來。國內外諸多學者對電子文件的“可信”問題進行了深入的探討和研究,一般認為可信電子文件是指具備真實性、可靠性、完整性和可用性的電子文件,[3]真實可靠完整可用的“四性”則是電子文件可信管理的目標。[4]
為了實現電子文件可信管理,在電子文件管理的初期,我國推行“雙套制”的過渡性措施,[5]要求在存儲電子文件的同時也存檔對應的紙質文件,通過紙質載體天生具有的固化屬性降低電子文件管理風險。隨著信息技術的提升和實踐管理經驗的積累,人們逐漸意識到附加的紙質文件不僅無法保障文件內容的真實性,還會增加文件的存檔成本。對此不少學者[6-8]提出電子文件管理不應該依賴紙質文件,而要從電子文件自身尋找策略,呼吁施行“單軌”“單套”,即無紙化、獨立的電子文件管理方式。
在這一階段,電子文件管理主要應用文件固化、哈希值校驗、可信時間戳、區塊鏈等防篡改技術。[9]相比起數字簽名、哈希值、時間戳等單項技術,集成了分布式存儲、共識機制、多種密碼算法的區塊鏈技術具有去中心化、時序數據、集體維護、可編程和安全可信等特點,[10]可以方便地驗證數據的真實性,保證數據不被惡意篡改,在保障電子文件真實性上具有顯著優勢。[11]
將區塊鏈技術引入電子文件可信管理領域的相關討論不少,這是學界和業界急需解決的問題。[12]Lemieux團隊在應用區塊鏈管理交易文件時對區塊鏈的可信管理能力進行了分析,認為區塊鏈技術作為維護可信數字記錄的長期解決方案存在限制,[13]劉越男[14]認為區塊的技術特性與電子文件的管理目標具有一致之處。張珊[15]、白茹花[16]認為防止文件被篡改是電子文件管理的重要目標之一,區塊鏈技術在電子文件管理上具有適用性。李高峰等[17]承認區塊鏈技術融入電子文件管理能夠解決傳統管理方式中存在的諸多問題,但由于當前實現區塊鏈電子文件管理的環境條件不成熟,“為了區塊鏈而區塊鏈”的做法存在一定的缺陷和風險,從研究走向實用仍需要長期探索。
在學界討論電子文件管理應用區塊鏈技術的適用性的同時,也有學者提出了一些具體的應用模型和框架,其中保障真實性是應用區塊鏈技術實現電子文件管理的熱點研究方向。石進等[18]提出一種將電子文件摘要信息存儲在區塊鏈上來保證電子文件真實性的系統模型。從維護電子文件的完整性的角度出發,Kalis[19]指出數據上鏈前進行蓋戳處理,方便及時判斷原始數據是否遭到惡意篡改。Permatasari等人[20]使用以太坊和智能合約技術開發的集成星際文件系統(IPFS)能夠有效避免電子文件偽造。為了兼顧完整性和可用性要求,王平等[21]提出可以將文件信息全部存儲在區塊鏈上,但這種方式導致區塊中存儲的數據量過大,一定程度上會影響區塊鏈的運行性能,增加數據訪問和存儲的壓力。本文從可信電子文件的“四性”出發,兼具對區塊鏈系統的性能考慮,提出一種采用鏈上鏈下相結合的方式來實現電子文件的可信管理方案,將電子文件摘要、密文索引等重要信息提交給區塊鏈管理,即放在“鏈上”,保證重要信息的真實可靠性;將加密電子文件、加密密鑰存儲于“鏈下”的分布式數據庫中,保證信息的完整;借助密碼學原理實現了更為安全高效的電子文件訪問控制,保證信息的可用性。基于鏈上鏈下的電子文件可信管理模型,既能降低區塊鏈上存儲全文數據在加密、傳輸時的資源消耗,又能保證文件信息的完整性。
2 相關技術背景
2.1 區塊鏈技術。區塊鏈起源于2008年“中本聰”提出的比特幣,[22]是比特幣的底層實現技術。比特幣最初設計目標為通過密碼學原理替代信任保證,解決電子現金支付系統過度依賴可信第三方的問題。以比特幣為例,區塊頭中保存當前區塊的元數據,通過保存在其中的前驅區塊的哈希值,將區塊按生成時間順序依次鏈接,形成鏈式結構。這種鏈式結構極大地增加了惡意修改或偽造區塊數據的難度,使區塊鏈具備可追溯、防篡改的特性。[23]
2.2 分布式數據庫。分布式數據庫是通過網絡對物理上分散的獨立數據庫進行管理控制,形成的邏輯上集中的數據庫。[24] 與傳統集中式數據庫相比,分布式數據庫具有易擴展、高并發以及穩定的特點。易擴展指分布式數據庫可以通過增加系統中存儲節點線性擴展存儲容量,增加存儲節點只需要將新的數據庫服務器通過網絡接入系統,基本不會對系統中其他存儲節點產生影響。高并發和穩定性有賴于分布式數據庫合理的冗余機制,通過在不同節點上存儲數據副本,多個讀數據請求可以由不同的數據庫服務器并發響應,一個服務器出錯,其他服務器也可以代替響應。
2.3 基于屬性加密技術。基于屬性的加密技術可以解決一對多場景下公鑰密碼體制靈活性不足的問題,公私鑰不是一一對應,而是一個公鑰對應多個私鑰,僅通過一次加密即可實現向多個接收者的可靠傳輸。[25]加密者根據消息和目標接收者的特征信息制定一套以屬性表示的訪問策略,只有屬性符合訪問策略的接收者才能解密消息。屬性密碼將一對一加解密機制拓展為一對多,實現了細粒度非交互的訪問控制機制,[26]可以解決私密數據共享問題,在分布式存儲、云計算等領域具有顯著應用前景[27-29]
3 基于鏈上鏈下的電子文件可信管理模型
電子文件共享的前提是對電子文件進行安全存儲與管理。在大數據時代,分布式存儲結構憑借其良好的擴展性、容錯性和存儲性能,能夠滿足海量、復雜、多類型數據資源的存儲需求,[30]因此本文通過分布式存儲技術對電子文件進行存儲。但在分布式存儲時,電子文件數據會被切片并存放在不同硬盤上,在這過程中數據完整性、機密性存在被破壞的風險。區塊鏈技術通過密碼學的原理能夠有效保證數據真實不被篡改,從根本上防止了惡意篡改與非法、非授權訪問,非常適用于電子文件的分布式存儲管理。
3.1 電子文件數據的存儲架構。本文設計了一種基于區塊鏈的分布式電子文件安全存儲模型,架構如圖1所示,實現了電子文件數據的可信、去中心化管理。
模型主要包括以下實體:
(1)分布式數據庫系統。將電子文件保存在分布式數據庫中,為了保障電子文件中的個人隱私、商業機密等信息,通常將電子文件以密文的形式存儲到數據庫中。由于密文檢索對象為不能直接使用基于明文關鍵詞的檢索技術,[31]需要對電子文件數據進行預處理,建立密文索引。
Step 1 生成電子文件的元數據。參考電子文件統一元數據模型,[32]提取電子文件的技術環境、責任者、業務和法規等關鍵詞,構建關鍵詞集合K=(K1,K2,…,Kn),作為電子文件的元數據。
Step 2 構建倒排索引。根據電子文件的元數據構建密文關鍵詞集合EK=(EK1,EK2,…,EKn),建立密文關鍵詞EK到電子文件F的映射,每個密文關鍵詞都對應著含有該關鍵詞的電子文件地址,倒排索引結構如圖2所示。
密文檢索功能由數據記錄節點與分布式數據庫之間的代理來實現。數據記錄節點請求存儲電子文件時,代理通過內置的關鍵詞加密方案將明文關鍵詞轉化為密文關鍵詞,并維護更新倒排索引表。數據記錄節點請求查找電子文件時,代理將輸入的檢索詞加密后再通過索引表檢索。
(2)區塊鏈系統。各業務部門從接入層通過本地數據記錄節點參與到區塊鏈網絡,如圖3所示,為了保證分布式數據庫中保存的電子文件的可信性,數據記錄節點在接收到電子文件所有者發起的電子文件存儲請求時,將電子文件的元數據與摘要打包成一個交易記錄保存在新生區塊體中,向系統中的其他數據記錄節點發起區塊共識。本文討論的電子文件可信管理模型是基于聯盟鏈建立的,出于系統性能的考慮,共識機制選取實用拜占庭容錯(PBFT)共識算法,主節點通過投票產生。
此外,本文對區塊頭進行字段擴展,用于保存電子文件數據預處理時生成的密文索引,如圖4所示。
(3)密鑰生成中心。作為授信的第三方機構,不參與區塊鏈的共識,只負責向電子文件所有者與使用者分發基于屬性的加解密密鑰,處理電子文件共享的訪問權限問題。
3.2 電子文件的存儲。本文借助區塊鏈不可篡改的性質保障電子文件數據的安全存儲。為確保區塊鏈系統運行時的性能,區塊體中只放入電子文件密文的摘要,文件以密文形式保存在分布式數據庫中,使用者可以通過區塊鏈中的摘要信息驗證所請求的電子文件的真實性,如圖5所示。
電子文件數據的采集存儲具體過程如下:
(1)屬性加密初始化操作。可信的密鑰生成中心基于屬性加密機制產生公共參數和主密鑰,其中公共參數對系統公開,主密鑰由密鑰生成中心保存。
(2)所有者對電子文件加密。所有者使用簡單的對稱加密算法對電子文件明文加密生成密文。
(3)所有者對對稱密鑰加密。根據密鑰生成中心產生的公共參數,以及所有者制定的訪問策略樹,對步驟(2)中使用的對稱加密算法的密鑰進行屬性加密生成屬性加密對稱密鑰。
(4)所有者發送存儲請求消息。所有者使用自己的私鑰對電子文件密文的摘要進行簽名,與密文、步驟(3)生成的屬性加密對稱密鑰、電子文件元數據一起打包為存儲請求消息,發送給本地記錄節點。
(5)本地數據記錄節點驗證存儲請求消息。本地數據記錄節點使用所有者的公鑰對密文摘要進行解密,并與計算的密文摘要對比,如果數據安全有效,則將電子文件密文與屬性加密對稱密鑰打包,連同電子文件元數據一起發送給代理。
(6)代理更新倒排索引表。代理根據加密方案對電子文件元數據進行加密生成加密元數據,將步驟(5)生產的數據包上傳到分布式數據庫中,構建并更新全局的倒排索引,向本地數據記錄節點返回加密元數據。
(7)本地數據記錄節點廣播存儲響應消息。本地數據記錄節點向其他數據記錄節點發送包含加密元數據、密文摘要等信息的存儲響應消息。
(8)數據記錄節點生成新區塊。數據記錄節點收集一定時間內的存儲響應消息,將其中的加密元數據、密文摘要整合成數據集合,結合從代理處獲取的倒排索引表,生成新的區塊。
(9)數據記錄節點發起區塊共識。本文探討的電子文件可信管理系統的應用場景基于聯盟鏈,其中的節點基本可信,為了避免工作量證明等共識算法不必要的資源消耗,本文選取PBFT共識算法進行區塊共識。其中主節點通過投票選舉產生,系統中的其余數據記錄節點作為從節點。
為保證數據庫數據與區塊鏈記錄信息的一致性,避免由于共識失敗導致的數據庫中存儲著電子文件但區塊鏈上沒有相應存儲記錄的問題,如果多次共識失敗本地數據記錄節點需要通知代理刪除此前存儲在數據庫中的文件,并刪除倒排索引表中對應的信息,最終向所有者返回存儲成功與否的結果。
至此,電子文件以密文方式存儲于分布式數據庫,并在區塊鏈上保存了文件的摘要信息,完成了電子文件的安全存儲。
3.3 電子文件數據的共享。電子文件常常需要在多主體之間共享,如圖6所示,本文通過屬性加密算法實現了對電子文件的授權訪問控制,借助區塊鏈不可篡改的性質保證電子文件的真實可靠性。
(1)使用者生成解密私鑰。使用者向可信的密鑰生成中心請求獲取公共參數和主密鑰,使用自身的屬性集與主密鑰通過屬性加密算法生成唯一解密密鑰。(2)檢索分布式數據庫。使用者輸入電子文件的關鍵詞組合向本地數據記錄節點發起檢索請求,本地數據記錄節點轉發請求給代理,由代理對檢索關鍵詞加密并使用倒排索引表查找文件存儲地址,在分布式數據庫中獲取目標電子文件密文與加密對稱密鑰的信息包后返回給本地數據記錄節點。(3)使用者驗證電子文件密文的真實性。使用者對電子文件密文計算摘要,與保存在區塊鏈中的文件摘要信息比對,若一致說明從分布式數據庫中獲取的電子文件密文真實可靠,否則說明電子文件被篡改。(4)使用者解密電子文件密文。本地數據節點繼續將信息包返回給使用者后,使用者使用屬性密碼的解密密鑰對加密對稱密鑰進行解密時,只有當使用者的屬性集合符合所有者設定的訪問策略時,才能成功解密得到對稱密鑰。使用者接著利用上一步得到對稱密鑰,調用對稱算法的解密算法對電子文件密文解密得到電子文件明文。
至此,使用者通過訪問策略驗證獲取到了真實有效的目標電子文件,實現了電子文件的安全共享。
4 評價
根據國家標準《電子文件歸檔與電子檔案管理規范》(GB/T18894—2016)[33]中對真實可靠完整可用四性的定義,下面依次從這四個角度評價該電子文件可信管理模型,如圖7所示。
4.1 真實性。真實性強調電子文件自生成后沒有被篡改或破壞。在本文提出的模型中,電子文件所有者對文件明文的加密操作是由本人完成的,且發生在文件進入該可信管理系統之前,因此原始文件指的是所有者提交的電子文件密文,保障應該也是電子文件密文的真實性。電子文件密文的摘要在文件存儲時,連同加密元數據一起保存在區塊體中,使用者在獲得電子文件密文信息后只需要將自己計算的摘要與鏈上記錄的摘要進行驗證,根據區塊鏈不可篡改的性質即可保證從數據庫中獲取的文件密文具有真實性。
4.2 可靠性。可靠性指電子文件反映的內容要與事實相符,不能違背歪曲。本文的可信管理系統模型是基于聯盟鏈提出的,進入系統的節點必須通過注冊和身份驗證,一定程度上可以避免惡意節點通過偽造身份進入系統,上傳虛假信息擾亂共識流程,保證系統整體處于安全狀態。而且文件所有者在提出存儲請求時,本地數據記錄節點需要對存儲請求簽名才能向系統廣播,如果判斷某個文件的可靠性存疑,系統可以通過區塊鏈上的簽名信息、時間戳等找到最初發起存儲請求的數據記錄節點,將其標記為惡意節點,從系統中刪除。
區塊鏈不能完全保證電子文件的內容一定與事實相符,本文只是提出可以通過審查、監管和懲罰措施降低電子文件所有者偽造、扭曲文件內容的可能性。保證電子文件可靠性的一種解決方式是將文件涉及的各方都加入區塊鏈系統,通過智能合約的方式生成原始電子文件,但這種方式只適合單一類型且內容具有規范結構的文件管理系統,不適用本文討論的多種類電子文件管理方案。
4.3 完整性。完整性要求電子文件的內容信息齊全且沒有破壞,完整性是保障真實性的一種方式,[34]本文提出的電子文件可信管理模型就是通過保障電子文件密文的完整性來實現真實性的,前文評價真實性時已經具體闡述,這里不再贅述。
4.4 可用性。電子文件要能夠被檢索、呈現和理解,易用性則在此基礎上提出了更高的要求,要求檢索、呈現的過程要盡量簡潔迅速。為了處理滿足海量電子文件存儲和查詢的性能,本文提出使用分布式數據庫代替傳統的集中式數據庫存儲電子文件信息,但分布式數據庫也帶來了更復雜的安全問題,[35]尤其是電子文件中敏感信息的泄露問題。本文通過電子文件上傳數據庫前對內容加密的方式保證數據安全,也根據電子文件元數據構建倒排索引表,索引表的更新維護由專門的部件代理執行,且在區塊頭擴展字段中保存生成區塊時刻的索引表,保證索引表信息的真實可靠,進而保證可以通過索引表準確檢索到目標文件。而且倒排索引具有查詢速度快、空間占用少的特點,[36]不僅可以滿足可用性,也能滿足易用性。
參考文獻:
[1]李澤鋒.電子文件可信管理關鍵問題分析[J].檔案學研 究,2012(06):52-55.
[2]馮惠玲.論電子文件的風險管理[J].檔案學通 訊,2005(03):8-11.
[3]黃永勤.可信電子文件的內涵及管理研究——國際電子文 件管理研究的新聚焦點[J].浙江檔案,2014(07):12-15.
[4]王平,李沐妍,劉曉春.區塊鏈視角下文件檔案管理可信生 態的構建[J].檔案學研究,2020(04):115-121.
[5]馮惠玲.走向單軌制電子文件管理[J].檔案學研 究,2019(01):88-94.
[6]沈欣瑜.電子檔案“單套制”背后的電子文件管理思想轉 變[J].檔案管理,2017(06):33-36.
[7]沈東芳,聶二輝.電子文件管理的題中之義電子文件管理 的題中之義:本應無紙[J].檔案與建設,2017(01):12-15.
[8]蘇君華,劉芳.被異化的謹慎——對“雙套制”管理的問 題分析及策略選擇[J].檔案學通訊,2015(04):100-104.
[9]趙屹.電子文件防篡改技術發展對檔案管理的影響及啟示 [J].檔案學研究,2019(06):77-85.
[10]袁勇,王飛躍.區塊鏈技術發展現狀與展望[J].自動化學 報,2016,42(04):481-494.
[11]劉越男.區塊鏈技術在文件檔案管理中的應用初探[J].浙 江檔案,2018(05):7-11.
[12]李沐妍.文件檔案管理領域區塊鏈技術應用研究綜述[J]. 圖書情報知識,2021,38(04):72-80+71.
[13]Lemieux,V.L.(2016).Trusting records:is Blockchain technology the answer?[J].Records Management Journal,2016,26 (02):110-139.
[14]劉越男,吳云鵬.基于區塊鏈的數字檔案長期保存:既有探 索及未來發展[J].檔案學通訊,2018(06):44-53.
[15]張珊.區塊鏈技術在電子檔案管理中的適用性和應用展 望[J].檔案管理,2017(03):18-19.
[16]白茹花.基于區塊鏈技術的電子檔案信任體系建設[J].檔 案管理,2018(05):28-29.
[17]李高峰,馬國勝,胡國強.現階段區塊鏈技術在檔案管理中不可行分析[J].檔案管理,2018(05):30-32.
[18]石進,薛四新,趙小柯.基于區塊鏈技術的電子文件真實性保障系統模型研究[J].圖書情報知識,2019(06):111-119.
[19]Kalis R,Belloum A.Validating Data Integrity with Blockchain[C].2018 IEEE International Conference on Cloud Computing Technology and Science(CloudCom).IEEE,2018:272-277.
[20]Permatasari I,Essaid M,Kim H,Ju H.Blockchain Implementation to Verify Archives Integrity on Cilegon E-Archive[J].Applied Sciences,2020,10(07):2621.
[21]王平,李沐妍,姬榮偉.基于區塊鏈技術的電子文件可信保護框架研究[J].檔案學研究,2019(01):101-107.
[22] NAKAMOTOS S.Bitcoin:A peer-to-peer Electronic Cash System[EB/OL].[2019-10-29].http://bitcoin.org/bitcoin.pdf.
[23]曾詩欽,霍如,黃韜,劉江,汪碩,馮偉.區塊鏈技術研究綜述:原理、進展與應用[J].通信學報,2020,41(01):134-151.
[24]李川.分布式數據庫查詢策略優化的研究[D].西安電子科技大學,2012.
[25]王生玉,汪金苗,董清風,朱瑞瑾.基于屬性加密技術研究綜述[J].信息網絡安全,2019(09):76-80.
[26]馮登國,陳成.屬性密碼學研究[J].密碼學報,2014,1(01):1-12.
[27]宋衍.基于屬性的云存儲訪問控制與密文搜索研究[D].北京交通大學,2018.
[28]張宇.云計算環境下屬性密碼機制應用研究[D].武漢大學,2015.
[29]陳杰.基于屬性的分布式存儲安全訪問控制技術[D].華中科技大學,2012.
[30]陳臣.一種基于新型存儲的數字圖書館分布式大數據存儲架構[J].現代情報,2015,35(01):100-103.
[31]杜瑞忠,李明月,田俊峰,吳萬青.基于倒排索引的可驗證混淆關鍵字密文檢索方案[J].軟件學報,2019,30(08):2362-2374.
[32]劉越男,楊建梁.面向電子文件保存的統一元數據模型的構建[J].中國圖書館學報,2017,43(02):66-79.
[33] GB/T 18894-2016,電子文件歸檔與電子檔案管理規范[S].北京;中華人民共和國國家質量監督檢驗檢疫總局,2016.
[34]張寧.淺析電子文件的原始性與真實性[J].檔案學通訊,2003(01):43-46.
[35]劉義理.分布式數據庫安全框架研究[D].同濟大學,2006.
[36]代萬能.倒排索引技術在Hadoop平臺上的研究與實現[D].電子科技大學,2013.