林明香 曲強

摘 ?要:早期的檔案數據量有限,數據類型單一,安全問題較為簡單。隨著大數據盛行,檔案數據量呈指數級增長,其安全管理問題日益復雜且緊迫。本文分析了現有的異構檔案數據現狀及存在的問題,分析了區塊鏈技術在異構檔案數據中的應用,構建異構檔案數據安全存儲模型及說明其實現路徑,并詳細分析區塊鏈技術對異構檔案數據場景應用。
關鍵詞:區塊鏈技術; 異構檔案數據; 安全管理
Abstract: The amount of archival data in the early days was limited, the data type was single, and the security problem was relatively simple. With the prevalence of big data, the volume of archival data has grown exponentially, and its security management issues have become increasingly complex and urgent. This paper analyzes the present situation and problems of existing heterogeneous archival data and the application of blockchain technology in heterogeneous archival data, constructs heterogeneous archive data security storage model and explains its implementation path, and finally illustrates the application of block chain technology to heterogeneous archive data in detail.
Keywords: Blockchain technology; Heterogeneous archive data; Security management
1 引言
1.1 異構檔案數據的特點對安全管理的要求。對于檔案數據的概念,是仁者見仁智者見智。2021年,夏天、錢毅將檔案數據表述為“檔案數據指檔案機構收集保存的各種數據形式的記錄,既包括電子檔案的內容數據、傳統載體檔案的數字化副本,也包括管理和利用過程中產生的各類元數據”。[1]異構檔案數據是指由來自不同渠道、具有不同存儲格式、具有獨特數據特征的信息資源構成的數據集合。[2]異構檔案數據包含五個方面的特點:第一,其計算機組成的異構性。每臺計算機不同的物理特性決定了其不同的存儲體系架構。第二,其操作系統的異構性。操作系統如ios、Windows、MacOS X等,系統中的數據來源多樣性,存在如何將其數據進行統一管理的問題。第三,其數據格式的異構性。不同的工具軟件和信息存儲平臺包含不同的數據格式,包括二維表格存儲數據、TXT、CXV、XLS等。第四,其數據存儲地點的異構性。許多“三跨”科研項目或大集團的檔案數據來自全國甚至全世界分散保存和管理。第五,其數據邏輯模型的異構性。目前各單位(企業)的底層邏輯都大不相同,導致信息集成時的數據不一致等問題。
1.2 當前異構檔案數據安全管理現狀。關于異構檔案數據的安全管理研究,國內外都有不同程度的研究,我們國內尚處于探索階段,現有的研究主要集中在異構檔案數據的數據庫整合、安全共享等方面。王雪萍(2012)從檔案異構數據庫出發,分析檔案異構數據庫的特點、檔案異構數據庫整合和服務集成的基本原則,其實現技術包含元搜索引擎技術、數據倉庫技術、網絡技術、數據挖掘技術。[3]王蘭成(2009)提到異構檔案數據具有數據庫系統異構性、數據平臺的異構性和語義的異構性,并通過XML等技術實現數據的集成。[4]龍飛斐(2017)從多源異構數據的質量角度展開探索,提出建立囊括系統開發、數據檢測、過程管理、數據存儲和數據傳輸的信息技術保證體系。[5]以上三個共同點是均未提到運用區塊鏈技術。國外對區塊鏈技術在檔案領域的研究相對早一點,如加拿大學者Victoria Lemieux(2016)認為區塊鏈技術是一種文件檔案管理技術,并分析了區塊鏈在電子文件準確性、可靠性、長期保存方面的作用,提出了將區塊鏈技術作為可信檔案保存的理論評估框架。[6-9]2016年英國政府發布了一份名為《分布式賬本技術:超越區塊鏈》的報告,將區塊鏈列入英國國家戰略并分析將區塊鏈應用到知識產權、金融等領域。[10]Lemieux(2017)等提出了一種新的數據模型,通過利用web原理和技術來記錄事務處理的過程,為日后判定數字檔案存取記錄真實性提供了便利性。[11]但國外對區塊鏈技術在異構檔案數據中的應用也暫未體現。
1.3 異構檔案數據安全管理存在的問題。異構檔案數據安全管理存在的問題主要表現在以下幾個方面:一是異構檔案數據庫缺乏安全風險管控和等級管控;二是異構檔案數據信息孤島。三是異構檔案數據申請和共享利用等關鍵行為的可靠存證問題。四是異構檔案數據具有重要的憑證價值和參考價值,如何保證異構數據存儲的唯一性和完整性。由于當前檔案管理技術不完善,這對數字檔案管理的機密性提出了很高要求。
2 區塊鏈技術在異構檔案數據管理中的適用性分析
區塊鏈技術包含哈希運算、數字簽名、共識算法、智能合約、P2P網絡等基礎技術。這些技術相對成熟,具體應用主要體現在以下幾個方面:
2.1 區塊鏈用于異構用戶身份和數據驗證。區塊鏈中的數字簽名技術能夠保證異構檔案數據流轉的真實性、完整性和保密性驗證。在區塊鏈網絡的每個節點中都有公鑰和私鑰兩個不同的密碼。節點在發送交易時,首先利用私鑰對交易內容進行簽名,在節點收到廣播后,先對交易中附加的數字簽名進行完整性校驗和消息發送者身份合法性校驗。[12]
2.2 區塊鏈用于異構檔案數據的唯一性和備份管理。檔案數據形成者通過匯交節點電腦發出數據上鏈存證請求,系統依據共識算法,產生唯一的審核節點。審核節點將檔案數據運算成哈希數值,并連同時間戳、數字簽名打包成區塊廣播到全網絡,為后臺機器運算提供基礎,排除人工干預,且存儲量小,方便成本控制。
2.3 區塊鏈用于異構檔案數據的分布式存儲和防篡改。哈希算法是區塊鏈的基礎技術之一,它能夠從數據結構層面保證區塊鏈上的檔案數據具有不可篡改特性。對異構檔案數據形成各個區塊,再通過哈希算法得到一個個哈希數值,這些哈希數值能唯一標識對應的區塊,且哈希數值無法反推原來的內容。如果要確認區塊是否被篡改,利用哈希算法重新計算一遍,對比哈希數值即可得出答案。這項技術的實現,能夠清晰記錄每條數據產生、流通、保存、使用等全過程,有效保證了異構檔案數據的可追溯性、唯一性和完整性。
2.4 區塊鏈加速異構檔案數據共享利用。區塊鏈中的信任機制主要通過智能合約相關技術實現。智能合約是以數字形式定義的承諾,包括合約參與方可以在上面執行這些承諾的協議。[13]通過區塊鏈和智能合約的有效配合,可以實現異構檔案數據有償使用及順暢交易。
在區塊鏈中的P2P網絡中,所有交易及區塊的傳播并不要求發送者將消息發送給所有異構檔案數據節點,而是發給異構檔案數據附近節點,這些附近節點收到消息后會按照一定規則轉發到其附近節點,通過一傳十、十傳百的方式,將消息發送給所有節點。
3 異構檔案數據安全存儲模型的建立
3.1 異構檔案數據存儲方案。異構檔案數據存儲在一定的數據庫中,而事務日志是記錄操作人操作的日志,是數據庫的重要組件。通過抽取檔案數據庫事務日志及電子文件,針對不同的檔案數據尺寸設計數據粒度感知的安全存儲模型,并提出聯盟鏈、私有鏈和IPFS(InterPlanetary File System,星際網絡文件系統)集群相協同的數據存儲方案,實現異構檔案數據的安全存儲。
互聯網建立在HTTP協議上,但HTTP是中心化管理,速度慢,效率低,成本高。因此出現了IPFS(星際網絡文件系統),它是一個分布式的web,點到點超媒體協議,目標在于實現數據的永久存儲、清除網絡上的重復數據,并獲取存儲在網絡中節點上的數據地址。當用戶上傳一份檔案數據到IPFS網絡時,會得到一個基于檔案數據內容計算的哈希數值,若檔案數據內容被修改,同時會改變檔案數據的哈希數值,因此哈希數值是檔案數據真實完整的重要保障。當用戶從IPFS上下載檔案數據時,只需要提供檔案數據的哈希數值,IPFS會根據檔案數據的哈希數值從分布式哈希表中找到檔案數據存儲節點,并從該節點取回檔案數據且驗證后提供給用戶。
3.2 異構檔案數據安全存儲模型的技術路徑。第一步,檔案數據的抽取。例如不同檔案館或同一個科研機構會會設置多個外溢機構,孵化機構。每個機構都有各自獨立的檔案數據庫。在檔案數據庫完成內容更新等操作后,新增的內容會詳細地記錄到日志表或日志文件中。通過區塊鏈中間件在本地開啟監聽程序,并與檔案數據庫建立客戶端連接,解析事務日志并抽取檔案數據。抽取的檔案數據包含兩個屬性:一是整體屬性即包含標題、標識、上傳用戶、所屬單位;二是原始文件屬性即版本、類型、哈希數值、存儲地址、原始數據解密密鑰、描述、更新時間。
第二步,檔案數據加密及存儲。區塊鏈中間件使用密鑰對檔案數據庫操作日志進行非對稱加密,并將加密后的檔案數據存儲到私有區塊鏈網絡。對于新增檔案數據的操作,可以通過抽取解析日志中的存儲路徑,然后獲取檔案數據并存儲至IPFS網絡。
第三步,檔案數據分布式存儲。按照尺寸和容量大小,將檔案數據分為大小粒度。將小粒度的檔案數據直接存儲至聯盟區塊鏈上,將大粒度的檔案數據分布式存儲至IPFS網絡。對于檔案數據尺寸和容量的考量,美國國家能源研究科學計算中心和太平洋西北國家實驗室分別做了一些研究,結果表明有一半左右的檔案數據小于64KB。
模型由數據抽取模塊、事務日志存儲模塊和檔案數據存儲模塊組成,模型整體框架圖如圖1所示。
圖1 三種類型區塊鏈實現路徑
4 異構檔案數據安全管理應用場景分析
中國科學院深圳先進技術研究院(簡稱“深圳先進院”)是中國科學院、深圳市人民政府及香港中文大學三方共建的科研機構,同時下設多個外溢機構和孵化機構。深圳先進院主要產生以科研檔案為主的各類檔案,包含圖表、圖片、音視頻、仿真模型、科研數據等內容。2016年,深圳先進院就開始探索應用區塊鏈技術解決檔案數據共享難、追溯難及協同難等問題,并先后獲得了中國科學院檔案館、廣東省檔案局、國家檔案局等項目支持。深圳先進院試行以64KB為分界點,64KB以上存儲到聯盟區塊鏈上,64KB以下存儲至IPFS網絡中。
4.1 用戶安全管理,是異構檔案數據安全管理的前提
用戶安全管理包括用戶注冊、用戶信息審核、用戶信息修改、用戶信息存儲及注銷用戶。[14]異構檔案數據的用戶身份和權限設置,是開展異構檔案數據集成、協同共享等工作的前提。例如深圳先進院將本單位用戶的身份信息通過哈希生成唯一的加密后的數據存入區塊鏈中,外溢機構不需要深圳先進院共享實際的用戶檔案數據,只需要與其有關聯的用戶基本信息,通過哈希計算和區塊鏈查詢兩個步驟即可身份確認,由此建立快速的可信數字身份體系。用戶登錄過程中,需在系統輸入用戶ID和系統密鑰,客戶端立即比對輸入信息與區塊鏈中存儲信息的一致性,若是信息不匹配則顯示登錄失敗,進一步強化檔案數據安全。
4.2 區塊鏈數據共享平臺,是異構檔案數據安全管理的底層架構。建設異構檔案數據區塊鏈數據共享平臺,把各機構中結構化和非結構化的檔案數據集成一個大型數據庫。區塊鏈數據共享平臺包括中間件客戶端、后臺服務、區塊鏈系統及IPFS星際文件系統。中間件客戶端面向檔案管理員,提供可視化的操作界面;后臺服務則用于支撐客戶端操作的反饋,同時對接本地數據庫、區塊鏈和IPFS系統,是三者數據流通的樞紐;區塊鏈系統安全存儲檔案數據;IPFS系統分布式存儲檔案數據。[15]
4.3 檔案數據安全采集,是異構檔案數據安全管理的基礎。科研人員的科研過程分為四個階段,每個階段都產生相應的檔案數據。尤其是“跨學科、跨領域、跨專業”項目資料多且來源主體多元。在檔案數據采集、存儲及利用過程中,需要采用數據溯源安全方式即在檔案數據中添加參數如加密密鑰、時間戳、校驗等控制權限,維護檔案數據主體權益并包含檔案數據安全。[16]另外,可通過反向查詢和標注的方式,多維度溯源檔案數據的真實性和有效性。例如在科研準備及立項階段,科研申請及批復時會產生申請書、可行性報告、課題調研、分析報告、開題報告及論證文件等。區塊鏈技術可以提供一整套追溯科研檔案數據來源的解決方案,從而實現科研數據的真實性認證。同時,區塊鏈技術可參與構建一個分布式科研數據庫,建立科研數據審核機制,解決科研數據移交審核中的主觀性強,版本多樣性等問題。
4.4 檔案數據分享和獲取,是異構檔案數據安全管理的目的。利用區塊鏈加密技術實現異構檔案數據分析和獲取,實現檔案數據的鏈上授權,用戶無須借助其他渠道將授權信息發送給接收者,一定程度上保護了檔案數據授權安全,避免授權信息泄露,同時,檔案數據的分享和獲取操作行為在區塊鏈上有永久痕跡,區塊鏈的所有節點都是該數據的記錄者,記錄不可篡改,便于追溯。
區塊鏈技術利用區塊形成哈希指針鏈存儲檔案數據,[17]利用密碼學原理保障數據存儲及傳輸安全,利用共識算法及加密算法避免數據偽造或篡改,這些安全特點對異構檔案數據意義重大。主要體現在以下幾個方面:首先,區塊鏈技術的應用打破了異構檔案數據孤島現象,提高了數據的流通效率;其次,其所有信息都是經過多方共識、可信的、不可篡改的,簡化了傳統檔案數據利用中冗長的數據審查、確認等工作,使得檔案數據利用成本大幅減少。區塊鏈的應用也在一定程度上優化業務工作流程,減少操作步驟和人員投入,提高工作效率。最后,通過智能合約可實現對異構檔案數據共享的監管,交易記錄透明監管,能實時查看交易合規檢查和真實性甄別。
雖然區塊鏈技術備受人們青睞,但是并不意味著區塊鏈技術無所不能,例如區塊鏈技術與異構的源頭數據的真實性和準確性無關,對于同一個內容的數據,誰第一次上傳到鏈上,系統/平臺就會判定版權屬于誰,[18]其邏輯是否清晰、內容是否屬實,系統/平臺是否可靠等方面存在局限性,需要我們足夠重視。
*本文系國家檔案局科技項目“面向檔案系統的區塊鏈中間件構建研究”(編號:2020-X-10)的科研成果之一。
參考文獻:
[1]夏天,錢毅.面向知識服務的檔案數據語義化重組[J].檔案學研究,2021(02):36-44.
[2]孔媛媛,張舒,王愛.大數據背景下檔案信息服務體系構建方法探析[J].檔案建設,2021(05):59-62.
[3]王雪萍.淺談檔案異構數據庫整合與服務集成的技術實現[C].檔案與文化建設:2012年全國檔案工作者年會,2012:421-425.
[4]王蘭成.XML Schema異構檔案數據庫信息整合與檢索技術[J].中國檔案,2009(11):62-63.
[5]龍飛斐.多源異構的城建檔案數據質量管理的探討[J].城建檔案,2017(07):13-14.
[6]Lemieux V L.Trusting records:is Blockchain technology the answer?[J].Records Management Journal,2016,26:110-139.
[7]Lemieux VL.Blockchain for Recordkeeping;Help or Hype[J].Social Sciences and Humanities Research Council of Canada Knowledge Synthesis Report,October,2016.
[8]Lemieux V L.In blockchain we trust? Blockchain technology for identity management and privacy protection[C]//Conference for E-Democracy and Open Government.2017:57.
[9]Lemieux V L.Blockchain and distributed ledgers as trusted recordkeepingsystems[C]//Future Technologies Conference(FTC).Vol.2017.
[10]孫毅,范靈俊,洪學海.區塊鏈技術發展及應用:現狀與挑戰[J].浙江檔案,2021(03):44-46.
[11]吳功才.區塊鏈技術在學生檔案管理中的應用研究[J].中國工程科學,2018(03):27-32.
[12]華為區塊鏈技術開發團隊.區塊鏈技術及應用[M].清華大學出版社,2019.
[13]李瓊.區塊鏈技術在信息文檔管理中的應用研究[J].科技資訊,2022(08):22-24.
[14]張雪媛,都平平,雷鐳.基于區塊鏈技術的科學實驗數據管理研究[J].情報雜志,2022(06):1-8.
[15]馮政鑫,唐寅,韓磊,吳錫,彭靜.基于區塊鏈的敏感數據安全共享方案[J].信息安全研究,2022(04):364-373.
[16]丁海斌,趙錦濤.檔案數據集成情景下的應用場景研究——以公路建設項目檔案管理系統為例[J].浙江檔案,2022(04):45-50.
[17]曲強,林益民.區塊鏈+人工智能 下一個改變世界的經濟新模式[M].中國人民郵電出版社,2019年:71.
[18]顏陽,王斌,鄒均.區塊鏈+賦能數字經濟[M].機械工業出版社,2018.
(作者單位:林明香 中國科學院深圳先進技術研究院;曲強 中國科學院深圳先進技術研究院,華為云區塊鏈實驗室華為技術有限公司 來稿日期:2022-08-03)