區(qū)塊鏈在數(shù)據(jù)完整性保護領(lǐng)域的研究與應(yīng)用進展

2021-03-18 13:45:20*

計算機應(yīng)用 2021年3期

關(guān)鍵詞：智能

（1.內(nèi)蒙古工業(yè)大學數(shù)據(jù)科學與應(yīng)用學院，呼和浩特 010080；2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心，呼和浩特 010080）

0 引言

隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)本身逐漸成為基礎(chǔ)性的國家戰(zhàn)略資源和社會生產(chǎn)要素，也因其蘊藏的價值成為各種網(wǎng)絡(luò)攻擊的核心目標。數(shù)據(jù)在其流轉(zhuǎn)傳輸甚至整個生命周期中因數(shù)據(jù)處理環(huán)節(jié)和所涉參與方的多樣性和復(fù)雜性，易受到來自各方的篡改威脅。

伊朗核設(shè)施的“震網(wǎng)”行動就是典型的數(shù)據(jù)破壞型攻擊，攻擊者通過木馬破壞伊朗核設(shè)施中的關(guān)鍵組件，用破壞數(shù)據(jù)的方式達到攻擊國家關(guān)鍵設(shè)置的目的［1］。受害者遍布全球的勒索病毒事件，攻擊者通過將受害者的文件數(shù)據(jù)內(nèi)容進行加密以破壞原始數(shù)據(jù)可讀性，相當于篡改了原始數(shù)據(jù)內(nèi)容［2］。

區(qū)塊鏈技術(shù)的誕生給數(shù)據(jù)完整性保護以及防篡改提供了一種新思路。其鏈上數(shù)據(jù)采用分布式副本存儲，每一個參與區(qū)塊鏈的節(jié)點都保存有一份數(shù)據(jù)副本，因此可有效避免集中化存儲的單點故障問題［3］；且區(qū)塊鏈自身的鏈式哈希指針結(jié)構(gòu)可確保其上數(shù)據(jù)無法被任意刪改，是對數(shù)據(jù)完整性的有效保證。

本文聚焦區(qū)塊鏈技術(shù)在數(shù)據(jù)完整性保護應(yīng)用方面的研究進展，分析其與各種數(shù)據(jù)保護場景結(jié)合后產(chǎn)生的新應(yīng)用的優(yōu)勢與不足之處。首先，介紹區(qū)塊鏈技術(shù)背景與其相比傳統(tǒng)數(shù)據(jù)完整性保護方法的優(yōu)勢以及區(qū)塊鏈技術(shù)在數(shù)據(jù)保護領(lǐng)域中的應(yīng)用，并按照采用的區(qū)塊鏈技術(shù)類型和數(shù)據(jù)特性與應(yīng)用場景進行分類，隨后進行優(yōu)缺點討論；然后，將現(xiàn)有傳統(tǒng)數(shù)據(jù)保護方法、云環(huán)境下分布式數(shù)據(jù)存儲方案與區(qū)塊鏈存儲方案進行詳細對比；再對區(qū)塊鏈數(shù)據(jù)保護技術(shù)現(xiàn)有問題進行總結(jié)并給出解決思路；最后對區(qū)塊鏈數(shù)據(jù)保護的未來研究方向進行展望。

1 區(qū)塊鏈技術(shù)與數(shù)據(jù)完整性保護

1.1 區(qū)塊鏈技術(shù)

區(qū)塊鏈技術(shù)自2009 年第一個舉世聞名的數(shù)字貨幣比特幣誕生以來迅速步入工業(yè)界和學術(shù)界的視野，近幾年更是出現(xiàn)了大批與區(qū)塊鏈技術(shù)結(jié)合的去中心化應(yīng)用。區(qū)塊鏈技術(shù)的發(fā)展大致分為以下3個階段：

1）區(qū)塊鏈1.0：數(shù)字貨幣的誕生。標志性事件是比特幣問世，其最初的應(yīng)用范圍聚焦于貨幣領(lǐng)域。

2）區(qū)塊鏈2.0：標志性事件是以太坊以及運行在其上的智能合約的問世。智能合約可以自動化地執(zhí)行、驗證合同，全程不需要第三方仲裁機構(gòu)的參與，是解決互不信任的安全多方計算的有效手段。區(qū)塊鏈由此從貨幣領(lǐng)域擴大到整個金融領(lǐng)域。

3）區(qū)塊鏈3.0：區(qū)塊鏈與各行各業(yè)甚至城市基礎(chǔ)設(shè)施的結(jié)合，形成各種各樣的去中心化應(yīng)用，最終目標是形成可編程、去中心化社會。

區(qū)塊鏈的本質(zhì)是一個拜占庭環(huán)境下交易驅(qū)動的副本狀態(tài)機［4-5］，宏觀上表現(xiàn)為一種去掉了刪除和更新操作的分布式數(shù)據(jù)庫［6］，常見的區(qū)塊鏈結(jié)構(gòu)如圖1所示。

圖1 區(qū)塊鏈結(jié)構(gòu)與成員信息Fig.1 Blockchain structure and its member information

由圖1 可見，每一個區(qū)塊中都包含前一個區(qū)塊內(nèi)容形成的哈希值，整體由這種哈希指針的方式構(gòu)成單一鏈式結(jié)構(gòu)。要想更改某個區(qū)塊中的內(nèi)容，必須將它后面所有區(qū)塊的哈希指針全部更改。這為數(shù)據(jù)完整性與抗篡改帶來了技術(shù)保證。

1.2 大數(shù)據(jù)安全與數(shù)據(jù)完整性

數(shù)據(jù)生命周期分為產(chǎn)生、收集、存儲、使用、傳輸、共享、發(fā)布、銷毀八個階段［7］，數(shù)據(jù)的完整性除在產(chǎn)生和銷毀以外的每個階段都受到嚴峻挑戰(zhàn)，往往在數(shù)據(jù)實際使用時已與產(chǎn)生時形成較大偏差。使用這些缺損甚至錯誤的數(shù)據(jù)進行數(shù)據(jù)分析決策或預(yù)測的時候，很有可能導(dǎo)致決策錯誤或預(yù)測失效。例如高級可持續(xù)性威脅（Advanced Persistent Threat）攻擊［8］，這種攻擊瞄準數(shù)據(jù)本身，其主要目標是對數(shù)據(jù)進行破壞和篡改。其中，數(shù)據(jù)完整性保護的幾點核心要求是：

1）完整性、真實性驗證，這是最基本的要求，即數(shù)據(jù)所有者能夠驗證數(shù)據(jù)存儲或傳播及使用過程中沒有丟失、增加和替換內(nèi)容。

2）抗刪改能力，這是數(shù)據(jù)完整性保護的重要指標，即數(shù)據(jù)或存儲數(shù)據(jù)的系統(tǒng)具備一定程度的防篡改能力，即除數(shù)據(jù)所有者以外的第三方不能對數(shù)據(jù)進行刪改。

3）數(shù)據(jù)恢復(fù)能力，若數(shù)據(jù)遭到篡改和刪除，數(shù)據(jù)托管方應(yīng)具備一定的找回丟失數(shù)據(jù)和還原數(shù)據(jù)的能力。

2 區(qū)塊鏈在數(shù)據(jù)完整性保護中的應(yīng)用研究現(xiàn)狀

應(yīng)用區(qū)塊鏈技術(shù)進行數(shù)據(jù)完整性保護的核心思想是：將關(guān)鍵數(shù)據(jù)部署到區(qū)塊鏈上，并利用區(qū)塊鏈上數(shù)據(jù)不可篡改和不可刪除的特性確保數(shù)據(jù)完整性，校驗鏈上和鏈下數(shù)據(jù)完整性和一致性的過程可結(jié)合智能合約自動進行。

本文分別介紹公有鏈、聯(lián)盟鏈和私有鏈在數(shù)據(jù)完整性保護中的應(yīng)用，在每種區(qū)塊鏈技術(shù)類型下再按照具體應(yīng)用場景和數(shù)據(jù)特性細分為溯源與確權(quán)數(shù)據(jù)、日志數(shù)據(jù)與驗證、物聯(lián)網(wǎng)數(shù)據(jù)以及其他非IT類行業(yè)數(shù)據(jù)完整性保護。

2.1 公有鏈應(yīng)用于數(shù)據(jù)完整性保護

公有鏈是區(qū)塊鏈技術(shù)三種類型中去中心化程度最高的類型，也是應(yīng)用最廣泛的一類。

2.1.1 公有鏈應(yīng)用于溯源與確權(quán)數(shù)據(jù)保護

溯源技術(shù)起初應(yīng)用于數(shù)據(jù)倉庫、工作流以及數(shù)據(jù)管理等行業(yè)［9］，后廣泛應(yīng)用于刑偵、司法、版權(quán)保護、醫(yī)學、考古等對數(shù)據(jù)真實性要求高的場景中。

張國英等［10］結(jié)合PROV-DM（PROVenance Data Model）數(shù)據(jù)溯源標準模型和區(qū)塊鏈技術(shù)，選取以太坊公有鏈作為底層技術(shù)支持，提出了一種去中心化的數(shù)據(jù)溯源方法，并設(shè)計了一套溯源數(shù)據(jù)管理的智能合約，該實現(xiàn)架構(gòu)如圖2所示。

溯源鏈智能合約通過對比鏈上鏈下數(shù)據(jù)文件摘要是否一致的方法來判定溯源數(shù)據(jù)是否被篡改，并通過仿真實驗證明了該方法的可行性。但該方法只能保證鏈上數(shù)據(jù)的完整性，無法保證鏈下數(shù)據(jù)來源是否真實。

圖2 溯源鏈智能合約實現(xiàn)架構(gòu)Fig.2 Implementation architecture of smart contract of traceability chain

在全球化市場上，一個商品從生產(chǎn)到加工的各個環(huán)節(jié)很有可能分布在數(shù)個不同的國家，這就導(dǎo)致消費者往往不知道他們購買的產(chǎn)品的真實來源。區(qū)塊鏈技術(shù)可以應(yīng)用于建立供應(yīng)鏈，以增加客戶對產(chǎn)品來源和加工過程的認知［11］。為了解決產(chǎn)品溯源問題，張鵬等［12］提出了一種基于區(qū)塊鏈數(shù)字代幣的溯源方法，旨在分析出商品的正品率，達到反假冒的目的。這種方法不需要在產(chǎn)品上附加任何電子標識，只要收集鏈上代幣的流轉(zhuǎn)過程，就可對產(chǎn)品進行追蹤溯源并建模；還可計算出商品來自品牌商而不是仿制贗品的概率，并且節(jié)省了存儲成本。但由于該方法的采用溯源矩陣進行正品概率計算，所得到的數(shù)據(jù)為概率值并非確定值，所以屬于有限溯源并非完全溯源。另一個缺陷是不能計算壟斷商品的正品率，只能分析競爭較為充分的商品品牌。

張朝棟等［13］使用側(cè)鏈技術(shù)嘗試解決溯源區(qū)塊鏈吞吐量低的問題，并給出了自己的去中心化溯源方案。該方案采用側(cè)鏈技術(shù)對以太坊公有鏈進行擴容，提升單位時間內(nèi)區(qū)塊鏈處理的交易數(shù)量，并使用智能合約自動完成供應(yīng)鏈溯源過程中的貨物信息管理與共享以及產(chǎn)品溯源。實驗結(jié)果表明，經(jīng)過擴容后的以太坊公有鏈明顯提高了吞吐量。Neisse 等［14］同樣使用以太坊公有鏈建立數(shù)據(jù)溯源與問責機制，通過將溯源數(shù)據(jù)應(yīng)用SHA-256（Secure Hash Algorithm-256）函數(shù)算出哈希摘要并寫入智能合約中部署上鏈，但智能合約的部署與執(zhí)行因其消耗燃氣費（gas），所以仍需一定的經(jīng)濟成本。

溯源鏈的建立與溯源數(shù)據(jù)的存儲在云環(huán)境中對云存儲系統(tǒng)中文件的審計操作和運維由于存在人為因素，因此有隱私數(shù)據(jù)泄露和被篡改的風險，對其中文件的各種操作進行溯源并建立數(shù)據(jù)泄露問責機制有著實際應(yīng)用價值。Liang 等［15］給出了Prov-Chain 區(qū)塊鏈溯源模型，該模型參與的節(jié)點是云系統(tǒng)中的用戶，對文件的讀取、寫入等操作都會被記錄在公有區(qū)塊鏈上。但在云計算環(huán)境下，對其中的文件在短時間內(nèi)進行頻繁訪問則有可能在區(qū)塊鏈上造成溯源數(shù)據(jù)上鏈擁堵問題。

2.1.2 公有鏈應(yīng)用于日志數(shù)據(jù)完整性保護

日志是信息系統(tǒng)的正常運維以及故障恢復(fù)和錯誤排查的前提，更是維護信息安全的關(guān)鍵。當系統(tǒng)出現(xiàn)故障或遭遇黑客入侵后，日志往往成為事后查找和審計漏洞與故障的唯一手段，而且日志在監(jiān)控系統(tǒng)運行狀態(tài)、系統(tǒng)安全審計和故障診斷方面起到至關(guān)重要的作用。中心化的存儲方式無法抵御系統(tǒng)單點故障問題和被攻破后入侵者的篡改問題，因此迫切需要一種對日志可靠的、安全的存儲方式。

費禹等［16］設(shè)計了基于公有鏈的日志系統(tǒng)，但由于采用工作量證明（Proof Of Work，POW）算法實現(xiàn)共識層，算力消耗大且計算符合要求哈希值的nonce 值所需時間長。Sutton等［17］設(shè)計的區(qū)塊鏈日志記錄系統(tǒng)能夠部署在現(xiàn)有的比特幣公有區(qū)塊鏈上，但存在成本高、效率低、可擴展性差的缺陷。日志數(shù)量越大所需交易數(shù)量越多，會在鏈上占據(jù)相當大的存儲空間。Shao等［18］使用以太坊的智能合約實現(xiàn)日志數(shù)據(jù)的完整性和異常檢測，并結(jié)合機器學習允許智能合約本身能夠?qū)崿F(xiàn)一定程度的自我更新。智能合約結(jié)合機器學習的前景非常廣闊，但智能合約本身的漏洞驗證與審計是一個需要解決的問題。

2.1.3 公有鏈應(yīng)用于物聯(lián)網(wǎng)數(shù)據(jù)保護

隨著物聯(lián)網(wǎng)（Internet Of Things，IOT）技術(shù)的逐漸普及，各種智能終端設(shè)備數(shù)據(jù)在物聯(lián)網(wǎng)環(huán)境下采集、傳遞、存儲過程中存在篡改與假冒和丟失的風險，缺乏完整性保護的物聯(lián)網(wǎng)數(shù)據(jù)會對物聯(lián)網(wǎng)應(yīng)用造成一定的危害，因此亟須一種可以確保物聯(lián)網(wǎng)數(shù)據(jù)可信且完整的應(yīng)用。魏艷等［19］提出了一種基于公有區(qū)塊鏈的數(shù)據(jù)完整性驗證的區(qū)塊鏈結(jié)構(gòu)和基于去中心化時間戳的數(shù)據(jù)完整性驗證機制，并創(chuàng)新地使用以太坊智能合約進行數(shù)據(jù)完整性的自動校驗；編寫了詳細的智能合約執(zhí)行代碼和元數(shù)據(jù)結(jié)構(gòu)，并將智能合約部署上鏈，在數(shù)據(jù)驗證階段由智能合約自動完成數(shù)據(jù)校驗。其設(shè)計的智能合約結(jié)構(gòu)如圖3所示。

圖3 基于區(qū)塊鏈的物聯(lián)網(wǎng)數(shù)據(jù)完整性驗證的智能合約結(jié)構(gòu)Fig.3 Smart contract structure of IOT data integrity verification based on blockchain

實驗結(jié)果表明，該機制能夠保證物聯(lián)網(wǎng)數(shù)據(jù)的完整性。但智能合約一旦部署上鏈便不可更改，如若智能合約本身存在安全性漏洞，將導(dǎo)致嚴重的安全隱患。故應(yīng)在智能合約部署上鏈前進行嚴格的測試與審計。

2.1.4 公有鏈應(yīng)用于其他行業(yè)數(shù)據(jù)保護

1）電子合同。田海博等［20］提出了一種可驗證的盲加密簽名體制并基于此描述了一種兩方的公平合同簽署協(xié)議，通過將協(xié)議實現(xiàn)腳本部署在比特幣的公有鏈上，在交易驗證時完成雙方合同簽署。協(xié)議腳本一經(jīng)部署上鏈便不可更改，利用區(qū)塊鏈的不可篡改性完成并驗證雙方合同簽署的正確性和不可抵賴性。

2）醫(yī)療數(shù)據(jù)保護。針對醫(yī)療隱私數(shù)據(jù)如電子病歷的明文存儲方式存在隱私泄露風險，劉格昌等［21］結(jié)合可搜索加密技術(shù)，將電子病歷加密后的密文部署到區(qū)塊鏈。該模型使用更加嚴格的拜占庭容錯共識機制而不是公有鏈廣泛使用的POW 共識算法，顯著提高了區(qū)塊鏈的安全性，既保證了醫(yī)療數(shù)據(jù)上鏈后的不可篡改性又提高了數(shù)據(jù)的隱私性。圖4 為該模型可搜索加密的一般步驟。

圖4 可搜索加密步驟Fig.4 Process of searchable encryption

通過結(jié)合可搜索加密（searchable encryption）技術(shù)，該區(qū)塊鏈架構(gòu)表現(xiàn)為一個五層體系，如圖5所示。

圖5 可搜索區(qū)塊鏈五層模型Fig.5 Five-level model of searchable blockchain

可搜索加密過程存在效率低下的問題，亟須縮短可搜索加密的時間。呂琦［22］結(jié)合現(xiàn)有醫(yī)療體系中檔案安全性等問題，重點分析了區(qū)塊鏈技術(shù)在健康檔案數(shù)據(jù)保護中的應(yīng)用模式，并將各種電子醫(yī)療器械終端產(chǎn)生或可穿戴式醫(yī)用設(shè)備收集到的數(shù)據(jù)加密后部署到區(qū)塊鏈上。通過時間戳驗證確保數(shù)據(jù)的真實性，數(shù)據(jù)完整性由區(qū)塊鏈上數(shù)據(jù)不可篡改的特性保證。Dagher等［23］提出了一個基于以太坊公有鏈智能合約的醫(yī)療記錄框架Ancile，在加強對患者醫(yī)療記錄的訪問控制前提下將醫(yī)療數(shù)據(jù)上鏈，對上鏈數(shù)據(jù)加密保護隱私性并且防止被惡意篡改，在防篡改性、可訪問性、隱私性這三者中找到了平衡。Fernández-Caramés等［24］在存儲與訪問糖尿病患者的血糖數(shù)據(jù)方面設(shè)計了一套由區(qū)塊鏈和物聯(lián)網(wǎng)傳感器做技術(shù)支撐的接收、驗證系統(tǒng)。該系統(tǒng)接收來自分布式智能手機以及血糖傳感器組成的物聯(lián)網(wǎng)霧計算網(wǎng)絡(luò)所發(fā)來的患者血糖數(shù)據(jù)，通過底層區(qū)塊鏈存儲驗證數(shù)據(jù)，有效避免了不可信數(shù)據(jù)來源。Fan 等［25］設(shè)計另一套電子病歷鏈上管理系統(tǒng)Medblock，結(jié)合訪問控制與對稱加密確保鏈上數(shù)據(jù)的完整性與真實性。實驗結(jié)果表明該系統(tǒng)能夠抵御重放攻擊且不可篡改，檢索病歷數(shù)據(jù)的效率高，訪問速度較高，并且采用異步上傳數(shù)據(jù)的方式避免了數(shù)據(jù)擁塞。

3）征信與眾包數(shù)據(jù)保護。陳春玲等［26］針對現(xiàn)有中心化征信系統(tǒng)在數(shù)據(jù)存儲方面廣泛存在單點故障和防篡改性差以及偽造數(shù)據(jù)的問題，設(shè)計出一種新型征信系統(tǒng)模型。該模型基于區(qū)塊鏈實現(xiàn)一種去中心化的分布式存儲結(jié)構(gòu)，鏈上數(shù)據(jù)的正確性以及完整性由參與區(qū)塊鏈的節(jié)點通過共識方式保證。在數(shù)據(jù)校驗時，首先同步全網(wǎng)區(qū)塊鏈至本地，然后和鏈下的元數(shù)據(jù)進行比較完成校驗。無論在鏈上還是鏈下都進行嚴格的校驗，有效保障了數(shù)據(jù)完整性；并且征信數(shù)據(jù)在全網(wǎng)節(jié)點都留有副本，在當單個節(jié)點數(shù)據(jù)損壞或丟失時可以與區(qū)塊鏈上其他節(jié)點進行同步而恢復(fù)丟失的數(shù)據(jù)。但數(shù)據(jù)既存儲在鏈上所有節(jié)點中也存儲在鏈下，造成了較為嚴重的存儲空間浪費，并且所有節(jié)點都需要同步全網(wǎng)數(shù)據(jù)。這種每個節(jié)點都相當于區(qū)塊鏈中的全節(jié)點的設(shè)計模式會造成數(shù)據(jù)訪問與更新時間效率不高，并且數(shù)據(jù)上鏈以前會先在鏈下驗證，部署上鏈后又會由其他節(jié)點進行共識性驗證，這會導(dǎo)致重復(fù)驗證以及驗證時間長的問題。

Li 等［27］提出了一個基于區(qū)塊鏈的分散式眾包框架（Crowdsourcing BlockChain，CrowdBC），其中請求者的任務(wù)不依賴任何第三方可信機構(gòu)。該框架由以太坊公有鏈提供底層區(qū)塊鏈支持，實驗表明CrowdBC具有可用性和可擴展性，并且結(jié)合區(qū)塊鏈后整個系統(tǒng)具有抵抗單點故障的能力。Bhatia［28］將眾包任務(wù)上鏈部署，在確保眾包數(shù)據(jù)完整性的同時降低了眾包任務(wù)的經(jīng)濟成本。基于同樣思想的還有Han等［29］的眾包區(qū)塊鏈應(yīng)用。Lu 等［30］將他們的眾包平臺匿名分散眾包系統(tǒng)ZebraLancer 部署在以太網(wǎng)公有鏈上，在確保眾包數(shù)據(jù)完整性的同時更加側(cè)重匿名信和隱私性。Buccafurri 等［31］認為將眾包任務(wù)部署在有代幣激勵機制的鏈上并非最優(yōu)選擇，因每筆交易都須支付一定費用會導(dǎo)致成本高昂的問題，不利于眾包任務(wù)的完成。據(jù)此他們基于社交網(wǎng)絡(luò)twitter 設(shè)計一種改進公有鏈的替代鏈公共賬本模型，采用概念驗證證明（Proof Of Concept，POC）來降低經(jīng)濟成本，利用社交網(wǎng)絡(luò)在信息共享方面的高性能降低訪問延遲，能夠在確保數(shù)據(jù)完整性的基礎(chǔ)上顯著減少計算時間。

2.2 聯(lián)盟鏈應(yīng)用于數(shù)據(jù)完整性保護

聯(lián)盟鏈是一類由選舉或投票的方式達成共識的區(qū)塊鏈類型。權(quán)限較公有鏈更嚴格，節(jié)點能否參與需經(jīng)過審核，因此中心化程度高于公有鏈。應(yīng)用于數(shù)據(jù)保護時可不使用POW 機制，也無需花費代幣，靈活性高。

2.2.1 公有鏈應(yīng)用于溯源與確權(quán)數(shù)據(jù)保護

Bumblauskas 等［32］使用時間流逝證明（Proof Of Elapsed Time，POET）作為共識層算法，結(jié)合超級賬本Hyperledger，實現(xiàn)了一個農(nóng)產(chǎn)品的聯(lián)盟溯源鏈。該算法使用sawtooth 平臺部署智能合約，該平臺具有不花費數(shù)字代幣的特點；且使用POET算法形成共識，不需要龐大的算力和專門的硬件參與節(jié)點記賬權(quán)的競爭［33］。這種共識層算法通常用于聯(lián)盟鏈，每一個參與節(jié)點通過CPU 指令產(chǎn)生一個隨機時間計時器并等待其觸發(fā)來競爭記賬權(quán)。最先完成等待時間的節(jié)點組裝新的區(qū)塊并在鏈上廣播。其他節(jié)點校驗其等待時間的真實性形成共識，計時器的隨機性由專用于產(chǎn)生隨機數(shù)的安全CPU 指令完成。該算法相較工作量證明POW 優(yōu)勢在于不需要大量的算力參與，也不需要專門的礦機，能夠極大地節(jié)省算力成本。

為確保數(shù)據(jù)隱私性，Ramachandran 等［34］及Tosh 等［35］分別在各自的區(qū)塊鏈數(shù)據(jù)溯源模型中使用哈希散列函數(shù)對用戶ID 進行散列摘要，且將部分數(shù)據(jù)上鏈，去除了中心化存儲的信息泄露風險，實現(xiàn)了一定程度的隱私保護。田有亮等［36］設(shè)計了一個基于屬性加密的區(qū)塊鏈數(shù)據(jù)溯源方法，共識層采取實用拜占庭容錯（Practical Byzantine Fault Tolerance，PBFT）算法實現(xiàn)。通過仿真實驗證明所提算法可以在完成溯源數(shù)據(jù)完整性保護的同時確保數(shù)據(jù)隱私性，并實現(xiàn)了鏈上溯源信息的擁有者組內(nèi)動態(tài)共享。

王海龍等［37］基于區(qū)塊鏈技術(shù)和數(shù)字水印技術(shù)提出了一種新的確權(quán)方案，針對確權(quán)過程中的數(shù)據(jù)完整性，利用區(qū)塊鏈不可篡改性與透明性保證確權(quán)結(jié)果的正確性和權(quán)威性。該方案選取的區(qū)塊鏈類型是超級賬本聯(lián)盟鏈，因而隱私性和安全性都高于公有鏈并且使用一種能夠容忍錯誤節(jié)點數(shù)達到全部聯(lián)盟節(jié)點數(shù)一半的共識算法。實驗證明其容錯率高于PBFT 共識算法；但區(qū)塊鏈在確權(quán)方面作為一種時間戳認證服務(wù)，而數(shù)據(jù)來自鏈下或鏈外，區(qū)塊鏈無法確保來自鏈外數(shù)據(jù)自身的可信度［38］。

2.2.2 公有鏈應(yīng)用于日志數(shù)據(jù)完整性保護

呂建富等［39］提出了一種基于鏈上鏈下相結(jié)合的日志安全存儲與檢索模型。該模型在鏈下提取日志數(shù)據(jù)的摘要和元信息，并將日志的完整數(shù)據(jù)加密存儲在鏈下分布式數(shù)據(jù)庫中。鏈上只存儲日志數(shù)據(jù)的摘要和元數(shù)據(jù)信息，采用PBFT共識方法有效使各節(jié)點形成共識，如圖6所示。

圖6 日志聯(lián)盟鏈PBFT共識過程Fig.6 PBFT consensus process of log alliance chain

在日志檢索時，使用哈希結(jié)果比較的方法驗證節(jié)點和鏈上數(shù)據(jù)的一致性，并由此判斷數(shù)據(jù)是否遭到篡改。但在日志檢索效率方面，密文檢索技術(shù)確保了安全性和隱私性而犧牲了檢索效率，因此應(yīng)考慮如何在保證更高安全性的前提下更好地提高密文檢索的效率。韓菊茹等［40］基于相似的思想設(shè)計了一套億級日志數(shù)據(jù)審計系統(tǒng)，使用鏈上數(shù)據(jù)指紋和鏈下數(shù)據(jù)指紋校驗的方式確認日志數(shù)據(jù)是否遭到篡改；但驗證效率不高，驗證代碼運行于鏈下與鏈上組件，且未形成安全閉環(huán)，應(yīng)結(jié)合智能合約將驗證環(huán)節(jié)全部部署在鏈上形成安全閉環(huán)，從而提高安全性。

Putz等［41］使用聯(lián)盟鏈作為底層的技術(shù)支持確保數(shù)據(jù)防篡改，結(jié)合密碼學進行權(quán)限校驗，提出了一個基于嚴格權(quán)限訪問控制的日志審計架構(gòu)。其共識層采用PBFT算法，能夠確保整個系統(tǒng)中小于1/3 的節(jié)點出錯時仍正確運行。通過安全性實驗分析證明此聯(lián)盟鏈日志審計架構(gòu)能夠攔截對日志數(shù)據(jù)的修改企圖。

2.2.3 公有鏈應(yīng)用于物聯(lián)網(wǎng)數(shù)據(jù)完整性保護

Hang 等［42］將超級賬本聯(lián)盟鏈與物聯(lián)網(wǎng)中的農(nóng)業(yè)智能設(shè)備結(jié)合，實現(xiàn)了一個基于聯(lián)盟鏈的養(yǎng)魚場平臺。該平臺旨在為漁民提供和存儲大量不可篡改的數(shù)據(jù)，并且養(yǎng)魚場中的各種工藝由智能合約自動執(zhí)行，顯著減少了錯誤和誤操作風險。實驗結(jié)果表明此平臺能夠顯著提升農(nóng)業(yè)智能設(shè)備數(shù)據(jù)的完整性。

檔案數(shù)據(jù)管理普遍存在中心化存儲導(dǎo)致的安全性差且抵御篡改的能力弱的問題。譚海波等［43］對此提出了一種基于區(qū)塊鏈的檔案數(shù)據(jù)保護與共享方法，使用數(shù)字簽名并創(chuàng)新性地將智能合約與星際文件系統(tǒng)（InterPlanetary File System，IPFS）結(jié)合，實現(xiàn)了對數(shù)字檔案文件的保護，該方法并未局限于公有鏈而是將公有鏈與聯(lián)盟鏈結(jié)合。此種融合性區(qū)塊鏈根據(jù)存儲其上的數(shù)字檔案數(shù)據(jù)的結(jié)構(gòu)進行了深度定制，既有區(qū)塊鏈不可篡改等優(yōu)點又提升了區(qū)塊鏈的可擴展性。該方法有望將檔案數(shù)據(jù)的一般存儲模式轉(zhuǎn)型為去中心化的存儲模式，具有優(yōu)良的應(yīng)用前景。

2.3 私有鏈應(yīng)用于數(shù)據(jù)完整性保護

私有鏈是三種區(qū)塊鏈中權(quán)限要求最為嚴格的類型，其中心化程度也是三種類型中最高的。雖然犧牲了一定的信任，但使得共識算法更加靈活，適合數(shù)據(jù)保護中隱私性要求高的場景。

2.3.1 公有鏈應(yīng)用于物聯(lián)網(wǎng)數(shù)據(jù)完整性保護

Minoli［44］認為，公有鏈的POW 共識算法并不適合用于家庭智能設(shè)備物聯(lián)網(wǎng)，應(yīng)該尋找低算力參與的共識協(xié)議以及私有本地區(qū)塊鏈網(wǎng)絡(luò)來維護家庭智能設(shè)備物聯(lián)網(wǎng)。為此Dorri等［45］實現(xiàn)了一個私有的本地區(qū)塊鏈系統(tǒng)來管理智能家居設(shè)備物聯(lián)網(wǎng)，去除了代幣激勵機制并通過一臺資源配置較高的設(shè)備來對智能家居設(shè)備產(chǎn)生的數(shù)據(jù)進行區(qū)塊組裝與上鏈。實驗表明此私有鏈能夠滿足智能家居設(shè)備數(shù)據(jù)量小算力低的特點，并確保設(shè)備數(shù)據(jù)的完整性。但由于記賬權(quán)集中在一臺設(shè)備上，因此存在單點故障的風險。

同樣基于私有鏈，秦曉偉等［46］將其應(yīng)用于礦山設(shè)備物聯(lián)網(wǎng)，旨在解決礦山物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)傳輸和存儲過程中存在易丟失和被篡改的問題。該模型使用PBFT算法作為共識機制，能夠容納小于系統(tǒng)中節(jié)點總數(shù)1/3出錯或故障，如圖7所示。

實驗證明了該模型在數(shù)據(jù)完整性方面具有可靠性，但在該模型中所有存儲節(jié)點都要同步保存數(shù)據(jù)，存在一定的存儲空間開銷。

圖7 礦山物聯(lián)網(wǎng)區(qū)塊鏈共識過程Fig.7 Mine IOT blockchain consensus process

2.3.2 公有鏈應(yīng)用于其他行業(yè)數(shù)據(jù)保護

安瑞等［47］將區(qū)塊鏈技術(shù)應(yīng)用于寶石鑒定證書的防偽應(yīng)用場景，結(jié)合IC 卡芯片等硬件設(shè)備，設(shè)計了一套寶石鑒定證書安全防偽系統(tǒng)。此系統(tǒng)底層實現(xiàn)所依托的區(qū)塊鏈是私有鏈，有效規(guī)避在公有鏈上寫入數(shù)據(jù)導(dǎo)致的成本高昂的問題，并使用了支持多種加密方式以及近場通信（Near Field Communication，NFC）技術(shù)的智能IC 卡。即使設(shè)備離線依托NFC 技術(shù)，仍然能夠讀取IC 卡內(nèi)數(shù)據(jù)，大大提升了系統(tǒng)鏈下部分的擴展性和靈活性。通過實驗證明，此系統(tǒng)中的數(shù)據(jù)防篡改性、防偽造性高，成本低廉，有一定的競爭力，對當前區(qū)塊鏈落地以及應(yīng)用場景拓展給出了實際的參考。

2.4 對現(xiàn)有成果的總結(jié)

區(qū)塊鏈應(yīng)用于數(shù)據(jù)完整性保護按其類型可分為基于公有鏈的、基于聯(lián)盟鏈的、基于私有鏈的三大類型，其中每個類型按應(yīng)用場景和數(shù)據(jù)特性又分為溯源與確權(quán)數(shù)據(jù)保護、日志數(shù)據(jù)保護、物聯(lián)網(wǎng)數(shù)據(jù)保護等，下面分別討論各場景下將區(qū)塊鏈技術(shù)應(yīng)用于數(shù)據(jù)保護各個方案相較傳統(tǒng)數(shù)據(jù)保護方法的優(yōu)勢以及自身的一些不足之處。

在溯源數(shù)據(jù)保護以及溯源鏈建立方面，當前數(shù)據(jù)溯源的主要傳統(tǒng)方法有數(shù)據(jù)引證技術(shù)［48］、標注法［49］、反向查詢法［50］等。然而這些傳統(tǒng)方法對溯源數(shù)據(jù)本身的保護不足，往往需要依賴中心化的第三方存儲或驗證溯源數(shù)據(jù)。如何安全可靠地存儲溯源數(shù)據(jù)成為溯源領(lǐng)域的難點。

中心化存儲溯源數(shù)據(jù)的系統(tǒng)有四類重大缺陷：其一是存儲系統(tǒng)的中心化程度越高其可信程度越低，特別是用來存儲溯源數(shù)據(jù)的時候，中心化存儲系統(tǒng)內(nèi)生性地受制于可能的利益驅(qū)使而導(dǎo)致溯源數(shù)據(jù)的篡改或偽造問題；其二是單點故障問題非常有可能導(dǎo)致整個系統(tǒng)癱瘓；其三是數(shù)據(jù)的歷史信息通常以日志的形式存在于各個分散的設(shè)備中，容易形成信息孤島，溯源效率低下且數(shù)據(jù)易被篡改；其四是數(shù)據(jù)擁有者與數(shù)據(jù)分離，數(shù)據(jù)全部托管于中心化的第三方，有數(shù)據(jù)泄露的可能，對數(shù)據(jù)的隱私性造成威脅。

區(qū)塊鏈的去中心化、防篡改以及共識機制等特性是解決這些問題的理想選擇。然而大多數(shù)溯源技術(shù)的應(yīng)用場景是集中式數(shù)據(jù)庫或存儲節(jié)點可信的分布式環(huán)境，在區(qū)塊鏈的應(yīng)用場景下無法直接使用［51］需進行一定的設(shè)計與調(diào)整。

另外一個問題是鏈上被保護數(shù)據(jù)的吞吐量問題，想要將區(qū)塊鏈技術(shù)結(jié)合數(shù)據(jù)溯源實際落地，亟須提高區(qū)塊鏈交易的處理效率即吞吐量，減少交易成本。為解決這些問題，區(qū)塊鏈擴容和跨鏈側(cè)鏈技術(shù)應(yīng)運而生［52-56］。跨鏈側(cè)鏈技術(shù)最早應(yīng)用在比特幣的擴容方面，是一種可讓比特幣安全轉(zhuǎn)移到其他區(qū)塊鏈，又可以從其他區(qū)塊鏈安全返回到比特幣主鏈的協(xié)議［57］。這些技術(shù)對提高吞吐量具有一定的效果，然而由于區(qū)塊鏈鏈式結(jié)構(gòu)本身的天然限制，這些擴容技術(shù)都非常復(fù)雜，對吞吐量的提升能力也有限。

在數(shù)據(jù)確權(quán)方面，傳統(tǒng)的數(shù)據(jù)確權(quán)手段有提交權(quán)屬證明、專家評審以及數(shù)字水印等，但前兩種存在缺乏技術(shù)可信度和人為參與因素未形成安全閉環(huán)，而數(shù)字水印技術(shù)大多針對靜態(tài)數(shù)據(jù)集，滿足數(shù)據(jù)量巨大、更新速度高的水印方案尚不成熟［58］，將區(qū)塊鏈技術(shù)應(yīng)用于確權(quán)數(shù)據(jù)保護能夠一定程度上解決這些問題。

區(qū)塊鏈在溯源和確權(quán)中應(yīng)用的核心思想是將溯源數(shù)據(jù)上鏈保存達到溯源數(shù)據(jù)不可篡改的目的。但區(qū)塊鏈只能保證鏈上數(shù)據(jù)的完整性，不能保證溯源數(shù)據(jù)來源的可靠性與數(shù)據(jù)本身的真實性，需要在鏈下結(jié)合其他數(shù)據(jù)真實性審計與校驗手段。

在日志數(shù)據(jù)保護方面，區(qū)塊鏈應(yīng)用于日志數(shù)據(jù)完整性保護可以確保日志數(shù)據(jù)不被篡改，提升日志可靠性，加強系統(tǒng)的安全性。但由于鏈上存儲空間開銷大，因而大多數(shù)區(qū)塊鏈日志應(yīng)用僅存儲日志數(shù)據(jù)的摘要或哈希而不是完整數(shù)據(jù)。雖然能檢測篡改，但那些數(shù)據(jù)損壞的節(jié)點想要恢復(fù)日志數(shù)據(jù)仍然要依靠鏈下手段，并且智能合約應(yīng)用不足，應(yīng)深度研究結(jié)合智能合約的日志自動化驗證方法。

在物聯(lián)網(wǎng)數(shù)據(jù)保護方面，應(yīng)根據(jù)要保護的數(shù)據(jù)所在的物聯(lián)網(wǎng)設(shè)備特性對所用區(qū)塊鏈進行定制化設(shè)計。比如物聯(lián)網(wǎng)設(shè)備的普遍特點是設(shè)備小而多，單個設(shè)備并不具備很強的算力，這就不太適合采用POW 這種算力要求高的共識算法。而且設(shè)備數(shù)據(jù)存儲能力也有限，需結(jié)合鏈下專門的存儲設(shè)備存儲數(shù)據(jù)。近年來新型分布式賬本IOTA 是物聯(lián)網(wǎng)區(qū)塊鏈應(yīng)用數(shù)據(jù)保護的一個可選項，其目標就是應(yīng)用于物聯(lián)網(wǎng)設(shè)備并建立機器經(jīng)濟，使交易無需手續(xù)費且數(shù)據(jù)上鏈速度高。

在區(qū)塊鏈技術(shù)用于其他非IT 行業(yè)數(shù)據(jù)保護方面的應(yīng)用處于初步探索與試點應(yīng)用階段，共性思路是將需要保護的數(shù)據(jù)存儲到區(qū)塊鏈上以達到數(shù)據(jù)保護的目的。

此外，區(qū)塊鏈實現(xiàn)去中心化存儲保護數(shù)據(jù)完整性還在慈善組織［59］、電力系統(tǒng)數(shù)據(jù)［60］、教育［61］等方面有研究和應(yīng)用。其中的區(qū)塊鏈類型多采用聯(lián)盟鏈或私有鏈，通病是存在存儲空間浪費和重復(fù)驗證以及驗證時間長的問題。

近幾年來區(qū)塊鏈技術(shù)越來越多與各行業(yè)結(jié)合，出現(xiàn)了去中心化應(yīng)用（Decentralized Applications，DAPP）、去中心化組織（Decentralized Autonomous Organizations，DAO）［62］、去中心化公司（Decentralized Autonomous Companies，DAC）［63］甚至去中心化社會（Decentralized Autonomous Society，DAS）的概念，但與各行業(yè)結(jié)合前應(yīng)該探索本行業(yè)哪些數(shù)據(jù)適合去中心化上鏈存儲，因為鏈上存儲空間開銷大，所以那些需要頻繁更新且規(guī)模龐大的數(shù)據(jù)就不太適合存儲在區(qū)塊鏈中。區(qū)塊鏈更適合存儲憑證、證書以及摘要或哈希等無需經(jīng)常改動的數(shù)據(jù)。另外，那些必須受到第三方監(jiān)督的領(lǐng)域應(yīng)該采用聯(lián)盟鏈或私有鏈這種中心化程度較高的區(qū)塊鏈類型以滿足監(jiān)管要求，而不是完全去中心化的公有鏈。

3 現(xiàn)有數(shù)據(jù)完整性保護技術(shù)與區(qū)塊鏈技術(shù)對比

3.1 傳統(tǒng)數(shù)據(jù)完整性保護方法對比區(qū)塊鏈技術(shù)

傳統(tǒng)數(shù)據(jù)完整性保護的方法有哈希摘要校驗、數(shù)字簽名、數(shù)據(jù)水印等。這些完整性驗證方法在大數(shù)據(jù)環(huán)境下逐漸暴露出很多問題。哈希摘要方法存在摘要形成時間長，效率低下，且無法滿足大規(guī)模并行應(yīng)用的缺點［64］；數(shù)字簽名技術(shù)的證書管理和存儲以及密鑰托管中心化，存在單點故障和信任問題［65］；數(shù)字水印存在被擦除的風險［66-67］，且無法抵抗屏攝。表1是傳統(tǒng)數(shù)據(jù)保護技術(shù)與基于區(qū)塊鏈的數(shù)據(jù)保護技術(shù)的特點對比。

由表1 可見，區(qū)塊鏈在數(shù)據(jù)完整性保護方面由于自身不可篡改、可追溯性完備的特點在數(shù)據(jù)完整性保護方面具有天然的優(yōu)勢，相較傳統(tǒng)數(shù)據(jù)保護技術(shù)覆蓋更加全面，支持所要保護的數(shù)據(jù)流轉(zhuǎn)過程的全程管理，且智能合約的應(yīng)用也使數(shù)據(jù)完整性驗證過程的自動化程度大大提高，因此將區(qū)塊鏈技術(shù)應(yīng)用于數(shù)據(jù)完整性保護有著良好的前景。

表1 傳統(tǒng)數(shù)據(jù)保護方法與區(qū)塊鏈技術(shù)對比Tab.1 Comparison of traditional data protection methods and blockchain technology

3.2 云環(huán)境下數(shù)據(jù)完整性保護方法對比區(qū)塊鏈技術(shù)

數(shù)據(jù)完整性保護在云環(huán)境中的主流方法是數(shù)據(jù)審計，按照是否需要引入第三方審計分為公有審計［68-69］與私有審計［70］兩大類。其中，公有數(shù)據(jù)完整性審計方式需要引入第三方審計者（Third Party Authority，TPA），而私有審計方式需要數(shù)據(jù)擁有者自行審計且要求整個審計過程中必須一直在線。

數(shù)據(jù)完整性保護公有驗證審計廣義分為如圖8 所示的類型［71］。

如圖8 所示，數(shù)據(jù)完整性保護驗證機制按照是否對數(shù)據(jù)擁有容錯預(yù)處理機制宏觀分為數(shù)據(jù)持有性證明（Provable Data Possession，PDP）機制［72］和數(shù)據(jù)可恢復(fù)證明（Proofs of Retrievability，POR）機制［73］，每種機制按照其所采用的實現(xiàn)技術(shù)又可更細致地分為若干子類，除此之外還有默克爾哈希樹（Merkle Hash Tree，MHT）方案等［74］。

圖8 云環(huán)境數(shù)據(jù)完整性保護技術(shù)分類Fig.8 Classification of data integrity protection in cloud environment

PDP機制旨在快速識別數(shù)據(jù)的完整性，注重速度與效率，因此適合大數(shù)據(jù)完整性審計與校驗，但其得到的結(jié)果僅能判斷是否損壞，不能判斷損壞率或篡改率，也不能判斷具體哪些數(shù)據(jù)遭到篡改，而且不能恢復(fù)被篡改的數(shù)據(jù)。

POR 機制不僅能判斷數(shù)據(jù)完整性，而且可以對損壞或丟失的數(shù)據(jù)進行有限程度的恢復(fù)，缺陷是由于數(shù)據(jù)塊參與了容錯編碼，更新數(shù)據(jù)塊的同時必須更新相應(yīng)的冗余信息，計算代價高且完整性驗證速度低。

公有數(shù)據(jù)完整性審計方案的缺陷是數(shù)據(jù)與所有者分離，全部托管于云存儲服務(wù)器中進行中心化存儲，存在數(shù)據(jù)被篡改和泄露的風險，且一旦存儲數(shù)據(jù)的云服務(wù)器出現(xiàn)故障，則數(shù)據(jù)所有者可能丟失數(shù)據(jù)。

私有數(shù)據(jù)完整性審計方案的缺陷是要求數(shù)據(jù)所有者審計過程中始終在線且消耗數(shù)據(jù)所有者的主機資源，過于依賴數(shù)據(jù)所有者自身的計算機和網(wǎng)絡(luò)性能。

而使用區(qū)塊鏈技術(shù)能夠防止云存儲數(shù)據(jù)帶來的單點故障問題，也不需要引入第三方審計機構(gòu)；使用智能合約既可使數(shù)據(jù)所有者異步驗證數(shù)據(jù)完整性，不需要數(shù)據(jù)所有者在線，也不依賴數(shù)據(jù)所有者的計算機性能，自動化程度非常高。

表2 是區(qū)塊鏈技術(shù)應(yīng)用于數(shù)據(jù)保護對比云環(huán)境下數(shù)據(jù)完整性驗證的三種審計方案。

由表2 對比可見，云存儲環(huán)境下的數(shù)據(jù)完整性驗證審計方案自身無法防止篡改，需依賴外部身份校驗手段，而區(qū)塊鏈方案本身對刪改具有天然抵抗能力。

表2 三種云數(shù)據(jù)完整性審計方法與區(qū)塊鏈技術(shù)在數(shù)據(jù)完整性驗證方面的對比Tab.2 Comparison of three cloud data integrity audit methods and blockchain technology when applied to data integrity verification

3.3 傳統(tǒng)數(shù)據(jù)存儲系統(tǒng)與區(qū)塊鏈數(shù)據(jù)存儲系統(tǒng)

現(xiàn)有使用廣泛的分布式數(shù)據(jù)存儲系統(tǒng)是Ceph［75］，然而Ceph 組件多而復(fù)雜，對所在計算機設(shè)備性能要求高，安裝過程復(fù)雜繁瑣且要求安裝人員熟練掌握底層磁盤管理知識，對數(shù)據(jù)完整性保護并沒有原生的支持，僅是通用數(shù)據(jù)存儲方案。

星際文件（InterPlanetary File System，IPFS）［76］是一種與區(qū)塊鏈相結(jié)合的文件存儲系統(tǒng)，安裝與操作都非常簡單，其優(yōu)點是去中心化存儲，而且同樣的數(shù)據(jù)不會被重復(fù)存儲節(jié)約了存儲空間，并且支持其上文件數(shù)據(jù)修改歷史回溯，表3 是星際文件系統(tǒng)IPFS與Ceph的特點對比。

顯然，在數(shù)據(jù)完整性保護方面，IPFS憑借其簡單的安裝和操作步驟以及去中心化的存儲方式、抗分布式拒絕服務(wù)攻擊（Distributed Denial of Service，DDoS）方面都優(yōu)于Ceph 方案，且支持其上數(shù)據(jù)修改的全程回溯，使其具備天然的數(shù)據(jù)恢復(fù)能力，對操作系統(tǒng)沒有要求可移植性好，這些都是Ceph 在數(shù)據(jù)完整性保護方面所不具備的優(yōu)勢。

表3 Ceph與IPFS在數(shù)據(jù)完整性保護中數(shù)據(jù)存儲與恢復(fù)方面的對比Tab.3 Comparison of Ceph and IPFS in data storage and recovery of data integrity protection

4 研究展望

4.1 存在的問題

雖然使用區(qū)塊鏈技術(shù)進行數(shù)據(jù)完整性保護能夠較為全面地覆蓋數(shù)據(jù)完整性保護的幾點核心要求，但仍有一些不足之處需要改進。

首先，區(qū)塊鏈的數(shù)據(jù)存儲成本較中心化方案較為昂貴，尤其是參與節(jié)點多形成大數(shù)據(jù)量級的場景下。針對這個問題，現(xiàn)階段可采用摘要的形式（即元數(shù)據(jù)、數(shù)據(jù)指紋、哈希值等）將數(shù)據(jù)部署到區(qū)塊鏈中，已達到節(jié)省存儲空間的目的；也可以使用BigchainDB（Bigchain DataBase）［77］以及IPFS 這類新型的區(qū)塊鏈分布式存儲系統(tǒng)。但因為這些去中心化存儲方案出于初創(chuàng)階段，故離大規(guī)模應(yīng)用還有一定的距離。

第二，為參與節(jié)點找到合適的共識算法也是一項富有挑戰(zhàn)性的任務(wù)，應(yīng)該結(jié)合具體的應(yīng)用場景選擇最合適的激勵機制和共識算法。比如，在那些需要高吞吐量和高訪問速度的應(yīng)用場景就并不適合采用POW 這種吞吐量低的共識算法，應(yīng)考慮容量證明（Proof Of CApacity，POCA）或持幣量證明（Proof Of Stake，POS）、權(quán)威證明（Proof Of Authority，POA）等。各主流共識算法應(yīng)用于數(shù)據(jù)保護的優(yōu)缺點如表4所示。

還有處于研究中尚未大規(guī)模應(yīng)用的共識算法，如proof of QoS（Quality-of-Service）［78］、proof of location［79］、proof of deep learning［80］、proof of credit［81］、proof of concept［82］等。這些新型共識算法的特點是專用于某個具體的場景下，并非通用的共識算法。

表4 共識算法應(yīng)用于數(shù)據(jù)完整性保護的優(yōu)缺點比較Tab.4 Comparison of advantages and disadvantages of consensus algorithms when applied to data integrity protection

第三，區(qū)塊類型選擇。應(yīng)按照所要保護的數(shù)據(jù)類型和特點以及要求選取合適類型的區(qū)塊鏈。比如，在一些需要高隱私性需求的數(shù)據(jù)保護與存儲領(lǐng)域就不太適合使用公有鏈這種不需要身份認證的區(qū)塊鏈類型。具體例子是我國正在試點運行的基于區(qū)塊鏈的數(shù)字化人民幣（Digital Currency Electronic Payment，DCEP）。由于監(jiān)管和審計要求不能完全去中心化，故聯(lián)盟鏈或私有鏈就更為適合這種場景。表5 是區(qū)塊鏈三種類型應(yīng)用于數(shù)據(jù)完整性保護的比較。

表5 不同類型區(qū)塊鏈應(yīng)用于數(shù)據(jù)完整性保護的特點比較Tab.5 Characteristic comparison of different types of blockchain when applied to data integrity protection

第四，智能合約安全性。將智能合約應(yīng)用于數(shù)據(jù)完整性保護能夠提升數(shù)據(jù)驗證的自動化程度，但智能合約一旦部署上鏈就不能再更改，若出現(xiàn)安全漏洞則可能會對數(shù)據(jù)完整性造成威脅。因此必須在智能合約代碼部署到區(qū)塊鏈前對其進行嚴格的測試和驗證，確保其不存在安全漏洞。形式化驗證和符號執(zhí)行技術(shù)是智能合約代碼審計的理想選擇［83］。

第五，各種區(qū)塊鏈對各種攻擊的抵御能力。在將區(qū)塊鏈技術(shù)應(yīng)用于數(shù)據(jù)保護過程中，應(yīng)重點防范分叉攻擊［84］、回滾攻擊、雙花攻擊［85］、51%算力攻擊［86］。其中，分叉攻擊由于會破壞分布式共識，造成數(shù)據(jù)不同步甚至沖突，是對數(shù)據(jù)保護危害較大的攻擊方式。

4.2 下一步的研究方向

作為數(shù)據(jù)安全重要一環(huán)，數(shù)據(jù)完整性保護被視為整個數(shù)據(jù)生命周期的前提與基礎(chǔ)環(huán)節(jié)。區(qū)塊鏈技術(shù)應(yīng)用于數(shù)據(jù)保護，在解決了已有數(shù)據(jù)完整性保護技術(shù)完整性驗證效率、數(shù)據(jù)泄露問題、數(shù)據(jù)恢復(fù)能力不足和抗刪改能力不足的基礎(chǔ)上，應(yīng)結(jié)合數(shù)據(jù)完整性保護的特點重點改進以下幾個方面：

1）數(shù)據(jù)存儲能力弱。主流區(qū)塊鏈由于更側(cè)重計算與控制，在存儲方面能力較弱，鏈上存儲空間成本高，不太適合存儲大量數(shù)據(jù)的場景。這點使用基于區(qū)塊鏈的IPFS 可以得到解決，它可提供：

①使用哈希進行數(shù)據(jù)或文件對象內(nèi)容尋址；

②存儲容量隨參與節(jié)點的數(shù)量線性增長；

③其上數(shù)據(jù)對象使用有向無環(huán)圖（Directed Acyclic Graph，DAG）默克爾樹（Merkel Tree）彼此連接，提供完整性驗證接口；

④類git的版本控制系統(tǒng)，數(shù)據(jù)或文件全版本歷史追溯；

⑤基于數(shù)據(jù)內(nèi)容存儲，自動刪除內(nèi)容相同的冗余數(shù)據(jù)。

2）數(shù)據(jù)存取訪問速度低。數(shù)據(jù)部署上鏈速度低的問題是阻礙區(qū)塊鏈應(yīng)用于數(shù)據(jù)完整性保護的一大原因，且使得數(shù)據(jù)易受到雙花攻擊。這是因為主流區(qū)塊鏈技術(shù)的自身鏈式結(jié)構(gòu)不支持異步寫入造成的，這就導(dǎo)致在數(shù)據(jù)吞吐量大的場景下會出現(xiàn)擁塞問題。

近年來出現(xiàn)的新型分布式賬本IOTA［87］有望解決這個問題。IOTA采用DAG而不是鏈式結(jié)構(gòu)來構(gòu)建自身。這種結(jié)構(gòu)支持異步記賬，單位時間內(nèi)能夠處理的數(shù)據(jù)量由于不需要同步認證而大大高于傳統(tǒng)區(qū)塊鏈，有望成為下一代主流分布式賬本。

3）數(shù)據(jù)驗證過程安全性。采用智能合約雖然能夠大大提高數(shù)據(jù)完整性驗證的效率，也不需要像已有數(shù)據(jù)完整性驗證方法那樣引入TPA 來驗證，不用擔心數(shù)據(jù)泄露的問題。但智能合約目前誕生不久，其飽受安全漏洞的困擾，其中一些漏洞很可能導(dǎo)致被保護的數(shù)據(jù)出現(xiàn)不可預(yù)料的問題。這是由于智能合約與傳統(tǒng)高級語言編程方式有著較大差異，采用形式化驗證和符號執(zhí)行能夠在一定程度上緩解這個問題。

5 結(jié)語

本文首先對區(qū)塊鏈和數(shù)據(jù)完整性保護的相關(guān)概念進行了簡要介紹。根據(jù)區(qū)塊鏈類型與應(yīng)用場景分類介紹了區(qū)塊鏈技術(shù)在數(shù)據(jù)完整性保護中的應(yīng)用，并與已有數(shù)據(jù)保護完整性保護方式進行了對比，總結(jié)了區(qū)塊鏈技術(shù)應(yīng)用于數(shù)據(jù)保護的現(xiàn)有不足并對下一步的研究方向進行了展望。區(qū)塊鏈因其自身去中心化、區(qū)塊中數(shù)據(jù)不可篡改的特性，在數(shù)據(jù)保護領(lǐng)域中有著天然的優(yōu)勢，是未來分布式環(huán)境下數(shù)據(jù)保護的一大可行方向。區(qū)塊鏈技術(shù)在數(shù)據(jù)完整性保護領(lǐng)域的完整性驗證效率、數(shù)據(jù)恢復(fù)能力、數(shù)據(jù)歷史版本回溯能力以及防止單點故障和抗刪改方面都有較好的表現(xiàn)；但現(xiàn)有數(shù)據(jù)完整性保護應(yīng)用較少且處于初創(chuàng)階段，亟待學者們研究。