一種改進(jìn)的細(xì)粒度云存儲安全去重方案

2021-09-23 07:05:56呂世濤柳毅

現(xiàn)代計算機(jī) 2021年23期

關(guān)鍵詞：用戶

呂世濤，柳毅

（廣東工業(yè)大學(xué)，廣州510006）

0 引言

隨著電子設(shè)備和5G技術(shù)的不斷普及，數(shù)據(jù)總量將以指數(shù)級的趨勢增長。世界互聯(lián)網(wǎng)數(shù)據(jù)中心發(fā)布的數(shù)據(jù)顯示，2020年全球的數(shù)據(jù)總量達(dá)到44 ZB，根據(jù)他們的研究顯示表明，這些數(shù)據(jù)中重復(fù)的數(shù)據(jù)超過35 ZB，重復(fù)率在80%以上[1]。Microsoft[2]和EMC[3]的報道也指出在他們的主要存儲系統(tǒng)和二級存儲系統(tǒng)中數(shù)據(jù)重復(fù)率分別達(dá)到50%和85%。因為重復(fù)數(shù)據(jù)的比例較大，數(shù)據(jù)去重技術(shù)的研究也變地及其重要。云環(huán)境下數(shù)據(jù)去重技術(shù)[4]是指在云存儲環(huán)境下只存儲重復(fù)數(shù)據(jù)的一個副本，減少其相同文件的存儲，可以有效減少物理存儲設(shè)備的使用，降低網(wǎng)絡(luò)消耗，但云環(huán)境下的安全問題一直存在爭議，特別是當(dāng)數(shù)據(jù)是多用戶共享時，會給數(shù)據(jù)的安全問題帶來極大的挑戰(zhàn)。

因為將數(shù)據(jù)上傳至云存儲服務(wù)器之后，會導(dǎo)致用戶對數(shù)據(jù)的所有權(quán)分離，一般在上傳數(shù)據(jù)之前，用戶會在客戶端對數(shù)據(jù)先進(jìn)行加密，確保在上傳的過程中數(shù)據(jù)明文不會直接被暴露，但因為不同客戶端是選擇的數(shù)據(jù)加密方式不同，導(dǎo)致在數(shù)據(jù)到云存儲服務(wù)器之后云存儲服務(wù)器不能通過密文來判斷原始上傳數(shù)據(jù)是否相同，這樣就不能做到對重復(fù)數(shù)據(jù)的對比。為了解決此問題，Douceur等人[5]提出了一種收斂加密（Convergent Encryption，CE）的思想，該方案使用的是對稱加密思想，可以保證相同的明文M經(jīng)過加密以后會得到相同的密文C，云服務(wù)器可以直接通過對密文的比較來判斷明文是否存在重復(fù)。Bellare等人[6]提出了消息鎖收斂加密方案（Message-Locked En?cryption，MLE），在收斂加密的基礎(chǔ)上，對其安全模型和形式化模型進(jìn)行嚴(yán)格規(guī)范。

許多研究者分別提出了基于消息鎖收斂加密的改進(jìn)的云存儲安全去重方案。這些方案主要針對消息鎖收斂加密存在的3個不足進(jìn)行改進(jìn)：①消息鎖收斂加密的塊標(biāo)簽完全由數(shù)據(jù)本身決定，塊標(biāo)簽的安全性存在問題。Abadi等人提出了一種采用了完全隨機(jī)化的標(biāo)簽，使數(shù)據(jù)塊的標(biāo)簽不完全由數(shù)據(jù)塊本身決定，提高了原有消息鎖加密的安全性[7]。之后，Bellare等人對他們提出的MLE方案的基礎(chǔ)上進(jìn)行改進(jìn)，提出了一種數(shù)據(jù)塊標(biāo)簽由系統(tǒng)參數(shù)和文件內(nèi)容共同決定的安全性更高的交互式消息鎖加密方案（interac?tive Message-Locked Encryption，iMLE）[8]。②消息鎖收斂加密的密鑰是根據(jù)數(shù)據(jù)產(chǎn)生的，密鑰容易遭受暴力破解，而且密鑰的數(shù)量很多，帶來管理上的不方便。針對密鑰的安全問題，文獻(xiàn)[9-10]提出了一種基于可信第三方服務(wù)器的保護(hù)密鑰的思想，用來保證密鑰不能被暴力破解，提高了密鑰的安全性。針對密鑰的數(shù)量較多，存在管理上的問題，文獻(xiàn)[11]提出了一種基于Shamir秘密共享機(jī)制的密鑰管理方案，文獻(xiàn)[12]提出update-MLE方案，引進(jìn)樹結(jié)構(gòu)構(gòu)建密鑰樹來管理密鑰。③消息鎖收斂加密的所有權(quán)問題一直沒有得到足夠的重視，在所有權(quán)問題上，文獻(xiàn)[13]提出對數(shù)據(jù)擁有者的所有權(quán)撤銷引進(jìn)樹形結(jié)構(gòu)來進(jìn)行管理，文獻(xiàn)[14]提出了一種基于布隆過濾器（Bloom Filter）的所有權(quán)證明方案，對所有權(quán)問題進(jìn)行處理。

Chen等人提出了一種BL-MLE方案[15]，該方案將收斂加密的密鑰保存在數(shù)據(jù)塊標(biāo)簽中，既能保證塊標(biāo)簽的安全性問題，又解決了密鑰容易遭受破解攻擊的風(fēng)險，而且該方案還可以使用數(shù)據(jù)塊標(biāo)簽來進(jìn)行去重時的所有權(quán)證明問題。該方案同時解決了傳統(tǒng)MLE方案3個方面的不足，節(jié)約了密鑰的生成和計算成本，同時節(jié)約了很大的存儲開銷。

雖然BL-MLE方案同時解決了傳統(tǒng)MLE方案存在的3個方面的不足，但因為BL-MLE方案使用的是固定長度分塊技術(shù)，所有在原始數(shù)據(jù)上進(jìn)行很小的改動都會使得數(shù)據(jù)塊的劃分產(chǎn)生較大的改變；在使用數(shù)據(jù)塊標(biāo)簽進(jìn)行所有權(quán)證明時會存在很大的計算成本。本文提出一種新的數(shù)據(jù)安全去重方案，改進(jìn)了數(shù)據(jù)分塊的技術(shù)和用戶的所有權(quán)驗證，在保證原方案的優(yōu)點(diǎn)的同時，可以對數(shù)據(jù)進(jìn)行細(xì)粒度的去重，使得去重率更高，引入了一種樹形結(jié)構(gòu)對所有權(quán)進(jìn)行管理，使得所有權(quán)更加明確。

1 預(yù)備知識

1.1 BL-MLE

通過使用加密哈希函數(shù)從文件本身生成主密鑰，并通過該主密鑰對塊密鑰進(jìn)行加密。因此，僅要求用戶記住單個主密鑰。但是，以前的方案不支持有效的文件更新。為了更新云中的文件，用戶應(yīng)下載整個文件，對其進(jìn)行解密和修改，然后重新加密并將其重新上傳到云中。因此，用于更新的計算和通信開銷隨文件大小線性增加，這阻礙了這些方法對實際應(yīng)用的適應(yīng)性，特別是對于大文件。

1.2 可變長度分塊

在數(shù)據(jù)去重技術(shù)中，數(shù)據(jù)分塊[16]是數(shù)據(jù)去重技術(shù)的前提，一個數(shù)據(jù)分塊技術(shù)的好壞，將直接決定數(shù)據(jù)去重技術(shù)的去重率和去重效率。數(shù)據(jù)分塊技術(shù)一般按照數(shù)據(jù)劃分之后數(shù)據(jù)塊的每個大小可以分為固定長度分（Fixed-Sized Partition，F(xiàn)SP）[17]和可變長度分塊，現(xiàn)有的可變長度分塊技術(shù)主要使用的是基于內(nèi)容的可變長分塊技術(shù)（Content-Defined Chunking，CDC）[18]。由于重復(fù)數(shù)據(jù)的每個擁有者均可能對重復(fù)數(shù)據(jù)進(jìn)行過簡單操作，固定長度分塊技術(shù)的思想是按固定的數(shù)據(jù)塊長度對數(shù)據(jù)進(jìn)行分塊，這種算法在重復(fù)數(shù)據(jù)發(fā)生細(xì)微改變時塊的劃分會發(fā)生很大的變化，顯然不適合當(dāng)前的數(shù)據(jù)去重技術(shù)。可變長度分塊技術(shù)解決了這種對細(xì)微改變較為敏感的缺陷，它利用數(shù)據(jù)指紋將數(shù)據(jù)分給成長度大小不一的數(shù)據(jù)塊，是基于數(shù)據(jù)內(nèi)容來對數(shù)據(jù)進(jìn)行切分。但基于內(nèi)容的可變長度分塊技術(shù)（CDC）因為其滑動窗口大小難以選擇，需要人工設(shè)定參數(shù)，且參數(shù)的設(shè)置會對結(jié)果的好壞產(chǎn)生較大的影響，計算開銷大等問題，逐漸不被使用。CDC算法的底層實現(xiàn)原理是字符串匹配，本文結(jié)合數(shù)據(jù)指紋算法和字符串匹配算法，引入了一種計算開銷較小，且分塊方式更為靈活的分塊算法。

1.3 所有權(quán)證明

所有權(quán)驗證技術(shù)是指云存儲服務(wù)器端與用戶客戶端的交互協(xié)議，用于解決通過蠻力攻擊擊穿云存儲服務(wù)器從而獲得數(shù)據(jù)，Haleve等人[15，20]提出了所有權(quán)證明（Proof of Ownership，PoW），在數(shù)據(jù)去重方案中所有權(quán)的驗證主要用于客戶在向云存儲服務(wù)器端發(fā)起上傳請求時，服務(wù)器會在對應(yīng)的數(shù)據(jù)庫中對用戶將要上傳的數(shù)據(jù)進(jìn)行檢索，如果數(shù)據(jù)不存在，則要求用戶將數(shù)據(jù)上傳，并將該數(shù)據(jù)與其用戶的所有權(quán)進(jìn)行存儲，如果該數(shù)據(jù)存在，則要求用戶在客戶端證明是該數(shù)據(jù)的擁有者，具體的步驟為：云存儲服務(wù)器端會對用戶上傳的數(shù)據(jù)進(jìn)行檢索找到相關(guān)數(shù)據(jù)信息，在對已存在的數(shù)據(jù)和獨(dú)特的算法產(chǎn)生一個挑戰(zhàn)發(fā)送給客戶端。用戶客戶端在收到云存儲服務(wù)器端發(fā)起的挑戰(zhàn)之后，會對發(fā)出的挑戰(zhàn)與擁有的數(shù)據(jù)信息給出自己的應(yīng)答。云存儲服務(wù)器端會對用戶客戶端給出的應(yīng)答與預(yù)設(shè)的結(jié)果進(jìn)行匹配，如果能匹配上，則說明該用戶有此數(shù)據(jù)的所有權(quán)，否則表明用戶不是數(shù)據(jù)的擁有者。

1.4 雙數(shù)組Tire樹

Tire數(shù)是一種高效的索引方法，一般常用于對數(shù)據(jù)的統(tǒng)計，現(xiàn)有的數(shù)據(jù)中，可能數(shù)據(jù)擁有這對同一個數(shù)據(jù)擁有的大小不一致，如果對存在大部分相同的數(shù)據(jù)判斷為不相同的數(shù)據(jù)則存儲開銷較大。本文引入雙數(shù)組Tire樹，用雙數(shù)組Tire樹的兩個不同數(shù)組分別存儲數(shù)據(jù)和用戶信息，可以做到對數(shù)據(jù)細(xì)粒度去重的同時，減少了對數(shù)據(jù)擁有者信息的存儲開銷。

2 問題描述

2.1 系統(tǒng)模型

系統(tǒng)模型如圖1所示。

圖1 系統(tǒng)模型

云用戶（Users）：將數(shù)據(jù)存儲在云中，并可以對云中數(shù)據(jù)進(jìn)行操作的用戶。用戶將明文數(shù)據(jù)加密，并將加密后的文件分別生成文件標(biāo)簽和文件塊標(biāo)簽，一起打包存入云存儲系統(tǒng)。如果經(jīng)過云服務(wù)器對比，云存儲系統(tǒng)中不存在相同的文件，則稱該文件上傳用戶為初始上傳用戶，如果云存儲系統(tǒng)中已經(jīng)存在與該文件完全相同的文件，則稱該用戶為后續(xù)上傳者，如果將要上傳的數(shù)據(jù)在云存儲服務(wù)器中已經(jīng)存在且云存儲服務(wù)器中的數(shù)據(jù)包含即將要上傳的數(shù)據(jù)，則稱該上傳者為后續(xù)部分上傳者，如果新上傳的文件包含云存儲系統(tǒng)中已經(jīng)存在的文件，則將新上傳該文件的用戶變成文件初始上傳者，將原有云存儲系統(tǒng)中的用戶變成后續(xù)部分上傳者。云存儲系統(tǒng)中擁有相同文件的用戶稱為該文件的所有權(quán)組用戶。

云服務(wù)提供商（Cloud Server Provider，CSP）：提供云環(huán)境下數(shù)據(jù)存儲和對數(shù)據(jù)所有權(quán)進(jìn)行驗證的商家稱為云服務(wù)提供商。云服務(wù)提供商負(fù)責(zé)對用戶上傳的文件是否重復(fù)進(jìn)行判斷，同時根據(jù)判斷的結(jié)果實時更新文件的所有權(quán)組用戶的信息。

2.2 威脅模型

按照攻擊者來源不同來進(jìn)行分類，可以將本方案的攻擊者分為兩類：

（1）內(nèi)部攻擊者。云存儲服務(wù)器認(rèn)為是誠實的執(zhí)行系統(tǒng)分配的任務(wù)的同時，又想更多的了解加密數(shù)據(jù)背后的信息。而內(nèi)部攻擊者是可能借助一定手段更改數(shù)據(jù)擁有者信息，或拿到數(shù)據(jù)擁有者提供的權(quán)限，對數(shù)據(jù)擁有者造成損害的攻擊者。

（2）外部攻擊者。外部攻擊者主要是來自CSP外部的攻擊者。他們試圖通過各種方法獲得數(shù)據(jù)信息或數(shù)據(jù)擁有者擁有的數(shù)據(jù)的信息，冒充數(shù)據(jù)擁有者身份對數(shù)據(jù)進(jìn)行更改、刪除等不法操作。

3 本文提出的方案

本文提出的方案是在原有BL-MLE方案的基礎(chǔ)上進(jìn)行改進(jìn)，主要針對兩個方面的問題進(jìn)行改進(jìn)：①原有BL-MLE方案的數(shù)據(jù)分塊技術(shù)的改進(jìn)，改進(jìn)因原有數(shù)據(jù)去重技術(shù)的缺陷而帶來的去重效率不足和去重計算開銷大的問題。②在原有BL-MLE方案的基礎(chǔ)上引進(jìn)了雙數(shù)組Tire樹，用于對數(shù)據(jù)的所有權(quán)進(jìn)行認(rèn)證。

3.1 本文提出的數(shù)據(jù)安全去重方案

開始執(zhí)行：輸入1λ，算法生成一個素數(shù)p，構(gòu)造兩個滿足雙線性映射e的p階循環(huán)乘法群G、GT，并且滿足G×G->GT，選擇一個G的生成元g，并構(gòu)造3個函數(shù)哈希函數(shù)，H1:{0，1}*->Zp，H2:{Zp}->G，H3:G->{Zp}，系統(tǒng)參數(shù)P={p，g，G，GT，e，H1，H2，H3}。

KeyGen（F）：將文件F上傳至云存儲系統(tǒng)，上傳之前先將文件F進(jìn)行分塊，F(xiàn)=F[1]||F[2]||...||F[n]，本方案采用的是變長分塊技術(shù)，變長分塊技術(shù)的使用可以對上傳的文件F進(jìn)行更細(xì)粒度的去重。本方案使用下面兩個子算法分別對文件F和文件塊F[i]進(jìn)行收斂加密得到主密鑰Kmas和塊密鑰Ki。

File-KeyGen（F）：將參數(shù)P和待上傳的文件F作為輸入，通過哈希函數(shù)H1進(jìn)行文件的主密鑰計算，得到文件的主密鑰Kmas=H1（F）。

Block-KeyGen（Fi）：將參數(shù)P和待上傳文件F已分塊的文件塊F[i]作為輸入，通過哈希函數(shù)H2進(jìn)行每個文件塊的塊密鑰計算，得到文件塊的塊密鑰Ki=H2（F[i]）。

Enc（Ki，F(xiàn)[i]）：在上傳到云存儲服務(wù)器之前將已經(jīng)分塊后的文件塊F[i]和已經(jīng)加密后的塊密鑰作為輸入，對文件塊F[i]分別進(jìn)行加密，得到每一個文件塊的密文C[i]，C[i]=H3（Ki）⊕F[i]。

Dec（Ki，C[i]）：如果有用戶需要在云存儲服務(wù)器中取出某個文件或文件塊F[i]，則需要將相應(yīng)的文件塊F[i]的密鑰Ki和文件塊F[i]密文C[i]作為輸入，通過解密算法計算F[i]=H3（Ki）⊕C[i]。將計算得出的F[i]'與用戶想要獲得的F[i]對比，如果F[i]'=F[i]，則說明該用戶擁有下載該文件塊的權(quán)利，否則，拒絕為用戶提供服務(wù)。

TagGen：在用戶將文件上傳到云存儲服務(wù)器之前，先將文件F和分塊過后的文件塊F[i]進(jìn)行文件和文件塊標(biāo)簽的計算。

-F-TagGen：將參數(shù)P和明文M作為輸入，返回一個明文標(biāo)簽T0。

-B-TagGen：將參數(shù)P和明文M以及索引為i的明文塊作為輸入，返回一個明文塊標(biāo)簽。

ConTest：將塊標(biāo)簽T[i]和對用的密文C[i]作為輸入，返回兩個是否對應(yīng)的結(jié)果True或False。

EqTest：以兩個塊標(biāo)記T、T'和相應(yīng)的文件標(biāo)記T0、T0'作為輸入，返回True或False。

B-KeyRet：以主密鑰Kmas、塊標(biāo)記Ti和塊密文C[i]作為輸入，返回塊密鑰Ki/⊥。

PowPrf：以挑戰(zhàn)Q和文件M作為輸入，返回響應(yīng)P。

PoWVer：以挑戰(zhàn)Q，明文標(biāo)簽T0，和塊標(biāo)簽T[i]作為輸入，返回所有權(quán)的判定結(jié)果True或False。

針對原有BL-MLE方案中存在的計算開銷較大和去重效率不夠穩(wěn)定這個問題，本文引進(jìn)了一種新的數(shù)據(jù)分塊技術(shù)。通過分析可以知道，在我們將數(shù)據(jù)上傳到云存儲服務(wù)器之前我們可能會對文件進(jìn)行一些較小的或者較大的改變，傳統(tǒng)的定長數(shù)據(jù)分塊技術(shù)，在對文件進(jìn)行的改動，都會對改動部分以后的數(shù)據(jù)分塊產(chǎn)生較大的影響，所以本方案不使用BL-MLE方案中的定長分塊技術(shù)。本方案采用一種非定長數(shù)據(jù)分塊技術(shù)，在文件內(nèi)容存在改動時對改動后的文件內(nèi)容分塊差異最小化。

3.2 基于雙數(shù)組Tire樹的所有權(quán)驗證算法

針對Chen等人提出的BL-MLE方案中不存在用戶所有權(quán)驗證算法，本文提出了一種新的所有權(quán)驗證算法。在云存儲系統(tǒng)中所有權(quán)的驗證是有效保護(hù)用戶數(shù)據(jù)安全的方式，本文提出了一種在數(shù)據(jù)塊級去重的基礎(chǔ)上的基于雙數(shù)組Tire樹的所有權(quán)驗證算法。

通過引入雙數(shù)組Tire樹對文件塊進(jìn)行存儲的同時對用戶的所有權(quán)進(jìn)行驗證，使原本需要大量計算開銷的所有權(quán)驗證算法直接與數(shù)據(jù)塊的存儲進(jìn)行融合，可以在減少計算開銷的同時使得整個去重方案更加完善與整體。其具體算法如下：

算法1基于雙數(shù)組Tire樹的所有權(quán)驗證算法（Pow-Ver-Tire）

（1）文件上傳：云存儲服務(wù)器收到客戶端發(fā)送的上傳文件請求，請求將文件上傳到云中，在云存儲服務(wù)器在接收到上傳請求并給與客戶端反饋以后，客戶端對將要上傳的文件備份，同時，客戶端對將要上傳的文件進(jìn)行數(shù)據(jù)分塊，并對要上傳的文件及該文件分塊過后的文件塊分別進(jìn)行文件標(biāo)簽計算和文件塊標(biāo)簽計算。在客戶端的上傳請求到達(dá)云存儲服務(wù)器以后，云存儲服務(wù)器會建立兩個臨時數(shù)組，分別為文件塊信息base數(shù)組和用戶信息check數(shù)組。

（2）用戶信息上傳：當(dāng)客戶端的文件上傳完成以后，云存儲服務(wù)器將會通知客戶端收集該文件擁有者的用戶信息，并將該文件用戶擁有者的用戶信息上傳到云存儲服務(wù)器，保存在臨時的check數(shù)組中。

（3）重復(fù)檢測：文件在存儲到云中之前，云存儲服務(wù)器會通過本文提出的方案對上傳的文件和文件塊進(jìn)行重復(fù)檢測。如果文件標(biāo)簽匹配成功，則說明已經(jīng)存在完全相同的文件在云中，此時，云存儲服務(wù)器會找到相應(yīng)的文件標(biāo)簽并找到該文件的用戶信息check數(shù)組，將新上傳的文件擁有者的用戶信息更新到check數(shù)組中，并銷毀該文件生成的臨時數(shù)組check。如果文件塊標(biāo)簽匹配成功，則說明云中已經(jīng)存在與上傳的文件塊相似的文件或相同的文件塊，此時需要通過云存儲服務(wù)器找到云中存儲的文件塊，如果云中存儲的文件塊包含新上傳的文件塊，則將新上傳的文件塊的用戶信息更新到已存在的文件塊的用戶信息數(shù)組check中，并銷毀該文件臨時生成的用戶信息數(shù)組check；如果新上傳的文件塊包含云中原有的文件塊，則將云中存儲的文件塊的個人信息數(shù)組check轉(zhuǎn)為臨時個人信息數(shù)組，將該文件塊的個人信息check數(shù)組全部添加到臨時生成的個人信息check數(shù)組中，同時銷毀云中原始文件塊的個人信息check數(shù)組。如果新上傳的文件未能匹配，則說明將要上傳的文件在云中不存在，此時云存儲服務(wù)器將會在云中存儲該文件的base數(shù)組，同時將文件的個人信息臨時數(shù)組check數(shù)組轉(zhuǎn)為永久數(shù)組。

（4）文件下載：在客戶端向云存儲服務(wù)器發(fā)送文件下載指令，云存儲服務(wù)器在其內(nèi)部將需要下載的數(shù)據(jù)進(jìn)行檢索然后將用戶信息和要下載的文件信息下載到客戶端，在客戶端對要下載的文件信息進(jìn)行文件標(biāo)簽計算和文件塊標(biāo)簽計算，將計算結(jié)果發(fā)送給云存儲服務(wù)器，云存儲服務(wù)器查找文件標(biāo)簽，如果存在該文件標(biāo)簽，則打開該文件標(biāo)簽下的個人信息check數(shù)組，查找用戶信息是否存在，如果存在，則可以對文件進(jìn)行下載，否則，給與客戶端不能下載的提示。

（5）文件刪除：與文件下載步驟相同，如果可以找到要刪除的文件個人信息數(shù)組check中存在請求刪除的個人信息，則執(zhí)行文件刪除操作。

4 安全性分析

4.1 數(shù)據(jù)隱私安全

在云存儲環(huán)境下，數(shù)據(jù)隱私安全分為兩個部分：①客戶端數(shù)據(jù)隱私安全：客戶端數(shù)據(jù)隱私安全主要是指在用戶個人設(shè)備對數(shù)據(jù)隱私的保護(hù)，客戶端數(shù)據(jù)隱私安全較為容易保障，現(xiàn)有的許多產(chǎn)品均能保障客戶端數(shù)據(jù)隱私的安全。②云存儲服務(wù)器端數(shù)據(jù)隱私安全：當(dāng)用戶將數(shù)據(jù)上傳到云存儲服務(wù)器之后也要保證數(shù)據(jù)的隱私安全，但是云存儲服務(wù)器也是好奇的，可能會非法訪問云中的數(shù)據(jù)。在本方案中，我們對數(shù)據(jù)進(jìn)行兩方面的加密操作，不僅對數(shù)據(jù)明文、明文塊進(jìn)行加密，而且對數(shù)據(jù)標(biāo)簽、數(shù)據(jù)塊標(biāo)簽也進(jìn)行加密。云存儲服務(wù)器即使非法訪問數(shù)據(jù)，因為使用收斂加密方案對數(shù)據(jù)進(jìn)行加密，云存儲服務(wù)器端即使獲得數(shù)據(jù)的密文，在沒有通過收斂加密獲得數(shù)據(jù)、數(shù)據(jù)塊密鑰的條件下，服務(wù)器端也不能獲得數(shù)據(jù)的明文。

在云存儲環(huán)境下，因為數(shù)據(jù)全部存儲在云中，可能存在未授權(quán)的用戶對云中數(shù)據(jù)進(jìn)行訪問，造成數(shù)據(jù)隱私安全的問題隱患。在本方案中，在數(shù)據(jù)存儲到云中之后會對數(shù)據(jù)生成一個的所有權(quán)數(shù)組，只有在所有權(quán)數(shù)組中的用戶才能對數(shù)據(jù)進(jìn)行訪問，未經(jīng)授權(quán)的用戶無法通過數(shù)據(jù)所有權(quán)數(shù)組的驗證，從而不能訪問數(shù)據(jù)，保證了數(shù)據(jù)隱私安全。

4.2 抗側(cè)信道攻擊

在云存儲環(huán)境下，一種常見且有效的攻擊手段為側(cè)信道攻擊。側(cè)信道攻擊是指通過對加密設(shè)備的時間消耗、功率消耗和電磁輻射消耗等的監(jiān)聽，通過分析，得到加密設(shè)備中的信息。

在云存儲環(huán)境下，側(cè)信道攻擊可能發(fā)生在用戶將加密后的數(shù)據(jù)上傳到云存儲服務(wù)器的過程中通過對傳輸通道的功耗監(jiān)聽，來判斷在云中是否已經(jīng)存在客戶端將要上傳的數(shù)據(jù)。在傳統(tǒng)方案中，如果云中已經(jīng)存在客戶端將要上傳的數(shù)據(jù)，則用戶不需要將數(shù)據(jù)上傳到云中，此時側(cè)信道攻擊者通過對通信信道上的功耗進(jìn)行監(jiān)聽，因為不需上傳數(shù)據(jù)到云中，功耗消耗較少，則可以判定客戶端將要上傳的文件在云中已經(jīng)存在，這種情況下，結(jié)合其他因素，攻擊者可能會推斷出用戶上傳的數(shù)據(jù)內(nèi)容。

本文方案中，在進(jìn)行去重的同時對所有權(quán)信息進(jìn)行驗證，且實現(xiàn)了數(shù)據(jù)的細(xì)粒度去重，在數(shù)據(jù)上傳到云中時，側(cè)信道攻擊者通過功耗分析無法分析出將要上傳的數(shù)據(jù)在云中是否存在。

4.3 前向后向加密

在云存儲環(huán)境下，前向加密安全是指已經(jīng)撤銷所有權(quán)的用戶，不能訪問在其撤銷所有權(quán)之后存儲的文件，后向加密安全是指新增加的擁有所有權(quán)的用戶，不能訪問在其加入之前的已經(jīng)存儲的文件。

本文方案中，因為雙數(shù)組Tire樹的引入，可以有效的解決前向后向加密安全問題。對于前向加密安全，當(dāng)用戶的所有權(quán)撤銷以后，在存入新的數(shù)據(jù)的同時，會對用戶的所有權(quán)進(jìn)行驗證，已經(jīng)撤銷所有權(quán)的用戶，無法通過雙數(shù)組Tire樹的用戶信息數(shù)組check數(shù)組的驗證，所以對后存入的數(shù)據(jù)不能進(jìn)行破解，從而保證了方案的前向加密安全。對于后向加密安全，當(dāng)新用戶信息添加到用戶信息check數(shù)組以后，對于已經(jīng)存在的數(shù)據(jù)，因為其用戶信息check數(shù)組中不存在新用戶的信息，在試圖訪問已經(jīng)存在的數(shù)據(jù)的時候，因為新用戶信息無法通過已存在數(shù)據(jù)的用戶信息check數(shù)組的檢驗，不能對已經(jīng)存在的數(shù)據(jù)進(jìn)行破解，從而保證了方案的后向加密安全。

5 性能與實驗分析

5.1 性能分析

在云存儲環(huán)境下去重方案性能的分析，可以從以下兩個角度對方案的性能進(jìn)行分析，分別是方案的去重率和去重效率。

（1）去重率。減少重復(fù)數(shù)據(jù)的存儲，降低存儲開銷，傳輸開銷等因素是我們設(shè)計數(shù)據(jù)去重方案的原因，所以去重率是評價一個數(shù)據(jù)去重方案優(yōu)劣的重要標(biāo)準(zhǔn)。在BL-MLE方案中，對數(shù)據(jù)分塊采用的是固定長度分塊技術(shù)，當(dāng)數(shù)據(jù)出現(xiàn)較小變動，就會對出現(xiàn)變動以后的數(shù)據(jù)產(chǎn)生較大的影響，因為這種分塊技術(shù)的使用，所以BL-MLE方案的去重率不是很理想。在文獻(xiàn)[21]中針對BL-MLE方案中使用的固定長度分塊技術(shù)去重率低，計算開銷大的情況，提出了一種基于內(nèi)容的可變長度數(shù)據(jù)分塊技術(shù)，這種數(shù)據(jù)分塊技術(shù)很大程度上解決了去重效率低的問題，但因為數(shù)據(jù)類型的不同，數(shù)據(jù)中存在的重復(fù)數(shù)據(jù)比例不同等因素，使其分塊效果也不是很好，從而影響整個方案的去重率。本文方案提出的數(shù)據(jù)分塊技術(shù)能夠很好解決上述問題，從而提高了方案整體的去重率。

（2）去重效率。隨著現(xiàn)在數(shù)據(jù)指數(shù)式的增長現(xiàn)狀，去重方案的去重效率是一個方案可行性的重要標(biāo)準(zhǔn)。本方案對去重效率采用兩個方面的評價：①整體去重方案的計算開銷，②整體去重方案的存儲開銷。

在方案整體的計算開銷上，本方案是在BL-MLE方案的基礎(chǔ)上進(jìn)行改進(jìn)，提出的新的數(shù)據(jù)分塊技術(shù)可以在很大程度上減少在數(shù)據(jù)分塊環(huán)節(jié)的計算開銷，在其他環(huán)節(jié)的計算開銷變化不大的情況下，可以有效減少方案的計算開銷。在方案整體的存儲開銷上，本文方案在引進(jìn)所有權(quán)驗證和管理的情況下，不需要特地開辟新的存儲空間來存儲用戶的個人信息，將用戶個人信息的存儲與驗證放在一起進(jìn)行，極大減少了存儲開銷。

5.2 實驗分析

（1）實驗環(huán)境。方案使用的是NTL庫實現(xiàn)橢圓曲線上的計算操作，使用Java語言分別實現(xiàn)3種數(shù)據(jù)分塊技術(shù)的實現(xiàn)，最終使用C++語言在Window 10操作系統(tǒng)下Visual Studio 2019上模擬了BL-MLE方案，文獻(xiàn)[21]提出的改進(jìn)的BL-MLE方案，以及本文提出的方案。實驗設(shè)備處理器為Intel Core i5-8300H，CPU主頻為2.30 GHz，內(nèi)存為8 GB。

（2）去重率對比。本文提出方案是在BL-MLE方案的基礎(chǔ)上進(jìn)行改進(jìn)的，3種方案的其他步驟均不會對方案的去重率產(chǎn)生影響，所以在對3種方案的去重率對比上，主要是通過3種數(shù)據(jù)分塊技術(shù)對數(shù)據(jù)的去重率作為3種方案的去重率的對比。圖2可以看出，在數(shù)據(jù)量較小時3種方案的去重率相差不大，隨著數(shù)據(jù)數(shù)量的增長，3種方案的去重率都處于下降趨勢，固定長度分塊技術(shù)因為其分塊的固定，去重率急劇下降。因為本文方案使用的基于字符串匹配的分塊技術(shù)，所以隨著數(shù)據(jù)數(shù)量的增長，去重率存在一定的上漲趨勢。

圖2 不同分塊算法下的去重率對比

（3）去重效率對比。去重方案能夠?qū)嵤┑目尚行灾饕Q于去重效率，本文方案在去重方案的計算開銷和存儲開銷兩個方面對去重效率進(jìn)行評價。

表1是對3種去重方案計算開銷的分析，Mul代表在算法循環(huán)群G上的乘法操作，Exp代表在G上的指數(shù)操作，Hash代表Hash映射操作，XOR代表異或操作，AES表示一次AES加密。由表中我們可以看出在客戶端，即數(shù)據(jù)進(jìn)行去重部分的計算開銷為方案的主要計算開銷，因為BL-MLE方案使用的是固定長度分塊技術(shù)，所以在對數(shù)據(jù)進(jìn)行去重時會進(jìn)行s次Mul操作和s+1次Exp操作，因為是在乘法循環(huán)群上進(jìn)行這些操作，所以方案的整個計算開銷很大，文獻(xiàn)[21]采用的是數(shù)據(jù)可變長度分塊技術(shù)，但因為這種分塊技術(shù)存在滑動窗口大小難以選擇，指紋計算和對比開銷較大，雖說對數(shù)據(jù)塊操作的計算開銷變小，但在分塊時計算開銷的增大影響更大，整體的計算開銷相較于固定長度分塊技術(shù)沒有太大的改進(jìn)。本文方案中，對數(shù)據(jù)的分塊采用的是字符串匹配，增加了一定的計算開銷，但隨著數(shù)據(jù)數(shù)量的增長，重復(fù)數(shù)據(jù)的檢測率不斷提高，所要進(jìn)行的對比次數(shù)不斷減少，整體的計算開銷要遠(yuǎn)遠(yuǎn)小于上面兩種方案。在服務(wù)器端，本文方案增加了對數(shù)據(jù)所有權(quán)的管理和驗證，計算開銷不做比較。

表1 3種方案的整體去重計算開銷對比

圖3是使用3種方案對一定大小的數(shù)據(jù)進(jìn)行去重之后所需要消耗的存儲空間的比較。因為前兩種去重方案在設(shè)計時沒有考慮到用戶所有權(quán)的問題，在圖3中默認(rèn)對用戶信息建表，用來保存用戶信息。從圖3中我們可以看出，因為去重率的提高，存儲空間的消耗不斷減小，本文方案引入了雙數(shù)組Tire對數(shù)據(jù)所有權(quán)的管理和驗證，在這種存儲結(jié)構(gòu)下，數(shù)據(jù)所有者的信息存儲在數(shù)組中，并不用開辟新的存儲空間用來存放數(shù)據(jù)擁有者信息，所以本文方案的整體存儲消耗也是大大低于前兩種方案的。

圖3 3種方案的整體存儲開銷對比

6 結(jié)語

綜合上面3個實驗結(jié)果，我們可以看出，本文方案在原始BL-MLE的基礎(chǔ)上，對重復(fù)數(shù)據(jù)的檢測有更好效果的同時，也大大減小了去重方案的計算開銷和存儲開銷。但本文方案主要針對的是純文本數(shù)據(jù)，現(xiàn)實生活中視頻、音頻類數(shù)據(jù)已經(jīng)成為主要的數(shù)據(jù)，接下來在純文本數(shù)據(jù)去重的基礎(chǔ)上，研究各種數(shù)據(jù)類型的去重方案。