云存儲環境下的多關鍵字密文搜索方法

2018-04-12 05:51:06楊宏宇

計算機應用 2018年2期

楊宏宇，王　玥

(中國民航大學計算機科學與技術學院，天津 300300)(*通信作者電子郵箱yhyxlx@hotmail.com)

0　引言

隨著大數據和云計算技術的日益發展，隱私保護問題愈發重要。在云存儲環境下，數據擁有者向云服務器上傳數據及用戶搜索所需數據時，都涉及隱私保護。目前，云存儲環境下的傳統密文搜索算法搜索效率低，針對多關鍵字的搜索方法還不完善，高效的多關鍵字密文搜索方法已經成為目前的研究熱點。

文獻[1]提出加密的云數據多關鍵字排序搜索(Multi-keyword Ranked Search over Encrypted cloud data， MRSE)，通過坐標匹配的方法衡量關鍵字與文件之間的相似性，由內積相似性評估坐標匹配方法。由于該方法的索引采用布爾量化表示，具有相同數量關鍵字的文件其相關性分數相同，導致該方法對于多關鍵字搜索的精確度低。文獻[2]提出一種在公共信道傳輸的基于公鑰加密的多關鍵字搜索方法，但該方法在模糊匹配關鍵字和公鑰加密時時間開銷較大，導致該方法效率較低。文獻[3]針對文件關鍵字的相似性對文件聚類并形成聚類索引，在離線的階段完成聚類和聚類索引的生成；但用戶無法根據自己需要調節關鍵字權重值，導致實際應用時缺乏自適應能力。文獻[4]在密文搜索方法中加入加密搜索插件，基于詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency， TF-IDF)方法對即將上傳的關鍵字排序，在一定程度上減少了云服務器的搜索時間，但該方法要求用戶與數據擁有者必須使用指定加密搜索軟件。文獻[5]提出一種基于層次聚類索引的加密數據多關鍵字排序搜索(Multi-keyword Ranked Search over Encrypted data based on Hierarchical Clustering Index， MRSE-HCI)方法，該搜索方法在構建索引時需要擴展維度，導致計算開銷過多。

針對上述方法搜索準確度較低、搜索效率低且不支持用戶自定義關鍵字權重等問題，本文首先提出一種改進質量層次聚類(Improved Quality Hierarchical Clustering，IQHC)算法，并在此基礎上提出一種基于IQHC的加密云數據多關鍵字排序搜索(Multi-keyword Ranked Search over Encrypted cloud data based on IQHC， MRSE-IQHC)方法來提高多關鍵字密文搜索時的搜索效率和準確性。

云存儲環境下多關鍵字密文搜索方法的研究目的是在加密數據上進行多關鍵字密文搜索并保護隱私，通過MRSE-IQHC方法主要實現以下目標：

1)支持多關鍵字密文搜索。在云存儲中，可支持多關鍵字的密文搜索，并將符合用戶要求的前k個最佳匹配結果返回給用戶。

2)提高搜索效率。通過TF-IDF[4]與向量空間模型(Vector Space Model，VSM)[6]的結合，以及IQHC算法聚類，提高搜索效率，縮短搜索時間。

3)滿足用戶對關鍵字權重的定義[7]。通過用戶對關鍵字賦予的權重值，在搜索時根據用戶需求進行多關鍵字搜索，優先返回符合用戶要求的文件，提高搜索準確性。

4)隱私保護。保護數據擁有者和用戶的隱私，攻擊者和云服務器無法獲取明文數據。

1　系統模型

MRSE-IQHC方法涉及三個實體：數據擁有者、用戶和云服務器。這三個實體和密文搜索方法組成一個系統模型，其中，數據擁有者和用戶是誠實可信的，云服務器是半可信的。系統模型的結構如圖1所示。

圖1　系統模型Fig. 1　System model

數據擁有者是擁有文件的實體，能夠提取文件關鍵字，采用本文提出的IQHC算法對文件向量聚類生成聚類索引和文件索引，然后將索引和文件加密后上傳至云服務器。

用戶身份是經過認證的，其身份真實可信，是執行搜索操作的實體。用戶搜索時定義關鍵字的權值并產生搜索請求，在數據擁有者的協助下生成加密的搜索向量(即陷門)。將陷門上傳至云服務器，等待云服務器返回搜索結果。

云服務器是半可信的服務器，可存儲數據擁有者加密后的文件和索引，并根據用戶發送的陷門執行搜索操作，向用戶返回所需搜索結果。

本文研究的密文搜索方法主要針對系統模型中的三個實體。在該系統模型中，對密文的搜索可分為兩個階段：離線階段和在線階段。在離線階段，數據擁有者采用IQHC算法對文件向量聚類，根據聚類結果產生文件索引和聚類索引。在在線階段，數據擁有者采用不同加密方式對文件索引、聚類索引和文件加密后上傳至云服務器。用戶根據需求產生搜索請求，通過搜索控制機制將搜索請求發送給數據擁有者。數據擁有者由搜索請求構建搜索向量，加密后生成陷門并通過搜索控制機制將陷門返回給用戶；用戶上傳陷門至云服務器等待搜索結果；云服務器經計算后返回給用戶滿足要求的加密文件；用戶通過搜索控制機制從數據擁有者處獲得解密密鑰并對文件解密，完成整個密文搜索過程。系統模型中的搜索控制機制和訪問控制機制均不在本文的研究范圍之內。

2　質量層次聚類算法的改進

2.1　TF-IDF與VSM

以往的密文搜索算法MRSE-HCI[5]僅根據關鍵字是否存在構建文件向量，沒有考慮關鍵字出現的頻率及其重要性，在進行多關鍵字密文搜索時只能返回給用戶存在該關鍵字的文件，卻無法根據該關鍵字在文件中出現的頻率及整個文件集合中的重要性排序后返回給用戶，導致搜索結果與用戶期望有很大偏差。因此，本文將TF-IDF和VSM相融合構建文件向量，可有效解決上述問題。

TF-IDF是一種常用于信息檢索與數據挖掘的統計方法，能夠衡量一個關鍵字對于一個文件或一個文件集合的重要程度。在TF-IDF中：TF為詞頻，表示某個關鍵字在某個文件中出現的頻率大?。籌DF為逆文件頻率，表示某個關鍵字在整個文件集合中出現的頻率大小，是關鍵字普遍重要性的度量。TF-IDF方法可計算每個關鍵字的權值，在密文搜索時可通過關鍵字權值計算出用戶所需的文件。在本文研究中，選取關鍵字作為特征，采用TF與IDF的乘積作為關鍵字的權值，在構建文件向量時表示出每個關鍵字在文件中出現的次數及在文件集合中的重要程度，以提升改進算法的聚類效果。

VSM是一種文本表示方法，常用于信息檢索領域。假設文件由多個不相關的特征組成，該特征可以是字、詞、短語等，每個特征之間沒有先后順序關系，VSM通過一些方法對每個特征賦予權值，以權值作為坐標值將一個文件轉化為空間中的向量[6]。VSM將文件向量化，把文本語義處理的問題轉化為向量之間的數學運算問題。通過向量之間的數學運算，如向量距離、向量夾角等方法可精確衡量文件內容的相似度。本文算法選取向量距離作為相似度的衡量標準，將VSM應用于改進算法中，以提高文本聚類效果。本文方法中，通過TF-IDF與VSM的結合，可將密文搜索結果排序，提升搜索的準確性。

2.2　IQHC算法

在云存儲環境下的多關鍵字密文搜索方法中，文件向量的向量維度高、冗余維度多，且數據分布稀疏，導致計算開銷大、密文搜索效率低。本文將主成分分析(Principal Component Analysis， PCA)[8]與質量層次聚類(Quality Hierarchical Clustering， QHC)[5]算法相結合，通過降低文件向量在向量空間模型中的維度，保留其中最重要的多個特征再聚類，在此基礎上對QHC算法進行改進，提出IQHC算法。IQHC算法的步驟設計如下：

步驟1由TF-IDF和VSM生成樣本數量為n的文件向量D1,D2,…,Dn，其中Di=(d1,d2,…,dp)T(i=1,2,…,n)為p維向量，當n>p時，構造樣本矩陣，對矩陣元素作如下變換得到標準化樣本矩陣Z:

(1)

步驟2求Z的協方差矩陣C,公式如下：

C=(ZTZ)/(n-1)

(2)

其中ZT是矩陣Z的轉置矩陣。

步驟3使用奇異值分解(Singular Value Decomposition, SVD)法求解樣本協方差矩陣C的特征方程|C-λIp|=0，得到p個特征根，將p個特征根按照從大到小排列，并依據式(3)中貢獻率η確定主成分個數，即m可由以下公式計算：

(3)

選取η的值，由m個主成分代表η以上的原始信息。針對每個特征根λj(j=1,2,…,m)，求解方程組Rb=λjb得到m個單位特征向量bj(j=1,2,…,m)。

步驟4將標準化后的數據變量轉換為主成分：

Ul=zlTbj;j=1,2,…,m,l=1,2,…,m

(4)

其中:U1稱為第一主成分，U2稱為第二主成分，……，Um稱為第m主成分。將文件向量用新的主成分表示出來，得到降維后的文件向量。

步驟5設定每個聚類中文件的最大數量，記為TH，相關性值的最小值閾值記為min(S)，采用歐氏距離衡量文件間的相關性以及文件和聚類中心之間的相關性。

步驟6由K-means[9]聚類算法對降維后的文件向量聚類。當聚類個數k值不穩定時，添加一個新的聚類中心，則隨機產生k+1個新的聚類中心進行聚類。分別取每個聚類中最小相關性分數min(St)(t=1,2,…,k,…)與相關性值最小值閾值min(S)相比較，若min(St)

步驟7將步驟6中產生的聚類中心集合作為第一級聚類中心C0，依次檢查每個聚類中文件的數量，若文件數量超過了預先設定的閾值TH，則劃分該聚類為多個子聚類；否則，不再劃分子聚類。新劃分的子聚類作為下一級聚類，重復步驟7直到所有聚類中的樣本數量都滿足閾值TH的限制。

步驟8重復上述步驟，直至所有聚類均滿足聚類相關性和數量的要求，完成聚類過程。

3　密文搜索方法

3.1　符號定義與說明

本文提出的MRSE-IQHC方法中首先定義了下列符號：

Dw：表示由所有關鍵字構成的字典，記為Dw={w1,w2,…,wm}。

Dw′：表示經過IQHC算法聚類后產生的字典，記為Dw′={w1,w2,…,wu}。

wi:表示第i個關鍵字。

D:表示所有文件向量的集合，記為D={D1,D2,…,Dn}。

Di:表示第i個文件。

De:表示加密后文件向量的集合。

n:表示文件向量的個數。

r:表示字典中關鍵字的數量。

S:表示一個ubit的隨機向量，記為S={0,1}u。

M1、M2：均為u×u的可逆矩陣。

Ic:表示加密之后的聚類中心的索引。

Id:表示加密之后文件向量的索引。

V:表示數據擁有者生成的聚類索引向量。

Q:表示搜索向量。

Tw:表示陷門。

k:表示用戶要求云服務器返回的文件數量。

3.2　MRSE-IQHC方法

基于IQHC算法，本文提出了MRSE-IQHC方法。首先由VSM和TF-IDF構造文件向量，然后采用IQHC算法對文件向量作降維和聚類處理，之后采用K最近鄰(K-Nearest Neighbors，KNN)[10]查詢算法加密索引向量和搜索向量，由用戶定義關鍵字的權值構建搜索請求加密后進行密文搜索。在云存儲環境下，MRSE-IQHC方法的密文搜索過程設計如下：

步驟1文件向量生成。數據擁有者取TF與IDF乘積作為關鍵字權重，在VSM中對即將上傳的文件以向量形式表示，文件向量的每個維度分別由該位置上關鍵字的權重值表示，同時生成字典Dw并構建文件向量集合D。

步驟2索引構建。數據擁有者使用IQHC算法對文件向量進行聚類，聚類后產生ubit的字典Dw′,根據聚類的結果構建聚類索引和文件索引。文件索引向量和聚類索引向量長度均為ubit。

步驟3索引加密。數據擁有者通過KNN[10]查詢算法隨機生成一個ubit的隨機向量S={0,1}u和兩個規模為u×u的可逆矩陣M1、M2作為密鑰。分割向量S的每一位由0或1隨機組成，S中的0、1數量大致相同，矩陣M1、M2的每一位均為隨機生成的整數。分割向量S作為分裂指示器用于分割文件索引及聚類索引，數據擁有者根據S將聚類索引向量V隨機拆分成兩個向量V′和V″，向量V′和V″中的第i位分別表示為Vi′和Vi″(i=1,2,…,u)。可逆矩陣M1、M2的轉置矩陣M1T、M2T用于加密分割之后的向量V′和V″。當S中的第i位為0時，令Vi″=Vi′=Vi(i=1,2,…,u)；當S中的第i位為1時，令Vi′=Vi-Vi″(i=1,2,…,u)。聚類索引被加密為Ic={M1TV′,M2TV″}，加密的文件索引Id的生成過程相同。

步驟4文件加密。數據擁有者選擇一種安全的對稱加密算法對文件加密，并將加密后的文件集合De同之前生成的加密文件索引Id、加密聚類索引Ic發送至云服務器。

步驟5陷門生成。用戶選擇要搜索的關鍵字，按照需求對關鍵字賦予不同的權值并要求返回滿足條件的前k個文件，構造搜索請求，將搜索請求發送給數據擁有者。數據擁有者收到搜索請求后，根據字典Dw′在被請求的關鍵字位置上賦予用戶已定義的權重值，產生ubit的搜索向量Q，并用M1-1、M2-1矩陣加密Q。同樣，數據擁有者根據S將搜索向量Q隨機拆分成兩個向量Q′和Q″，向量Q′和Q″中的第i位分別表示為Qi′和Qi″(i=1,2,…,u)。當S中的第i位為0時，Qi′=Qi-Qi″(i=1,2,…,u)；當S中的第i位為1時，Qi″=Qi′=Qi(i=1,2,…,u)。搜索請求Q被拆分為Q′和Q″后被矩陣M1-1、M2-1加密得到陷門Tw={M1-1Q′,M2-1Q″}，數據擁有者將Tw發送給用戶。

步驟6搜索過程。用戶將陷門Tw上傳至云服務器，云服務器端采用計算內積方式計算相關性分數Score[5]:

Score=Ic·Tw=

{M1TV′,M2TV″}·{M1-1Q′,M2-1Q″}=

V′Q′+V″Q″=VQ

(5)

由式(5)可知，加密后的聚類索引向量Ic和陷門Tw的內積運算結果與未加密的聚類索引向量V和搜索向量Q的內積運算結果相等,因此在密文狀態下搜索和明文狀態下搜索結果一致，加密并不影響搜索結果的準確性。

云服務器首先計算陷門Tw和加密聚類索引向量Ic中第一級聚類中心的內積，找到得分最高的第一級聚類中心。然后，將陷門Tw與該聚類中心的子聚類中心計算內積找到得分最高的第二級聚類中心。以此類推，直至找到最后一級得分最高的聚類中心。最后，計算陷門Tw與加密文件索引向量Id的內積，找到得分最高的前k個加密文件并將結果反饋給用戶。

步驟7解密過程。用戶向數據擁有者發送解密請求，得到數據擁有者的解密密鑰后對文件解密。

4　安全性分析

4.1　安全威脅模型

在數據擁有者、用戶、云服務器間的通信過程中，攻擊者可攔截通信，從所攔截的信息中推導出額外信息。根據攻擊者獲取的信息，多關鍵字密文搜索過程包括兩個安全威脅模型：已知密文模型和已知背景知識模型。

已知密文模型攻擊者掌握數據擁有者的加密文件、加密后的文件索引和聚類索引，以及用戶提交的加密后的搜索向量。

已知背景知識模型在已知背景知識模型中，攻擊者知道關于數據集中更多的統計知識信息，比如某些關鍵字的詞頻信息、關鍵字和數據的對應信息以及陷門的關聯信息等。

4.2　方法的安全性分析

在云存儲環境下，攻擊者攔截數據擁有者與云服務器、用戶與云服務器之間的通信數據，可截獲的信息包括：加密后的聚類索引Ic、加密后的文件索引Id、加密的文件集合De、陷門Tw和相關性分數Score。

在本文提出的MRSE-IQHC方法中，加密之后的聚類索引Ic、文件索引Id和用戶生成的陷門Tw均是由KNN查詢算法加密之后發送的，每個索引向量和陷門在加密時都被隨機拆分成兩個向量，相同關鍵字的搜索請求生成的陷門不同，因此攻擊者無法推導出原始向量和搜索請求的明文信息。上傳至云服務器的文件由數據擁有者使用對稱加密算法加密，密鑰保存在數據擁有者處，攻擊者無法通過密文獲取文件明文。由于索引和文件均采用不同的加密方式，在一定程度上提高了搜索方法的抗攻擊能力。在搜索階段，攻擊者僅根據相關性分數也無法獲取關鍵字信息，提高了對關鍵字隱私的保護能力。上述分析表明，在已知密文模型和背景知識模型條件下，本文方法可保證搜索數據的安全性。

5　實驗結果與分析

5.1　實驗數據和環境配置

為了便于文本聚類與效果測試，本實驗采用復旦大學的中文語料庫[11]，該庫包含藝術、歷史、能源、電子、交通等20個種類的文本共9 804個文件，且該語料庫訓練集中每一個文件都已分類。實驗的軟硬件環境配置為：Intel Core i5- 3570 CPU @ 3.40 GHz CPU, 4.0 GB RAM，Windows 7(64位)操作系統, 使用Python語言編程。在相同實驗環境下，對MRSE-IQHC、MRSE和MRSE-HCI這三種方法進行對比。

5.2　搜索文件數量對搜索時間的影響測試

實驗數據分為5組,分別選取100、200、300、400、500個文件，選取的文件大小均在1～50 KB。字典中關鍵字的數量r=5 000，搜索請求由10個關鍵字組成，每個關鍵字賦予1～3的權值，用戶要求返回10個文件。針對不同文件數量測試三種方法的搜索時間，結果如圖2所示。從圖2可見，在初始時，本文方法MRSE-IQHC和MRSE方法的搜索時間比較接近，但本文方法的搜索時間均小于另外兩種方法。隨著文件數量的增加，MRSE-HCI方法和MRSE-IQHC方法的搜索時間基本呈現線性增加，MRSE方法的搜索時間則呈指數型增長，本文方法的搜索時間明顯小于其他兩種方法。

圖2　搜索文件數量與搜索時間的關系Fig. 2　Relationship between the number of search documents and the search time

5.3　返回文件數量對搜索時間的影響測試

選取500個文件，文件大小均在1～50 KB，r=5 000，搜索請求由10個關鍵字組成，為每個關鍵字賦予1～3的權值。當用戶要求返回5、10、15、20、25個文件時，測試搜索時間，結果如圖3所示。由圖3可見，MRSE-IQHC方法的搜索時間明顯小于其他兩種方法，當用戶要求返回的文件數量改變時，對MRSE-IQHC方法的搜索時間并無太大影響。MRSE-IQHC方法在進行密文搜索時，需要比較陷門和每一級聚類中心的相似度，找到最相似的聚類后將陷門與該聚類中的每個文件進行相似度的計算，然后選取最相似的前k個文件。因此，當返回文件的數量即k值增加時，搜索計算量相同，返回文件數量對搜索時間不會有太大影響。

圖3　返回文件數量與搜索時間的關系Fig. 3　Relationship between the number of retrieved documents and search time

5.4　搜索關鍵字數量對搜索時間的影響測試

仍選取500個文件，文件大小均在1～50 KB，r=5 000，用戶要求返回10個文件。分別測試用戶請求1、2、3、4、5個關鍵字時的搜索時間，結果如圖4所示。從圖4可見：MRSE-IQHC的搜索時間遠小于其他兩種方法；隨著搜索請求中關鍵字數量的增加，MRSE方法搜索時間比較穩定，MRSE-HCI方法和MRSE-IQHC方法的搜索時間均呈線性增加。因為MRSE-IQHC方法根據搜索關鍵字數量構建搜索請求時，需要在關鍵字相對應位置上賦予權值，關鍵字數量改變時，陷門的向量維數沒有減少，但搜索的計算量會隨著關鍵字數量的增加而增加，因此搜索時間會呈線性增加的趨勢。

圖4　搜索關鍵字數量與搜索時間的關系Fig. 4　Relationship between the number of search keywords and search time

5.5　搜索準確性測試

還是選取500個文件，文件大小均為1～50 KB，r=5 000，用戶請求搜索10個關鍵字，每個關鍵字權值在1～3，分別測試在返回不同數量文件時三種方法的搜索準確性，結果如表1所示。從表1可見，MRSE-IQHC方法的搜索準確性明顯高于其他兩種方法。因為MRSE-IQHC方法將TF-IDF與VSM相結合構建文件向量，搜索階段由用戶自定義關鍵字權值，因此可優先選出含有重要關鍵字的文件，提升了密文搜索的準確率；而另外兩種方法只考慮文件是否包含關鍵字，并未考慮用戶需求，所以準確率低于本文方法。

表1　搜索準確率對比　%Tab. 1　Comparison of search accuracy　%

6　結語

本文提出一種基于改進質量層次聚類的加密云數據多關鍵字排序搜索方法MRSE-IQHC。該方法首先通過TF-IDF與VSM的結合構建文件向量，可有效考慮關鍵字在文件集合中出現頻率和重要性；其次，利用IQHC算法對文件向量聚類，根據聚類結果構造聚類索引和文件索引，在搜索時可有效提高密文搜索效率；最后，用戶在搜索時自定義關鍵字權值，增強了方法的自適應能力并提高了檢索結果的準確性。實驗結果表明，本文方法在搜索效率和準確性方面優于MRSE和MRSE-HCI方法。

參考文獻:

[1]CAO N, WANG C, LI M, et al. Privacy-preserving multi-keyword ranked search over encrypted cloud data [C]// IEEE INFOCOM 2011: Proceedings of the 30th IEEE International Conference on Computer Communications. Piscataway, NJ: IEEE, 2011: 829-837.

[2]秦志光,包文意,趙洋,等.云存儲中一種模糊關鍵字搜索加密方案[J].信息網絡安全,2015(6):7-12. (QIN Z G, BAO W Y, ZHAO Y, et al. A fuzzy keyword search scheme with encryption in cloud storage [J]. Netinfo Security, 2015(6): 7-12.)

[3]HANDA R, CHALLA R K. A cluster based multi-keyword search on outsourced encrypted cloud data [C]// INDIACom 2015： Proceedings of the 2nd International Conference on Computing for Sustainable Global Development. Piscataway, NJ: IEEE, 2015: 115-120.

[4]王雅山.云存儲平臺中加密數據的多關鍵字排序搜索技術研究[D].哈爾濱:哈爾濱工業大學,2015:12-38. (WANG Y S. Secure rank-ordered search of multi-keyword in cloud storage platform [D]. Harbin: Harbin Institute of Technology, 2015: 12-38.)

[5]CHEN C, ZHU X, SHEN P, et al. An efficient privacy-preserving ranked keyword search method [J]. IEEE Transactions on Parallel & Distributed Systems, 2016, 27(4): 951-963.

[6]孔振.基于VSM的文本分類系統的設計和實現[D].哈爾濱:哈爾濱工業大學,2014:15-17. (KONG Z. The design and implementation of text classification system based on VSM [D]. Harbin: Harbin Institute of Technology, 2014: 15-17.)

[7]郭文杰,張應輝,鄭東.云存儲中支持詞頻和用戶喜好的密文模糊檢索[J].深圳大學學報(理工版),2015,32(5):532-537. (GUO W J, ZHANG Y H, ZHENG D. Fuzzy search over encrypted data supporting word frequencies and user preferences in cloud storage [J]. Journal of Shenzhen University (Science and Engineering), 2015, 32(5): 532-537.)

[8]楊宏宇,常媛.基于K均值多重主成分分析的App-DDoS檢測方法[J].通信學報,2014,35(5):16-24. (YANG H Y, CHANG Y. App-DDoS detection method based on K-means multiple principal component analysis [J]. Journal on Communications, 2014, 35(5): 16-24.)

[9]彭長生.基于Fisher判別的分布式K-Means聚類算法[J].江蘇大學學報(自然科學版),2014,35(4):422-427. (PENG C S. Distributed K-Means clustering algorithm based on Fisher discriminant ratio [J]. Journal of Jiangsu University (Natural Science Edition), 2014, 35(4): 422-427.)

[10]WONG W K, CHEUNG D W-L, KAO B, et al. Secure kNN computation on encrypted databases [C]// SIGMOD ’09: Proceedings of the 2009 ACM Special Interest Group on Management of Data International Conference on Management of Data. New York: ACM, 2009: 139-152.

[11]李榮陸.文本分類語料庫(復旦)測試語料[EB/OL]. [2017- 07- 06]. http://www.nlpir.org/?action-viewnews-itemid-103. (LI R L. Text categorization corpus (Fudan) test corpus [EB/OL]. [2017- 07- 06]. http://www.nlpir.org/?action-viewnews-itemid-103.)

[12]JOY E C, KALIANNAN I. Multi keyword ranked search over encrypted cloud data [J]. International Journal of Applied Engineering Research, 2014, 9: 7149-7176.

[13]FU Z, SUN X, LIU Q, et al. Achieving efficient cloud search services: multi-keyword ranked search over encrypted cloud data supporting parallel computing [J]. IEICE Transactions on Communications, 2015, 98(1): 190-200.

[14]YAO L, GU J, GAO Y. Optimized ciphertext retrieval for cloud computing based on dynamic clustering [C]// Proceedings of the 3rd ACM Workshop on Mobile Sensing, Computing and Communication. New York: ACM, 2016: 35-39.

[15]KRISHNA C R, HANDA R. Dynamic cluster based privacy-preserving multi-keyword search over encrypted cloud data [C]// Proceedings of the 2016 6th Conference on Cloud System and Big Data Engineering. Piscataway, NJ: IEEE, 2016: 146-151.

云存儲環境下的多關鍵字密文搜索方法

0 引言

1 系統模型

2 質量層次聚類算法的改進

2.1 TF-IDF與VSM

2.2 IQHC算法

3 密文搜索方法

3.1 符號定義與說明

3.2 MRSE-IQHC方法

4 安全性分析

4.1 安全威脅模型

4.2 方法的安全性分析

5 實驗結果與分析

5.1 實驗數據和環境配置

5.2 搜索文件數量對搜索時間的影響測試

5.3 返回文件數量對搜索時間的影響測試

5.4 搜索關鍵字數量對搜索時間的影響測試

5.5 搜索準確性測試

6 結語