李勇 相中啟



摘 要:針對云計算環境下已有的密文檢索方案不支持檢索關鍵詞語義擴展、精確度不夠、檢索結果不支持排序的問題,提出一種支持檢索關鍵詞語義擴展的可排序密文檢索方案。首先,使用詞頻逆文檔頻率(TF-IDF)方法計算文檔中關鍵詞與文檔之間的相關度評分,并對文檔不同域中的關鍵詞設置不同的位置權重,使用域加權評分方法計算位置權重評分,將相關度評分與位置權重評分的乘積設置為關鍵詞在文檔索引向量上相應位置的取值;其次,根據WordNet語義網對授權用戶輸入的檢索關鍵詞進行語義擴展,得到語義擴展檢索關鍵詞集合,使用編輯距離公式計算語義擴展檢索關鍵詞集合中關鍵詞之間的相似度,并將相似度值設置為檢索關鍵詞在文檔檢索向量上相應位置的取值;最后,加密產生安全索引和文檔檢索陷門,在向量空間模型(VSM)下進行內積運算,以內積運算的結果為密文檢索文檔的排序依據。理論分析和實驗仿真表明,所提方案在已知密文模型和已知背景知識模型下是安全的,且具備對檢索結果的排序能力;與多關鍵字密文檢索結果排序(MRSE)方案相比,所提方案支持關鍵詞語義擴展,查詢準確率比MRSE方案更加準確可靠,而檢索時間則與MRSE方案相差不大。
關鍵詞:云計算;語義擴展;位置權重;相關度;相似度;密文檢索
中圖分類號: TP309.2; TP393.08
文獻標志碼:A
Abstract: Focusing on the shortages of existing ciphertext retrieval schemes in cloud computing, such as not supporting semantic extension of retrieval keyword, low accuracy and not ranking search results, a ranked ciphertext retrieval scheme supporting semantic extension of retrieval keyword was proposed. Firstly, Term Frequency-Inverse Document Frequency (TF-IDF) method was used to calculate the relevance scores between keywords and documents, and different weights were set for keywords in different document domains. The position weight scores of keywords in different document domains were calculated based on domain-weighted scoring method. The value of keyword corresponding position on document index vector was set as the product of position weight score and relevance score. Secondly, according to WordNet semantic Web, semantic extension was performed on retrieval keywords that input by the authorized users, and edit distance formula was used to calculate the similarity among semantic extension keywords, and the value of retrieval keyword corresponding position on document retrieval vector was set as similarity value. Finally, security index and document retrieval trapdoors were generated by encryption, and the inner product operation was performed based on Vector Space Model (VSM), and the result of ciphertext retrieval documents was sorted by the value of inner product operation. The theoretical analysis and experimental simulations show that the proposed scheme is safe under the known ciphertext model and the known background knowledge model, and has the ability to sort the search results. Compared with Multi-keyword Ranked Search over Encrypted cloud data (MRSE) scheme, the proposed scheme supports keyword semantic extension, and is more accurate and reliable than MRSE, while the retrieval time is not much different from MRSE scheme.
Key words: cloud computing; semantic extension; position weight; relevance; similarity; ciphertext retrieval
0 引言
隨著大數據、云計算技術的日益流行,越來越多的用戶選擇將數據外包給云,以減少數據在本地維護的開銷,同時極大地方便數據共享,但是,數據外包給云將會給數據隱私帶來安全隱患,這是因為,云服務器是一個“誠實而好奇”的半可信實體,會泄漏用戶數據中原本不愿意公開的隱私信息,因此,數據在外包給云之前需要先進行加密處理,以保護數據隱私的安全。數據加密后上傳云,使得傳統環境下的明文搜索方案不再可行,提出適合云計算環境下的有效密文檢索方案顯得十分有必要。
為實現在云計算環境下對密文數據的有效檢索,文獻[1]率先開始了密文檢索研究,在2000年提出了首個基于密文掃描思想的對稱可搜索加密方案,該方案不支持文件檢索索引,而是采用對稱加密技術將文件劃分為“單詞”進行加密,算法的存儲開銷大、時間效率極低。此后,國內外學者繞圈著如何提高可搜索加密算法的效率、可操作性能等問題開展了大量的研究工作,文獻[2-4]為文檔構建了檢索索引,提出了基于索引的可搜索加密檢索方案,提高了文檔密文檢索的效率;但是文獻[2-4]中的索引都是基于文檔中已有的固定關鍵詞構建的,不支持文檔更新。文獻[5-7]對云服務器中存放的密文文件的動態添加、更新或刪除操作進行了深入的改進研究,提出了支持文檔更新的密文檢索方案;但是文獻[5-7]中方案沒有提供對檢索結果的排序功能。文獻[8]采用向量空間模型(Vector Space Model, VSM)計算文檔向量和檢索向量的內積,以內積運算的結果為依據對文檔檢索結果進行排序,提出了多關鍵字密文檢索結果排序(Multi-keyword Ranked Search over Encrypted cloud data, MRSE)方案。文獻[9]采用保序加密后的相關度分數進行多關鍵詞排序搜索,提高了搜索的精確度。文獻[10]基于二叉樹構建了可排序文件檢索結構,實現結果排序的同時減少了存儲空間開銷。文獻[11]針對文獻[8-10]中算法索引維護開銷大和時間性能低的問題,提出了一種基于計數型布隆過濾器的分布式文本檢索模型(Text Retrieval Model based on Counting Bloom Filter, CBFTRM),但是以上方案都要求用戶輸入的檢索關鍵詞必須與文檔中存在的關鍵詞精確匹配才能得到檢索結果;然而,實際的文檔檢索場景下,當用戶輸入的檢索關鍵詞不存在文檔中時,需要云服務器根據檢索關鍵詞的語義返回語義上相似的關鍵詞的檢索結果。為了滿足語義相似性檢索需求,提高檢索結果與用戶檢索請求之間的匹配度,文獻[12-15]中提出了多關鍵詞語義相似的模糊檢索方案;但是文獻[12-15]中方案卻忽略了不同位置上的關鍵詞對檢索結果的作用是不同的,沒有區別對待不同位置上的關鍵詞對檢索結果的作用,使得檢索結果不夠精確有序。
綜上所述,已有的研究成果沒有兼顧考慮語義相似的檢索關鍵詞在不同位置時對檢索結果的作用,認為不同位置上檢索關鍵詞對檢索結果的作用是一樣的。這顯然是不合理的,例如,標題中存在的關鍵詞和文檔正文中存在的關鍵詞對檢索結果的作用是不一樣的,標題中存在關鍵詞的權重要大于正文中存在關鍵詞的權重。因此,本文提出支持檢索關鍵詞語義擴展的可排序密文檢索方案,通過WordNet語義網對授權用戶輸入的檢索關鍵詞進行語義擴展,得到語義擴展檢索關鍵詞集合,使用編輯距離公式計算語義擴展檢索關鍵詞集合中關鍵詞之間的相似度,在滿足語義相似性檢索需求的同時,對不同位置的關鍵詞設置不同的位置權重,分別使用域加權評分方法和詞頻逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)[16]方法計算位置權重評分、文檔中關鍵詞與文檔之間的相關度評分,為密文檢索文檔的準確排序提供評分依據。
1 問題描述
1.1 系統模型
為滿足效率和安全性能方面的需求,本文使用如圖1所示的混合云結構模型,主要由數據擁有者、授權用戶、私有云服務器、公有云服務器4部分組成,如下所示。
1)數據擁有者。首先從待發布的明文文檔集合F=(f1, f2,…, fm)中提取n個關鍵詞,構成文檔的關鍵詞字典W=(w1,w2,…,wn),并將關鍵詞字典W上傳至私有云服務器;然后,設置W中關鍵詞在文檔不同位置的權重,計算文檔中關鍵詞與文檔之間的相關度分數,對W中關鍵詞進行二元分詞處理,將關鍵詞映射到文檔索引向量I=(I1,I2,…,Im),設置關鍵詞在索引向量相應位置上的取值為位置權重評分與相關度評分的乘積;最后,加密F、I,產生密文文檔集合C=(c1,c2,…,cm)和安全索引向量SI=(SI1,SI2,…,SIm),一起上傳至公有云服務器。
2)授權用戶。輸入感興趣的檢索關鍵詞η1,發送至私有云服務器。獲取有序的密文檢索文檔,使用數據擁有者分發的密鑰解密得到明文目標文檔。
3)私有云服務器?!罢\實而可靠”的實體,安全性高、存儲空間小。首先接收并存儲數據擁有者上傳的關鍵詞字典W和授權用戶發送的檢索關鍵詞η1,使用WordNet語義網對η1進行語義擴展,得到語義擴展檢索關鍵詞集合Γ=(η1,η2,…,ηk)。然后,判斷Γ中的關鍵詞與W中相應位置上的關鍵詞是否匹配,如果是,設置關鍵詞在文檔檢索向量Q中相應位置的值設為相似度值;反之設為0,完成Γ中關鍵詞到文檔檢索向量Q的構造。最后,對Q進行加密得到文檔檢索陷門TQ,發送至公有云服務器。
4)公有云服務器。“誠實而好奇”的半可信實體,安全性低,存儲空間大,可用于存儲密文文檔集合、安全索引向量,用接收到的文檔檢索陷門與安全索引進行向量的內積運算,根據內積運算的結果對檢索到的密文文檔進行排序,返回最相關的top-t篇文檔給授權用戶。
1.2 威脅模型
公有云服務器普遍被認為是一個“誠實而好奇”的半可信實體,通常情況下會誠實地遵守用戶數據托管和通信協議進行工作,不會刻意泄漏用戶隱私信息;但是,它會出于“好奇”而分析挖掘用戶的檢索請求,在分析挖掘的過程中會不經意泄漏用戶數據中原本不愿意公開的隱私信息,因此,根據系統中公有云服務器可以獲得的有效信息,本文考慮以下兩種威脅模型[8]。
1)已知密文模型。在這種模型下,公有云服務器只能獲取用戶提交的密文文檔、安全索引、文檔檢索陷門,除此之外,不能獲取任何有用的明文信息,公有云服務器只能選擇唯密文攻擊方式。
2)已知背景知識模型。在這種模型下,公有云服務器根據用戶的檢索請求,統計分析用戶檢索記錄中的隱含信息,可以挖掘出一些其他有用信息,如:用戶的文檔檢索偏好、關聯記錄、檢索結果等,公有云服務器可以進行統計分析攻擊。
1.3 主要符號說明
本文涉及到的一些主要符號說明如下。
2 預備知識
2.1 TF-IDF方法
在信息檢索領域,廣泛采用TF-IDF加權統計計算方法計算關鍵詞與文檔的相關度。TF-IDF由關鍵詞詞頻(Term Frequency, TF)和逆文檔頻率(Inverse Document Frequency, IDF)兩部分組成,為了表示給定關鍵詞wj與文檔fi之間的相關度分數,本文使用式(1)進行計算:
其中: fi,wj表示文檔fi中包含關鍵詞wj的個數;|fi|表示文檔fi中包含關鍵詞的總數;|F|表示文檔集F中文檔的總數;|Fwj|表示文檔集F中包含關鍵詞wj的文檔數。
2.2 位置權重
在對文檔檢索結果按評分進行排序時,以往研究成果把出現在同一文檔中不同位置的關鍵詞視為具有相同的作用,而事實上,關鍵詞在同一文檔中的標題、摘要以及正文中所起的作用是不同的,因此,本文根據文獻[17]中的域加權評分方法,把同一文檔劃分為標題、摘要以及正文三個不同的區域,對三個區域中的關鍵詞設置不同的位置權重,其中,標題的位置權重設為g1,摘要的位置權重設為g2,正文的位置權重設為g3,g1、g2、g3之間滿足關系式(2):
同一個關鍵詞可能出現在文檔的三個位置,需要綜合衡量關鍵詞在三個位置的權重評分,因此,本文用ρ1、 ρ2、 ρ3來分別表示關鍵詞在標題、摘要以及正文中是否出現的評分,如果出現,則相應的評分為1;反之評分為0,使用式(3)來計算關鍵詞在文檔三個位置的權重評分:
例如,某關鍵詞wj在文檔fi的標題、正文中出現,則關鍵詞wj在文檔fi中的位置權重評分為Zij=g1+g3。
2.3 WordNet語義網
WordNet[18]是一個大型的認知語言學英語詞匯語義網,由Princeton大學的心理學家、語言學家和計算機工程師聯合設計而成。傳統的詞典根據詞形來組織詞匯,忽略了詞匯間的語義關系,WordNet則根據單詞的語義來組織詞匯,將名詞、動詞、形容詞和副詞各自組織成一個同義詞網絡,每個同義詞集合代表一個基本的語義概念,并通過概念語義詞匯關系相互關聯。經過多年來的發展,WordNet已經成為了計算機語言學、自然語言處理、知識工程等領域研究的有力工具,也是密文檢索系統中對檢索關鍵詞進行語義擴展的重要工具[19]。
2.4 編輯距離
編輯距離(Edit Distance)[20],又稱Levenshtein距離,是指兩個字符串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。編輯距離是兩個字符串之間相似度比較的重要計算函數,也可用來作脫氧核糖核酸(DeoxyriboNucleic Acid, DNA)分析、拼寫檢測、抄襲識別等相似性比較,如果兩字符串之間的距離越大,說明它們越不同。
數學定義上,用式(4)表示兩個字符串a、b之間的距離,用式(5)表示它們之間的相似度:
其中:la、lb分別記錄字符串a、b的長度;temp記錄兩字符串中相應字符是否相等,如果相等,則temp記錄為0,否則記錄為1。
2.5 向量空間模型
VSM[21]是一個應用于信息過濾、擷取、索引及相關性評估的代數模型,已成功地應用于著名的Smart文本檢索系統。使用VSM進行信息檢索時,將文檔和檢索中的關鍵詞都表示成同一向量空間下、維度大小相同的向量,向量的維度大小等于關鍵詞的長度,每一維對應于一個關鍵詞,把對文檔內容的處理轉化為對向量空間模型下向量的內積運算,內積運算的結果即可表明檢索關鍵詞與文檔是否匹配:若結果為0,則表示不匹配;反之,則表示匹配。VSM在可搜索加密研究領域應用的成功案例起源于文獻[8]中提出的MRSE方案,MRSE首次嘗試使用VSM構建安全索引和文檔檢索陷門以解決加密數據的多關鍵詞排序搜索,本文接下來借鑒此方法完成文檔檢索。
3 方案實現
本文提出的支持檢索關鍵詞語義擴展的可排序密文檢索方案主要分如下幾個階段具體實現。
3.1 初始化設置
1)提取關鍵詞。數據擁有者從明文文檔集合F=(f1, f2,…, fm)中提取n個關鍵詞,構成關鍵詞字典W=(w1,w2,…,wn),并將W上傳至私有云服務器。
2)產生安全密鑰。數據擁有者使用概率密鑰函數隨機的產生安全密鑰sk=(M1,M2,S,Pplu),并使用秘密通道(如Kerberos密鑰分配協議)將安全密鑰sk發送給授權用戶,完成對授權用戶的身份認證和密鑰分發。其中:M1、M2為n階隨機可逆矩陣,S=(0,1)n為n位二元指示向量,Pplu為隨機產生的秘密的大素數,n為關鍵詞個數。
3)文檔加密上傳。采用AES(Advanced Encryption Standard)對稱加密算法,使用密鑰sk加密文檔集合F,將得到的密文文檔集合C=(c1,c2,…,cm)上傳至公有云服務器。
3.2 構造安全索引
3.3 構造檢索陷門
根據Franzen等[22]對微軟公司旗下的Encarta在線百科全書網站連續兩個月的用戶檢索行為的分析結果,49%的用戶習慣選擇輸入單個關鍵詞表達檢索請求,33%的用戶習慣選擇輸入兩個關鍵詞表達檢索請求,平均僅使用1.4個關鍵詞描述檢索請求;而且對檢索結果的分析發現,輸入的關鍵詞越少,檢索結果命中的概率越低。用戶檢索習慣和目標需求之間的這種矛盾,需要盡可能地考慮擴展關鍵詞數量,以提高文檔檢索結果的命中率。本文接下來以授權用戶首先輸入單個感興趣的檢索關鍵詞,然后根據檢索關鍵詞的語義進行相似性擴展,產生多個語義上相似的關鍵詞進行文檔檢索為例,詳述文檔檢索陷門的構造過程如下,如圖3所示。
3.4 文檔檢索過程
公有云服務器收到文檔檢索陷門TQ后,依次與每篇文檔的安全索引SIi進行內積運算,以判斷文檔中是否包含檢索關鍵詞,如果包含,則內積運算的結果為非0;反之,如果不包含,則內積運算的結果為0。然后,將所有包含檢索關鍵詞的密文文檔按內積運算的結果從大到小排序,返回最相關的前top-t篇密文文檔給授權用戶;授權用戶再使用數據擁有者分發的密鑰進行解密,還原得到目標明文。安全索引與文檔檢索陷門的內積運算過程如下:
安全索引與文檔檢索陷門進行內積運算的結果表明,若文檔fi包含擴展語義關鍵詞集合Γ中的關鍵詞,則計算結果的值為非0, fi是否為用戶感興趣的前top-t篇最相關目標文檔,由位置權重評分Zij、相關度評分score(wj, fi)、相似度評分Ne三者的乘積進行排序決定;若文檔fi不包含擴展語義關鍵詞集合Γ中的關鍵詞,則計算結果的值為0, fi不是用戶感興趣的目標文檔。
4 性能分析
4.1 安全性分析
本文首先使用了成熟的對稱加密算法AES加密文檔集F,產生密文文檔集C上傳至公有云服務器,有效保證了文檔內容本身的安全性;然后借鑒文獻[8、14、21]中的方法,隨機生成了可逆矩陣M1、M2,對文檔索引Ii和文檔檢索向量Q進行加密,產生安全索引SIi和文檔檢索陷門TQ上傳至公有云服務器。由于密鑰矩陣的空間是無窮大的,每次隨機產生的密鑰矩陣只有唯一的一個可逆矩陣,公有云服務器正確偽造密鑰矩陣破解安全索引、文檔檢索陷門的可能性幾乎為0,有效保證了文檔索引、檢索向量中包含信息的安全性,因此,在已知密文模型下,由于公有云服務器只能獲取密文文檔集、安全索引、文檔檢索陷門,除此之外不能獲取任何有用的明文信息,只要保證密鑰sk不被人為泄漏,本文方案是安全的;同時,為了進一步防止公有云服務器根據已知的背景知識,即根據文檔索引、檢索陷門之間的內在聯系,挖掘泄漏文檔隱私信息,本文在密鑰sk中產生了二元指示向量S對索引向量Ii和文檔檢索向量Q進行分裂運算,并且進行索引向量Ii和文檔檢索向量Q的分裂時引入了隨機數r、r′,保證了多個文檔索引、檢索向量之間是無關聯的,即使用戶多次重復同一檢索操作,公有云服務器收到的檢索陷門也是不一樣的,有效地抵抗了統計分析攻擊,因此,本文方案針對已知背景知識模型也是安全的。
4.2 可排序能力分析
本文方案在構建安全索引時,以關鍵詞在文檔中的位置權重評分和相關度評分之積設為索引向量相應位置上關鍵詞的取值,既可以判斷目標文檔是否包含檢索關鍵詞,還可以很好地體現檢索關鍵詞與目標文檔的相關性程度。在文檔檢索的授權用戶端,構建文檔檢索陷門時,為了很好地體現語義擴展檢索關鍵詞之間的內在聯系,以關鍵詞之間的語義相似度取值為檢索向量對應位置上的取值。最后,進行文檔檢索時,可以快速地計算得到由位置權重評分、相關度評分、相似度評分三者之積構成的排序依據,以此依據對檢索結果進行排序,很好地體現了關鍵詞與文檔之間、關鍵詞與關鍵詞之間內在聯系,使得排序結果更加精確、可靠。
4.3 效率分析
本文以IEEE數據庫中的外文文獻為測試數據集,使用Java語言編程進行仿真實驗。在Intel Core i5-3230 2.60GHz雙核心CPU、2.0GB RAM內存、Windows 7 64位操作系統平臺上,使用開源開發環境Apache-tomcat-7.0.23、MyEclipse2014、JDK1.7完成實驗。在進行實驗測試時,使用PDFBox的Java類庫提取PDF文檔中的關鍵詞構造關鍵詞字典,并使用WordNet-InfoContent-2.1、WordNet3.0對檢索關鍵詞進行語義擴展和相似度計算。
4.3.1 查準率
信息檢索領域普遍使用返回相關文檔數與實際檢索得到的文檔總數之比表示文檔檢索時的準確率,為測試本文方案進行文檔檢索時的查準率。首先從IEEE數據庫中選取1000篇文檔作為測試數據集,并從中提取3000個關鍵詞構造安全索引;然后,使用不同數量的語義擴展檢索關鍵詞構造檢索陷門進行文檔檢索,測試排序靠前的top-20篇相關文檔的查準率。圖5所示為語義擴展檢索關鍵詞規模對文檔檢索查準率的影響,結果表明,單個關鍵詞檢索時查準率最低為45%,而隨著語義擴展檢索關鍵詞數量的增加檢索查準率也隨之提高,當語義擴展檢索關鍵詞數量增大到20時,查準率最高達到92%左右,原因是,關鍵詞數量太少不足以清楚表達文檔檢索意圖,太多又容易語義表達混亂產生噪聲,因此,可以考慮將語義擴展檢索關鍵詞的規模設為20。
圖6所示為設置檢索關鍵詞數k=20、關鍵詞字典規模n=3000時,在不同文檔集規模中進行文檔檢索,返回排序靠前的top-20篇目標文檔時,本文方案與MRSE方案的檢索查準率對比。
圖6中結果表明,隨著文檔規模的增大,本文方案的查準率基本維持在92%左右,而MRSE方案的查準率會隨著文檔規模的增加而降低,這是因為,本文方案在構建安全索引時,不僅使用TF-IDF詞頻方法計算了關鍵詞與文檔之間的相關度,還考慮了不同位置關鍵詞的權重作用,使得構建安全索引所用的關鍵詞與文檔之間的內在聯系更加緊密;并且,授權用戶端在構建文檔檢索陷門時,使用了編輯距離公式建立了檢索關鍵詞之間的相似度聯系,因此,使得本文方案可以在不同規模文檔集中保持較高的查準率。
4.3.2 檢索時間
文檔檢索的時間開銷主要包含產生安全索引時間、構建文檔檢索陷門時間、內積運算時間三部分,三部分時間都與文檔集規模、關鍵詞字典規模線性相關。為了較好地評測本文方案與MRSE方案的檢索時間開銷,本文設置MRSE方案中輸入的檢索關鍵詞數量和本文方案中語義擴展檢索關鍵詞的數量一樣,都為20,分別在文檔集規模m值變化和關鍵詞字典規模n值變化的情況下重復執行多次實驗,統計實驗結果的平均值進行對比分析,如圖7(a)、(b)所示。實驗結果表明,隨著文檔規模和關鍵詞字典規模的增大,兩種方案進行文檔檢索時所耗費的時間都會隨之增加,且本文方案所耗費的時間比MRSE方案略長。這種結果的原因是,隨著文檔規模和關鍵詞字典規模的增大,安全索引和檢索陷門的維度都隨之變大,使得矩陣加密、向量分裂與內積運算花費的時間開銷都隨之增大;并且,相比MRSE方案來講,由于本文方案在構建安全索引時多了關鍵詞位置權重和相關度計算、構造檢索陷門時增加了相似度計算,因此,總體上來講,本文方案進行文檔檢索時的運算復雜度比MRSE方案大,總的耗費時間也就相對稍長一些;但是,從檢索時間開銷的數值來看,兩種方案所花費的時間開銷都不大,都在可接受的有效范圍之內。
5 結語
密文檢索是近年來隨著大數據、云計算發展起來的一項重要技術,既可以實現密文檢索,又可以保護用戶隱私不被泄漏,但是云計算環境下已有的密文檢索解決方案存在不支持檢索關鍵詞語義擴展、檢索結果不夠精確有序等問題,因此,本文使用TF-IDF方法、位置權重、WordNet語義網、編輯距離計算方法、VSM技術提出了支持檢索關鍵詞語義擴展的可排序密文檢索方案。該方案能夠在保護文檔隱私安全性的同時,在有效、可接受的檢索時間范圍內實現對密文檢索文檔的準確排序,實現了檢索關鍵詞的語義擴展需求。但是由于本文方案相對MRSE方案來講增加了關鍵詞位置權重、相關度與相似度計算,使得檢索時間比MRSE方案略長,因此,下一步的研究方向是改進算法,減少檢索時間開銷。
參考文獻 (References)
[1] SONG D X, WAGNER D, PERRING A. Practical techniques for searches on encrypted data [C]// Proceedings of the 2000 IEEE Symposium on Security and Privacy. Washington, DC: IEEE Computer Society, 2000: 44-55.
[2] CHANG Y C, MITZENMACHER M. Privacy preserving keyword searches on remote encrypted data [C]// Proceedings of the 2005 International Conference on Applied Cryptography and Network Security. New York: ACM, 2005: 442-455.
[3] GOH E J. Secure Indexes [EB/OL]. (2004-03-16)[2018-05-28]. http://eprint.iacr.org/2003/216.
[4] CURTMOLA R, GARAY J, KAMARA S, et al. Searchable symmetric encryption: improved definitions and efficient constructions [J]. Journal of Computer Security, 2011, 19(5):895-934.
[5] LIESDONK P V, SEDGHI S, DOUMEN J, et al. Computationally efficient searchable symmetric encryption [J]. Secure Data Management, 2010, 63(58): 87-100.
[6] KAMARA S, PAPAMANTHOU C. Parallel and dynamic searchable symmetric encryption[C]// Proceedings of the 2013 International Conference on Financial Cryptography and Data Security. Berlin: Springer, 2013:258-274.
[7] YANG C, ZHANG W, XU J, et al. A fast privacy-preserving multi-keyword search scheme on cloud data[C]// Proceedings of the 2013 International Conference on Cloud and Service Computing. Washington, DC: IEEE Computer Society, 2013:104-110.
[8] CAO N, WANG C, LI M, et al. Privacy-preserving multi-keyword ranked search over encrypted cloud data [J]. IEEE Transactions on Parallel & Distributed Systems, 2014, 25(1):222-233.
[9] XU J, ZHANG W, YANG C, et al. Two-step-ranking secure multi-keyword search over encrypted cloud data[C]// Proceedings of the 2012 International Conference on Cloud and Service Computing. Washington, DC: IEEE Computer Society, 2012:124-130.
[10] 李倩,岳風順,王國軍.安全云存儲中高效的多關鍵詞查找方案[J].計算機科學,2012,39(12):158-161.(LI Q, YUE F S, WANG G J. Efficient multi-keyword search over secure cloud storage[J]. Computer Science, 2012,39(12):158-161.)
[11] 馮加軍,王曉琳,田青.基于計數型布隆過濾器的文本檢索模型[J].計算機工程,2014,40(2):58-61.(FENG J J, WANG X L, TIAN Q. Text retrieval model based on counting bloom filter[J]. Computer Engineering, 2014, 40(2):58-61.)
[12] FU Z, SUN X, LINGE N, et al. Achieving effective cloud search services: multi-keyword ranked search over encrypted cloud data supporting synonym query [J]. IEEE Transactions on Consumer Electronics, 2014, 60(1):164-172.
[13] XIA Z, ZHU Y, SUN X, et al. Secure semantic expansion based search over encrypted cloud data supporting similarity ranking [J]. Journal of Cloud Computing: Advances, Systems and Applications, 2014, 3(1):1-11.
[14] 何亨,夏薇,張繼,等.一種云環境中密文數據的模糊多關鍵詞檢索方案[J].計算機科學,2017,44(5):146-152.(HE H, XIA W, ZHANG J, et al. Fuzzy multi-keyword retrieval scheme over encrypted data in cloud computing[J]. Computer Science, 2017, 44(5):146-152.)
[15] 黃汝維,李志坤,江恩瑋,等.云計算環境中支持模糊檢索的加密算法[J].廣西大學學報(自然科學版),2017,42(3):1121-1130.(HUANG R W, LI Z K, JIANG E W, et al. An encryption algorithm supporting fuzzy retrieval in cloud computing[J]. Journal of Guangxi University (Natural Science Edition), 2017, 42(3):1121-1130.)
[16] ZHANG W, XIAO S, LIN Y, et al. Secure ranked multi-keyword search for multiple data owners in cloud computing[C]// Proceedings of the 2017 IEEE International Conference on Parallel and Distributed Systems. Piscataway, NJ: IEEE, 2017: 276-286.
[17] MANNING C D, RAGHAVAN P. Introduction to Information Retrieval [M]. Cambridge, UK: Cambridge University Press, 2010:79-113.
[18] RISTAD E S, YIANILOS P N. Learning string-edit distance [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(5): 522-532.
[19] MILLER G A, BECKWITH R, FELLBAUM C, et al. WordNet: An Electronic Lexical Database [M]. Cambridge, MA: MIT Press, 1998:156-178.
[20] WITTEN I H, MOFFAT A, BELL T C. Managing gigabytes: compressing and indexing documents and images [J]. IEEE Transactions on Information Theory, 1995, 41(6):79-80.
[21] FU Z, WU X, WANG Q, et al. Enabling central keyword-based semantic extension search over encrypted outsourced data [J]. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 2986-2997.
[22] FRANZEN K, KARLGEN J. Verbosity and interface design[R]. Kista: Swedish Institute of Computer Science, 2000: 5.