武警工程大學信息工程系 李昊宇
一種基于多屬性關鍵詞的密文檢索方案
武警工程大學信息工程系 李昊宇
對外包數據進行加密保護使得傳統查詢機制失效。針對目前密文查詢速度慢、準確率不高的問題,提出一種基于多屬性關鍵詞的密文查詢方案。該方案通過多屬性特征向量建立安全索引,根據用戶選擇的排序方式及輸入的多關鍵詞進行相關性計算,返回相關度最高的已排序查詢結果。實驗結果表明,該方案提高了查詢速度和查詢結果的準確性。
云計算;密文檢索;多屬性關鍵詞
越來越多的機構將數據存放在云端,由云服務商保存管理。數據的安全性受到關注,云數據脫離用戶控制,極易受到網絡攻擊。前端加密是解決上述威脅的方法之一[1]。但加密上傳使得傳統的檢索機制失效,如何對加密數據進行快速高效檢索成為重要的挑戰。目前大多數密文查詢方案都僅從關鍵詞或屬性等單一方面進行研究,很難適用于云環境中。
近些年針對密文查詢提出了很多方法,Song等人[2]首次提出基于對稱密鑰的單關鍵詞密文檢索方法,Wang等人[3]實現了結果排序的密文檢索方法,Cao等人[4]提出基于多關鍵詞的密文查詢方法,并實現了排序功能。但現有的方法大多不能滿足云環境下的高效查詢要求,本文提出基于多屬性關鍵詞的檢索方案提高了查詢速度。
2.1 選擇關鍵詞
輸入文檔,將文檔中的分離詞語,形成集合,再通過計算出現頻次等方法對結果進行處理,提取出可準確反映語義的關鍵詞。
本文采用IF-IWF[5](Term Frequency-Inverse Word Frequency)算法提取關鍵詞,處理完成后得到關鍵詞集合。
2.2 提取多屬性特征向量
具體方法是根據選擇關鍵詞的集合確定局部和全局屬性,再形成多屬性的特征向量。
首先在客戶端提取局部屬性的特征向量。實例將關鍵詞權值和關鍵詞出現位置作為局部屬性。
(1)關鍵詞權值:采用TF-IDF算法[6]。
(2)位置權值:關鍵詞在標題出現的頻次最高,而在其他位置出現頻次較低。
提取文檔的全局屬性特征向量。將下載次數和被引次數作為全局屬性,它們從整體上反映出文檔的屬性。
2.3 對稱加密
對稱加密算法效率較高,可滿足一般用戶對安全性的要求。局部屬性的特征向量中只有關鍵詞部分會泄露信息,采用Trapdoor算法對其進行加密,最后將加密文檔和加密局部屬性特征向量上傳至云服務器端存儲。
2.4 生成安全索引
根據關鍵詞的多屬性特征向量建立索引,再根據文檔編號和多屬性特征向量建立密文倒排索引。
2.5 密文檢索及排序
用戶輸入關鍵詞進行檢索,服務器收到用戶查詢請求后,列出初步檢索結果。然后按照排序方式優化結果,返回最終結果。
隨機抽取100篇文章,對單屬性與多屬性查詢時間進行對比。輸入相同關鍵詞在單屬性和多屬性密文查詢系統下查詢。

圖1 查詢時間對比圖
從圖1可以看出,在相同文章數量下,多屬性密文查詢方案的時間遠低于單屬性查詢方案的時間。
本文提出一種基于多屬性關鍵詞的密文查詢方案,實驗表明該方案能有效提高查詢速度和結果的準確性。下一步將對如何減少通信代價展開研究。
[1]Kamara S,Lauter K.Cryptographic Cloud Storage[J].Financial Cryptography & Data Security, 2010:136-149.
[2]Dawn Xiaodong Song David Wagner Song David Adrian Perrig. Practical Techniques for Searches On Encrypted Data[J]. IEEE Symposium on Security & Privacy,2000:0044.
[3]Wang C,Cao N,Li J,et al.Secure Ranked Keyword Search over Encrypted Cloud Data[C]//IEEE International Conference on Distributed Computing Systems,2010:253-262.
[4]Cao N,Wang C,Li M,et al.Privacy-Preserving Multi-Keyword Ranked Search over Encrypted Cloud Data[J].Parallel & Distributed Systems IEEE Transactions on,2011,25(1):829-837.
[5]王小林,楊林,王東等.改進的TF-IDF關鍵詞提取方法[J]. Computer Sciences&sapplication,2013.
[6]Salton G,Buckley C.Buckley,C.:Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J].Information Processing & Management,1988, 24(5):513-523.
CiphertextRetrieval Scheme based on Multi-attribute Keywords
LI Haoyu
(Department of Information Engineering,Engineering College of the Chinese Armed Police Force, Xi’an,Shaanxi,710086)
Users encrypt their data before outsourcing to protect their data privacy makes the traditional query method failure. Aiming at the problem of slow query speed and low accuracy of ciphertext query under cloud environment, a ciphertext query method based on multi-attribute keywords is proposed. The method establishes security index through multi-attribute characteristic vector, it conducts correlation calculation according to the sort order selected by users and multikeyword, and returns the most relevant sorted query result. Research result shows that the method improves query speed and accuracy of query result.
Cloud Computing; Ciphertext search; Multi-attribute Keywords
李昊宇(1993—),男,陜西渭南人,碩士在讀,研究方向:云計算安全。