基于多邊緣服務器的個性化搜索隱私保護方法

2019-03-13 08:17:28張強王國軍張少波

通信學報 2019年2期

張強，王國軍，張少波

（1. 中南大學信息科學與工程學院，湖南長沙 410083；2. 廣州大學計算機科學與網絡工程學院，廣東廣州 510006；3. 湖南科技大學計算機科學與工程學院，湖南湘潭 411201）

1 引言

隨著時代的發展，信息量呈指數級增長趨勢，為了快速地從龐大的數據中找到所需要的信息，搜索成為了人們共同的選擇，搜索技術也從最開始的分類目錄時代漸漸進入了以用戶為中心的時代。同時，隨著數據量的劇增，存儲和計算問題也越來越突出，為了解決這一問題，云計算技術應運而生。

如今，云服務越來越便捷。然而，隨著云服務的普及，其安全和隱私泄露問題已然成為了人們關注的焦點[1]。因為黑客及云服務器本身的不可信，當數據以明文形式存儲在云服務器上時，很可能會導致數據的泄露，鑒于此，數據擁有者傾向于先加密數據，再將密文外包到云服務器中。然而，傳統的明文檢索技術在密文環境下將毫無用處。與此同時，用戶在實時檢索時希望以最短的時間獲得自己最需要的檢索結果，但隨著數據量與用戶數的激增，云服務器可能會成為云服務的性能瓶頸，增加用戶的等待時間，這將嚴重影響用戶的搜索體驗。因此，如何在浩瀚的密文中快速地獲得自己所需要的檢索結果成為密文環境下個性化搜索技術的研究方向。

2 相關工作

為了在密文環境下檢索信息，可搜索加密技術應運而生。Song等[2]采用流密碼對關鍵詞進行加密，通過關鍵詞與密文文件之間的一一匹配，即可獲悉該密文中是否包含該關鍵詞，開啟了密文關鍵詞檢索的新篇章。隨后，研究者們提出了許多的改進方案[3-5]，為可搜索加密注入了新的活力。Dan等[6]最早提出了公鑰加密的關鍵詞搜索方案，以解決服務器不可信時的路由問題。在這個方案中，用戶只需要擁有私鑰即可以通過搜索獲得經過公鑰加密的數據。隨后，研究者們[7-8]提出了應用于各種場景的可搜索加密方案，這些方案推動了可搜索加密技術的發展。

然而，以上的方案只考慮了搜索關鍵詞，并沒有考慮每個人在提交相同關鍵詞時的真實需求。世界上沒有相同的兩片樹葉，同樣也不會存在著興趣完全相同的人，因此，如何根據用戶的興趣及關鍵詞返回用戶滿意的搜索結果，關乎著用戶搜索體驗的好壞。文獻[9]結合內容過濾及協同過濾的方法為用戶提供個性化的搜索結果，實驗結果表明該方法能夠提供精確的搜索結果，提升用戶的搜索體驗。文獻[10]通過挖掘用戶的點擊數據獲取用戶的興趣偏好，同時引入了用戶的位置信息，并采用熵來平衡用戶偏好與位置信息之間的權重，該方法提高了搜索的精確度，提升了用戶的搜索體驗。

但上述方法卻只限于明文搜索，如何很好地實現密文環境下的個性化搜索，提升用戶的搜索體驗，還是一個任重而道遠的事情。文獻[11]通過用戶的搜索歷史，并根據語義網（WordNet）構建用戶模型，通過關鍵詞優先級將用戶興趣融入用戶的查詢關鍵詞，然后對存儲在云服務器上的密文進行搜索，并返回相關性得分最高的前K個搜索結果給用戶，實現在密文環境下個性化搜索的目的，但該方法存在3個不足：1）索引構建時間太長，不僅加大了數據擁有者構建索引的負擔，也不利于索引的更新；2）云服務器需要計算每個查詢與所有文件索引的相關性得分，云服務器的計算負擔不容小覷，這可能使云服務器成為性能瓶頸；3）為了保護用戶的隱私信息不被云服務器知曉，引入的假關鍵詞不僅增加了云服務器的開銷，還降低了查詢的精確度，而高的查詢精確度是提高用戶搜索體驗的保證。

基于以上研究，本文通過引入邊緣服務器，提出一種基于多邊緣服務器的個性化搜索隱私保護方法，實現了密文環境下的個性化搜索。具體的創新點如下。

1）文件索引存儲在邊緣服務器中，而文件的密文存儲在云服務器中，從源頭上保證了文件索引不被云服務器知曉。

2）通過索引的切割，邊緣服務器只能得到部分索引信息，通過在邊緣服務器上加密索引，大大減輕了數據擁有者構建索引的負擔。

3）通過引入隨機數后，將用戶查詢矩陣進行切割、矩陣加密，在優化整個系統查詢性能的同時保護了用戶的查詢隱私。

3 系統模型和相關定義

3.1 系統模型

圖1為基于多邊緣服務器的隱私保護模型，該模型由用戶、數據擁有者、邊緣服務器和云服務器這4類實體構成。數據擁有者負責生成密鑰sk并通過安全信道將查詢加密密鑰與密文密鑰key傳送給用戶，同時還負責構建文件的索引并將索引切割后將pi與相應的索引加密密鑰MiT發送給邊緣服務器i，同時數據擁有者將密文C傳送至云服務器，以便后續的查詢。在用戶端，用戶輸入查詢關鍵詞以生成查詢矩陣，經過用戶興趣模型后，用戶查詢矩陣發生變化使其不僅帶有用戶本次查詢關鍵詞的信息，同時帶有用戶的興趣信息，然后用戶將轉換后的查詢矩陣進行切割并用相對應的密鑰加密生成Ti，最后將Ti發送至相應的邊緣服務器i。邊緣服務器負責索引的加密，根據安全內積計算用戶查詢與索引的相關性得分Si，隨后將計算得到的相關性得分矩陣發送到云服務器中。云服務器負責將邊緣服務器發送來的相關性得分進行累加，并根據累加后的相關性得分的高低，將相關性得分最高的前K個密文給用戶。該方法通過引入多邊緣服務器，并將索引以及用戶查詢矩陣進行切割后加密，大大地減少了計算量，同時使用多邊緣服務器計算用戶查詢與索引之間的相關性得分能夠大幅度地減少查詢的時間，進而提升用戶體驗。通過引入多邊緣服務器，減少了云服務器以及數據擁有者的計算開銷，提升了整個系統的效率，同時保護了用戶的查詢隱私。

圖1 基于多邊緣服務器的隱私保護模型

3.2 相關定義

定義1TF-IDF（term-frequency-inverse document frequency）索引構建方法。TF-IDF方法構建的索引能夠很好地反映文件中關鍵詞的重要程度，這在很多文獻中都得到了證實[12-14]。本文采用 TF-IDF構建文件的索引，以期關鍵詞能更好地反映文件。

定義2相關性得分。相關性得分的高低反映了加密后的查詢矩陣Ti與加密后的索引Ii的相關性程度，得分越高，說明兩者的相關性程度越高。

定義3安全內積計算[15]。為了達到保護用戶的隱私不被泄露及完成相關性得分計算的目標，采用了先對用戶查詢及索引進行加密，然后通過安全內積計算的方法獲得兩者的相關性得分。安全內積計算如式（1）所示。

定義4用戶興趣模型。用戶興趣模型反映了用戶的偏好為了返回和用戶搜索意圖最匹配的搜索結果，需要構建用戶的興趣模型，張強等[16]通過對用戶的搜索歷史捕捉用戶的偏好；Du等[17]根據用戶的喜好程度建立了多層次的用戶模型，以使其能充分地反映用戶的真實需求；本文為了能返回符合用戶興趣的密文，采用了文獻[11]的方法構建用戶興趣模型，通過用戶的查詢歷史及WordNet[18]英語詞匯數據庫來建立具有語義信息的用戶興趣模型。

定義5索引切割。本文采用多個邊緣服務器，用于索引的加密及用戶查詢與其上索引的相關性得分計算。為了實現這一功能，數據擁有者需要根據索引加密密鑰的維度對索引進行切割。為了簡單起見，假設需要將索引切割成3份，索引加密密鑰為3階方陣，數據擁有者根據索引加密密鑰方陣的維數，將索引切割成3份。其中，索引中的每一行代表一個文件的索引，行中的每一個元素代表文件中相應關鍵詞的權重。數據擁有者根據索引加密矩陣的維數，以 3列為一單位對整個索引進行切割。如圖 2所示，整個索引被切割成了3個15× 3的矩陣。

圖2 索引切割

定義 6查詢矩陣切割。查詢矩陣為行矩陣，維度等于索引的列數，其切割方法與索引切割方法相同，也是根據相應密鑰的維數進行切割，因為查詢矩陣的加密密鑰與索引的加密密鑰一一對應，因此經過切割后的查詢矩陣也會和切割后的索引矩陣一一對應。

3.3 攻擊模型

本文假設邊緣服務器不會進行合謀攻擊，且邊緣服務器不會將索引以及索引加密密鑰泄露給第三方。同時假設數據擁有者能夠通過可信信道安全地將密鑰發送給用戶，將索引以及索引加密密鑰發送給邊緣服務器，將密文發送給云服務器。這個是很容易實現的，如通過 SSL/TLS（secure socket layer/transport layer security）通信方式就能很容易地達到這一目的[19-20]。

1）誠實而好奇（HBC, honest-but-curious）模型[21-23]。在HBC模型中，攻擊者嚴格遵照協議的約定執行整個流程，但為了某些利益或滿足自己的好奇心，會試圖從已知的信息中挖掘用戶的隱私信息（例如通過用戶的快遞信息推測用戶的家庭住址，或者通過用戶的網購信息推測用戶的喜好）。本文假設云服務器和邊緣服務器是誠實而好奇的攻擊者，其試圖獲取用戶的隱私信息。

2）惡意攻擊模型（malicious model）。惡意攻擊者完全不遵守協議的約定，可能發起拒絕服務攻擊（DoS, denial of service attack），也可能發起重放攻擊，甚至利用社會工程學進行人身攻擊。本文主要關注的是保護用戶的隱私，因而這些主動攻擊不是本文的重點，并且有相當多的文獻對惡意攻擊做了相關研究[24-25]。

4 基于多邊緣服務器的隱私保護方法

本文提出了一種基于多邊緣服務器的個性化搜索隱私保護方法，該方法的基本思想是引入多個邊緣服務器。與文獻[11]相比，在保護用戶隱私的前提下，引入邊緣服務器有如下作用。

1）在邊緣服務器上加密索引，能大幅度地減少數據擁有者的負擔，同時提升索引的加密效率。

2）在邊緣服務器上計算用戶查詢矩陣和索引的相關性得分，在減輕云服務器計算開銷的同時能夠提升搜索的效率，進而縮短用戶獲得搜索結果的時間，從而提高用戶的搜索體驗。

如圖3所示，本文所提方法主要包括6個階段，依次是系統初始化階段、索引加密階段、查詢生成階段、得分計算階段、查詢處理階段和結果解密階段。相關的符號描述如表1所示。

圖3 基于多邊緣服務器的隱私保護方法流程

表1 符號描述

在系統初始化階段，數據擁有者隨機切割索引，并設第i部分索引的關鍵詞數為ni（i∈[1,h]），為了盡量減少系統的開銷，數據擁有者選取為了簡單起見，本文假設nm odh=0 ，然后生成h個ni×ni的可逆矩陣Mi（i∈[1,h]）作為密鑰 sk，因而密鑰sk是一個h元組{Mi} 。

數據擁有者根據“TF×IDF”模型構建文件集的索引p，并通過索引切割方法將其切割為h份，然后數據擁有者利用安全信道將索引pi以及索引

4.1 系統初始化階段

為了降低加密與解密文件的開銷，數據擁有者使用對稱密碼技術（如3DES、AES）對文件集C中的每個文件進行加密，并將加密后的文件集C發送給云服務器。

4.2 索引加密階段

大數據時代的到來使數據量呈指數級增長，為了減輕數據擁有者的負擔，利用邊緣服務器加密索引。由于多邊緣服務器能并行加密索引，并且對切割后的索引加密降低了時間復雜度，這大大地縮短了索引加密的時間。邊緣服務器利用式（2）對索引進行加密。

4.3 查詢生成階段

步驟1用戶查詢的轉換

系統會根據用戶提交的查詢關鍵詞生成查詢矩陣，查詢矩陣根據用戶興趣模型進行變化，當用戶興趣模型中關鍵詞的權重不為0時，查詢矩陣對應的關鍵詞權重作為用戶模型中的權重；當用戶興趣模型中關鍵詞權重為0時，查詢矩陣中對應的關鍵詞權重不變，為初始值 1。轉換后的查詢矩陣不僅包含用戶的查詢信息，還包含用戶的興趣信息，例如用戶的查詢矩陣 q=[1,1,0,0,0,0,1,0,0]，用戶興趣模型U =[9,0,8,1,0,0,2,0,7]，經過轉換后的查詢矩陣 q=[9,1,0,0,0,0,2,0,0]。

步驟2查詢矩陣的切割與加密

為了迷惑邊緣服務器和云服務器，用戶首先隨機地生成值a（a＞0），并讓a和轉換后的查詢矩陣q相乘，使q中元素的值變為a倍，記為aq，然后根據加密密鑰的維度，將aq切割為h份，記為aqi（i∈[1,h]），接下來根據加密用戶的查詢，最后用戶將Ti發送到第i個邊緣服務器，參數K隨機發送到其中的一個邊緣服務器。

4.4 得分計算階段

邊緣服務器i在收到用戶的查詢請求Ti后，其利用安全內積計算并根據式（3）計算獲得索引Ii與Ti的相關性得分Si，計算得到的Si是一個列矩陣。

從式（3）可以看出，邊緣服務器計算得到的Si確實為Ii與Ti內積的a倍，這說明能通過該方法將文件按相關性得分進行排序，從而返回用戶最相關的搜索結果。

4.5 查詢處理階段

當邊緣服務器將計算得到的Si以及參數K上傳到云服務器后，云服務器將所有邊緣服務器計算得到的Si進行累加，從而得到S，即，所得到的S是一個列矩陣，S（j）（1≤j≤m）代表用戶查詢與第j個文件的相關性得分。云服務器根據K將相關性得分最高的前K個密文文件返回給用戶。

4.6 結果解密階段

當用戶收到云服務器返回給自己的 topK密文后，用戶使用解密密鑰key對文件進行解密，從而完成整個搜索的過程。

5 安全性分析

5.1 抵御誠實而好奇的邊緣服務器

挑戰 1在本文中，為了充分利用邊緣服務器的計算能力，邊緣服務器將獲得部分索引以及加密該索引的密鑰。如果邊緣服務器可以知道用戶的查詢矩陣或用戶查詢矩陣與文件索引的相關性得分，那么邊緣服務器將贏得這個挑戰。

定理 1本文所提方法可以抵御邊緣服務器誠實而好奇的窺視。

證明數據擁有者通過索引切割方法將索引切割成h份子信息邊緣服務器i從數據擁有者處獲得了部分索引pi及加密該索引的密鑰根據邊緣服務器能夠計算得到用戶的查詢經過轉換、切割與加密后，形成h份子信息邊緣服務器i從用戶處獲得了部分搜索信息Ti，邊緣服務器i根據能夠計算出用戶上傳到該邊緣服務器的aqi，但每次發送查詢前，用戶都會在用戶端隨機地生成a，因而邊緣服務器i不可能根據aqi推斷出qi，假設邊緣服務器不共謀，因而，邊緣服務器i只能獲得aqi。然而即使邊緣服務器共謀，攻擊者能夠獲得aq，但用戶在每次發送查詢時，都會隨機地選擇a（a＞0），因此，攻擊者不可能獲得q，并且攻擊者沒有關鍵詞詞典，其不可能根據aq的值推斷出用戶的查詢關鍵詞。

由式（4）～式（6）知，即使用戶兩次查詢的查詢向量qi相同，由于a1≠a2，邊緣服務器通過計算獲得的相關性得分 Si1≠ Si2，因此其不可能知道用戶的查詢矩陣，更不可能推斷出查詢矩陣與文件索引的相關性得分。

經過以上的分析可知，邊緣服務器不能確定地猜出用戶的查詢以及查詢矩陣與文件索引的相關性得分。

5.2 抵御誠實而好奇的云服務器

挑戰2云服務器負責密文的存儲、查詢處理并將最符合用戶本次查詢請求的前K個密文返回給用戶。云服務器希望從中獲取用戶的隱私信息，進而獲得經濟效益或滿足自己的好奇心，同時也希望獲得文件的明文。如果云服務器能夠從中獲得用戶的具體查詢信息或者將存儲在其上的明文解密，那么云服務器將贏得這個游戲。

定理 2本文算法可以抵御云服務器誠實而好奇的攻擊。

證明由于云服務器只知道密文以及加密、解密算法，文件采用對稱密碼技術（如3DES、AES）進行加密，其安全性已被證明，云服務器沒有用于文件解密的密鑰 key，因此其不可能將密文解密成明文，更不可能獲悉返回用戶的密文的具體信息。云服務器通過從邊緣服務器發送來的Si計算用戶查詢與文件之間的相關性得分S，而S的值與a相關，a為用戶隨機生成的大于0的數，由式（7）～式（9）知，即使用戶兩次查詢的查詢向量qi相同，對于同一文件，S1≠ S2。因而云服務器不可能根據相關性得分對用戶的具體查詢信息進行揣測。

從以上分析可知，云服務器不能猜測出返回給用戶的密文信息以及用戶的具體查詢信息。

5.3 抵御惡意攻擊者的竊聽攻擊

挑戰 3攻擊者通過竊聽不安全的通信信道，試圖從這些數據中挖掘出用戶的某些敏感信息，如果攻擊者能夠恢復用戶的查詢矩陣或者獲知返回用戶的文件信息，那么攻擊者將贏得這個游戲。

定理 3本文算法能抵御惡意攻擊者的竊聽攻擊。

證明假設惡意攻擊者攔截到用戶發送給所有邊緣服務器的查詢請求Ti，由于其不知道加密密鑰并且在每次查詢時隨機數a的值均不相同，因而惡意攻擊者不可能恢復用戶的查詢矩陣q。假設攻擊者通過偵聽云服務器與用戶之間的通信信道，獲得了云服務器返回給用戶的密文，但由于沒有密文的解密密鑰key，其不可能破解經過對稱密碼技術（如3DES、AES）進行加密后的文件，因此本文算法能抵御惡意攻擊者的竊聽攻擊。

從以上分析可知，惡意攻擊者既不能獲得用戶的查詢矩陣，也不能猜測出云服務器返回給用戶的密文信息。

6 實驗及結果分析

實驗主要從索引加密、用戶查詢生成、得分計算及查詢處理這4個方面分析本方法的性能，并將其與MRSE[26]以及PRSE[11]方法進行比較，由于邊緣服務器數量為1時會造成部分隱私的泄露，因此實驗中邊緣服務器為1的實驗數據僅作性能對比。采用 Yelp數據集中的“business”與“review”數據作為本文實驗的數據集，以一條“business”數據以及與該“business”數據相關的所有“review”數據作為一個文件，進而形成文件集，并采用TF×IDF模型構建這些文件的索引，以期關鍵詞能更好地反映文件。在文件中，每個關鍵詞的重要程度是不一樣的，關鍵詞的權重越大，說明該關鍵詞越重要，因此只需要選取權重較大的關鍵詞即能很好地反映文件，同時避免了因關鍵詞字典過于龐大而增加計算開銷與存儲開銷。在構建完關鍵詞字典后，一個文件便可以按照關鍵詞字典中關鍵詞的順序，形成用關鍵詞的權重表示的文件索引。實驗的硬件環境為 2.6 GHz Intel（R）Core（TM）i7-6700HQ CPU，16.00 GB內存，操作系統為Microsoft Windows 10，軟件為Matlab R2016b，并使用OriginPro 2017對實驗數據進行仿真。

6.1 精確度

如今，數據量呈指數級增長勢，在這樣的環境下，快速地獲得需要的信息變得越來越迫切，因而快速地獲得高精度的搜索結果成為了提高用戶搜索體驗的法寶。本文所提方法能夠在保護用戶隱私的同時返回用戶滿意的搜索結果，而用戶對返回結果的滿意程度在一定程度上反映了精確度的高低。為了評價所提方法的精確度，隨機選擇10位用戶使用本方法進行搜索，結果表明，有9人對搜索結果滿意，這從一定程度上反映了本方法是可行的。

為了簡單明了地說明本方法能夠在密文環境下實現個性化搜索的目標，隨機選擇Yelp數據集中的200條“business”數據以及與這些“business”數據相關的所有“review”數據，生成了200個文件。然后根據 TF-IDF模型獲得各個文件中的關鍵詞權重，并選擇各個文件中關鍵詞權重最大的前10個關鍵詞生成關鍵詞字典，實驗中關鍵詞詞典共有1 732個關鍵詞。最后，根據關鍵詞字典中關鍵詞的順序，采用關鍵詞權重表示文件的索引，因此，每個文件可以表示為1× 1732的矩陣。

為了說明本方法中云服務器返回的搜索結果不僅和用戶的查詢相關，也與用戶的歷史查詢相關，即與用戶的興趣相關?？紤]了2種情況下云服務器返回用戶的搜索結果列表，具體如下。

1）只考慮用戶提交的查詢關鍵詞。本文實驗中假設用戶選擇的關鍵詞數占總關鍵詞數的30%（由于本文實驗中總文件數為200個，為了有更多的相關文檔，因此假設用戶選擇的關鍵詞數較多。）。

2）既考慮用戶的查詢關鍵詞，也考慮用戶的興趣模型。在實驗中，假設用戶進行了1 000次的歷史查詢，并設置這1 000次查詢中的用戶興趣偏好如表2所示：即有20%的概率選擇前500個關鍵詞，15%的概率選擇第501～1 000個的關鍵詞，10%的概率選擇第1 001～1 500個的關鍵詞，1%的概率選擇第1 501～1 732個關鍵詞。

表2 用戶興趣偏好設置

設置參數K=10，即云服務器返回得分最高的前10個搜索結果給用戶，實驗結果如表3所示。

表3 2種情況下搜索結果對比

從表3可以看出，云服務器在2種情況下返回給用戶的搜索結果列表是不同的，說明了用戶興趣模型真真切切地影響了搜索結果。同時也可以看到，在這2種情況下，云服務器返回給用戶的文件有6個是相同的，分別是135、85、41、32、13、90。

從這個實驗可以看出，即使對于相同的查詢關鍵詞，由于每個人的興趣偏好、搜索歷史不相同，云服務器返回的搜索結果也不會相同，因此本方法適用于個性化搜索，尤其適用于密文環境下的個性化搜索。同時，由于返回的搜索結果不僅與用戶的搜索關鍵詞相關，也與用戶的搜索歷史相關，這無疑能夠提高本方法的精確度。

召回率衡量搜索到所有相關文檔的能力，但本方法中，云服務器是根據用戶提交的參數K返回相關性得分最高的前K個文件給用戶。當K越大，召回率顯然會相應地提高，比如當用戶設置K=10時，而與用戶此次查詢相關的文檔有100個時，召回率會很低。但隨著K的增大，召回率也會相應地增加，因而在本文中討論召回率的大小是沒有必要的，也是沒有意義的。

6.2 個性化搜索

6.1節的實驗表明，在考慮或忽略用戶興趣模型時，2種情況下返回的搜索結果是不同的。為了更進一步地說明本文所提方法能很好地實現個性化搜索的目標，考慮當用戶的搜索關鍵詞相同時，云服務器返回給具有不同興趣偏好的3個用戶的搜索結果。

本節采用6.1節中的數據集進行相關實驗。

用戶興趣偏好設置如表4所示，既考慮用戶的查詢關鍵詞，也考慮用戶的興趣模型。在實驗中，假設用戶進行了1 000次的歷史查詢，并設置這1 000次查詢中的用戶興趣偏好如表4所示，即用戶1、用戶2、用戶3分別以20%、12%、5%的概率選擇前500個關鍵詞，分別以15%、20%、12%的概率選擇第501～1 000的關鍵詞；以10%、15%、5%的概率選擇第1 001～1 500的關鍵詞，分別以1%、6%、10%的概率選擇第1 501～ 1 732個關鍵詞。

表4 用戶興趣偏好設置

為了進行對比，用戶查詢和用戶 1的興趣模型與6.1節中相同，并設置參數K=10，即云服務器返回得分最高的前10個搜索結果給用戶，實驗結果如表5所示。

表5 不同用戶相同查詢時返回的搜索結果對比

從表5可以看出，當用戶的查詢相同時，在忽略用戶興趣模型的情況下，返回給用戶1至用戶3的查詢結果是完全相同的；當考慮用戶的興趣模型時，即使用戶的查詢完全相同，返回給用戶的查詢結果也是不相同的，因為云服務器返回給用戶的查詢結果不僅與用戶的查詢相關，也與用戶的搜索歷史相關，這無疑會使查詢結果更符合用戶的需求，進而提升用戶的搜索體驗。同時，本文算法完全在密文環境下進行，很好地保護了用戶的隱私。

6.3 索引加密

不同于MRSE[26]和PRSE[11]在數據擁有者處進行索引的加密，本文利用邊緣服務器對索引進行加密。同時，本文對 PRSE中的索引加密方法進行了改進。邊緣服務器的引入既降低了索引加密的時間復雜度，也保護了索引信息不被云服務器知曉。

圖 4（a）為字典中的關鍵詞數n=18711，文件數m為2 000～10 000時，索引加密時間隨邊緣服務器數的變化情況，其表明索引加密的時間隨著文件數的增加而增加，而隨著邊緣服務器的增加而減小。在圖 4（a）中，當邊緣服務器數量h=3，文件數從2 000增加到10 000時，索引加密時間從1.72 s增加到了7.03 s。圖4（b）為當邊緣服務器的數量一定、文件數為10 000時，索引加密時間隨著字典中的關鍵詞數的增加呈二次曲線增長。當字典中的關鍵詞數與文件數一定時，索引加密時間隨著邊緣服務器的增加而急劇減小。

圖4 基于多邊緣服務器的隱私保護方法索引加密時間模型

為了更好地驗證本方法的性能，將本文算法的索引加密時間與MRSE以及PRSE方法進行對比，并取字典中的關鍵詞數n=18711，如表6所示，在對比實驗中，采用3個邊緣服務器對文件的索引進行加密。從表6可以看出，當文件數為2 000時，本文算法用時僅為1.72 s，而MRSE和PRSE方法分別用時6 211.11 s和5 531.48 s，當文件數為10 000時，本文算法加密用時為7.03 s，而MRSE和PRSE方法分別用時32 243.81 s和30 360.43 s。本文算法索引加密用時不超過MRSE方案的3?，不超過PRSE方案的4?。

在整個索引的構建開銷中，索引加密占了主要的部分，當索引加密時間降得足夠低時，有利于采用 TF-IDF模型更新索引，因而，本方法也為索引的更新提供了新的思路。

表6 3種方案加密時間對比

6.4 用戶查詢生成

用戶查詢生成包括用戶查詢矩陣的轉換與用戶查詢矩陣的切割與加密，為了得到“千人千面”的個性化查詢結果，需要根據用戶的興趣模型對用戶的查詢矩陣進行轉換，使轉換后的用戶查詢矩陣不僅帶有用戶的查詢信息，也帶有用戶的個性化信息，進而使用戶得到個性化的搜索結果。以明文形式存在的用戶查詢矩陣在存儲與傳輸的過程中容易泄露用戶的查詢隱私，因此需要對轉換后的用戶查詢矩陣進行加密。為了迷惑邊緣服務器與第三方攻擊者，使用隨機生成的迷惑數a乘以轉換后的用戶查詢矩陣q后，采用類似于索引切割的方法，對轉換后的用戶查詢矩陣q進行切割，生成qi（i∈[1,h]），并將其用加密后，將Ti發送到對應的服務器，同時將參數K發送到任意一個邊緣服務器以告知云服務器所需要返回的查詢結果數目。

圖 5（a）為本文算法取邊緣服務器數量h=3時，與MRSE以及PRSE方法在生成用戶查詢時的性能對比，其表明隨著字典中關鍵詞數的增加，3種方法的用戶查詢生成時間均增加，并且本文算法性能明顯優于MRSE以及PRSE方法，當字典中關鍵詞數越多時，優勢越明顯，如當字典中關鍵詞數為18 000時，使用本方法生成用戶查詢的時間為0.051 s，而MRSE和PRSE方法生成用戶查詢的時間分別為0.292 s與0.293 s。用戶查詢的生成為用戶整個查詢的一部分，用戶查詢的生成時間越短，用戶的搜索體驗越好。

圖5（b）展示了邊緣服務器數量以及字典中關鍵詞數與用戶查詢生成時間的關系。從圖 5（b）可以看出，隨著字典中關鍵詞數的增加，用戶查詢生成時間也相應地增加。而隨著邊緣服務器的增加，用戶查詢生成時間減小，如當字典中的關鍵詞數為18 000，邊緣服務器的數量從1增加到5時，用戶查詢生成時間從0.136 s減小到0.034 s。

圖5 基于多邊緣服務器的隱私保護方法用戶查詢生成

6.5 得分計算

得分計算為每個邊緣服務器計算出用戶部分查詢與其上的部分索引的相關性得分Si，用戶查詢與文件索引之間的相關性得分決定了兩者的相關性，進而決定了返回什么文件給用戶。為了保護用戶的查詢隱私，在本文算法中，邊緣服務器不會取為1，但為了更好地進行性能的對比，取邊緣服務器數h=1、 3、 9、 27 ，字典中的關鍵詞數n=18 711。從圖6可以看出，在邊緣服務器上進行得分計算的時間隨著文件數的增加而增加，隨著邊緣服務器數量的增加而減小。當文件數為500時，邊緣服務器數量從 1增加到27的過程中，執行時間從0.103 s減小到0.014 2 s。當文件數為2 500時，邊緣服務器數量從1增加到27的過程中，執行時間從0.503 s減小到0.033 s。同樣地，得分計算也為用戶搜索中的一部分，得分計算的時間越短，用戶的搜索體驗越好。

圖6 η=18 711時，得分計算時間隨文件數變化情況

6.6 查詢處理

云服務器為了返回與用戶此次查詢最相關的前K個結果，至少需要知道是哪K個文件與用戶的此次查詢最相關，即至少需要知道與用戶相關性得分最高的前K個文件是哪些。為了實現這一目標，云服務器運行查詢處理進程，其將從邊緣服務器計算得到的Si進行加和，得到而S中存儲了用戶查詢與文件索引的相關性得分，云服務器對S進行處理，即可知道是哪些文件與用戶的此次查詢最相關，進而返回與用戶最相關的前K個密文。

在云服務器的查詢處理階段，本文將字典中的關鍵詞數n設置為18 711，返回用戶的文件數K設置為10。圖7表明云服務器上查詢處理的執行時間與文件數的多少關系不是很大，這是因為查詢處理只需要根據計算用戶查詢與文件之間的相關性得分，并根據相關性得分的大小對S中的元素進行排序后將相關性得分最高的前K個文件返回給用戶，此過程的計算開銷很小，因而從實驗結果來看，文件數的多少對查詢處理的執行時間幾乎沒有影響。

當文件數不變時，理論上說，隨著邊緣服務器數的增加，云服務器查詢處理的執行時間會相應增加，圖7也表明了這一變化趨勢。但由于邊緣服務器的增加只會影響過程，并不會影響其后的相關性得分排序與結果返回，因而，邊緣服務器數量會對查詢處理時間有影響，但影響并不是特別大。從圖7也可以看出，查詢處理的時間很小，如當文件數為2 500，邊緣服務器數為27時，云服務器執行查詢處理的時間僅為0.026 s，這為創造良好的用戶搜索體驗提供了條件。

圖7 n=18 711，K=10時，查詢處理執行時間隨文件數量變化情況

7 結束語

隨著大數據時代的到來，信息過載與隱私保護問題越來越受到人們的關注，基于此，本文提出了一種基于多邊緣服務器的個性化搜索方法，該方法同時實現了密文中的個性化搜索與用戶隱私保護的統一，并且進行了安全性證明。該方法通過引入多個邊緣服務器，并將文件索引存儲于邊緣服務器中，而將文件密文存儲于云服務器中，然后通過切割索引與查詢矩陣，成功實現了在邊緣服務器上計算部分索引與部分查詢之間的相關性得分的目的，有利于保護索引與用戶隱私。實驗表明，該方法能夠實現個性化搜索并大幅地減小用戶的搜索等待時間，有利于提高用戶的搜索體驗，同時該方法減小了云服務的存儲開銷與計算開銷，能更加適用于大量用戶的密文搜索環境。