基于語義位置保護的軌跡隱私保護的k-CS算法

2018-03-20 00:43:04崔洪雷

計算機應用 2018年1期

霍崢，崔洪雷，賀萍

(1.河北經貿大學信息技術學院，石家莊 050061； 2.浙江大學寧波理工學院商學院，浙江寧波 315100)(*通信作者電子郵箱huozheng@heuet.edu.cn)

0 引言

近年來，隨著智能移動手機和定位技術的發展，越來越多的位置數據被收集、存儲、挖掘和分析。軌跡數據挖掘[1]和語義軌跡抽取[2]已經成為數據挖掘領域一個重要的研究方向。許多學者意識到對位置數據的分析和挖掘會導致移動對象的個人隱私泄露。近年來，學者們對軌跡數據的隱私保護技術進行了研究，這些研究主要可分為擾動法[3]、抑制法[4]和k-匿名方法[5-8]。近年來，出現了以差分隱私技術為基礎的軌跡數據發布方法[9]，它能夠保證無條件隱私，即對指定的統計信息進行分析，無法得到任何一個個體的信息。然而，差分隱私的主要問題在于其靈活性不足，僅能在有限的統計信息上進行隱私保護。而傳統的k-匿名技術通過將k條軌跡上相應的采樣位置匿名在同一區域中達到隱私保護的效果，實現簡單，且應用環境靈活。在數據隱私保護技術中，隱私保護度和數據可用性是一對矛盾。隱私保護度越高，必然會造成數據可用性的下降；如果需要較高的數據可用性，必然以犧牲隱私保護度來換取。文獻[7]提出了一種利用軌跡數據不確定性進行軌跡聚類的隱私保護算法，將移動對象軌跡上的各個采樣位置都進行匿名處理，隱私處理后的數據可用性較低。文獻[5]第一次在自由空間中提出：并不是軌跡上每一個采樣位置都有必要進行隱私保護。例如：行進時所在的道路等位置信息不是移動對象真正訪問的位置，并不會暴露用戶的隱私，不必要的匿名會給軌跡數據造成嚴重的信息丟失，導致數據不可用。例如，在利用軌跡數據進行交通流量信息分析時，道路上的數據如果不會暴露用戶隱私而不加以匿名處理，其數據可用性更高，分析結果更加精確。而用戶運行軌跡中真正能夠暴露隱私的是用戶訪問過的地圖上的語義位置，例如酒吧、醫院、賓館等。也就是說，攻擊者更容易通過語義位置獲取用戶隱私。若僅對語義位置進行隱私保護，則能極大地提高數據的可用性。

筆者注意到，語義軌跡上某些重要的停留位置需要進行隱私保護處理，而其余位置并不需要隱私保護處理。采用上述思路能夠減少需匿名的采樣位置數量，從而提高軌跡數據的可用性。針對上述問題，本文提出一種路網空間中基于語義軌跡的軌跡隱私保護技術。具體來說，本文的主要貢獻如下：

1)本文提出一種基于語義軌跡的軌跡隱私保護方法，在隱私保護過程中，僅僅對軌跡上的語義位置進行匿名處理，對一般的位置不作隱私保護，能夠提高數據可用性。

2)本文提將路網環境中基于語義位置的軌跡隱私保護問題定義為一個k-CS(k-Connected Sub-graph)匿名問題，且證明了該問題是一個NP(Non-deterministic Polynomial)難問題。

3)提出了一種基于圖上頂點聚類的近似算法，得到地圖上語義位置的k-CS匿名區域，并通過算法將軌跡上的停留位置進行匿名處理，保護停留位置的隱私。

4)在真實數據集上對k-CS匿名算法的數據可用性、查詢誤差率和運行時間進行了實驗，實驗結果表明本文提出的方法比傳統k-匿名方法的數據可用性高20%左右。

1 預備知識

下面介紹本文算法的預備知識。

1.1 系統結構

在軌跡數據隱私保護技術中，使用圖1所示的系統架構。該架構包括客戶端、軌跡數據庫、隱私保護服務器三個組件。客戶端將自己的位置數據發送給數據采集方，隱私保護服務器負責將收集到的軌跡數據進行語義位置提取、地圖匿名區域生成及軌跡匿名處理。匿名后的數據形成可發布軌跡數據，可供其他應用程序進行挖掘或統計。

圖1 軌跡數據隱私保護系統結構

1.2 相關定義

定義1 語義軌跡。語義軌跡T是一系列帶有注釋的停留位置和移動位置的序列，通常用如下元組表示：(軌跡標示符，移動對象標示符，注釋，軌跡上重要位置，語義停留位置，軌跡片段)。

語義軌跡和原始軌跡數據不同，它將原始軌跡上的采樣位置語義化為移動對象訪問的位置及訪問時間等重要信息。原始軌跡是指從位置采集設備上收集到的位置及采樣時間，位置信息是用經緯度表示的。在語義軌跡的信息中，本文的算法主要關注軌跡上重要位置和語義停留位置，本文將其統稱為語義位置。

定義2 路網。路網G=(V,E,W)是一個無向圖，其中V是所有興趣位置(Points of Interests, POI)的集合，集合中的元素表示為vi；E是邊的集合，當且僅當兩個頂點vi和vj之間有一條不包含任何頂點的路段時，兩者之間有一條邊(vi,vj)；W表示邊權的集合，元素wij表示頂點vi到頂點vj的距離，即邊(vi,vj)的長度。

1.3 攻擊模式

針對語義軌跡主要有以下兩種攻擊模式。

第1種語義位置攻擊。在路網環境中，并不是軌跡上的任意采樣位置都是攻擊者感興趣的，僅有那些用戶真正訪問過的語義位置才是攻擊者重點攻擊的對象，例如，如果某個移動對象訪問了醫院，攻擊者可能推導出該用戶患了某種疾病，然而，如果用戶僅僅是從醫院門口經過，并不能得出上述結論，此為語義位置攻擊。

第2種最大運行速度攻擊。最大運行速度攻擊最早是在文獻[10]中提出的。在路網環境中，最大運行速度攻擊的效果更具威脅性。假設圖2(a)中灰色區域為移動對象在ti時刻的匿名區域，圖2(a)中的圓角矩形表示在假如移動對象在ti到下一個時刻ti+1之間可能運行到的最大運行區域(Maximum Moving Boundary, MMB)。道路一般有限速(環路一般不超過80 km/h，普通道路一般不超過60 km/h)，移動對象的最大運行速度用vmax來表示，則ti時刻的最大運行邊界可由式vmax×(ti+1-ti)計算得出，那么攻擊者可以推導出在ti+1時刻，移動對象肯定處于被Zi的最大運行邊界覆蓋的區域中，導致Zi+1時刻的匿名區域中的大部分區域變為不可達的，隱私保護度降低。

圖2 最大運行速度攻擊

2 基于語義軌跡的隱私保護算法

算法主要由3個步驟構成：

第1步從原始軌跡數據上抽取出重要位置和停留位置，即原始軌跡語義化；

第2步根據路網數據和語義軌跡數據，將地圖上的POI進行k-CS匿名，即將k個地圖上的POI組成一個匿名區域；

第3步將語義軌跡進行匿名，即，將語義位置由相應的地圖匿名區域取代，而經過位置可不作處理。

2.1 語義位置抽取

原始軌跡中的采樣位置只是經緯度，并不包含語義信息。作者認為，假如不對原始軌跡中的采樣位置加以區分，進行同樣的匿名處理，勢必會造成數據可用性的嚴重下降。本節主要講述如何從原始數據中抽取重要位置或停留位置。所謂停留位置，是指移動對象真正訪問過的位置。與移動對象僅經過未訪問的位置不同，停留位置包含了更多的語義信息。若移動對象訪問了某個專科醫院，可以推斷該用戶患了何種類型的疾病；如果移動對象的軌跡上有對應于該專科醫院的采樣位置，但用戶并未在此處停留，則無法推導出用戶訪問過該位置的結論，即前述語義位置攻擊。

軌跡上停留位置抽取方法有兩種：一種是基于停留時間的抽取方法；一種基于采樣位置密度的抽取方法。第1種方法是為了識別軌跡上速度為0的停留，這時需設置一個時間閾值tht，但凡兩個連續采樣位置的時間間隔大于tht,則認為該采樣位置發生了停留。第2種基于采樣密度的方法主要是為了識別速度不為0的游覽型訪問，比如，在公園中游覽等，此時，移動對象的速度并不為0，但是游覽速度較慢，因此，位置的采樣密度較大。

經過語義位置抽取過程，原始軌跡Ti可以轉換為語義位置和停留時間的序列，即，Ti={(L1,td1),(L2,td2),…,(Ln,tdn)}。其中：Li表示語義位置，tdi表示在相應位置的停留時間。

2.2 地圖匿名區域生成

抽取出的軌跡停留位置是地圖上的POI是一個經緯度，可由反向地址解析器解釋得到確切的地址信息，此處不再贅述。

經由停留位置抽取之后，路網數據G=(V,E)中的頂點和邊都已生成。其中，V中包含的頂點除了路網數據中的POI之外，還有從軌跡停留位置中抽取出來的POI，并將抽取出的POI放置在距離其最近的一條路段上，作為一個頂點。

文獻[5]采用了語義和自由空間歐氏距離的混合距離對空間中存在的POI進行聚類，生成包含k個頂點的匿名區域。而在路網空間中，不能簡單地用距離對POI進行聚類，這樣會產生某些匿名區域中POI不可達的問題，導致隱私保護度下降，具體如圖3所示。

圖3 不連通的4-匿名區域

圖3展示了一個4-匿名區域Ci，其中包含了v1,v2,v3,v4四個頂點，另有e1,e2,e3,e4四條邊與該匿名區域連通。按照匿名模型的定義，一旦達到4-匿名，意味著隱私泄露的概率為1/4，即，攻擊者無法識別移動對象處于v1,v2,v3,v4中哪個位置。然而，圖3所示的例子有路網信息作為背景知識，4-匿名無法達到應有的隱私保護度。若有軌跡Ti從道路e1進入匿名區域中的某個語義位置并停留一段時間，則將該停留位置用匿名區域Ci取代進行匿名。然而，攻擊者可能發現移動對象只能處在v1或v2位置上,不可能處于v3或v4，因為路徑e1沒有路徑連通到v1和v2。同理，從路徑e2,e3,e4進入匿名區域Ci的軌跡，均無法達到4-匿名的效果，只能保證隱私泄露的概率不大于1/2。

為了避免上述問題的發生，需要重新設計地圖匿名算法，避免僅用距離衡量哪些POI應該處于同一個匿名區域中。匿名算法中需要滿足下述3個要求：1)每個匿名區域中包含至少k個語義位置；2)匿名區域中的k個匿名位置須構成一個連通子圖；3)由于數據可用性需求，匿名區域面積越小越好。本文將滿足上述3個條件的問題定義為k-CS匿名問題。該問題的形式化定義如下。

定義3k-CS匿名問題。給定路網數據G=(V,E,W)，k-CS匿名問題需要找到滿足下述條件的匿名區域：

1)圖G=(V,E,W)最多可劃分為m=?n/k」個子圖(n為圖G中頂點個數)：G1=(V1,E1,W1)，G2=(V2,E2,W2),…,Gi=(Vi,Ei,Wi);每個子圖中至少包含k個頂點，每個子圖即為一個匿名區域；

2)V1∩V2∩…∩Vm=?;

3)V1∪V2∪…∪Vm?V;

4)連通子圖Vi的區域面積最小。

然而，在圖中計算不規則多邊形的面積并非一個簡單工作，本文采用路網距離之和來取代匿名區域面積。所謂路網距離是指：如果頂點vi和頂點vj之間有一條通路，則頂點vi到頂點vj的路網距離就是兩點之間的最短距離。如果vi和vj不連通，則其路徑長度為+∞。

文獻[11]中，已經證明了圖上的k-way劃分是NP-hard問題，下面證明本文提出的k-CS匿名問題也是NP-hard問題。

定理1k-CS匿名問題是NP-hard問題。

證畢。

本文提出了一種近似算法求解k-CS匿名問題，算法以聚類算法k-medoids為基礎，區別在于：一般的k-medoids聚類是在自由空間中進行的，以歐氏距離為基礎；而在路網空間中，距離的衡量公式都會發生改變。如圖4所示，如果按照歐氏距離的定義進行聚類，會產生圖4(a)的聚類效果，顯然，v2,v3,v4,v5構成的匿名區域是一個不連通的子圖，會產生前述的隱私泄露問題。盡管圖4(b)中的匿名區域C2面積大于圖4(a)中的匿名區域C1，但是由v2,v4,v5,v6構成的子圖是一個連通子圖，不會造成前述隱私泄露問題，因此，本文采用路網距離進行聚類。

圖4 不同距離的聚類結果

算法1k-CS匿名區域生成(G(V,E,W),k)。

輸入：路網數據G，隱私保護參數k。

輸出：匿名區域C1,C2,…,Cm。

FOR 圖G中的每個連通分量Gi

任選Gi中的一個頂點vi作為聚類中心；

按照距離相遠的原則選擇?ni/k」個聚類中心；

FOR 每個聚類中心vi

WHILE |Cj|

Cj← 距離質心路網距離最近的頂點；

|Cj|++;

END WHILE

FOR 每個簇Cj

計算Pscore← 各個頂點到質心的距離之和;

按順序每個頂點vm作為聚類中心;

重新計算Pscore;

選擇Pscore最小的那個簇的頂點為聚類中心;

重復上述步驟，直到簇不變化為止。

END FOR

RETURNC1,C2,…,Cp

算法1展示了生成k-CS匿名區域的過程。為了減小計算代價，算法將連通子圖匿名區域面積最小用路網距離之和最小取代。算法對圖G中的每個連通分量作處理，每個連通分量各自選取?ni/k」個聚類中心，其中ni表示第i個連通分量中頂點的個數。當每個簇中的頂點個數小于k時，將距離簇質心最近的頂點加入到簇Cj中，然后重新計算簇的質心，并使簇中的頂點數增加1，質心的選擇是聚類效果的關鍵。當簇中只有一個頂點時，該頂點就是該簇的質心；當簇中頂點數多于2個時，選擇距離簇中其他各個頂點距離之和最小的作為簇的質心。然后再加入其他的頂點到當前簇中，直到簇中包含k個頂點為止。對于每個簇Cj，按照順序依次選擇一個頂點作為質心，計算該簇的得分Pscore，即，每個頂點到簇中心的路網距離之和。哪個頂點作為質心得到的Pscore最小，就用哪個頂點作質心，重新調整簇。重復這些步驟，直到簇不再變化為止。輸出由頂點構成的簇C1,C2,…,Cp，每個簇為一個匿名區域。下面證明用算法1得到的匿名區域中，每個子圖都是一個包含的k個頂點的連通子圖。

定理2 用算法1得到的每個匿名區域都是包含k個頂點的連通子圖。

證明算法1將距離質心路網距離最小的頂點加入到簇中。假定簇Cj中質心為vi，那么距離vi路網距離最近的頂點vj一定被加入到Cj中。根據Dijskra算法，距離vi的路網距離次近的頂點分為兩種情況：

第1種vj有一條直接路徑到達vi路網距離最近；

第2種vj經過另外一個中間節點vm到達vi的距離最近。

第1種情況vj和vi連通的，因為兩個頂點之間有一條直接路徑。第2種情況下，vm到vi的距離比vj到vi的距離更近，因此，vm必定先于vj加入到以vi為質心的簇中，vj通過vm和vi連通。依此類推，Cj中有k個頂點時，子圖也是連通的。

證畢。

2.3 軌跡匿名處理

得到匿名區域C1，C2,…，Cp之后，將采集到的軌跡數據進行匿名處理。匿名處理的過程就是將收集到的軌跡數據中的采樣位置分為停留位置和經過位置。如前所述，停留位置攜帶的敏感信息更多，能夠真正反映移動對象的隱私信息，因此，需要對軌跡上的停留位置進行匿名處理。此外，軌跡匿名處理后的數據還應抵御最大運行速度攻擊。具體如算法2所示。

算法2 軌跡匿名處理。

輸入：匿名區域C1,C2,…,Cp，原始軌跡數據庫D。

FORD中的每條軌跡Ti

轉換為語義位置序列Ti={(L1,td1), (L2,td2),…,(Ln,tdn)}

將停留位置Ti由地圖上的匿名區域Ci替換；

計算MMB(Ci)和MMB(Ci+1);

IFMMB(Ci)不能夠完全覆蓋Ci+1，延長tdi，使得MMB(Ci)完全覆蓋Ci+1

END IF

END FOR

2.4 算法分析

算法1和算法2能夠保證語義軌跡上的停留位置被匿名在一個包含有k個POI的匿名區域中，因此，移動對象在停留位置隱私泄露的概率至多為1/k。軌跡數據的匿名處理對數據造成了一定的可用性丟失，信息丟失主要是由兩方面造成的：一方面是由停留位置匿名導致的，從一個采樣位置泛化為一個面積，導致精度下降；另一方面是由停留時間tdi的延長導致的，致使某個時刻移動對象所處位置不精確。

針對第一方面的信息丟失(Information Loss, IL)，通常采用文獻[12]提出的標準進行衡量，即：將一個點泛化為一個區域后，移動對象被識別概率降低了多少，如式(1)所示：

(1)

其中：n表示移動對象數據庫中軌跡的條數，k表示一條軌跡上的語義位置數目。只有語義位置才需要被匿名區域取代，因此，停留位置會造成信息的丟失。

此外，空間范圍查詢的誤差率也是衡量信息丟失的重要標準，它能夠衡量上述兩方面的信息丟失。所謂空間范圍計數查詢是指：查詢某個時間段內某個空間區域中的移動對象數目。在對語義軌跡進行匿名之后，空間范圍計數查詢必然產生一定的誤差，該誤差用error表示，可由式(2)計算：

(2)

其中，Q(D)表示在原始軌跡數據上進行空間范圍計數查詢時得到的值；Q(D*)表示在隱私保護處理后的數據上，進行空間范圍計數查詢時得到的值。本文主要衡量兩種空間范圍計數查詢：一種是PSI(Possibly Sometimes Inside)查詢；一種是DAI(Definitely Always Inside)查詢。

3 實驗分析

實驗采用北京市路網數據以及Geolife的真實數據進行。北京市路網數據中包括了17萬個路網頂點及43萬余條邊。軌跡數據Geolife采集了155個志愿者在北京市的8 000多條軌跡，該數據集中大約包含230萬條采樣位置信息，采樣位置主要分布在北京市五環區域內。數據分布如圖5所示。

圖5 數據分布

本實驗的實驗環境為Intel i5 3.30 GHz處理器、8 GB內存、Windows 7操作系統。根據前述的停留位置抽取算法，將時間閾值設為20 min，共抽取近8萬個停留位置。實驗對算法的信息丟失率、范圍查詢相對誤差及算法的運行時間進行了測試。對比算法是軌跡隱私保護的經典算法(k,δ)-anonymity算法，它是在自由空間中通過軌跡聚類進行隱私保護的一種算法，其中，δ是給定的匿名區域半徑，在本實驗中，δ的取值與文獻[7]中的取值相同，即從1 000到4 000，每次增長1 000，實驗中展示的結果是在不同δ值上的平均值。

3.1 信息丟失率

本節主要展示k-CS算法和(k,δ)-anonymity算法在數據可用性上的對比結果，其中，信息丟失率由式(1)計算得出。實驗驗證了在不同隱私參數k的取值下，信息丟失率的變化情況，如圖6所示。兩個算法的信息丟失率隨著k的增加逐漸增大，當隱私參數k取值到12時，k-CS算法的信息丟失率為40%左右，而(k,δ)-anonymity算法的信息丟失率接近80%，這是由于(k,δ)-anonymity算法將軌跡上的各個采樣位置都進行了泛化，造成了較大的信息丟失。而k-CS算法只對軌跡上的語義位置進行泛化，因此，信息丟失率較小。

圖6 兩種算法信息丟失率對比

3.2 查詢誤差率

查詢誤差率實驗主要評估在軌跡數據集D*與原始數據集D上執行空間范圍查詢的誤差率，該標準是隱私保護算法常用的衡量標準之一。查詢誤差率的計算由式(2)計算得出。實驗結果如圖7所示。由于DAI查詢比PSI查詢的選擇性更強，所以在圖7(b)中，兩個算法得查詢誤差率均高于圖7(a)中的算法查詢誤差率。(k,δ)-anonymity算法的查詢誤差率明顯高于k-CS算法，而k-CS算法的查詢誤差率在兩種查詢上均低于20%，顯示出良好的數據可用性。

3.3 運行時間

本實驗驗證了算法的運行時間。k-CS算法的運行時間僅計算了聚類所需。兩個算法的運行時間都隨著隱私保護參數k的取值增大而減少。可以看出k-CS算法的運行時間優于(k,δ)-anonymity算法，但是兩種算法的運行時間都在百秒級別，并不適合在實時環境中使用。由于本文所提出的算法主要用在離線軌跡數據處理之上，算法運行時間可以滿足要求。

圖7 兩種算法查詢誤差率對比

圖8 兩種算法的運行時間對比

4 結語

本文提出一種路網環境中基于語義位置的隱私保護方法。該方法的最大貢獻在于，僅對軌跡上停留的語義位置進行匿名，信息丟失率較低。本文首先提出路網環境中針對軌跡數據的兩種攻擊模型，將隱私保護問題定義為k-CS匿名問題，并證明了該問題是一個NP-hard問題。隨后提出一種基于圖中頂點聚類的近似算法，將圖中的頂點進行聚類。最后實驗驗證了該算法的數據可用性和算法效率。后續工作包括繼續優化圖上的聚類算法，提高其精確度及運行效率。

References)

[1] ZHENG Y. Trajectory data mining: an overview [J]. ACM Transactions on Intelligent Systems and Technology, 2015, 6(3): 1-41.

[2] PARENT C, SPACCAPICTRA S, RENSO C, et al. Semantic trajectories modeling and analysis [J]. ACM Computing Surveys, 2013, 45(4): 42.

[3] DAI J, HUA L. A method for the trajectory privacy protection based on the segmented fake trajectory under road networks [C]// Proceedings of the 2nd International Conference on Information Science and Control Engineering. Piscataway, NJ: IEEE, 2015: 13-17.

[4] 趙婧,張淵,李興華,等.基于軌跡頻率抑制的軌跡隱私保護方法[J].計算機學報,2014,37(10):2096-2106.(ZHAO J, ZHANG Y, LI X H, et al. A trajectory privacy protection approach via trajectory frequency suppression [J]. Chinese Journal of Computers, 2014, 37(10): 2096-2196.)

[5] HUO Z, MENG X, HU H, et al. You can walk alone: trajectory privacy-preserving through significant stays protection [C]// Proceedings of the 17th International Conference on Database Systems for Advanced Applications. Berlin: Springer, 2012: 351-366.

[6] CAI Z F, YANG H X, SHUANH W, et al. A clustering-based privacy-preserving method for uncertain trajectory data [C]// Proceedings of the 2014 International Conference on Trust, Security and Privacy in Computing and Communications. Piscataway, NJ: IEEE, 2014: 1-8.

[7] ABUL O. BONCHI F. NANNI M. Anonymization of moving objects databases by clustering and perturbation [J]. Information Systems, 2010, 35(8): 884-910.

[8] 霍崢,孟小峰,黃毅.PrivateCheckIn:一種移動社交網絡中的軌跡隱私保護方法[J].計算機學報,2013:36(4):716-726.(HUO Z, MENG X F, HUANG Y. PrivateCheckIn: trajectory privacy-preserving for check-in services in MSNS [J]. Chinese Journal of Computers, 2013, 36(4): 716-726.)

[9] HUA J, GAO Y, ZHONG S. Differentially private publication of general time-serial trajectory data [C]// Proceedings of the 2015 IEEE Conference on Computer Communications. Piscataway, NJ: IEEE, 2015: 549-557.

[10] PAN X, XU J, MENG X. Protecting location privacy against location-dependent attacks in mobile services [J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(8): 1506-1519.

[11] CHOI T Y. A linear-time heuristic algorithm fork-way network partitioning [J]. Journal of the Korea Safety Management and Science, 2004, 7(8): 1183-1194.

[12] YAROVOY R, BONCHI F, LAKSHMANAN L, et al. Anonymizing moving objects: how to hide a MOB in a crowd? [C] // Proceedings of the 12th International Conference on Extending Database Technology: Advances in Database Technology. New York: ACM, 2009: 72-83.

[13] CHEN R, LI H, QIN K A, et al. Private spatial data aggregation in local setting [C]// Proceedings of the 32nd IEEE International Conference on Data Engineering. Piscataway, NJ: IEEE, 2016: 289-300.

[14] SU S, TANG P, CHENG X, et al. Differentially private multi-party high-dimensional data publishing [C]// Proceedings of the 2016 International Conference on Data Engineering. Piscataway, NJ: IEEE, 2016: 205-216.

[15] QIN Z, YANG Y, YU T, et al. Heavy hitter estimation over set-valued data with local differential privacy [C]// Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2016: 192-203.

[16] 孟小峰,張嘯劍.大數據隱私管理[J].計算機研究與發展,2016,52(2):265-281.(MENG X F, ZHANG X J. Big data privacy management [J]. Journal of Computer Research and Development, 2016, 52(2): 265-281.)

This work is partially supported by the National Natural Science Foundation of China (61502279), the Natural Science Foundation of Hebei Province (F2015207009), the Scientific Research Projects in Colleges and Universities in Hebei Province (BJ2016019, QN2016179), the Soft Science Project of Ningbo City (2016A10066).

HUOZheng, born in 1982, Ph. D., lecturer. Her research interests include privacy-preserving, mobile object database.

CUIHonglei, born in 1976, Ph. D., lecturer. Her research interests include economic data applications under big data environment.

HEPing, born in 1982, Ph. D., lecturer. Her research interests include wireless sensor network, graph optimization algorithm.