張勇,李丹丹,韓璐,黃小紅
(北京郵電大學計算機學院(國家示范性軟件學院),北京 100876)
為了發掘數據中蘊含的潛在價值,打破“數據孤島”,一些數據交易市場應運而生,如Infochimps、Datacoup、Microsoft Azure Market-place 等。數據消費者可以在這些平臺上搜索和購買他們所需要的數據[1-2]。然而,當前這些平臺的數據大部分是機構或組織出于自身的業務需求而保存下來的數據,無法滿足數據消費者多樣化的數據需求,從而使數據的可用性大打折扣[3-4]。因此,從多樣性的角度來看,當前交易市場中的數據還十分有限,無法滿足日益增長的數據交易需求。為解決這個問題,學者們提出了一種新的數據交易模式,即群體感知數據交易(CDT,crowd-sensed data trading)。CDT 采用移動群體感知技術為數據消費者提供數據資源,即數據提供者使用手機、平板電腦等智能設備按照數據消費者的需求為其收集數據[5-6]。
典型的CDT 系統(例如Thingful、Thingspeak)包括數據交易平臺(以下簡稱為平臺)、數據消費者(以下簡稱為消費者)和感知任務參與者(以下簡稱為參與者)。平臺根據消費者的任務需求聘請大量的參與者,然后將參與者感知到的數據出售給消費者。當前,已有一些關于CDT 系統設計的工作。An 等[7]提出了一個基于逆向拍賣的群體感知數據交易系統,采用貪心策略來招募參與者,并保證拍賣過程的真實性。Zheng 等[8]提出了一個收益驅動的數據收集框架,采用拍賣機制來最小化數據收集的成本。Jiang 等[9]提出了一個基于質量感知的數據共享市場模型,從博弈論的角度分析了消費者行為,并提出了最優響應迭代算法來提高社會福利。
當前,大部分群體感知系統將平臺建模為半可信的,即平臺能夠誠實地執行預定程序,但同時會分析參與者的數據進而窺探其隱私[10-11]。少數文獻關注了群體感知數據交易市場中的隱私問題。其中,Gao 等[12]和Niu 等[13]使用同態加密和簽名驗證機制保護了數據交易過程中消費者的出價隱私和身份隱私。Zhao 等[14]提出了一種基于區塊鏈的數據交易模型,采用環簽名和相似性學習來保護參與者的身份隱私。當前的隱私保護方案主要針對消費者和參與者的身份及報價等信息進行保護,而如果將這些方案用于參與者的數據隱私保護,不僅效率低下,還會導致數據的可用性急劇下降。還有一些學者基于本地差分隱私提出了感知方案,允許參與者通過報告噪聲數據來保護自己的數據隱私。Wang 等[15]基于本地化差分隱私提出了一種參與者位置保護方案。Xue 等[16]為保護參與者的隱私,基于本地化差分隱私提出一種個性化的隱私保護方案。然而,這些方案往往需要大量的參與者,在參與者數量較少的情況下,數據的實用性較差,而如果選取大量的參與者,則會增加平臺的招募成本。基于此,本文提出了一種新穎的基于差分隱私的群體感知方案,參與者不再需要提交原始數據,而是提交對原始數據進行分析或計算得到的任務結果,同時通過對結果添加噪聲來保護他們的數據隱私,噪聲的分布是由平臺分配的隱私預算來確定的。在這種情況下,平臺可以通過對參與者隱私預算的動態調節來均衡結果的精度水平和相應的招募成本。
為激勵用戶參與群體感知數據交易,價格機制的設計也是需要考慮的問題。當前針對數據交易的價格機制研究主要考慮了數據量、數據質量等數據本身的因素[17-18]。例如,Yu 等[19]通過考慮數據質量和數據多版本發布的策略,提出了一個雙層數學規劃模型來優化數據交易。Jiao 等[20]考慮了大數據的“無限供給”性,提出了一種基于拍賣的大數據市場模型,通過拍賣機制得到最優的數據交易價格和交易量。黃小紅等[21]基于數據質量、數據屬性等多維因素構建了數據交易的價格機制。
本文提出的隱私保護的群體感知方案中,參與者上傳的數據不再是原始數據,而是由數據分析得出的結果,并不具有上述方案中所考慮的數據屬性,如數據量、數據質量等,因此不適用于上述價格機制。受到隱私數據發布的啟發[22-23],在滿足消費者對結果偏差容忍的條件下,本文考慮了對參與者的隱私泄露補償,以及平臺的收益來優化數據交易。平臺根據收到的消費者的偏差閾值、報價以及參與者的成本等信息,通過優化招募方案,在滿足消費者偏差的容忍約束的基礎上,最小化招募參與者的成本,最大化自身的收益。
因此,為了保護參與者的數據隱私,同時構建適用的價格機制,本文提出了隱私保護的群體感知數據交易算法。通過差分隱私聚合算法,平臺聚合參與者的結果。對于結果的計算,可以采用參與者獨立計算或者在平臺的組織下所有參與者協同計算的方式進行。同時,本文提出了信譽模型,以確保參與者的可信性,在考慮消費者的偏差約束和參與者隱私泄露補償的基礎上,構建了交易優化模型,以最大化平臺的收益。本文的主要貢獻如下。
1) 為實現對參與者的隱私保護,以及保障數據的可用性,提出了基于差分隱私的數據聚合方案。平臺為招募到的參與者動態地分配隱私預算。參與者根據收到的隱私預算,在計算得到的結果中添加噪聲。這樣既保護了參與者的隱私,又保證了聚合后結果的可用性。此外,為確保參與者的可信性,提出了信譽模型。
2) 為激勵消費者和參與者進行數據交易,通過考慮消費者對數據偏差的容忍約束,參與者的隱私泄露補償構建了交易優化模型以優化平臺的收益。通過優化參與者的招募來提高平臺的收益,并提出了基于遺傳算法的收益優化算法(POA,profit optimization algorithm)來求解該模型。
3) 使用北京的天氣和空氣質量數據進行了實驗,以評估模型的性能。結果表明,該模型不僅實現了對參與者的隱私保護,同時提升了平臺的收益。
圖1 展示了本文構建的群體感知數據交易框架,其中包括消費者、平臺和參與者。消費者將任務發送給平臺,平臺按照任務的需求招募參與者,同時為每個參與者分配隱私預算。參與者收集數據并將分析或計算出的結果在添加噪聲后發送給平臺。平臺聚合參與者的結果以完成消費者的任務。

圖1 群體感知數據交易框架
群體感知數據交易框架中包含3 種實體:消費者、平臺和參與者。
1) 消費者是向平臺發布任務的數據消費者。消費者會將自己的任務及相應的描述發送給平臺,同時,以優化自身的滿意度為目標確定報價和期望的偏差閾值。
2) 平臺是群體感知數據交易的組織者。平臺在收到消費者的任務后,會根據任務描述分析出完成該任務所需要的數據屬性等,并招募相應的參與者以完成任務。在招募過程中,平臺會以最大化自身的收益為目標,同時也需要為招募的參與者分配隱私預算以滿足消費者的偏差要求。根據任務需求,平臺也可以組織參與者進行聯邦學習等協同計算以得到任務需求的結果。
3) 參與者是搜集數據的數據提供者。在收到平臺所公布的任務要求后,參與者將自己所能滿足的要求及相應的報價發送給平臺,報價包含硬件成本(硬件損耗、能源消耗等)和隱私泄露成本。參與者收集數據,通過統計分析、數據挖掘或協同計算等方式得出消費者所需要的結果,并按照平臺給出的隱私預算添加噪聲后發送給平臺。
數據交易的過程如圖2 所示,其具體流程如下。

圖2 數據交易流程
1) 消費者將想要查詢的任務發送到平臺,其中包括對任務的詳細描述、所能支付的報酬及期望的偏差閾值。
2) 平臺對消費者的任務描述進行分析,提取出所需收集的數據屬性以及需要計算的標簽,然后將這些要求發送給參與者。
3) 參與者將自己所能收集的數據屬性及相應的報價發送給平臺。
4) 平臺查詢交易記錄,以計算參與者的信譽值。平臺以最大化自身的收益為目標確定招募的參與者,并為每個參與者分配隱私預算,隨后將招募結果及隱私預算發送給相應的參與者。
5) 參與者根據任務的需求收集數據,并利用所收集的數據進行統計分析、數據挖掘或在平臺的組織下進行協同計算以得出消費者想要的結果(即相應的標簽),再根據平臺分配的參數添加噪聲后發送給平臺。
6) 平臺聚合所有參與者的結果,并將聚合的結果回復給消費者。消費者將報酬支付給平臺,平臺按照參與者的報價將酬金支付給參與者。
本節將描述基于差分隱私的聚合方案,并構建數據交易優化模型。
本節在描述問題之前,給出系統參數和變量的含義,如表1 所示。

表1 系統參數和變量的含義
在當前的CDT 方案中,平臺招募參與者收集數據,然后將數據出售給消費者,但是過程中可能泄露參與者的隱私。為保護參與者的隱私,本文基于差分隱私提出了聚合方案。參與者在計算出任務的結果后,將按照平臺分配的隱私預算添加噪聲,隨后將結果發送給平臺。同時,為確保參與者的可信性,避免招募惡意的參與者,本文提出了參與者的信譽模型。最后,為了激勵用戶參與交易,通過考慮消費者對結果偏差的容忍約束和對參與者的隱私泄露補償,本文建立了以平臺收益最大化為目標的交易優化模型并進行了求解。因此,本節將描述提出的差分隱私聚合方案、信譽模型和交易優化模型的構建及求解。
將圖1 所示平臺記作P。一段時間內,P收集消費者的任務請求。令U表示消費者集合,U中包含J位消費者,uj∈U,1≤ j≤ J,uj向P提交任務 γj,所有任務的集合為Η,
設參與者的集合為W,wi∈W,1≤i≤ I。wi對任務 γj計算得到ri,j,ri,j∈[0,1],添加的噪聲為φi,j,則P對于任務 γj聚合得到的結果為

其中,fj(·) 表示聚合函數,為參與者結果的加權求和;qi,j表示wi針對任務 γj的歸一化權重;xi,j是一個二值函數,xi,j∈{0,1},xi,j=1表示wi被選中來參與任務 γj,xi,j=0表示wi未被選中;Wj表示被選中參與任務 γj的參與者的集合,設Wj中參與者的數量為K,0≤ K≤ I。
聚合后結果偏差可以定義為

CDT 中需要考慮的是單個參與者的隱私泄露問題,主要應對差分攻擊。差分隱私是一種應對差分攻擊的有效方法。首先定義差分隱私。
定義1εi,j-差分隱私[24]。任務 γj的聚合函數fj:[0,1]K→ R 滿足εi,j-差分隱私,則fj需要滿足:若存在2 個只在第i位參與者的結果處存在區別的相鄰向量(r1,j,…,ri′,j,…,rI,j),fj對于任何一組聚合結果O?Range(fj)都滿足式(3),則fj滿足εi,j-差分隱私。

其中,εi,j是正的參數,用來表征隱私保護的強度,εi,j越小,隱私保護強度越大,隱私泄露就越少。因此,隱私預算 εi,j可以用來表征泄露的隱私量。
對于聚合函數fj,提供差分隱私的一個著名方法是將拉普拉斯分布得出的隨機噪聲添加到聚合函數[25]。由于本文方案允許每個參與者自己增加噪聲,因此需要仔細設計噪聲,使這些噪聲的和等于從拉普拉斯分布中得到的隨機噪聲,即聚合噪聲服從拉普拉斯分布。


結論已知所有參與者的xi,j和qi,j,在聚合函數fj下,針對任務 γj每個參與者的隱私預算和聚合結果的偏差可表示為

證明已知所有參與者的xi,j和qi,j,在聚合函數fj下,敏感度為

等式變換(a)是由拉普拉斯分布的可分性得到的,φj是一個均值為0、方差為的拉普拉斯隨機變量。

如此,構建了參與者的隱私預算和結果偏差與參與者選取的關系。從式(8)和式(9)可以看出,參與者越多,結果偏差越小,但是隱私預算越大。從直觀上說,對于相同的任務,參與者越多,結果越精確,但每個參與者的隱私損失越大。此外,還需要仔細選擇參與者,因為他們有不同的信譽值(即qi,j),這也會導致不同的偏差。同時,不同參與者的成本也不同。因此,需要尋找一組合適的參與者來完成感知任務。
在得到Xj后,P會為每個參與者分配隱私預算,并聚合他們的結果,具體算法如算法1 所示。
算法1差分隱私聚合算法

4) end for
5) P 聚合參與者的結果(式(1)),得到回復給消費者的任務結果rj
需要注意的是,由于添加的噪聲服從拉普拉斯分布,因此算法1 適用于計算結果是連續型的情況。證畢。
當前已經有一些研究通過度量參與者的工作能力來確定其信譽值,但平臺需要知道參與者的一些信息如計算能力、存儲能力、所處位置、軌跡信息等,這些信息中往往蘊含著用戶的隱私[28-29]。因此,本文方案通過參與者在任務中的表現來設計信譽模型,基于參與者所提供的結果的準確程度來度量參與者的可信性,不再需要參與者提供上述隱私信息。參與者所提供的結果越精確,參與者的可信性越好,相應的信譽越高。不失一般性地,假設大部分參與者都是誠實的,會如實上報自己的結果。同時,用戶在注冊成為參與者時,平臺一般會進行一些測試以確保用戶有滿足需求的工作能力[30]。
信譽模型是通過平臺對參與者在任務中的評價而建立的。針對當前任務 γj,P對wi的信譽評價為

其中,τ 是固定的閾值,表示對誤差的容忍程度。
P 會更傾向于選擇近期進行過交易且信譽較高的wi,因此wi會存在累積信譽,并且交易時間越接近,對當前任務信譽值的影響就越大。設wi在一段時間內參與過Ψ 次P發布的任務,1≤ψ≤Ψ,影響參數越大表示距離當前任務越近,影響參數也越大。考慮時間因素,信譽模型可以更新為

同時,任務的相似程度也是需要考慮的問題,與wi當前所參與的任務越相似,給出的評價越具有價值。采用任務所需要收集數據屬性的杰卡德相似系數來度量2 個任務的相似程度[21]。因此,進一步考慮任務的相似程度,信譽模型可以更新為


其中,Mψ是第ψ 次任務所需要收集的數據屬性,Mj是P經過分析后認為完成任務 γj需要收集的數據屬性。式(1)中采用的qi,j是通過計算ei,j并進行歸一化得到的,即
交易優化模型的目標是在滿足消費者對結果偏差的約束及對參與者的隱私泄露補償的基礎上優化平臺的收益。平臺招募參與者以完成消費者的任務,因此平臺的收益與消費者支付的報酬以及需要支付給參與者的酬金相關。
2.4.1 消費者支付的報酬
對于收到的結果,偏差越小,消費者從結果中得到的收益越大,但同時需要付出的成本也會越多,因此消費者會在收益和成本之間進行權衡。基于結果的偏差,構建消費者的滿意度函數,它包含2 個部分:消費者從結果中所獲取的收益以及需要支付的報酬。消費者通過優化自身的滿意程度來確定最優的偏差,以及所支付的報酬。
設uj收到的結果的偏差為θj,uj可容忍的最大偏差為則uj的滿意度函數可以表示為

其中,S(uj)表示uj的收益,它是 θj的單調遞減函數,即偏差越大所能獲得的滿意度越低。因此,構建 S (uj)為

其中,αj表示固定的參數,由uj的特性決定,用來調整消費者對滿意度函數和成本的側重程度。
C (uj)表示消費者uj的成本,也就是消費者支付給平臺的報酬,結果是偏差越小,需要支付的報酬就越大,理論上,θj越小,C(uj)的增長程度越大,因為精度越高,繼續提高精度需要的成本越大[31]。因此,定義

其中,βj表示固定的參數,由消費者對成本的容忍程度來決定。因此,ST(uj)的完整形式為

消費者的目標是最大化其滿意度ST(uj),也就是最小化(-S T(uj))。

由于式(20)所示函數是嚴格凹的,且具有凸的約束,因此在KKT 條件下存在唯一的最優解。放寬約束,得到拉格朗日函數為

其中,λj和ηj是拉格朗日參數。
最優解滿足以下條件

2.4.2 支付給參與者的酬金
wi在收到P發布的任務后,將針對 γj能夠收集的數據屬性Mi,j及報價發送給平臺,設wi的報價為由2 個部分構成。一部分是wi完成任務 γj所需的固定成本,用hi,j表示,包含能源消耗、計算成本、數據傳輸成本等[32]。另一部分是wi的隱私成本,用pi,j表示,它與wi在任務中泄露的隱私成正比[22-23]。此時,參與者只需要上報單位隱私的價格,隱私的量可由平臺給出的隱私預算得出。當wj放棄任務 γj時將回復bi,j=0。
假設wi被分配任務 γj,對于任務 γj,wi的隱私成本為

其中,ωi,j表示單位隱私預算的成本;εi,j表示泄露的隱私量,添加的噪聲越多,隱私泄露越少,相應的成本越低。由于執行的任務都有時間限制,在劃分的時間間隔內消費者只會被分配一個任務。平臺支付給參與者的酬金為

2.4.3 交易優化模型
交易模型的目標是最大化平臺的收益,也就是從消費者處收到的報酬及支付給參與者的酬金之間的差值,因此可以將它的目標函數表示為

約束式(26)保證消費者得到的任務結果滿足預期的偏差。約束式(27)表明當結果不滿足消費者的預期偏差時,不會有參與者再進行此任務。約束式(28)說明參與者只有參與任務或不參與任務2 種狀態。約束式(29)保證每個參與者最多只能參與一個任務。
2.4.4 收益優化算法
交易優化模型具有大量的變量且約束函數包含二值函數,很難采用數值方法進行求解,而采用遍歷的方法計算復雜度較高,為JI,其中I和J分別表示參與者和消費者的數量。因此,本文基于遺傳算法提出了POA,如算法2 所示。
算法2POA

本文實驗使用北京的天氣和空氣質量數據來提供空氣質量預測服務。該數據集包含12 個空氣質量監測站點的空氣污染物數據。空氣質量數據來自北京市環境監測中心。每個空氣質量監測站點的氣象數據均與最近的氣象站相匹配。時間段是從2013 年3 月1 日到2017 年2 月28 日。因此每個數據集都包含35 064 條數據樣本。每條樣本包含時間、PM2.5、PM10、SO2含量等17 種屬性。實驗中,將每個空氣質量監測站的數據分成10 份,并將每一份看成一個參與者收集的數據,因此實驗中共引入了120 位參與者。為了使這120 位參與者的數據產生顯著差異,實驗中刪除了某些參與者的一些數據屬性。在實驗過程中,參與者使用經典的機器學習算法(如線性回歸算法等)提供空氣質量查詢、預測等服務。實驗虛擬了10 位消費者,即J=10。實驗平臺為一臺PC 主機,CPU 為i7-8700,主頻為3.20 GHz,內存為32 GB,頻率為2 666 MHz。
實驗主要展示了消費者滿意度函數隨偏差的變化,POA 的收斂性、可擴展性及有效性驗證,偏差和隱私預算隨參與者選擇的變化,消費者與參與者的變化對平臺收益的影響及信譽模型的有效性驗證。
消費者的滿意度函數考慮了獲取的收益和需要支付的報酬,為了展示最終的滿意度、獲取的收益及需要支付的報酬隨偏差的變化,給出了消費者的滿意度、獲取的收益及需要支付的報酬隨偏差的變化,如圖3 所示。

圖3 消費者的滿意度、獲取的收益及需要支付的報酬隨偏差的變化
消費者是從10 位消費者中隨機選取一位。由圖3 可知,隨著偏差的增大,獲取的收益和需要支付的報酬都逐漸降低,但獲取的收益降低的速度逐漸加快,而需要支付的報酬降低的速度逐漸放緩。因此,消費者的滿意度呈現先增長后降低的趨勢。當偏差取2.4時,消費者的滿意度達到最高值14.32,此時消費者需要付出的報酬為6.17。
為展示算法的收斂情況,給出了平臺的收益隨迭代次數的變化,如圖4 所示。

圖4 平臺的收益隨迭代次數的變化
從圖4 可以看出,隨著迭代次數的增多,平臺的收益逐漸增長。當達到一定的迭代次數后,收益的增長速度逐漸放緩,并最終趨于穩定。算法在120 次之內可以達到穩定狀態。
為了驗證算法的可擴展性,給出了迭代次數隨消費者和參與者數量增長的變化,如圖5 所示。

圖5 迭代次數隨消費者和參與者數量增長的變化
圖5 中標注的數字表示“消費者數量+參與者數量”,如“5+120”表示此次實驗中包含5 位消費者和120 位參與者。從圖5 可以看出,隨著消費者和參與者數量的增加,算法的迭代次數呈線性增加。這一結果驗證了POA 對大規模數據交易系統具有較高的可擴展性。
為進一步展示POA 的有效性,將其與VENUS、DPDT 以及窮舉法的實驗結果進行了對比,實驗結果如圖6 和圖7 所示。其中,VENUS 是Zheng 等[8]提出的一種基于貪婪策略的群體感知數據交易方案,以聯合優化利潤最大化和支付最小化問題;DPDT 是Gao 等[34]提出的一種滿足差分隱私的群體感知數據交易機制,采用差分隱私拍賣的方法來實現數據定價和數據收集。

圖6 幾種算法在平臺的收益方面的對比

圖7 幾種算法在運行時間上的對比
從圖6 和圖7 可以看出,窮舉法具有最高的收益,但它的運行時間遠超其他3 種算法。相比于VENUS 和DPDT,POA 在平臺的收益方面分別提高了29.27%和20.45%,達到了窮舉法的98.15%,運行時間也僅略高于DPDT。從平臺的收益和運行時間綜合來看,本文方案取得了最好的效果。
按照本文方案中構建的參與者選擇與隱私預算和偏差的關系,對于相同的感知任務,被選中的參與者越多,偏差越低,但同時會導致每個參與者有更高的隱私預算,從而泄露更多的隱私,為此,給出了偏差和隱私預算隨被選中的參與者數量的變化,如圖8 所示。

圖8 偏差和隱私預算隨被選中的參與者數量的變化
從圖8 可以看出,隨著被選中的參與者的數量增加,偏差逐漸減少,但每個參與者的隱私預算逐漸增多,且隨著參與者數量的增長,隱私預算的增長速度越來越快,這與前文的分析是一致的。參與者的信譽值也會對參與者的選取造成影響,為展示這種影響,給出了不同信譽值下偏差和隱私預算隨被選中的參與者數量的變化,如圖9 所示。

圖9 不同信譽值下偏差和隱私預算隨被選中的參與者數量的變化
圖9 中,高信譽值情況下,參與者的平均信譽值為0.9;低信譽值情況下,參與者的平均信譽值為0.7。在選取相同參與者數量的情況下,高信譽值的參與者具有更低的偏差,同時他們的隱私預算情況基本重合,都出現了隨著被選中的參與者數量增長隱私預算增長越來越快的現象。
為了展示隱私預算與數據效用之間的關系,給出了幾種算法數據效用隨隱私預算變化的對比,如圖10 所示。

圖10 幾種算法數據效用隨隱私預算變化的對比
圖10 中,READ 和AFTF(partial arbitrage free trading framework)分別是Cai 等[35]和Zheng 等[36]提出的基于差分隱私的數據交易算法。隱私預算可以用來表征隱私保護力度,兩者成反比,隱私預算越小表示隱私保護力度越強。數據效用是利用數據為消費者帶來的收益來計算的。從圖10 中可以看出,隨著隱私預算的逐漸增長,即隱私保護力度的逐漸減小,數據效用逐漸增加,并最終穩定到最高值。從幾種算法的對比來看,在相同的隱私保護程度下,POA 可以帶來更高的數據效用。這是因為POA 采用的差分隱私聚合算法考慮了拉普拉斯分布的可分性,將拉普拉斯分布構造為多個獨立同分布的伽馬分布的和,使每個參與者所添加的噪聲之和等于從拉普拉斯分布中得到的隨機噪聲。相比于取噪聲最大值的傳統拉普拉斯機制,對于每位參與者來說,可以使用更少的噪聲添加來提供更高的隱私保護力度。因此,相比于其余幾種算法,POA 在相同隱私保護力度情況下的參與者所需要添加的噪聲更少,從而帶來了更高的數據效用。
圖11 展示了平臺的收益隨隱私預算的變化。當隱私預算很小時,任務的偏差無法滿足消費者的需求,此時平臺無法承接消費者的任務,因此收益為0。隨著隱私預算逐漸增大,可以達到的任務偏差會逐漸減少,當滿足任務需求時,平臺開始承接消費者的任務。隨著所承接任務數量的增長,平臺的收益急劇增長。此時,由于支付給參與者的隱私成本最小,平臺也可以獲取最大的利潤。隨著隱私預算繼續增大,平臺從消費者處獲取的任務報酬沒有變化,但支付給參與者的酬金逐漸增長,平臺的總收益與每筆任務的平均收益會逐漸減小,最終歸于零收益。因此,在收到消費者提交的偏差需求及報酬后,平臺會仔細挑選參與者,在滿足消費者偏差需求的基礎上,盡可能地減少隱私預算,以最優化自身的收益。而減小隱私預算,則意味著對參與者隱私保護的增強。

圖11 平臺的收益隨隱私預算的變化
圖12 展示了高信譽值、低信譽值和不考慮信譽值的情況下平臺收益的變化。從圖12 可以看出,隨著迭代次數的增長,3 種情況下平臺的收益都逐漸增長,并最終達到穩定狀態。當達到穩定狀態時,高信譽值情況下的平臺取得了最高的收益,信譽值的考慮確實提升了平臺的收益,而且參與者的信譽值越高,提升的幅度越大。這也說明了平臺會更傾向于選擇具有高信譽值的參與者,從而督促參與者在任務中誠實表現以提升信譽值。

圖12 信譽對平臺的收益的影響
為展示消費者和參與者的數量變化對平臺的收益的影響,給出了平臺的收益及被選中的參與者數量隨消費者數量的變化和平臺的收益及完成的任務數隨參與者數量的變化,分別如圖13 和圖14 所示。

圖13 平臺的收益及被選中的參與者數量隨消費者數量的變化

圖14 平臺的收益及完成的任務數隨參與者數量的變化
從圖13 可以看出,隨著消費者數量的增長,被選中的參與者數量逐漸增加,所能完成的任務數隨之增加,最終導致平臺的收益也逐漸增加。從圖14可以看出,隨著參與者的數量增加,完成的任務數逐漸增多,當達到任務上限后,平臺會對選取的參與者進行進一步優化,從而提高自身的收益。這說明消費者和參與者的增加都有利于提高平臺的收益,這成為平臺接受此模式并推動其發展的動機。
為了驗證設計的信譽模型是否能夠反映參與者在任務中的表現,本節設計了2 種參與者,一種是普通的參與者,他會正常完成任務,并且在任務中逐步提升結果的精確度;另一種是惡意的參與者,他開始也像普通的參與者那樣表現,但達到一定次數后會發動攻擊,即提供極差的結果,隨后,恢復正常。兩者的信譽值變化如圖15 所示。

圖15 信譽值變化對比
從圖15 可以看出,隨著結果精確度的逐漸提高,普通的參與者的信譽值隨參與任務的次數的增多而逐漸增長,最終達到穩定。惡意的參與者的信譽值在他發起攻擊時急劇下降,當他恢復正常后,他的信譽值也恢復正常的增長。這表明信譽模型對參與者的行為是敏感的。參與者“壞”的行為會體現在其信譽值上,從而促使參與者采取“好”的行為來提高信譽。
為了保護參與者的隱私,本文提出了一種隱私保護的群體感知數據交易框架。在此框架下,本文提出了基于差分隱私的聚合方案。參與者收集數據并進行計算,隨后在計算結果中按照平臺分配的隱私預算添加噪聲,最后將分析結果發送給平臺。這既保證了對參與者的隱私保護,又保障了聚合結果的可用性。此外,本文還提出了參與者的信譽模型,以保障參與者的可信性。通過考慮消費者的偏差約束和對參與者的隱私補償,構建了以平臺收益最大化為目標的交易優化模型,并提出了POA 進行求解,從而激勵用戶參與數據交易。基于北京的天氣和空氣質量數據的實驗表明,本文方案在實現參與者隱私保護的基礎上提升了平臺的收益。