毛一凡 趙 濤 于鵬飛 高先周 楊如俠
1(國家電網有限公司大數據中心 北京 100031) 2(全球能源互聯網研究院有限公司 江蘇 南京 210003) 3(信息網絡安全國網重點實驗室 江蘇 南京 210003)
隨著網絡技術的不斷發展,網絡空間中不同體系結構、不同應用領域的異構網絡協同并存,如何統一管理網絡實體的多域多形態身份是一個挑戰性問題。針對該問題,構建信任聯盟實現網絡身份管理,已經成為學術界和產業界的共識。微軟的Passport[1]、Google基于OpenID協議[2]建立的Google Accounts及CICP服務已形成商用化的身份管理聯盟,能夠為用戶提供聯盟內一致的身份和賬戶管理,將用戶身份的有效域從單一機構擴展到聯盟范圍。然而,在跨域信任聯盟中依然存在著一些問題,如身份認證[3]、跨域信任評價等。本文將針對聯盟體系中信任評價問題進行深入的研究。
異構身份聯盟體系中存在多個身份管理域,在單個評價周期內,每個身份管理域根據域內用戶的狀態、行為以及歷史記錄,分析獲得用戶身份可信程度的評價值,并將該評價值共享給其他身份管理域以形成聯盟內對用戶的綜合可信度評價。該綜合可信度評價結果將為各個域對用戶訪問服務/資源的權限管理提供重要依據。其中,身份管理域內獲取的用戶可信度評價對該身份域而言可能是敏感信息。每個身份域不想將其產生的對用戶的真實評價結果直接暴露給其他身份域。從一方面來說,在身份域共享用戶可信度評價結果時,可能被某些用戶截獲,當用戶發現自己評價較低時,或許會采取脫離該身份域等行為,這可能對身份管理域產生一些不好的影響;另一方面,身份域在獲知其他域共享來的用戶真實評價后,有可能會在用戶的評價結果中加入主觀因素的考量,從而無法得到身份域對用戶客觀真實的評價結果。因此,本文將借助本地差分隱私[4-6]設計相應的隱私保護機制,使得身份域在共享用戶可信度評價時能夠隱藏其隱私信息,同時仍然能夠計算出對用戶的綜合可信度評價結果。
定義1(本地差分隱私ε-LDP[4-6])一個隨機化的算A:D→O滿足ε-本地差分隱私(LDP),當且僅當對于任意的輸入d,d′∈D,以及任意的輸出o∈O,其滿足:

(1)
式中:ε被稱為隱私保護預算(ε≥0)。ε在一定程度可以衡量隱私保護程度的大小,由式(1)可知,ε越小(大),任意兩個不同的輸入(d,d′)經過算法A之后得到相同輸出(o)的概率也就越大(小),則d與d′的不可區分程度也就越高(低)。
最初為了保護人們在敏感問題調研中的個人隱私(例如:您曾經是否有過作弊?),Warner[7]提出了二元隨機響應機制。在該機制下,被調研的用戶在回答問題之前,先拋擲一枚有偏的硬幣(即,正面朝上的概率為p,p>0.5)。如果用戶擲到正面,則提供他正確的回答,反之,則給出錯誤的答案。當調研者(收集者)收集到足夠用戶的數據之后,則可根據式(2)估算出人群中真實數據為“是”的頻率p(′yes′):
(2)

當輸入為多元數據,即類別數量為K(K≥2)的類別數據時,其處理與二元隨機機制類似,每個用戶以p(p>0.5)的概率提供自己真實的類別數據,以1-p的概率從其余K-1個類別中隨機抽取一個類別數據進行提交。收集者收到足夠數據之后,通過式(3)即可估算出某一類(k,k∈{1,2,…,K})的頻率:
(3)

(4)
當對數值型數據求均值時,通常可以在數據中加入均值為0的拉普拉斯噪聲來實現差分隱私的保證(拉普拉斯機制[8-9])。然后,將加過噪聲的數據進行相加即可得到無偏的和值以及均值。然而,當ε較小時,須要加入方差較大的噪聲來滿足其隱私保護程度,這將導致最終得到的估計結果準確度偏低。隨后,Duchi等[10-11]提出了一種新的滿足本地差分隱私的均值計算方法。在該機制下,假設用戶的數據范圍為[-1,1],每個用戶通過以下概率對自己的真實數據d(d∈[-1,1])進行變換:
(5)

異構身份聯盟體系中包含多個服務提供者,它們形成了多個身份管理域,其中每個域涵蓋了一個或多個服務提供者。在一個評價周期內,每個域對其所擁有的用戶等實體的可信度進行評價,并將其所得到的用戶可信度傳遞給聯盟內的其他用戶管理域,最終形成聯盟內對用戶的綜合可信度評價。
假設聯盟中共有n個身份管理域,其中,令Cij表示域Ri(i∈{1,2,…,n})對用戶uj在某一周期內的可信度評估結果,通常Cij的取值是0到1范圍上的實數,即Cij∈[0,1]。通過表1可將實數表示的Cij對應轉換成離散的可信度級別Tij,Tij∈{1,2,…,5}。

表1 用戶可信度相對關系
然后每個域Ri將轉為離散數據的可信度評價結果Tij共享給其余n-1個域。接收到其余域對用戶uj的評價之后,Ri通過均值計算則可獲得該周期內聯盟中對用戶uj的總和評價結果Zj,即Zj=mean(T1j,T2j,…,Tnj)。
然而,每個域對用戶的評價結果都是敏感的,它們不愿將自己對用戶的真實評價公布給其他的身份域。因此,本文將借助本地差分隱私技術設計具有隱私保護效果的信任評價方案,實現對身份域評價結果的隱私保護,同時也能夠使每個身份域獲得聯盟中對用戶的綜合評價。
本文采取Duchi求均值的機制實現對每個身份域敏感信息(用戶信任評價結果)的隱私保護,并獲取多個身份域評價結果的均值信息。由于Duchi機制中的數據范圍為[-1,1],因此,每個身份域Ri首先須要對所得的用戶可信度級別(Tij)做一個幅度縮放,將其映射到[-1,1]的范圍上:
(6)

算法1DTM
輸入:身份域Ri對用戶uj的可信度級別Tij,隱私預算ε。
1) 根據式(6)對真實的可信度級別Tij進行幅度縮放,并將縮放后的數值標記為dij。
2) 將dij按照以下概率進行變換:
(7)

定理1方案DTM滿足ε-本地差分隱私。
證明在該證明中,令A代表方案DTM。根據本地差分隱私的定義,可以寫出:
(8)
或者:
(9)
式中:Tij、dij、Ti′j、di′j是任意兩個身份域Ri、Ri′對用戶uj的可信度評價以及其縮放后的數值。當dij=1、di′j=-1時,式(8)取得最大值,即為eε;當dij=-1、di′j=1時,式(9)取得最大值,即為eε;綜上可得:
因此,該方案DTM滿足滿足ε-本地差分隱私。

(10)

所以:

(11)
其中:
(12)
由式(12)可知,當dij=0時,其方差取到最大值,因此:
(13)
由式(11)與式(13)可得:
2.1節介紹了表1可將每個身份域Ri對用戶uj的可信度評估值Cij轉換成離散數據型的可信度級別Tij。在計算Zj時,除了把{T1j,T2j,…,Tnj}按照數值相加求平均來做之外,還可將其轉化為加權平均值的問題來進行處理,正如式(14)所示。
(14)
式中:t∈T,T={1,2,…,5},表示五個不同可信度級別取值的集合;f(t)代表t在{T1j,T2j,…,Tnj}中出現的頻率。此時,求解平均值的問題就轉變成求解每個可信度級別頻率f(t)的問題。考慮到每個身份域敏感信息的隱私保護問題,本文將借助多元隨機響應機制實現差分隱私下的可信度級別的頻率估算。

算法2RTM-1
輸入:身份域Ri對用戶uj的可信度級別Tij,隱私預算ε。
1) 將Tij按照以下概率進行擾亂:
(15)
當身份域Ri接收到全部身份域發送來的可信度級別之后,便可以按照如下公式可以對所有的可信度級別進行頻率估計:
(16)

算法3RTM-2




定理3方案RTM-1滿足ε-本地差分隱私。
證明在該證明中,令A代表方案RTM-1。根據本地差分隱私的定義,可以寫出:
(17)
式中:Tij、Ti′j是任意兩個身份域Ri、Ri′對用戶uj的可信度評價。根據式(15)可知,當Tij=T*且Ti′j≠T*時,式(17)取得最大值,即eε,所以:

(18)
方案RTM-1滿足ε-本地差分隱私。

(19)
證明根據式(14)和式(16),可得:
(20)

(21)
根據文獻[12]中的式(4),可計算出:

本節將對2.2節和2.3節中的方案進行理論上的對比,分析差分隱私預算的大小對兩種方案誤差的影響。
定理5當隱私預算ε約大于2.6時,RTM方案下關于綜合評價結果估算的方差可小于DTM方案下的方差。
證明由式(10)和式(19)寫出:
化簡可得:
55·(eε+3)≤4(eε+1)2
165≤4(eε+1)2-55eε
ε≥2.6
實驗部分主要針對本文方案的估算精度進行了深入的分析。具體地,本文想要從隱私保護預算以及參與對某一用戶信任度評價的身份域數目兩方面,來分析其對綜合信任度估算的準確度影響。為了到達上述目的,本文隨機生成四個分別包含30條、50條、80條和100條數據的均勻分布數據集,用以模擬30個、50個、80個和100個身份域對某一用戶做出的信任度評價。四個數據集中每條數據取值范圍均為[0,1]。數據在進行隱私保護之前,需將其根據表1進行離散化,然后再利用本文提出方案中的數據處理算法(DTM-1,RTM-1)對其進行隨機擾亂來達到隱私保護目的。實驗中用相對誤差(RE)來衡量估算出的綜合信任度評價與真實值之間的差異:
(22)

實驗環境為Intel Core i5 CPU 3.1 GHz,8 GB內存。本文算法均在MATLAB中進行實現,并做出實驗圖表,實驗結果取10次實驗的平均值。
為了有效地說明本文算法的可用性,本節將設計的兩種算法(DTM,RTM)在不同的隱私預算下進行了對比,并將其趨勢呈現在圖1中。實驗中,差分隱私預算的取值大小分別為{0.5,1,2,4,6,8}。從圖1可以看出,在所有數據集上,隨著隱私預算ε的增大,兩種算法估計結果的誤差呈現出下降的趨勢,即估算精度逐步提高。此外,在所有數據集上,當隱私預算ε大于2時,RTM算法的估計結果的準確度總是比DTM算法的更加精確,這與2.4節中的理論分析結果相一致。圖2中對比了兩種算法在相同隱私預算下不同數據集上的表現,即參與評價的身份域數目對估算結果的影響。可以觀察到,這與第2節中的誤差理論分析相吻合。

(a) n=30 (b) n=50

(c) n=80 (d) n=100圖1 不同ε取值下DTM與RTM算法的誤差對比

(a) (b)圖2 不同數據集下DTM與RTM算法的誤差對比
總的來說,當隱私預算ε較小時,DTM方案呈現出較好的優勢;當ε逐漸變大后,RTM方案將得到精度更高的估算結果。整體來看,當隱私預算ε取到4時,本文兩種方案的估計誤差基本不會超過0.05。另外,參與計算的身份域個數也對計算結果的精度有所影響,身份域個數越多,估算出結果更加準確。通過本節的實驗,可以證明本文提出的兩種算法能夠有效達到隱私保護的效果,同時也能估算出較為精確的綜合信任度評價。
在目前已有的異構環境下的信任評估工作[13-14]中,多是考慮用戶在跨域訪問中由于不同系統信任度評價機制不統一造成的對數據訪問的安全威脅,還未出現與本文類似的針對用戶可信度評價數據的隱私保護工作。此外,與本文均值計算相關的隱私保護方案,除了基于本地差分隱私的均值機制,還存在一些利用安全多方計算技術進行設計的均值計算算法。然而,安全多方計算中多用到密碼學工具,雖然可以獲得準確的計算結果,但其通信和計算開銷往往較大,難以有效地在異構身份聯盟環境下應用。
本文主要研究了聯盟體系內關于用戶綜合信任度評估計算中存在的隱私泄漏問題,并基于已有的差分隱私保護機制,設計了兩種滿足ε-本地差分隱私的綜合可信度計算算法。在該算法下,每個身份域在共享對用戶的真實評價結果時可以有效地隱藏其真實信息,同時,仍然能夠從所有身份域擾亂的評價結果中恢復出對用戶的綜合可信度評價結果。通過理論分析和實驗驗證,該算法能夠達到相應的隱私保護效果,并能獲得高準確率的計算結果。