葛國棟郭云飛 劉彩霞 蘭巨龍
(國家數字交換系統工程技術研究中心 鄭州 450002)
內容中心網絡中面向隱私保護的協作緩存策略
葛國棟*郭云飛 劉彩霞 蘭巨龍
(國家數字交換系統工程技術研究中心 鄭州 450002)
針對內容中心網絡節點普遍緩存帶來的隱私泄露問題,在兼顧內容分發性能的基礎上,該文提出一種面向隱私保護的協作緩存策略。該策略從信息熵的角度提出隱私度量指標,以增大攻擊者的不確定度為目標,首先對于緩存策略的合理性給予證明;其次,通過構建空間匿名區域,擴大用戶匿名集合,增大緩存內容的歸屬不確定性。緩存決策時,針對垂直請求路徑和水平匿名區域,分別提出沿途熱點緩存和局域hash協同的存儲策略,減小緩存冗余和隱私信息泄露。仿真結果表明,該策略可減小內容請求時延,提高緩存命中率,在提升內容分發效率的同時增強了用戶隱私保護水平。
內容中心網絡;協作緩存;隱私保護;內容路由
隨著互聯網技術與應用的飛速發展,“寬帶化”、“內容化”與“個性化”已成為未來網絡發展的主旋律,人們對于數據內容的需求日益強烈,網絡應用的主體逐步向內容請求和信息服務演進[1]。據Cisco VNI的統計預測,2012年~2017年期間,IP流量將以23%的年均復合增長率增加。其中,大部分流量都源自內容獲取類應用,預計到2016年,僅視頻類流量將占據超過86%的份額[2]。為了適應不斷增長的內容訪問需求,內容中心網絡(Content Centric Networking, CCN)[3]作為一種革命式(clean-slate)的未來互聯網設計思路,讓內容本身成為網絡通信的主體單元,將網絡通信模式從關注“在哪”(地址、服務器)轉變為關注“是什么”,成為未來互聯網設計的重要模式。CCN在中間層用命名數據取代IP,數據傳輸采用“發布-請求-響應”模式,直接以內容名字進行路由。當沿途節點接收到興趣包請求后,依據內容名字依次在內容存儲器(Content Store, CS)、未決請求表(Pending Interest Tab le, PIT)和轉發信息庫(Forwarding In form ation Base, FIB)中進行匹配查詢[4],采用網絡內在普遍緩存(In-network caching)的方式,在興趣包沿途轉發路徑的所有節點上存儲應答內容,使得網絡不僅是一個傳輸體,更是一個內容存儲、服務平臺。
內容的泛在存儲在提升內容分發性能的同時,卻增大了用戶隱私的攻擊平面和探測范圍,給用戶的隱私安全帶來嚴重威脅[5]。在CCN中,由于內容命名語義與數據本身緊密相關,節點緩存內容會泄露大量的用戶通信痕跡和請求行為信息,攻擊者只要獲取內容名字,即可請求相應的數據內容,導致嚴重的隱私信息泄露。
文獻[6, 7]對于用戶隱私威脅和信息泄露問題進行了全面的分析,指出在CCN中,必須綜合考慮內容分發性能和用戶隱私安全之間的關系,將隱私信息保護融入到CCN內在的緩存機制設計中。文獻[5]提出了3種隱私攻擊模式,并分別分析了攻擊執行的條件和具體流程;文獻[8]提出了使用隨機延遲的方式,通過對就近緩存內容的響應時間附加額外時延,以使攻擊者不能依據數據響應時間執行緩存內容探測,防止信息泄露。但是該方案卻增大了用戶請求時延,導致CCN網絡緩存就近響應帶來的低時延優勢無法發揮;文獻[9]采用洋蔥路由思想對數據包進行多重隧道加密,實現信息中心網絡(Information-Centric Networking, ICN)中的隱私性保護。但是,由于需要執行多次隧道的加解密操作,將會引入較大的內容傳輸延遲和額外開銷;文獻[10]提出了一種隱藏內容名字和數據信息的思想,將請求目標內容和掩護內容名字進行混合,以增加攻擊者解析難度和探測成本,增強用戶隱私保護;文獻[7]指出,在緩存策略設計時,可以通過局部節點的協作緩存,增大請求者的匿名集合,實現用戶隱私保護,但是文中并沒有給出具體的實現機制。現有方案的不足之處主要體現在:(1)以犧牲內容分發效率來換取用戶匿名性和隱私保護的提高;(2)隱私防護策略需要網絡增加額外的功能和報文處理,引入大量的計算和代價開銷,沒有從CCN網絡內在緩存設計的角度來解決隱私泄露問題。
本文認為緩存策略的設計必須綜合考慮內容分發效率和用戶隱私安全,將隱私信息保護融入到CCN內在的緩存策略設計中。為此,本文提出一種面向隱私保護的協作緩存策略(Collaborative Caching Strategy for Privacy Protection, CCSPP),從增大攻擊者判斷的不確定性出發,以擴大用戶匿名范圍來增加緩存內容的歸屬不確定度,通過請求內容的熱點存儲和混淆放置來減小隱私信息泄露,提升用戶隱私保護水平。
2.1 隱私度量
為了度量用戶的隱私保護程度,采用信息熵理論,來量化攻擊者對于內容請求者推測的不確定程度。信息熵用于表示某種特定信息的出現概率,一個系統越是規則有序,信息熵就越低。對于攻擊者而言,其主要目標是推測緩存內容對應的真正請求者,獲知用戶的請求行為。攻擊者推測內容實際請求用戶的不確定度越大,用戶隱私保護水平越高。
定義1 匿名區域(Anonym ity Dom ain, AD):表示內容路由器(Content Router, CR)與其接入用戶構成的局部空間區域。當攻擊者與合法用戶共同接入CR時,AD代表了攻擊者可以探測的鄰居用戶集合,也構成了內容請求者可以進行匿名混淆的空間范圍。
定義2 隱私匿名熵(Privacy Anonym ity Entropy, PAE):表示對于緩存內容,攻擊者推測實際請求者的平均不確定度。例如,當CR的接入用戶數量為k,在攻擊者沒有任何先驗背景知識下,內容請求者被識別的概率不超過1/k,從而實現了一種空間k-匿名。對于CR構成的匿名區域AD,對應的PAE大小為

其中,p( u)表示用戶被識別的概率。對于節點的緩存內容,其包含的接入用戶數量越多,對應的匿名集合越大,攻擊者探測的不確定度越大,用戶隱私保護程度越高。
對于攻擊者而言,主要目標是判斷內容的實際請求者并竊取用戶的敏感信息。對于那些流行程度大,眾多用戶同時請求的熱門內容,攻擊者難以進行單獨的區分定位,大幅降低了攻擊者推斷目標個體的成功率[5]。內容請求概率越大,不確定度減小量越小,其所能泄露的隱私信息越少。為此,為了度量緩存內容對于用戶隱私的危害程度,提出隱私泄露度的概念。
定義3 隱私泄露度(Privacy Leak Degree,PLD):定義為單位存儲空間緩存內容泄露的信息量大小,表示緩存內容對于用戶隱私的危害程度。對于請求概率為p( ci)的緩存內容ci,其包含的信息量I(ci)為

內容的請求概率越小,攻擊者獲得的不確定度的減小量越大,泄露的信息量越多。對于緩存空間為U的CR,單位存儲空間對應的隱私泄露度PLD大小為

其中,C(CR)為節點的緩存內容集合,P(CR)為對應的請求概率分布。在緩存決策時,節點存儲內容的請求概率越大,PLD取值越小,對用戶的隱私危害程度越低。
2.2 合理性證明

結論1 為了提高內容請求者的隱私保護水平,增大隱私匿名熵PAE,應擴大接入用戶對應的匿名區域范圍,增加攻擊者推測的不確定性。
定理2 隱私泄露度PLD與CR緩存內容的請求概率成反比。

結論2 為了減小緩存內容的隱私泄露度PLD,在執行緩存決策時,應盡量避免對于流行程度低,請求概率小的敏感信息存儲。
CCSPP主要設計思想包括:(1)擴大用戶匿名區域范圍,從而增大攻擊者推測的不確定性,提高PAE取值;(2)沿途熱點緩存。將應答內容存儲在沿途最大的熱點請求區域,避免對于請求概率低的冷門資源的緩存,降低PLD; (3)域內協同存儲。AD所屬節點基于一致性hash實現請求內容的協同存儲,內容的協同混淆存儲,使得攻擊者推測的難度和不確定度成倍增加,隱私匿名熵PAE取值明顯提升。
3.1 匿名區域構建

步驟1 依據節點度分布D,選擇V中度數最大節點作為管理節點,將其一跳鄰居節點作為隸屬節點,建立匿名區域AD。若出現度數相同節點,隨機進行選擇。
步驟2 添加AD到AD(G)中,更新管理和隸屬節點集合。
步驟3 更新剩余節點集:V= V-AD( G)。
步驟4 判斷V中節點是否全部包含于AD(G)。若V≠?,則說明還有剩余節點沒有進行匿名區域劃分,重復執行步驟1~步驟3。

3.2 沿途熱點緩存
定義4 區域內容活躍度(Domain Content Activity, DCA):表示在整個匿名區域AD內,特定內容被請求的頻度。單位時間T內,內容c在AD中對應的DCA為

其中,n( vi)表示時間T內,AD中節點vi對于內容c的請求次數。DCA(c)是內容c在AD所有節點上的請求頻度之和,衡量了整個匿名區域對于該內容的整體需求程度。
沿途熱點緩存用來確定應答內容存儲的目標AD,請求內容只存儲在沿途內容活躍度最大的熱點請求區域。在興趣包和數據包中添加DCA字段,用于記錄和匹配沿途AD的內容活躍度信息,下面給出緩存策略的具體步驟:
步驟 1 內容請求者 vr發送興趣包請求內容c,節點接收到請求報文后,若CS已經緩存內容,直接進行響應;若CS和PIT中沒有對應的請求內容和接口信息,將興趣包轉發到所屬AD對應的管理節點 vM。
步驟 2 vM查詢其CS是否存儲請求內容,如果包含該內容,則直接進行響應。否則, vM執行一致性hash運算,判斷是否執行AD內的局域緩存查找(見3.4節),若其它隸屬節點含有該請求內容,將興趣包轉發至目標隸屬節點,實現局部就近應答。
步驟3 如果不執行局域緩存查找,管理節點vM在興趣包中添加該內容對應的區域活躍度信息DCA(c),并依據FIB表項執行下一跳路由轉發。
步驟4 通過興趣包逐跳的上行傳輸,依次記錄和添加沿途AD對于內容c的活躍度信息。每當興趣包轉發至下一個AD,管理節點 vM將相鄰AD對應的DCA(c)取值大小進行比較,并將DCA(c)更新為最大值。
步驟 5 最終,當興趣包到達內容提供者 vp后,DCA(c)記錄的就是對于內容對象c,沿途匿名區域中最大的內容活躍度取值DCAmax(c),其反映了垂直請求路徑上,內容c對應的最大熱點請求區域。
步驟 6 當 vp發送數據包進行應答時,將上行興趣包中攜帶的DCAmax(c)添加到數據包的DCA(c)選項中,并依次比對反向路徑對應的活躍度信息,匹配目標AD,實現應答內容的熱點區域存儲。
3.3 區域協同存儲
當數據包到達目標AD后, vM執行以下兩種操作:(1)正常數據轉發。節點依據PIT表項的逐跳記錄,向請求者傳送應答數據內容;(2)區域內容存儲。管理節點 vM依據DCA取值,判斷是否緩存該應答內容。如果 vM中已有緩存內容的活躍度均大于內容c的活躍度DCAmax(c), vM不執行內容緩存,將c直接發送到下一級隸屬節點進行存儲。否則, vM將其添加到CS存儲單元最頂層,將最底層緩存單元內容替換淘汰,并發送到下一級隸屬節點進行存儲。目標緩存節點 vt的確定通過 vM執行一致性hash來進行計算:

其中,輸入為內容名字(Cname),目標空間為AD包含的隸屬節點集合S,輸出為目標緩存節點 vt。管理節點確定目標存儲節點 vt后,從對應的轉發接口將內容發送至隸屬節點 vt進行存儲。
3.4 緩存查找與路由轉發
當管理節點Mv緩存了最新到達的內容后,其CS替換的內容將會被發送到下級隸屬節點tv進行存儲。為了維持目標節點的存儲狀態,Mv將建立緩存信息表(Cache Inform ation Table, CIT)用于記錄相應的存儲信息。每當替換內容被發送到tv后,對應的內容名字將被添加到CIT表項中,并進行動態更新。節點接收到后續請求興趣包時,首先查找CS中是否已存儲了該請求內容c,若匹配成功,直接返回數據包進行響應。否則,查找PIT表項,若已包含該內容的請求條目,直接添加到達接口到已有的請求列表中;如果為最新請求內容,在PIT中新增內容對應的請求條目,并將興趣包轉發至所屬AD的管理節點Mv。如果Mv已包含該內容,則直接進行響應,否則執行以下兩種策略:(1)Mv查詢CIT表項,如果包含該內容名字,說明該請求內容在AD內其他隸屬節點已經緩存。Mv執行一致性hash運算,確定目標緩存節點tv,將興趣包轉發至節點tv;(2)不必執行局域的緩存查找,直接依據FIB表項執行下一跳路由轉發。
4.1 仿真環境與參數設置

4.2 性能分析
將CCSPP與基于隨機化延遲的方案(Generate Random Delay, GRD)[8]和基于緩存年齡(Age)的存儲方案[15]進行對比分析,性能評價指標包括:平均請求時延(Average Request Delay, ARD),緩存命中率(Cache Hit Ratio, CHR),隱私匿名熵PAE和隱私泄露度PLD。
(1)平均請求時延: 圖1給出α=0.8和α=1.0時,各方案ARD對比,采樣時間間隔T=5 s。仿真初始階段,由于網絡節點存儲狀態為空,興趣包都需要轉發至內容服務器獲取響應,ARD較大。但隨著內容不斷存儲,緩存內容的響應率逐步增加,ARD隨之減小。
在GRD中,采用隨機延遲的方式,對就近緩存內容的響應時間附加額外時延,防止攻擊探測和信息泄露。但是該方案增大了內容響應時間,對應的ARD最大;Age依據內容流行等級和節點距離數據源的路由跳數,設置緩存時間大小,但該方案僅僅考慮了垂直請求路徑方向上的緩存放置,對于沿途路徑以外的局部緩存資源無法進行加以利用,ARD高于CCSPP; CCSPP在應答內容存儲時,依據AD對請求內容的整體需求程度,將應答內容存儲在沿途活躍度最高的熱點請求區域。內容請求時,不僅可以利用傳輸路徑上緩存資源,對于沿途AD隸屬節點上的內容副本也可加以利用,減小了內容請求時延,ARD是各方案中最小的。
(2)緩存命中率: 圖2給出α=0.8和α=1.0時,各節點的CHR對比。對于GRD,在緩存決策時,采用的依舊是CCN泛濫式的沿途全部緩存方式,大量的緩存冗余和高頻率的內容替換更新,導致緩存缺失概率增大,CHR明顯小于CCSPP; Age在路由查找時,緩存內容的可用性只局限于沿途傳輸路徑,內容請求對于沿途附近存在的大量緩存資源無法加以利用;對于CCSPP,整個AD最活躍的請求內容存儲在度數最大的管理節上,隸屬節點緩存缺失內容都將轉發至管理節點,有效增大其緩存內容后續利用率,各管理節點對應的CHR取值明顯高于其它節點。同時,局域緩存查找增加了隸屬節點緩存利用率,各節點對應的CHR都得到不同程度提高。
(3)隱私匿名熵: 圖3給出了k~U(1, 10),各方案的PAE對比。在Age中,節點間缺乏相互協同,內容請求者的匿名范圍只局限于接入節點,隱私匿名熵的大小取決于接入節點包含的用戶數量,PAE明顯小于CCSPP; GRD通過附加額外時延,以使攻擊者錯誤地認為請求內容緩存在一定跳數之外的路由器上,從而增大了合法請求用戶的隱私匿名范圍,提升了PAE取值;對于CCSPP,整個網絡被劃分為不同范圍的匿名區域,除了少數由單獨節點構成,其余都是由多個不同的接入節點協同組成,匿名區域用戶數量的成倍增加,使得攻擊者推測的成功概率大幅減小。相比Age和GRD,匿名區域的擴大和請求內容的協同混淆存儲,使得攻擊者推測的難度和不確定度成倍增加,隱私匿名熵PAE取值明顯提升。

圖1 平均請求時延ARD對比

圖2 節點緩存命中率對比
(4)隱私泄露度: 圖4給出了α=1.0時,各方案節點PLD的對比。GRD在執行內容緩存時,沒有考慮不同請求內容流行程度的差異性,無法實現應答內容的差異化存儲。特別是對于請求頻度低的敏感內容,節點不加區分地盲目式存儲,將會帶來嚴重的隱私威脅。攻擊者可以借助少量背景知識,準確定位內容的實際請求者,各節點對應的PLD取值明顯高于CCSPP方案;Age依據內容流行等級來設置緩存時間大小,加快冷門資源的沿途替換更新,但是非流行內容依然會存儲在沿途多個節點上,直到其緩存時間結束;在CCSPP中,AD內只存儲整體需求程度最大的熱點請求內容,避免對冷門敏感信息的緩存,有效降低了各節點PLD取值。對于CCSPP,管理節點負責存儲整個匿名區域內最活躍的請求內容,對應的PLD取值明顯小于隸屬節點。
(5)隱私侵犯率: 由于不同方案在PLD和PAE方面可以取得不同的性能,為此,提出隱私侵犯率(Privacy Attack Ratio, PAR)來度量各方案總體的隱私保護程度,PAR定義為歸一化后的PLD取值與PAE取值之比:

本文從CCN內在緩存策略的設計入手,在兼顧內容分發效率的基礎上,提出了一種面向隱私保護的協作緩存策略。CCSPP借助少量額外代價的付出,在實現內容高效緩存的同時,增強了用戶隱私保護水平,仿真結果和性能分析驗證了其有效性。后續研究工作主要是針對CCN中緩存污染,興趣泛洪攻擊等其它安全威脅,如何設計相應的安全存儲機制和防護策略。

圖3 節點隱私匿名熵PAE對比

圖4 節點隱私泄露度PLD對比

圖5 隱私侵犯率PAR對比
[1] Xylomenos G, Ververidis C, Siris V, et al.. A survey of information-centric networking research[J]. IEEE Communications Surveys & Tutorials, 2014, 16(2):1024-1049.
[2] 張國強, 李楊, 林濤, 等. 信息中心網絡中的內置緩存技術研究[J]. 軟件學報, 2014, 25(1): 154-175.Zhang Guo-qiang, Li Yang, Lin Tao, et al.. Survey ofin-network caching techniques in in formation-centric networks[J]. Journal of Software, 2014, 25(1): 154-175.
[3] Jacobson V, Sm etters D K, Thornton J D, et al.. Networking nam ed content[J]. Comm unications of the ACM, 2012, 55(1): 117-124.
[4] 崔現東, 劉江, 黃韜, 等. 基于節點介數和替換率的內容中心網絡網內緩存策略[J]. 電子與信息學報, 2014, 36(1): 1-7. Cui X ian-dong, Liu Jiang, Huang Tao, et al.. A novel in-network cach ing scheme based on betweenness and rep lacem ent rate in content centric networking[J]. Journal of Electronics & Information Technology, 2014, 36(1): 1-7.
[5] Lauinger T, Laoutaris N, and Rodriguez P. Privacy im plications of ubiquitous caching in named data networking arch itectures[R]. Techn ical Report TR-iSecLab-0812-001,2012.
[6] Lauinger T, Laou taris N, Rodriguez P, et al.. Privacy risks in named data networking: what is the cost of performance ?[J]. ACM SIGCOMM Computer Communication Review, 2012,42(5): 54-57.
[7] Chaabane A, Cristofaro E D, Kaafar M A, et al.. Privacy in content-oriented networking: th reats and counterm easures[J]. ACM SIGCOMM Com puter Commun ication Review, 2013,43(3): 25-33.
[8] M ohaisen A, Zhang X W, Schuchard M, et al.. Protecting access privacy of cached contents in information centric networks[C]. Proceedings of the ACM SIGSAC Sym posium on Inform ation, Com puter and Commun ications Secu rity,Hangzhou, Ch ina, 2013: 173-178.
[9] DiBenedetto S, Gasti P, Tsudik G, et al.. ANDaNA: anonymous named data networking application[C]. Proceedings of the Network and Distributed System Security Sym posium, San Diego, USA, 2012: 1-18.
[10] A rian far S, Koponen T, Raghavan B, et al.. On preserving p rivacy in content-oriented networks[C]. Proceedings of the ACM SIGCOMM W orkshop on Inform ation-Centric Networking, Toronto, Canada, 2011: 19-24.
[11] A fanasyev A, M oiseenko I, and Zhang L X. ndnSIM: NDN simulator for NS-3[R]. NDN, Technical Report NDN-0005,2012.
[12] Chai W K, He D, Psaras I, et al.. Cache “less for m ore” in inform ation-centric networks[C]. Proceedings of IFIP Networking, Prague, Czech Republic, 2012: 27-40.
[13] Kim Y and Yeom I. Performance analysis of in-network caching for content-centric networking[J]. Computer Networks, 2013, 57(13): 2465-2482.
[14] Guo S, Xie H Y, and Sh i G. Collaborative forwarding and caching in content centric networks[C]. Proceedings of IFIP Networking, Prague, Czech Republic, 2012: 41-55.
[15] M ing Z X, Xu M W, and W ang D. Age-based cooperative caching in information-centric networks[C]. IEEE INFOCOM Workshop on Emerging Design Choices in Name-Oriented Networking, O rlando, USA, 2012: 268-273.
葛國棟: 男,1985年生,博士生,研究方向為新型網絡體系結構設計、內容中心網絡.
郭云飛: 男,1963年生,碩士,教授,博士生導師,研究方向為新型網絡體系結構設計、移動互聯網.
蘭巨龍: 男,1962年生,博士,教授、博士生導師,研究方向為可重構柔性網絡和高性能路由.
劉彩霞: 女,1974年生,博士,副教授,碩士生導師,研究方向為內容中心網絡、移動互聯網.
A Collaborative Caching Strategy for Privacy Protection in Content Centric Networking
Ge Guo-dong Guo Yun-fei Liu Cai-xia Lan Ju-long
(National Digital Switching System Engineering & Techno logical Research Cen ter, Zhengzhou 450002, China)
How to m itigate the privacy attacks related to the ubiquitous presence of caching poses challenges to the content delivery in Content Centric Networking. On the basis of trade-off between content distribution perform ance and users’ privacy, a collaborative caching strategy for privacy p rotection is proposed. First, the privacy metrics are designed and the rationality of the proposed strategy is demonstrated by app lying the concept of information entropy. And then, the anonym ity domain is constructed to increase the uncertainty of which nearby consumer recently requested certain cached content. W hen making the caching decision, in order to elim inate the cache redundancy and p rivacy leaks, the hottest on-path caching and the collaborative hash caching are proposed for the vertical requesting path and horizontal anonym ity dom ains, respectively. The sim ulation results show that the strategy can decrease the request latency, increase the cache hit ratio, and enhance the p rotection of users’privacy while im proving the efficiency of content distribution.
Content Centric Networking (CCN); Collaborative caching; Privacy p rotection; Content-based routing
TP393
: A
:1009-5896(2015)05-1220-07
10.11999/JEIT 140874
2014-07-02收到,2014-10-29改回
國家973計劃項目(2012CB 315901, 2013CB 329104),國家自然科學基金 (61372121)和國家863計劃項目(2011AA 01A 103)資助課題
*通信作者:葛國棟 ggd@mail.ndsc.com.cn