999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網(wǎng)絡(luò)中用戶隱私推理與保護(hù)研究綜述

2020-10-10 00:59:52樸楊鶴然崔曉暉
關(guān)鍵詞:用戶

樸楊鶴然,崔曉暉

武漢大學(xué) 國家網(wǎng)絡(luò)安全學(xué)院,武漢430072

1 引言

社交網(wǎng)絡(luò)為人們在全球范圍內(nèi)的交流和互動(dòng)提供了一種簡便的平臺(tái)。世界各地的用戶都在使用社交網(wǎng)絡(luò)共享信息,并通過互聯(lián)網(wǎng)與其他人建立聯(lián)系[1]。在社交網(wǎng)絡(luò)上,用戶可以與他們現(xiàn)實(shí)中認(rèn)識(shí)或不認(rèn)識(shí)的人進(jìn)行交流,或者找到在政治、經(jīng)濟(jì)、音樂或體育方面具有相同興趣或傾向的人。廣告公司可以在社交媒體上宣傳他們的產(chǎn)品,并在短時(shí)間內(nèi)獲得更多歡迎[2]。

Twitter、Facebook和其他社交媒體鼓勵(lì)用戶在平臺(tái)上表達(dá)其思想、觀點(diǎn)和生活中的一些細(xì)節(jié)[3]。從重大事件到看似無用的評(píng)論,都包含在其發(fā)布的推文、狀態(tài)和在線互動(dòng)中。大多數(shù)消息包含的信息價(jià)值很小,但是數(shù)百萬條消息的聚集會(huì)產(chǎn)生重要的知識(shí)。例如,由于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的興起,用戶帖子和在線社交互動(dòng)可用于準(zhǔn)確推理出許多用戶角色屬性、性別、種族、年齡、政治興趣和位置等[4-7]。

據(jù)報(bào)道,諸如聯(lián)合健康集團(tuán)之類的醫(yī)療保健提供者會(huì)挖掘社交媒體數(shù)據(jù)以及其他臨床信息,以評(píng)估醫(yī)療保健風(fēng)險(xiǎn)和保險(xiǎn)費(fèi)。企業(yè)也越來越多地使用社交媒體在招聘前篩選候選人[8]。FBI等政府機(jī)構(gòu)現(xiàn)在也在社交平臺(tái)上監(jiān)視用戶發(fā)布的內(nèi)容。

2 簡介

2.1 社交網(wǎng)絡(luò)

在線社交網(wǎng)絡(luò)平臺(tái)已成為現(xiàn)代社會(huì)人們生活中不可或缺的一部分,這些企業(yè)已經(jīng)獲得了大量用戶。截至2020 年1 月,F(xiàn)acebook 已擁有24 億用戶,排在所有社交網(wǎng)絡(luò)應(yīng)用的第一位。社交網(wǎng)絡(luò)具有消息即時(shí)傳遞、信息共享以及為用戶發(fā)布評(píng)論的優(yōu)點(diǎn)[9]。

最初,人們主要使用社交網(wǎng)絡(luò)來表達(dá)他們的一些想法。隨著時(shí)間的流逝,在線活動(dòng)變得越來越復(fù)雜和多樣化。社交網(wǎng)絡(luò)的蓬勃發(fā)展帶來了大量用戶生成的內(nèi)容,有66%的用戶推文是關(guān)于用戶他們自己的,其中大部分是免費(fèi)且可公開獲得的[10]。

此外,越來越多的用戶加入基于位置的社交網(wǎng)絡(luò)(Location-Based Social Network,LBSN)以享受不同的位置相關(guān)服務(wù),例如朋友查找、興趣位置搜索、簽到、帶有地理標(biāo)簽的照片共享等[11]。位置信息不僅代表了個(gè)人的地理位置,而且還透露了他們的生活習(xí)慣、生活方式以及個(gè)人信息,這些導(dǎo)致用戶面臨較高的隱私風(fēng)險(xiǎn)。

在社交網(wǎng)絡(luò)中,用戶總是希望共享某些信息以獲取收益,而將其他信息則隱藏起來以保護(hù)隱私。不幸的是,隨著機(jī)器學(xué)習(xí)的飛速發(fā)展,各種強(qiáng)大的推理攻擊可能會(huì)推測出其隱藏的信息[12]。

2.2 隱私推理

用戶留存在社交網(wǎng)絡(luò)平臺(tái)上的好友互動(dòng)記錄、興趣愛好標(biāo)簽、簽到信息、消費(fèi)記錄等包含了大量社交關(guān)系信息和屬性信息,為定向廣告、推薦系統(tǒng)等應(yīng)用提供了豐富的數(shù)據(jù)來源。用戶的需求、喜好、屬性、行為以及可能具有的關(guān)系等,被用于盡可能詳細(xì)地構(gòu)造用戶個(gè)人畫像[13]。隨著社交平臺(tái)的發(fā)展,能夠用于確定用戶真實(shí)身份的信息也越來越多,用戶隱私泄露的隱憂也日益嚴(yán)重。社交網(wǎng)絡(luò)中的隱私推理是用戶隱私泄露的一種,即根據(jù)用戶帖子內(nèi)容、用戶之間的關(guān)聯(lián)和網(wǎng)絡(luò)互動(dòng)等公開信息,來對(duì)用戶社會(huì)關(guān)系、敏感用戶屬性進(jìn)行推理[14]。

進(jìn)行隱私推理的攻擊者可以是對(duì)用戶隱私感興趣的任何一方,例如可能是網(wǎng)絡(luò)犯罪分子、社交網(wǎng)絡(luò)提供商、廣告商、數(shù)據(jù)經(jīng)紀(jì)人或監(jiān)視機(jī)構(gòu)[15]。網(wǎng)絡(luò)犯罪分子可以利用用戶隱私信息進(jìn)行有針對(duì)性的社會(huì)工程攻擊;社交網(wǎng)絡(luò)提供商和廣告商可以根據(jù)用戶數(shù)據(jù)用于定向目標(biāo)廣告;數(shù)據(jù)經(jīng)紀(jì)人可以將用戶信息出售給廣告商、銀行公司和保險(xiǎn)業(yè)等其他方來獲利;監(jiān)視機(jī)構(gòu)可以使用這些信息來識(shí)別用戶并監(jiān)視他們的活動(dòng)[16]。

2.3 推理攻擊分類

根據(jù)攻擊的目的,即想要獲得到的用戶隱私信息,現(xiàn)有的推理攻擊按攻擊目的大致可分為兩類:針對(duì)屬性的推理和針對(duì)社交關(guān)系的推理。屬性推理中,針對(duì)地理位置的推理又是領(lǐng)域內(nèi)的一大研究重點(diǎn),因此在本文中單獨(dú)分類介紹。

針對(duì)屬性的推理可以按技術(shù)和所利用的不同類型數(shù)據(jù)分為基于內(nèi)容、基于社交鏈接和基于用戶行為等幾類屬性推理方法;針對(duì)地理位置的推理包括基于社交圖和基于社交行為等方法;而針對(duì)社交關(guān)系的推理則主要分為基于位置和基于主題標(biāo)簽兩種方法[17]。

3 針對(duì)屬性的推理攻擊

3.1 敏感屬性定義

用戶屬性存在類似二分類的概念,可以被分為兩類:公開屬性和私人敏感屬性,用戶應(yīng)確定其屬性屬于何種類別[18]。某些屬性(例如政治傾向和種族)可以被公開顯示,因?yàn)橛脩舻年P(guān)注者可能會(huì)因?yàn)樗墓矊傩远P(guān)注他。而其他屬性(例如性別和位置)是私人的且敏感的,用戶不希望將其顯示出來。

可以將屬性推理視為從用戶的在線發(fā)布和互動(dòng)的信息中推理出用戶不希望為他人所知道的一組敏感屬性的方法[19]。

推理出的用戶屬性可以用于各種安全敏感活動(dòng),例如魚叉式網(wǎng)絡(luò)釣魚和個(gè)人信息的身份驗(yàn)證[20]。此外,攻擊者可以利用推理的屬性在多個(gè)站點(diǎn)上識(shí)別同一用戶或使用離線記錄(例如,公開的選民登記記錄)形成綜合性的用戶個(gè)人畫像,給用戶帶來更大的安全和隱私風(fēng)險(xiǎn)[21]。

3.2 基于內(nèi)容的屬性推理

基于內(nèi)容的攻擊主要利用主題、個(gè)人信息和推文文本等對(duì)用戶的敏感屬性進(jìn)行推理。

Georgiou 等[22]引入了一種基于社區(qū)趨勢主題的屬性推理攻擊,從統(tǒng)計(jì)角度利用這些公開的社區(qū)感知趨勢主題來推理在線社交網(wǎng)絡(luò)用戶的敏感屬性,因?yàn)槊總€(gè)主題中的參與用戶形成同質(zhì)的組(社區(qū)),即使他們沒有直接鏈接也是如此。

趨勢主題是指與暫時(shí)流行的主題相關(guān)的一組單詞或短語,用于理解和解釋信息和模因如何通過具有數(shù)億個(gè)節(jié)點(diǎn)的龐大社交網(wǎng)絡(luò)傳播[23]。

社交平臺(tái)的用戶表示為集合U={ui,u2,…,un}。每個(gè)用戶u 與具有k 個(gè)敏感屬性(例如位置、年齡等)的向量v 相關(guān)聯(lián)。用戶u 的屬性ai可以采用一組可能的值{ai1,ai2,…,aimi}中的一個(gè),其中mi是相應(yīng)屬性的唯一值總數(shù)。屬性的值形成一個(gè)層次結(jié)構(gòu),對(duì)于某些屬性,該層次結(jié)構(gòu)可以具有很大的深度(例如對(duì)于城市、區(qū)域、國家、大洲乃至整個(gè)世界范圍的位置信息)。

社交平臺(tái)上的內(nèi)容表示為推文的數(shù)據(jù)流P。每個(gè)推文p ∈P 有一個(gè)唯一的作者(用戶)p.u,并且包含任意數(shù)量的主題關(guān)鍵字p.T={t1,t2,…,tk}。 將社區(qū)定義為屬性中具有相同值的一組用戶,但不一定存在社交連接。 例如,居住在武漢的年齡為25歲的男性用戶可以形成一個(gè)同質(zhì)社區(qū),包含這些值為屬性組合{位置,年齡,性別}標(biāo)識(shí)的所有用戶。紐約的用戶形成了由單例屬性組合{位置}定義的另一個(gè)同質(zhì)社區(qū)。

趨勢主題算法向攻擊者返回提到了所提供主題的一組用戶。攻擊者對(duì)每個(gè)屬性的先前分布有一般的了解,例如此類知識(shí)可能包括基于人口普查的位置分布、基于社交媒體服務(wù)發(fā)布的統(tǒng)計(jì)數(shù)據(jù)的年齡分布、基于公開此信息的用戶的性別分布等[24]。不斷增加的知識(shí)使攻擊者可以針對(duì)給定用戶的敏感屬性逐漸提高其推理置信度。

給定主題和社區(qū)元組后,攻擊者可能會(huì)嘗試推理出至少提到一個(gè)主題ti的用戶的敏感屬性。假設(shè)L 是用戶的敏感屬性(例如位置)之一,用戶提到了一些主題t1,t2,…,tk,則L 的概率分布為:

P(L)是屬性L 的先驗(yàn)多項(xiàng)式分布,可以基于攻擊者對(duì)此類信息的一般知識(shí)而假定為已知。在給定L ,Pt1,t2,…,tk|L 的情況下,提及主題t1,t2,…,tk的用戶的概率分布等于提及所有k 個(gè)主題并具有L 特定值的用戶u 的數(shù)量,該值等于L的用戶總數(shù)。例如,對(duì)于L=a:

其中u.v.L 是用戶的屬性v 的向量中的屬性L。類似的,先驗(yàn)概率P(t1,t2,…,tk)等于在用戶總數(shù)中提及這些主題的用戶數(shù)。

雖然攻擊者可能知道屬性的多項(xiàng)式分布,并且能夠計(jì)算任何主題組合的先驗(yàn)概率,但他們無法計(jì)算出具有特定屬性值L=a 的用戶集:{u|u.v.L=a}。取而代之的是,他們可以從趨勢主題算法得到的元組來獲得概率分布Pt1,t2,…,tk|L 的近似值。

如果對(duì)于L=1 的任何值,概率PL=1|u.T 變得大于閾值θ,則認(rèn)為該用戶的隱私L 受到侵犯。攻擊者可以通過使用這些涉及用戶的相應(yīng)社區(qū)特征來提高其推理的可信度。

Thomas 等[25]使用多標(biāo)簽分類方法來使來推理屬性,并且提出了多方隱私來防御屬性推理。Zhang 等[5]表示,用戶推文中的主題標(biāo)簽可以單獨(dú)用于精確推理用戶的位置,準(zhǔn)確度為70%到76%。

Otterbacher[26]使用用戶的寫作風(fēng)格研究了性別推理。Narayanan 等[27]展示了一個(gè)更強(qiáng)的結(jié)果,即作者身份可以通過寫作風(fēng)格分析而被去匿名。Adali 和Golbeck等[28-29]使用用戶的推文研究如何推理出個(gè)性。

3.3 基于社交鏈接的屬性推理

He 等[30]將屬性推理轉(zhuǎn)換為使用用戶之間的社交鏈接構(gòu)建的貝葉斯網(wǎng)絡(luò)上的推理,使用具有合成用戶屬性的LiveJournal 社交網(wǎng)絡(luò)數(shù)據(jù)集評(píng)估了他們的方法。并討論了通過先驗(yàn)概率、影響力和社會(huì)開放性對(duì)屬性推理的影響。

假設(shè)僅考慮直接朋友Y1的屬性值來推理X 的屬性,知道Y1的所有屬性值后進(jìn)行了樸素貝葉斯假設(shè)。

對(duì)于具有最大深度i 的樸素貝葉斯網(wǎng)絡(luò),令X 的值x 是在給定觀察到網(wǎng)絡(luò)中其他節(jié)點(diǎn)的屬性值的情況下具有最大條件概率的屬性值(即最大后驗(yàn)概率):

由于推理僅涉及彼此獨(dú)立的直接朋友Y1,因此可以使用貝葉斯網(wǎng)絡(luò)中編碼的條件獨(dú)立性進(jìn)一步降低后驗(yàn)概率:

Lindamood 等[31]修改了樸素貝葉斯分類器,以社交鏈接和用戶的其他公開屬性來推理某些屬性,例如,為了推理用戶的專業(yè)使用了用戶的其他屬性(用戶的雇主、用戶居住的城市、用戶的社交朋友及其屬性)。但是,他們的方法不適用于根本不共享任何屬性的用戶。

Bhagat 等[32]利用基于ICA 框架的K 最近鄰算法來推理LiveJournal數(shù)據(jù)集的屬性,提出了一種局部迭代算法,通過選擇在用戶節(jié)點(diǎn)的本地鄰居中出現(xiàn)頻率最高的值來推理屬性,這可以稱為本地鄰居的多數(shù)投票。

Macskassy 和Provost[33]提出了一種鄰居關(guān)系模型,并提出了兩種算法,即迭代關(guān)系鄰居和概率關(guān)系鄰居來進(jìn)行屬性推理。

Mo 等[34]提出了一種基于圖的屬性推理模型,該模型使用好友關(guān)系、組成員身份和網(wǎng)絡(luò)關(guān)系進(jìn)行相似性計(jì)算,并將其作為轉(zhuǎn)換矩陣來執(zhí)行標(biāo)簽傳播。

Yin等[35]使用隨機(jī)游走并重新啟動(dòng)基于社交屬性的網(wǎng)絡(luò)(Social Attributes Network,SAN)來進(jìn)行屬性排名。他們將屬性建模為節(jié)點(diǎn),并在用戶節(jié)點(diǎn)和屬性節(jié)點(diǎn)之間建立鏈接。但在推理過程中不考慮屬性相關(guān)性,隨機(jī)游走會(huì)使標(biāo)簽在網(wǎng)絡(luò)中傳播,并在最接近的節(jié)點(diǎn)處停止?;谕镀狈峙涞姆椒ㄅc此類似,都使用轉(zhuǎn)移矩陣在標(biāo)簽中進(jìn)行標(biāo)簽傳播,并最終選擇最接近的屬性值。

Misolve等[36]提出了一種基于社區(qū)屬性的屬性推理方法。他們根據(jù)同一社區(qū)中用戶的公共屬性來推理用戶的敏感屬性。在Facebook數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以推理用戶的工作部門等。

Traud等[37]將社區(qū)結(jié)構(gòu)與基于Facebook的給定類別的分區(qū)進(jìn)行了比較,以檢查在二元級(jí)數(shù)據(jù)上公共屬性的影響。

3.4 基于用戶行為的屬性推理

用戶行為包括點(diǎn)贊、關(guān)注、轉(zhuǎn)發(fā)評(píng)論等行為,以此對(duì)屬性進(jìn)行推理。

Kosinski[38]提出的方法可以輕松使用用戶行為中的點(diǎn)贊(Facebook Likes)來自動(dòng)、準(zhǔn)確地預(yù)測一系列高度敏感的個(gè)人屬性,包括:性取向、種族、宗教和政治觀點(diǎn),人格特質(zhì)、智力、家長離異情況、年齡和性別等。用戶和他們的點(diǎn)贊表示為稀疏的用戶相似矩陣,如果用戶和點(diǎn)贊之間存在關(guān)聯(lián),則將其項(xiàng)設(shè)置為1,否則設(shè)置為0。使用奇異值分解(Singular-Value Decomposition,SVD)可以減少像用戶一樣的矩陣的維數(shù)。使用線性回歸模型預(yù)測年齡或智力等數(shù)字變量,而使用邏輯回歸預(yù)測諸如性別或性取向等二分變量。在這兩種情況下都應(yīng)用了10倍交叉驗(yàn)證,研究的設(shè)計(jì)如圖1所示。

圖1 基于點(diǎn)贊行為的推理模型設(shè)計(jì)

Weinsberg 等[39]使用用戶對(duì)不同電影給予的評(píng)分來調(diào)查性別的推論。特別是,他們?yōu)槊總€(gè)用戶構(gòu)造了一個(gè)特征向量。特征向量的第i個(gè)項(xiàng)是:如果用戶查看了第i個(gè)電影,則用戶對(duì)第i個(gè)電影給予的評(píng)分分?jǐn)?shù),否則第i個(gè)項(xiàng)為0。他們比較了一些分類器,包括邏輯回歸[40]、支持向量機(jī)[41]和樸素貝葉斯[42],發(fā)現(xiàn)邏輯回歸勝過其他方法。具體來說調(diào)查了用戶看的哪些電影可以最大程度地提高推理準(zhǔn)確性,但是此方法可能不適用于現(xiàn)實(shí)情況。

Chaabane 等[43]的研究證明用戶的行為數(shù)據(jù)也可以是用戶喜歡或共享的頁面或列表。攻擊者(例如,社交平臺(tái)提供商、廣告商或數(shù)據(jù)經(jīng)紀(jì)人)可以使用機(jī)器學(xué)習(xí)分類器來推理目標(biāo)用戶的私人屬性(例如,性別、居住城市和政治傾向)。

3.5 基于多類型的屬性推理

Mao 等[44]等提出一種基于社交鏈接和屬性關(guān)聯(lián)的高效社會(huì)屬性推理方案,方法包括三個(gè)主要階段:預(yù)處理、構(gòu)造社交屬性相關(guān)性網(wǎng)絡(luò)(Social Relevance Attribute Network,SRAN)圖和推理屬性,方法如圖2所示。

第一階段:預(yù)處理將社會(huì)數(shù)據(jù)作為輸入,其中包括三個(gè)組成部分:社會(huì)結(jié)構(gòu)抽象(PI-ss)、用戶屬性抽象(PI-ua)和屬性相關(guān)性分析(PI-ar)。PI-ss用于提取用戶之間的社交鏈接并輸出社交節(jié)點(diǎn)(用戶)圖Gs。PI-ua用于建立用戶(社交節(jié)點(diǎn))與社交屬性值之間的映射,并輸出屬性矩陣A。PI-ar 測量兩個(gè)屬性值之間的相關(guān)性,并輸出屬性鄰接矩陣R。

第二階段:以社交圖Gs構(gòu)造SRAN圖,以屬性矩陣A和屬性鄰接矩陣R為輸入,并輸出SRAN圖。SRAN圖具有兩種節(jié)點(diǎn):社交節(jié)點(diǎn)和屬性節(jié)點(diǎn),其中社交節(jié)點(diǎn)代表用戶,屬性節(jié)點(diǎn)是目標(biāo)社交網(wǎng)絡(luò)中包含的屬性值。

定義了三種類型的邊來描述這些節(jié)點(diǎn)之間的關(guān)系。具體而言,社交邊代表兩個(gè)社交節(jié)點(diǎn)之間的社交鏈接;社交節(jié)點(diǎn)與屬性節(jié)點(diǎn)之間的用戶屬性邊由該社交節(jié)點(diǎn)是否具有該屬性值確定;屬性相關(guān)性邊由兩個(gè)屬性值(即SRAN中的屬性節(jié)點(diǎn))之間的相關(guān)性加權(quán),該值在第一階段由PI-ar量化。

第三階段:以從第二階段獲得的SRAN 圖作為輸入來推理未知屬性,進(jìn)行具有重啟的隨機(jī)游走(Rndom walk with Restart,RwR)以執(zhí)行基于相關(guān)性的屬性推理,并在結(jié)果中輸出目標(biāo)用戶的所有未知用戶屬性鏈接。

圖2 基于社交鏈接和屬性關(guān)聯(lián)的推理方法

Gong 等[45]通過友誼和行為聯(lián)系來推理用戶雇主和城市等屬性。

3.6 其他

Mei等[46]提出了一種新的基于圖像和屬性的卷積神經(jīng)網(wǎng)絡(luò)屬性推理攻擊框架,框架集成和修改了現(xiàn)有的最新CNN 模型。如圖3,它包含三個(gè)主要部分,分別是RCNN 面部識(shí)別器、基于圖像和屬性的CNN 年齡分類器以及基于屬性的FCNN 年齡分類器。但是其僅考慮一個(gè)目標(biāo)的敏感屬性,即年齡范圍。

圖3 基于圖像和屬性的推理攻擊系統(tǒng)

Labitzke 等[47]通過面向情感的挖掘來推理用戶對(duì)Facebook頁面的興趣程度。Zamal等[48]使用移動(dòng)通信來推理性別和年齡,并考慮其特征以及節(jié)點(diǎn)屬性值之間的聯(lián)系。Chen 等[49]提出了ChiSquare,基于卡方統(tǒng)計(jì)來計(jì)算用戶和屬性值之間的相關(guān)性。

4 針對(duì)地理位置的推理攻擊

4.1 基于社交圖的位置推理

文獻(xiàn)[50]顯示社交圖分析可以從朋友和關(guān)注者的位置揭示用戶位置。

將用戶v的位置圖定義為從目標(biāo)用戶Gv的社交網(wǎng)絡(luò)獲得的加權(quán)圖Lv=<Iv,Sv>,如下所示:

節(jié)點(diǎn)集Iv是τv的解釋集以及v朋友的地名集合。定義鏈接集Sv,以便在下列情況下在i1∈Iv和i2∈Iv之間存在雙向鏈接:

i1和i2為同一地區(qū)的一部分或者同一地區(qū),該鏈接的權(quán)重為wco。

i1和i2是同一省/州(或其他等效的地區(qū)行政區(qū)劃)或者它們屬于同一州和國家/地區(qū),該鏈接的權(quán)重為ws。

i1和i2是同一城市,該鏈接的權(quán)重為wci。

與鏈接相關(guān)聯(lián)的權(quán)重指示解釋之間關(guān)系的強(qiáng)度。例如認(rèn)為如果i1和i2代表同一城市,則兩個(gè)解釋i1和i2之間的關(guān)系要強(qiáng)于它們代表同一狀態(tài)下的兩個(gè)不同城市。

出于相同的原因,與i1和i2對(duì)應(yīng)于同一地區(qū)相比,i1和i2對(duì)應(yīng)于同一省/州(或等效的行政區(qū)劃)。鏈接(i1,i2)的權(quán)重衡量的是i1和i2共享的地區(qū)規(guī)劃的粒度,粒度越細(xì),重量越大。基于此有wco<ws<wci。

4.2 基于社交行為的位置推理

在基于位置的社交網(wǎng)絡(luò)中,用戶的互動(dòng)主要是通過簽到和照片共享進(jìn)行的。文獻(xiàn)[51]提出了一種基于歷史簽到和照片的空間分布的推理模型,并表明通過對(duì)包括簽到和照片在內(nèi)的多個(gè)事件進(jìn)行時(shí)空分析,可以高精度地推理出用戶的位置。

這是一種內(nèi)容遺忘的推理模型,該模型不會(huì)以處理照片的內(nèi)容來查找用戶的位置,而是僅考慮不同的位置簽到和照片共享概率。

Ilaria 等[52]提出了一種基于視覺技術(shù)的位置推論模型,該模型使用Twitter 簽到數(shù)據(jù),表明人們僅使用一小部分位置點(diǎn)就可以推理出人們最常在的和最私人的位置,例如工作和家庭。Souza 等[53]研究了用戶在Instagram上共享自拍照的集體行為。

4.3 其他

在移動(dòng)應(yīng)用中,Michalevsky等[54]表明攻擊者可以使用機(jī)器學(xué)習(xí)根據(jù)用戶的智能手機(jī)的總功耗來推理用戶的位置。Narain等[55]的研究中發(fā)現(xiàn),攻擊者可以使用用戶智能手機(jī)上的陀螺儀、加速度計(jì)和磁力計(jì)數(shù)據(jù)來推理用戶的位置。

5 針對(duì)社交關(guān)系的推理攻擊

5.1 基于位置的關(guān)系推理

諸如Foursquare 之類的基于位置的社交網(wǎng)絡(luò)以及諸如Uber 之類的基于位置的在線服務(wù)的廣泛普及,為人們帶來了大量的人類軌跡數(shù)據(jù)。事實(shí)證明,了解基本的人員流動(dòng)模式對(duì)于各種應(yīng)用(例如下次訪問位置預(yù)測)具有重要價(jià)值[56]。

Hsieh 等[57]使用用戶的離線地理活動(dòng)(例如簽到記錄和會(huì)議事件)來推理在線社交關(guān)系。首先構(gòu)建了一個(gè)共址圖,其中節(jié)點(diǎn)是用戶,邊是用戶之間的共址,邊權(quán)重是組合的特征值。具有較高的緊密度、概率和共同位置相似性的兩個(gè)節(jié)點(diǎn)彼此相識(shí)的可能性很高。其次,如果會(huì)議活動(dòng)的位置對(duì)兩個(gè)節(jié)點(diǎn)都更有意義或更重要,則應(yīng)為此類共址分配更高的權(quán)重,有較高的開會(huì)頻率的兩個(gè)人傾向于存在社交關(guān)系。

該模型是一種基于圖的半監(jiān)督學(xué)習(xí)方法,可以使用節(jié)點(diǎn)對(duì)的提取特征來推理社交聯(lián)系。中心思想有三個(gè)方面。首先,具有相似特征分?jǐn)?shù)的節(jié)點(diǎn)對(duì)往往具有相同的聯(lián)系(即是否具有社會(huì)紐帶)。構(gòu)造一個(gè)鏈接圖(Link Graph,LG),以表示節(jié)點(diǎn)對(duì)之間的特征相關(guān)性[58]。其次,由于不同的特征對(duì)社交聯(lián)系的推理有多種影響,因此針對(duì)每個(gè)特征分別學(xué)習(xí)與LG中每個(gè)邊相關(guān)聯(lián)鏈接的值,以建模節(jié)點(diǎn)對(duì)的特征差異與成為朋友的可能性之間的關(guān)系。最后使用算法迭代地計(jì)算節(jié)點(diǎn)對(duì)與LG中相鄰節(jié)點(diǎn)成為朋友的概率,接著確定每個(gè)特征的重要性,從而可以推理出節(jié)點(diǎn)對(duì)之間的社會(huì)關(guān)系[59]。

Zhang 等[60]通過將用戶對(duì)的空間、時(shí)間和社交屬性視為有效用戶鏈接的不同視圖,研究了給定LBSN中社交關(guān)系推理的問題。

如圖4,通過將3 個(gè)因素中的每一個(gè)視為任何目標(biāo)用戶對(duì)的一個(gè)視圖,設(shè)計(jì)了一種新穎的多視圖匹配網(wǎng)絡(luò)(Multi-View Matching Network,MVMN)。MVMN 包括位置匹配模塊、時(shí)間序列匹配模塊和關(guān)系匹配模塊。每個(gè)模塊都學(xué)習(xí)特定視圖的匹配表示,而MVMN 將它們?nèi)诤弦赃M(jìn)行最終的關(guān)系推理。

圖4 時(shí)空軌跡多視圖匹配網(wǎng)絡(luò)

Backes等[61]從用戶所在位置推理社交關(guān)系,采用深度學(xué)習(xí)方法來學(xué)習(xí)用戶的移動(dòng)功能并將其用于社交關(guān)系推理。諸如文獻(xiàn)[62-66]此類的工作可以從同一時(shí)空推理出社會(huì)聯(lián)系,為其中兩個(gè)用戶共享共同的朋友或位置。

Wu等[67]從用戶軌跡數(shù)據(jù)推理社會(huì)關(guān)系在諸如好友推薦和乘車共享等現(xiàn)實(shí)應(yīng)用中具有重要價(jià)值。模型利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)以無監(jiān)督的方式學(xué)習(xí)用戶在用戶移動(dòng)異構(gòu)圖上的嵌入。

Olteanu等[68]研究同位置信息對(duì)位置隱私的影響。最近,Zhou等人[69]從好友和流動(dòng)性數(shù)據(jù)推理出社交聯(lián)系。

5.2 基于主題標(biāo)簽的關(guān)系推理

Zhang[70]使用用戶主題標(biāo)簽二分圖嵌入模型來推理關(guān)系,以學(xué)習(xí)每個(gè)用戶畫像的主題標(biāo)簽,并根據(jù)兩個(gè)用戶畫像的余弦距離進(jìn)行無監(jiān)督的關(guān)系預(yù)測。

具體來說,即將用戶和主題標(biāo)簽組織成一個(gè)加權(quán)二分圖。對(duì)于連接用戶和主題標(biāo)簽的邊,其權(quán)重等于用戶共享主題標(biāo)簽的次數(shù)。在圖上模擬了從每個(gè)用戶開始的隨機(jī)游走,從每個(gè)節(jié)點(diǎn)到下一個(gè)節(jié)點(diǎn)的過渡概率遵循相應(yīng)邊的權(quán)重。每次游走都有一定的長度,留下了一組隨機(jī)的行走軌跡。然后,分別依靠下面的優(yōu)化目標(biāo)函數(shù)來學(xué)習(xí)每個(gè)用戶的主題標(biāo)簽:

這里,N(v)表示節(jié)點(diǎn)v的鄰域,而θ(v)是節(jié)點(diǎn)v的學(xué)習(xí)結(jié)果。此外,p(v|N(v);θ)使用softmax 函數(shù)建模。目標(biāo)函數(shù)本質(zhì)上是連續(xù)詞袋(Continuous Bag-of-Words,CBOW)模型[71],采用負(fù)采樣方法來加快學(xué)習(xí)過程。

最后對(duì)于任何兩個(gè)用戶,會(huì)計(jì)算他們學(xué)習(xí)到的余弦距離,并在余弦距離低于所選閾值時(shí)預(yù)測他們的社交關(guān)系[72]。

5.3 其他

Rahman等[73]提出了一種推理社交關(guān)系的多模式方法,利用用戶的5 個(gè)不同維度特征,即圖像、推文文本、主題標(biāo)簽、地理位置和(不完整的)社會(huì)關(guān)系評(píng)估了一個(gè)真實(shí)的數(shù)據(jù)集,該數(shù)據(jù)集包含從Instagram 收集的2 200萬用戶帖子。使用數(shù)據(jù)集的特征向量訓(xùn)練5 個(gè)隨機(jī)森林分類器,然后使用5個(gè)訓(xùn)練過的分類器各自的AUC值(Area Under the ROC Curve),即ROC 曲線下的面積為每個(gè)分類器分配置信度a。他們將這些AUC值用作目標(biāo)集上5 個(gè)分類器預(yù)測的強(qiáng)度或可信賴性的指標(biāo)。結(jié)果證明,當(dāng)多種模式組合在一起時(shí),社交關(guān)系推理攻擊的成功率將大大提高。

Gupta等[74]研究了社交網(wǎng)絡(luò)用戶所發(fā)布視頻中人們的社交關(guān)系推理,使用視聽特征和運(yùn)動(dòng)軌跡來計(jì)算視頻中每個(gè)場景的社交關(guān)系的度量,同時(shí)利用人臉識(shí)別來計(jì)算每個(gè)場景中人物的出現(xiàn)。

Zhao 等[75]提出一種基于多源信息的兩階段的深度學(xué)習(xí)框架TDFI,用于社交關(guān)系推理,這種方法可以在擁有低復(fù)雜度的同時(shí)利用多源信息。應(yīng)用擴(kuò)展鄰接矩陣(Extended Adjacency Matrix,EAM)來表示多源信息,然后采用改進(jìn)的深度自動(dòng)編碼器網(wǎng)(improved Deep AutoEncoder Network,iDAEN)為每個(gè)用戶提取融合的特征向量。TDFI框架還提供了一種改進(jìn)的深度孿生神經(jīng)網(wǎng)絡(luò)(improved Deep Siamese Network,iDSN),用于推理來自iDAEN的用戶是否存在社交關(guān)系。

6 相關(guān)防御方案

6.1 針對(duì)屬性推理的防御

6.1.1 基于文本的防御方法

(1)隱藏:隱藏(也稱為刪除)[76]建議用戶選擇屬性關(guān)鍵字或主題標(biāo)簽Hp的子集(共有2Hp-1 個(gè)此類子集),可以通過閾值th限制要?jiǎng)h除的關(guān)鍵字或主題標(biāo)簽的數(shù)量,以優(yōu)化運(yùn)行時(shí)間。將所有生成的主題標(biāo)簽的子集發(fā)送到推理模型以驗(yàn)證它們是否滿足位置隱私約束,然后發(fā)布推文。

(2)替換:該機(jī)制用一組主題標(biāo)簽H中的其他主題標(biāo)簽替換了原始標(biāo)簽以誤導(dǎo)攻擊者[77]。為了保持合理的搜索復(fù)雜度,必須限制一組潛在的標(biāo)簽以替換每個(gè)原始標(biāo)簽。 固定了一個(gè)閾值ts,并集中在ts上在語義上最接近原始主題標(biāo)簽的主題標(biāo)簽,這確保了候選主題標(biāo)簽的集合將損失降至最低,將搜索空間限制為(ts+1)Hp-1。與隱藏機(jī)制一樣,可以通過用類似于th 的閾值限制要替換的標(biāo)簽的數(shù)量來進(jìn)一步降低時(shí)間復(fù)雜度[78]。

(3)泛化:這種機(jī)制將每個(gè)原始主題標(biāo)簽概括為一個(gè)語義上更廣泛的類別。由于并非所有主題標(biāo)簽都可以泛化(例如#love),因此將給定推文中可泛化主題標(biāo)簽的子集表示為v。為降低時(shí)間復(fù)雜度,還可以固定要泛化的最大標(biāo)簽數(shù)的閾值[79]。

(4)混淆:即基于噪聲的擾動(dòng),以在發(fā)布數(shù)據(jù)之前對(duì)其進(jìn)行掩蓋[80-81]。BlurMe 會(huì)對(duì)用戶的電影分級(jí)進(jìn)行模糊處理,以減少泄露其性別信息的風(fēng)險(xiǎn)[39]。根據(jù)項(xiàng)目與除i 之外的屬性值之間的相關(guān)性將項(xiàng)目分類到列表Li中。具體來說,對(duì)于每個(gè)屬性值i,通過使用學(xué)習(xí)邏輯回歸分類器數(shù)據(jù)向量作為特征向量;將邏輯回歸分類器中某項(xiàng)的負(fù)系數(shù)視為與i 以外的屬性值的相關(guān)性。Attri-Guard利用對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)將噪聲添加到用戶的公共數(shù)據(jù)中,以防御屬性推理攻擊[82]。

6.1.2 基于博弈論的防御方法

Chanthaweethip等[83]提出了一種博弈論的方法來防御屬性攻擊。這些方法具有理論上的隱私保證,但是它們難以解決應(yīng)用于屬性推理攻擊時(shí)在計(jì)算上的優(yōu)化問題。Shokri 等[84]提出的方法對(duì)于防御屬性推理攻擊是很容易處理的,因?yàn)檫@樣的問題本質(zhì)上是一維的公共數(shù)據(jù)向量。防御者將位置混淆,以保護(hù)用戶免受最佳推理攻擊。

Salamatian 等[85]提出了量化概率映射(Quantization Probabilistic Mapping,QPM)來解決Han 等人提出的博弈論優(yōu)化問題。具體來說,他們聚集用戶的公共數(shù)據(jù),并使用群集代表他們,然后使用聚類近似解決優(yōu)化問題。由于使用了量化,因此QPM 沒有理論上的隱私保證,即QPM 不一定能防御最佳屬性推理攻擊,但是QPM使其在實(shí)踐中更易于防御。

6.2 針對(duì)位置推理的防御

6.2.1 基于k 匿名的防御方法

k 匿名性的概念是文獻(xiàn)中基于位置的系統(tǒng)最廣泛使用的隱私定義。已用于保護(hù)用戶的位置,要求它在一組k 個(gè)點(diǎn)之間是無法區(qū)分的(通常需要共享某些位置屬性)[86]。

一種實(shí)現(xiàn)此目的的方法是使用虛擬位置[87-88]。該技術(shù)涉及使用實(shí)際和虛擬位置生成k-1 個(gè)正確選擇的虛擬點(diǎn),并向服務(wù)提供商執(zhí)行k 個(gè)查詢。實(shí)現(xiàn)k 匿名性的另一種方法是通過隱藏[89-91]。這涉及到創(chuàng)建一個(gè)包含k個(gè)點(diǎn)的共享區(qū)域,這些共享點(diǎn)共享一些感興趣的屬性,然后向服務(wù)提供商查詢該隱藏區(qū)域。

Sun 等[92]解決了身份披露問題,并通過確保至少有k 個(gè)朋友對(duì)共享相同的數(shù)量,提出了一種新穎的k-NMF匿名性。

6.2.2 基于差分隱私的防御方法

差分隱私[93]是統(tǒng)計(jì)數(shù)據(jù)庫領(lǐng)域的隱私概念。其目標(biāo)是在發(fā)布有關(guān)數(shù)據(jù)庫的匯總信息時(shí)保護(hù)個(gè)人數(shù)據(jù)。差分性隱私要求修改單個(gè)用戶的數(shù)據(jù)對(duì)查詢結(jié)果的影響可以忽略不計(jì)。更確切地說,它要求將查詢應(yīng)用于數(shù)據(jù)庫D 時(shí)返回值v 的概率與應(yīng)用于相鄰數(shù)據(jù)庫D′時(shí)相同值的概率相比,同用戶在D ,D′中的值應(yīng)該在e范圍內(nèi)[94]。實(shí)現(xiàn)此概念的一種典型方法是向查詢輸出中添加受控的隨機(jī)噪聲,例如從拉普拉斯分布中提取的隨機(jī)噪聲[95]。

差分隱私已在位置隱私中被使用。Machanavajjhala等[96]的研究表明可以使用合成數(shù)據(jù)生成技術(shù)以差分隱私的方式發(fā)布有關(guān)通勤模式的統(tǒng)計(jì)信息。Ruan 等[97]使用四叉樹空間分解技術(shù)來確保具有位置模式挖掘功能的數(shù)據(jù)庫中的差異優(yōu)先權(quán)。Dewri等[98]使用了k 個(gè)位置的匿名集,以求從k 個(gè)位置中的任何一個(gè)推理出相同混淆位置z 的概率為相似(范圍e 內(nèi))。

6.2.3 其他防御方法

Cheng 等[99]提出了一種位置隱蔽機(jī)制,并著重于基于位置的范圍查詢。隱私的程度由隱蔽區(qū)域的大?。ㄒ卜Q為不確定區(qū)域)和敏感區(qū)域的覆蓋率來衡量,覆蓋率是隱蔽區(qū)域的面積與用戶認(rèn)為敏感的區(qū)域的面積之比。PrivCheck[100]通過混淆基于位置的社交網(wǎng)絡(luò)中用戶簽到行為的數(shù)據(jù),來最大程度地減少用戶私人數(shù)據(jù)的泄露。

在文獻(xiàn)[101]研究中,基于特定的傳感技術(shù)或環(huán)境條件,假定用戶的真實(shí)位置具有某種程度的不精確性。然后使用不同的模糊處理技術(shù)來增加這種不精確性,以達(dá)到一定程度的隱私級(jí)別。此隱私級(jí)別定義為應(yīng)用模糊處理技術(shù)前后的準(zhǔn)確度之比。

6.3 針對(duì)社交關(guān)系推理的防御

郭耀[102]提出了一種基于關(guān)鍵節(jié)點(diǎn)與連接關(guān)系的社交網(wǎng)絡(luò)隱私保護(hù)方法KLPP,可以保護(hù)社交網(wǎng)絡(luò)中關(guān)鍵節(jié)點(diǎn)和連接的隱私,且通過隨機(jī)度擾動(dòng)算法對(duì)網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)施加更多保護(hù)。同時(shí)通過對(duì)節(jié)點(diǎn)進(jìn)行聚類,將網(wǎng)絡(luò)劃分為子圖,并在子圖內(nèi)部擾動(dòng)網(wǎng)絡(luò)中的連接,可以減少擾動(dòng)過程對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的影響。

黃海平等[103]設(shè)計(jì)了帶權(quán)社交關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊的擾動(dòng)策略,采用改進(jìn)的單源最短路徑約束模型構(gòu)建邊權(quán)值噪音。

Shahabi等[104]提出一種名為PLACE的可擴(kuò)展框架,并提出了4個(gè)新穎的隱私保護(hù)基塊,包括位置鄰近度、共現(xiàn)向量、位置熵和跟隨度。陳偉鶴等[105]提出L-intimacy隱私保護(hù)模型,該模型能夠根據(jù)用戶與好友的親密度級(jí)別進(jìn)行隱私保護(hù)。

7 總結(jié)與展望

社交網(wǎng)絡(luò)中的推理攻擊與保護(hù)技術(shù)處于不斷的對(duì)抗中,雙方技術(shù)都在提升。目前攻擊者所掌握的知識(shí)越來越多,攻擊能力越來越強(qiáng);社交網(wǎng)絡(luò)數(shù)據(jù)包含的內(nèi)容也越來越復(fù)雜,既包含用戶的各種屬性,也包含用戶之間的關(guān)系等多種敏感信息[106]。

在屬性推理方面,未來攻擊者可以通過對(duì)抗性機(jī)器學(xué)習(xí)得到更強(qiáng)大的分類器,利用它們來進(jìn)行推理[107];收集更多的用戶信息,包括跨平臺(tái)的數(shù)據(jù),利用屬性之間的相關(guān)性執(zhí)行更好的屬性推理。針對(duì)位置的推理則可以利用計(jì)算機(jī)視覺技術(shù)更好地識(shí)別推文中照片的位置,考慮更多的連續(xù)社交行為之間的時(shí)空相關(guān)性等[108]。對(duì)于社交關(guān)系推理,未來工作的一些方向包括加強(qiáng)對(duì)社交圖模型鏈路權(quán)重的學(xué)習(xí)[109],擴(kuò)展投票分配攻擊以推理用戶之間的隱藏社交關(guān)系等[110]。

而在防御方面未來主要分為兩大方向:其一是以服務(wù)為中心的方法,即依靠可信機(jī)制來阻止社交網(wǎng)絡(luò)服務(wù)發(fā)布揭示有關(guān)用戶信息的內(nèi)容,例如使用點(diǎn)對(duì)點(diǎn)的社交網(wǎng)絡(luò)增強(qiáng)用戶的匿名性[111]。其二是以用戶為中心的方案,即通過用戶部署的防御框架將用戶信任從社交網(wǎng)絡(luò)提供商轉(zhuǎn)移到本地計(jì)算機(jī),例如使用內(nèi)容自動(dòng)生成對(duì)抗文本進(jìn)行混淆[112];自動(dòng)生成社交行為來創(chuàng)建無法區(qū)分的網(wǎng)絡(luò),從而對(duì)隱私推理攻擊進(jìn)行預(yù)防。

猜你喜歡
用戶
雅閣國內(nèi)用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請(qǐng)稍后再哭
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應(yīng)用
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 国产h视频免费观看| 国产精品美女在线| 666精品国产精品亚洲| 久草热视频在线| 国产精品开放后亚洲| 亚洲三级成人| 亚洲手机在线| 69av免费视频| 精品视频在线一区| 亚洲欧美自拍视频| 亚洲bt欧美bt精品| 狠狠色噜噜狠狠狠狠色综合久 | 亚洲国产精品一区二区高清无码久久| 99精品热视频这里只有精品7| 中文成人无码国产亚洲| 韩日免费小视频| 波多野结衣第一页| 久无码久无码av无码| 久久久久亚洲精品无码网站| 日本午夜视频在线观看| 六月婷婷精品视频在线观看| 71pao成人国产永久免费视频| 国产精品思思热在线| 一级黄色网站在线免费看| 中文字幕波多野不卡一区| 欧美另类第一页| 99爱在线| 国产精品视频第一专区| 亚洲AV永久无码精品古装片| 亚洲第一色视频| 亚洲最大看欧美片网站地址| 99久久国产综合精品2023| 超薄丝袜足j国产在线视频| 国产在线观看一区精品| 99视频国产精品| 欧美精品伊人久久| 国产精品熟女亚洲AV麻豆| 成人亚洲国产| 激情爆乳一区二区| 亚洲六月丁香六月婷婷蜜芽| 全部免费毛片免费播放 | 无码国产伊人| 精品小视频在线观看| 色偷偷一区| 欧美www在线观看| 国产成人免费高清AⅤ| 在线亚洲小视频| 亚洲第一成人在线| 97se综合| 国产亚洲欧美在线专区| 欧美亚洲一区二区三区导航| 波多野结衣的av一区二区三区| 日韩精品高清自在线| 免费激情网址| 亚洲精品无码日韩国产不卡| 草草影院国产第一页| 久视频免费精品6| 成人一区专区在线观看| 大陆精大陆国产国语精品1024| 日本国产精品| 国产无码网站在线观看| 91精品专区| 国产精品综合色区在线观看| 国产女人在线视频| 日本一区二区三区精品视频| 国产精品久久久免费视频| 国产精品一区二区国产主播| 精品国产福利在线| 国产资源站| 欧美精品一二三区| 日韩精品成人网页视频在线| 精品日韩亚洲欧美高清a| 色偷偷男人的天堂亚洲av| 福利在线一区| 亚洲全网成人资源在线观看| 国产成人午夜福利免费无码r| 亚洲人在线| 亚洲欧美日韩中文字幕在线| 亚洲免费福利视频| 婷婷亚洲天堂| 日韩免费毛片| 国产亚洲美日韩AV中文字幕无码成人|