王元茂,歐陽婷
(安徽中醫(yī)藥大學 醫(yī)藥信息工程學院,安徽 合肥 230012)
移動社交網(wǎng)絡為人們在網(wǎng)絡空間中的活動提供了重要的服務。在人工智能背景下,黑客可以更容易獲取企業(yè)社交網(wǎng)絡管理系統(tǒng)中的用戶信息,并使用人工智能的學習能力來預測和應對網(wǎng)絡防火墻。為了保護隱私安全,需要設計一種移動社交網(wǎng)絡用戶瀏覽隱私的保護方法。衛(wèi)新樂等[1]結合現(xiàn)代社交網(wǎng)絡中惡意用戶十分分散的特點,在保證普通用戶隱私安全的前提下,建立數(shù)學模型,提出跨平臺的惡意用戶檢測方案。通過數(shù)據(jù)多源預處理,對安全聯(lián)邦提升樹算法進行改進,得到了較好的保護效果。于群等[2]給出一種差分隱私保護方法,在該框架下,利用敏感數(shù)據(jù)脫敏替代的方式,去除個體特征,保留電力負荷數(shù)據(jù)的個體機制,生成對抗網(wǎng)絡的判別器來獲取負荷數(shù)據(jù)的靜態(tài)特征。周治平等[3]使用深度神經(jīng)網(wǎng)絡梯度算法,對引入的噪聲進行處理,同時分解算法內(nèi)的梯度矩陣,建立低維特征子空間矩陣,并在輸入特征的基礎上,提高算法的訓練精度,有效提高了不同模型之間的差距。結合上述文獻,本文設計移動社交網(wǎng)絡用戶瀏覽隱私保護方法,以進一步提高用戶隱私算法性能。
為了更好地了解和保護用戶的隱私,識別潛在的隱私風險,需要明確用戶瀏覽隱私的度量標準。本文的隱私度量標準是通過時間間隔給出用戶的隱私移動軌跡。設用戶瀏覽范圍內(nèi)有兩個點M1(x1,y1)和M2(x2,y2),則用戶瀏覽信息軌跡的斜率為
用戶瀏覽范圍內(nèi)的兩個點之間的斜率比為
其中ki表示用戶在第i 個瀏覽階段的瀏覽斜率[4-5]。在相似性區(qū)域內(nèi),不同瀏覽階段的斜率越接近,用戶所瀏覽的數(shù)據(jù)軌跡就越接近。
用戶瀏覽的軌跡函數(shù)[6-7]為
其中x 表示瀏覽區(qū)間大小。
設用戶瀏覽信息軌跡斜率對應夾角a 的正切值為
夾角越小,用戶瀏覽內(nèi)容的隱私性就越強。
在該模型下,可以得到用戶瀏覽隱私度量標準,即用戶瀏覽的敏感信息占總瀏覽內(nèi)容的比例。在社交網(wǎng)絡中存在大量的個人信息和敏感數(shù)據(jù),為了保護用戶的個人隱私權益,應確保用戶瀏覽的內(nèi)容中敏感信息的比例不超過三分之一,即選取社交網(wǎng)絡中敏感信息比例閾值為30%。
對社交網(wǎng)絡用戶的瀏覽信息以及用戶信息進行分類,確定需要保護的范圍。先計算一個點與其他點的歐氏距離,再選出距離這個點較近的幾個點,然后統(tǒng)計這些相對較近的點所屬分類的最大比例[8-9]。最終的分類決策模型如圖1 所示。為了簡化模型,圖1中忽略了坐標信息。在圖1 中,最小的圓圈內(nèi)是最先被決策分類的。在第一階段中,從三角形、圓形和正方形中任選一種作為被分類的點。例如選擇正方形作為分類依據(jù),則在第二階段中,就對正方形的大小型號進行區(qū)分。選擇最大型號的正方形后,繼續(xù)在外圍(第三階段)的區(qū)域內(nèi)選擇正方形的顏色(黑或白)[10]。以此類推,每個階段的信息都在前一個階段分類的基礎上進一步細分和區(qū)分,構建層層細化的信息分類模型。通過選擇隱私信息的不同屬性逐級分類信息,實現(xiàn)信息被更加精細的分類和整理,使信息更具有層次,更加結構化。

圖1 分類決策模型
第一階段是最困難的階段,這是因為社交網(wǎng)絡中通常存在大量的瀏覽信息,需要結合用戶瀏覽隱私度量標準,計算瀏覽信息與用戶信息之間的相似性。相似性系數(shù)為
其中Xm和Ym分別表示瀏覽信息與用戶信息的第m個屬性信息。δm越大表明瀏覽信息與用戶信息越相似。為了提高分類的準確性,較大的相似性系數(shù)都要被統(tǒng)計在分類模型內(nèi)[11-12]。
其中P(u)表示移動社交網(wǎng)絡用戶在瀏覽數(shù)據(jù)時被推斷出正確軌跡的概率。P(u)的計算公式[13]是
其中L(u)和L(q)分別表示移動用戶在不同分類模型內(nèi)的隱私瀏覽軌跡。P(u)的值越高,則信息分類模型的分類精度就越高。
下面設計基于人工智能技術的社交網(wǎng)絡用戶瀏覽隱私保護算法。
步驟1:初始化用戶信息的真實位置Mq(x1,y1),記錄用戶信息瀏覽位置,劃定坐標原點,并定義循環(huán)變量i=1[14-15]。
步驟2:判定待測信息是否為隱私信息。如不是隱私數(shù)據(jù),則繼續(xù)尋找其他待測信息;如是隱私數(shù)據(jù),就計算虛假軌跡區(qū)域。軌跡數(shù)目為
其中σp表示用戶角度[16]。
步驟3:計算虛假軌跡圓心位置。
熱點區(qū)域中心代表用戶瀏覽數(shù)據(jù)中的重要位置或興趣區(qū)域。為了保護用戶在重要位置的隱私,避免細粒度的位置信息泄露,在軌跡數(shù)目的基礎上,將選擇熱點區(qū)域中心為圓心,將社交網(wǎng)絡用戶瀏覽隱私保護的范圍定義為一個圓。圓心Od(Ox,Oy)位置定義為
其中xm和ym表示虛假位置在隨機區(qū)域的坐標。
步驟4:計算控制增量并進行標準化處理。
步驟5:判斷移動社交網(wǎng)絡用戶隨機位置是否為虛假位置。如果是,則輸出匿名保護結果;如果不是,則重新定義循環(huán)變量i。
依據(jù)上述步驟畫出的流程如圖2 所示。

圖2 隱私保護算法
在本實驗中,選取Jester 數(shù)據(jù)集中的10 000 條用戶歷史行為記錄作為實驗數(shù)據(jù),隨機選擇其中的80%作為訓練集,剩余20%作為測試集。對訓練集中的數(shù)據(jù)進行擾動用戶歷史行為的操作。使用Windows7 操作系統(tǒng)和Matlab 軟件編輯代碼。
建立攻擊模型,假定攻擊者獲知用戶的部分瀏覽情況,并可以截獲移動社交網(wǎng)絡用戶向服務器發(fā)送的查詢信息。攻擊者通過計算某用戶瀏覽軌跡與實際瀏覽移動速度之間的距離(用戶瀏覽軌跡指移動社交網(wǎng)絡用戶在使用移動應用或瀏覽器期間所產(chǎn)生的記錄和跟蹤的行為路徑,包括用戶瀏覽的頁面、點擊的操作、訪問的位置等。實際瀏覽移動速度表示用戶在實際操作中快速瀏覽移動應用或瀏覽器界面的速度,例如在屏幕滑動時的滑動速度。距離指攻擊者計算用戶實際瀏覽移動速度與用戶界面內(nèi)的軌跡之間的差距),判斷用戶界面內(nèi)的軌跡是否真實軌跡。如果兩者之間的差距較大,攻擊者就懷疑用戶界面內(nèi)的軌跡是模擬的或偽造的,而不是實際行為產(chǎn)生的真實軌跡。
在實驗中,初始化移動社交網(wǎng)絡用戶瀏覽隱私的參數(shù)如表1 所示。表1 中設置了3 種參數(shù):σ表示用戶角度劃分,即用戶瀏覽軌跡的預設數(shù)目;Qr表示用戶真實位置與隨機位置的距離,它是一個范圍參數(shù);Pm表示在虛假軌跡所在區(qū)域用戶真實位置被查找到的概率。

表1 實驗參數(shù)
在上述實驗參數(shù)下,測試文中設計的移動社交網(wǎng)絡用戶瀏覽隱私保護方法,并與縱向聯(lián)邦學習方法、云計算應用方法和深度神經(jīng)網(wǎng)絡算法相比較。
4.2.1 隱私保護度分析
結合表1 所示的6 個Pm參數(shù)值,σ 值統(tǒng)一設置為(2/5),Qr值為50~200。測試在不同Pm數(shù)值下上述幾種算法的隱私保護度的變化,并對比隱私保護效果。結果如圖3 所示。

圖3 隱私保護度
由圖3 可知,隨著Pm增大,隱私保護度整體呈現(xiàn)出逐漸增加的趨勢。當Pm為0.3 時,本文算法的隱私保護度為0.4,其他3 種算法的隱私保護度均小于0.4。當Pm值為0.8 時,本文算法的隱私保護度已經(jīng)增加至0.69,縱向聯(lián)邦學習方法的隱私保護度為0.47,云計算應用方法的隱私保護度為0.56,深度神經(jīng)網(wǎng)絡算法的隱私保護度為0.59。結合上述數(shù)值可知,Pm參數(shù)越大,算法在保護用戶隱私方面的效果就越好。
4.2.2 匿名時延差異分析
通過上述實驗,在保證實驗結果最優(yōu)的前提下,可確定本實驗中的Pm為0.8。設置Qr為50~200,對比在不同角度參數(shù)之下,4 種算法匿名時延的差異。結果如圖4 所示。

圖4 4 種算法的匿名時延
由圖4 可知,當角度參數(shù)σ 為/15 時,本文算法的匿名時延為2.47 s,縱向聯(lián)邦學習方法的匿名時延為3.17 s,云計算應用方法的匿名時延為3.21 s,深度神經(jīng)網(wǎng)絡算法的匿名時延為3.16 s。當角度參數(shù)增加至2/5 時,本文算法的匿名時延為1.78 s,縱向聯(lián)邦學習方法的匿名時延為2.00 s,云計算應用方法的匿名時延為2.41 s,深度神經(jīng)網(wǎng)絡算法的匿名時延為2.32 s。可見,角度參數(shù)值越大,各種方法的匿名時延均越小。
4.2.3 算法匿名成本
結合隱私保護度以及匿名時延分析的實驗結果,設置Pm為0.8,σ 為/15,對比在不同Qr下,4種算法的匿名開銷差異。結果如圖5 所示。由圖5 可知,當距離參數(shù)為50~200 時,本文算法的匿名開銷為30.6,縱向聯(lián)邦學習方法的匿名開銷為36.1,云計算應用方法的匿名開銷為34.7,深度神經(jīng)網(wǎng)絡算法的匿名開銷為31.4。當Qr降低至100~150 時,本文算法的匿名開銷僅僅只有7.1,縱向聯(lián)邦學習方法、云計算應用方法和深度神經(jīng)網(wǎng)絡算法的匿名開銷則分別降低至17.5、14.7 和12.3。由此可見,距離參數(shù)值越小,算法的匿名開銷就越小。

圖5 4 種算法的匿名開銷
綜合對比以上數(shù)據(jù)可知,在參數(shù)相同時本文算法的隱私保護度大于其他3 種算法,且匿名時延與匿名開銷相對較小。可見,本文算法優(yōu)于其他3 種方法。
文中給出了一種基于人工智能背景的移動社交網(wǎng)絡用戶瀏覽隱私保護方法。實驗結果顯示,其在隱私保護度、匿名時延以及算法匿名開銷等方面均具備良好的性能。在今后的相關研究中,可以從現(xiàn)實場景多變性以及用戶特殊性等方面入手,以實現(xiàn)更快速、靈活的隱私保護。