(北京信息職業技術學院,北京 100081)
21世紀是大數據的時代,它為人們帶來的巨大的機遇與財富,各行各業通過對大數據進行分析及深挖,從中找到有用信息進而提高企業效益。但是在另一方面來看,用戶個人數據的網絡化、透明化成為不可阻擋的大趨勢,如何對其隱私保護成為業內人士注重的問題。如果不能加以有效保護,用戶在網絡中留下的數據信息很可能被惡意利用,造成意外甚至是難以挽回的經濟損失。
現階段,傳感器可以自動采集用戶位置信息,其采集用戶位置信息的能力(速度、規模等)發展迅速,遠超當前系統的處理速度。在將來,隨著移動傳感設備的發展與通信技術的進步,位置信息產生的速度會更快,頻率則更高,其均會為人們的日常生活及科學研究帶來極大的便利,這類包含位置信息且具有規模大、產生速度快、蘊含價值高等特點且被普遍認可的數據被稱為位置大數據。
隱私是指與本人相關的且在不經過本人的同意不可能在某些時間、某些地點以某種方式被公開,與一般的隱私定義有共同之處,大數據隱私是指用戶對自己位置信息的掌握。在當今社會,企業與商家可以用各種各樣的方式獲取用戶的位置信息,并且企業與商家可以利用位置信息得到用戶的活動軌跡,利用活動軌跡可以對用戶的家庭住址、生活習慣、健康狀況及社會地位等進行初步推斷。比如,可以依據用戶出現在醫院的時間段及次數可以推斷用戶是醫院工作者還是身體出現了健康問題,進而對用戶進行下一步的推銷。
大數據隱私攻擊模型有統一的標準描述對用戶位置隱私信息的攻擊效果,不同的攻擊方法提供給攻擊者的用戶位置的數據量不同,攻擊者得到用戶的位置數據是需要用r(攻擊者取得的用戶的一條位置信息)、p(用戶的位置數據)、t(收集到的用戶位置信息所對應的時刻),因此攻擊者可以根據采集到的位置數據推斷用戶在t時刻處于某個敏感位置的概率。
在對大數據加密的方法進行設計時,我們需要引入模糊加密理論。這個模糊理論包括兩方面,一方面是對位置數據的空間模糊,另一個是對位置數據的時間模糊。位置數據的空間模糊是通過降低位置數據的精確度來對位置的空間數據進行模糊進而達到對用戶數據進行隱私保護的目的,這種方法可以將用戶的位置信息從一個點擴大到一片區域,使攻擊者無法直接得到用戶的具體位置信息。

圖1 位置數據空間模糊示意圖

圖2 位置數據時間模糊示意圖
a圖表示某一時刻內A、B、C、D、E五個用戶的空間位置信息,b圖表示用戶之間的空間關系。
用戶如果想將黑色區域作為自身的模糊位置范圍,需要在符合各項要求的前提下對用戶的周圍區域進行保護,進而對系統內的所有數據進行加密。針對本次設計的具體情況,進一步提高針對隱私保護的修正速度是重中之重。針對位置數據的模糊加密理論,他是通過對位置數據時域進行模糊,降低位置數據的精確度,進而加密位置數據。
在對用戶位置數據定位與表示準確的情況下,利用位置數據的時間模糊加密理論與空間模糊加密理論選定位置數據信息的加密保護強度,假定用ε表示位置數據的隱私預算,對于用戶的隱私保護,需要對用戶的關聯位置的數據集合進行集權化處理:

U代表大數據集,他的特點為具有位置特征,Qi表示最初位置信息的查看結果,S是范數距離,但是暫時不使用。
為避免位置數據時時刻刻在變化對加密的效果產生影響,在計算中加入一個位置數據的敏感系數Δβ和閾值N,若計算目錄到達或超過敏感度閾值則停止計算,針對數據集進行調整。
綜合以上所述,設計數據加密算法模型,可以得出最后加密系數為:

數據越近似加密系數越大,這表明對用戶位置數據的隱私保護越好。
在對本加密方法進行仿真時需要提供合適的仿真環境。在進行仿真時為保證實驗的準確,需要進行對比實驗。對用戶的位置數據采用兩種加密方法:傳統加密方法與上文的隱私保護加密方法,在閾值確定時,分析兩種方法對用戶隱私信息的保護程度。本文方法的惡意數據攔截量為97.68%,而傳統方法對惡意攻擊數據的有效攔截量僅為85.91%。綜上所述,本文的加密方法對用戶的隱私保護效果更加理想。
互聯網在滲透進入人們生活的方方面面,因此對于用戶的隱私保護問題更應該受到人們的重視,本文特針對這一問題設計了用戶位置隱私保護加密方法,但是該方法仍然存在一些不足,希望在后續研究中可以針對這些不足加以改進。