劉 東,任海玲
(1.寧夏醫科大學理學院,寧夏 銀川 750004;2.寧夏醫科大學,寧夏 銀川 750004)
在大數據時代,社會中各行各業的數據規模都呈現出翻倍式的增長趨勢。大數據本身是指一種無法在一定的時間范圍中,利用常規的軟件工具對其進行捕捉、處理以及管理的數據集合,需要采用全新的處理方式,這樣才具備更強的洞察發現力、決策能力,從而獲取多樣化、高增長與海量優化的信息資源[1]。大數據的主要特點為:真實性、低價值密度、多樣性、高速以及大量五個特點。通過這五個特點可以從理論、技術以及實踐方面對大數據進行分析,其中,理論方面是指對于大數據認知的途徑,同樣也是被廣泛認同以及傳播的基線;技術方面是指怎樣通過某些價值的體現;而實踐方面則是大數據的最終體現價值手段[2]。
不過隨著大數據的使用者越來越多,難免會引起一些不法分子的注意,他們通過入侵或者是一些其它非法手段,利用大數據對個人用戶或者企業,甚至是社會、國家等,造成不可挽回的損失,因此,在實現對大數據的集中之后,怎么保證網絡數據信息的保密性、可用性以及完整性,已經變成目前各個領域需要考慮的核心問題。而按照安全的防護技術可以分為:大數據應用訪問控制、大數據資產梳理、大數據脆弱性檢測、大數據脫敏系統,大數據安全審計等,以現有安全防護手段為基礎,楊理皓[3]等提出基于差分隱私機制的位置數據隱私保護方法,該方法通過建立多級查詢樹,使用差分隱私的指數機制來選取訪問頻率高的內容項,然后對其進行加噪,實現對位置數據隱私的加密保護。分析實驗結果可知,該方法的數據覆蓋面較廣,但是由于數據量較大,導致認證時間較長。毛典輝[4]等提出基于DCGAN反饋的深度差分隱私保護方法,該方法在分析差分隱私特點的基礎上,計算深度網絡中每一層的隱私預算,在隨機梯度下降計算中添加高斯噪聲,將總體隱私預算降至最小值,并選取最優結果。實驗結果表明,該方法能夠對敏感性較高的信息實施隱私保護,但是無法同時處理大量數據,所需時間較長。
針對現有方法存在的問題,提出一種基于差分隱私的大數據安全訪問權限認證方法,通過該方法保護用戶訪問大數據信息安全。
差分隱私主要是利用添加噪聲的方式對起始數據進行統計或者擾動轉換,以此達到隱藏保護的作用。
給定兩個最多相差一條記錄的數據集D1和D2,用f代表隨機算法,rangef代表算法f全部輸出所組成的集合,S代表range(f)的子集。如果算法f要滿足式(1),那么算法f存在ε-差分的隱私性
Pr[f(D1)∈S]≤eε×Pr[f(D2)∈S]
(1)
式中:ε代表隱私保護的預算,可以表示算法隱私的保護水平,若ε取值越小,那么隱私保護的水平就越高。
拉普拉斯Laplace噪聲機制為差分隱私保護中最常用的方法之一,此機制主要用于數值型的數據隱私保護,將利用拉普拉斯生成的噪聲添加至輸出值內,完成數據差分的隱私保護。
1)相對于隨意的一個函數f:D→Rd,如果算法Y滿足式(2),那么稱Y可以滿足ε-差分隱私公式為:
Y(D)=f(D)+[Lap1(Δf/ε),…,Lapd(Δf/ε)]
(2)
式中,函數Lapi(Δf/ε)(1≤i≤d)代表拉普拉斯的密度函數,Δf=maxD1,D2|f(D1)-f(D2)|代表函數f(D)查詢的敏感度。D1,D2代表不同的數據集,d代表查詢的維度[5]。
2)對于隨意的一個函數f:D→Rd,其算法f全局的敏感性表達式為
Δf=maxf(D1)-f(D2)p
(3)
式中:D1與D2最多相差一條記錄;R代表映射實數的空間;p代表度量Δf所使用的時間。
經過以上所述可知,Laplace機制能夠很好維持數據的統計特性,使其更加適合數值型的聚類分析[6]。
為了驗證算法是否可以滿足差分隱私,要滿足以下的差分隱私組合的特性:并列的組合性以及序列的組合性。
1)給定數據庫D和n個隨機算法fi,并且fi能夠滿足εi-差分隱私,則fi(D)序列組合可以滿足ε-差分隱私。
2)將給定的數據庫D分成n個完全不相交的子集D={D1,D2,…Dn},如果任意fi能夠滿足ε-差分隱私,那么序列fi在D={D1,D2,…Dn}上面的操作結果仍然需要滿足ε-差分隱私條件。
權限涉及到的約束如下所示:
1)登錄時間約束公式為
T1∈(Ts,Te)
(4)
式中,Ts代表初始時間;Te代表結束時間。登錄的時間段要在初始時間至結束時間的約束區間范圍之內,且登錄的時間不可與初始時間與結束的時間相等。
2)登錄次數約束公式為
Nl=[0,Nlt]
(5)
式中,Nlt代表登錄次數閾值。登錄的次數要在0次與登錄的次數閾值約束區間的范圍之內,且登錄的次數可以與0或者是登錄次數的閾值相等。
3)登錄時間約束公式為
Tln-Tll>Tli
(6)
式(6)表示該次登錄的時間和上一次的登錄時間差要超出登錄的時間閾值。
4)查詢結果數約束公式為
Tll=[0,Tln]
(7)
式中,Tln代表查詢結果個數閾值。數據查詢的結果個數要在0次與查詢結果個數的閾值約束區間范圍之內,且查詢的結果個數可以為0或者與查詢結果個數閾值相等[7]。
5)查詢時間約束公式為
Nq∈[0,Nqt]
(8)
式中,Nqt代表查詢次數閾值。查詢的次數要在0次與查詢的次數閾值約束區間的范圍之內,且查詢的次數可以為0或者與查詢次數的閾值相等。
6)查詢次數約束公式為
Tqn-Tql>Tqi
(9)
式(9)表示該次查詢的時間和上次查詢的時間差要超出查詢的時間閾值。
Tql=Tqn
(10)
該次查詢結束以后,上一次的查詢時間自動更新成該次查詢的時間[8]。
以大數據安全訪問權限約束條件為基礎,設置大數據標簽和標識,通過對大數據擁有者或生產者貼上標識,并對訪問大數據的對象貼上標簽,實現初步認證。
標識:主要是數據擁有者或者生產者定義的記號,主要用來代表數據具有隱私信息的類型。
標簽:主要代表被標注的對象安全等級,各個標簽l全是通過標識構成的集合,代表被標注的實體具有每個隱私的信息類型,為J子集。利用L代表全部標簽構成的集合L=J。
實體:主要是被標簽所標注的對象,利用L′代表全部實體集合,將p設成全部進程形成的集合,L′=p∪D。
大數據內為各個實體標注的標簽:進程的標簽Lp代表進程p的安全等級,而數據標簽Ld代表數據d的安全等級[9]。
隨意給定兩個標簽L1與L2,若L1包含L2(公式L1?L2成立),代表標簽L2要比標簽L1包括更多隱私的信息標識,表示被L2所標注實體存在更高隱私性的等級。當L1?L2成立時,允許L1標簽流向L2標簽。
利用符號“→”代表允許實體之間信息的流動,那么以上的規則的具體公式為
?d,e∈L,L1,L2∈L
Ld=L1∧Le=L2∧L1?L2?d→e
(11)
將標識的集合設成J={x,y,z},即L的形成過程具體如圖1所示。

圖1 具體的形成流程
在圖1內,最低的安全級別是?,最高的級別是{x,y,z}。
大數據的訪問權限授權條件屬于數據的所有者,數據處于特定外部條件時能夠被進程所訪問,因此,利用判定謂詞集合代表方位權限,全部訪問權限條件所形成的集合可以利用pc表示。
而對于標識t∈J,對數據的擁有者或者是生產者設置的兩種訪問權限的授權條件分別為:讀授權條件t+以及寫授權條件t-,其中,讀授權條件t+代表進程讀取存在標識是t數據能夠滿足的需求,而寫授權條件t-代表進程消密存在標識是t數據要滿足的需求。具體需求為[10]:
1)用戶要求必須是本人;
2)簽名要求必須是此用戶的簽名;
3)時間要求必須是特定的時間段。
從進程集合一直到訪問授權條件的集合關系?為:

因此,現對于訪問讀授權條件與寫授權條件,二者分別有以下規則:

(12)

(13)
為了能夠更好的表達訪問授權條件和數據流動二者之間的關系,需要對訪問授權條件進行以下擴展:
先定義標簽的訪問讀授權條件集合為“+”,相對于隨意的標簽l,l+={t+|t∈l}是利用標簽l內全部隱私類型的標識t訪問讀授權條件構成的集合,而定義標簽的訪問寫授權條件集合為“-”,相對于隨意標簽l,l-={t-|t∈l}。則存在以下規則
(14)
(15)
大數據所有者經過正確設置t+與t-兩個訪問授權條件,即可對自身大數據完成傳輸以及訪問權限認證的保護[11]。
為了驗證所提方法的有效性,利用所提方法和基于差分隱私機制的位置數據隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法對實體用戶想要訪問的數據進行分類分層處理,再給定用戶想要數據的文件屬性個數,將其完成分類以后,對比兩種方法占用系統的存儲空間情況,結果如表1所示。

表1 大數據屬性的分類分層空間占用情況
通過表1能夠看出,基于差分隱私機制的位置數據隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法對于系統空間的占用要明顯比所提方法大,在大數據文件的分類屬性集合增加到50個時,基于差分隱私機制的位置數據隱私保護方法要比所提方法高出50%以上,說明現有方法在大數據安全訪問權限認證過程中對空間的損耗嚴重。

具體加密與解密過程如表2所示。

表2 大數據加密與加密的計算結果
通過表2能夠看出,所提方法加密與解密速度要比基于差分隱私機制的位置數據隱私保護方法加密與解密速度快,說明所提方法的性能更優。
因為主體的用戶訪問個數逐漸增加,所以設定數據量大小不相等情況,利用所提方法和基于差分隱私機制的位置數據隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法對數據的訪問權限時間進行對比,具體訪問權限的時間曲線如圖2所示。

圖2 數據的訪問權限認證時間對比
通過圖2能夠看出,用戶訪問的數據文件大小相等時,采用基于差分隱私機制的位置數據隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法的認證訪問權限時間,要比所提方法的認證訪問時間長,因為訪問的時間變長,會導致大數據的安全性降低,因此,通過以上的訪問時間長度比較結果,證明所提方法對于大數據中心的數據資源訪問安全性較高,效果良好。
所提方法通過對大數據訪問權限認證的方式保護大數據的安全,仿真結果證明所提方法的大數據資源訪問認證效果較好,安全性比較高。不過由于大數據技術未來的發展空間無限,所以一些不法分子會時刻想要利用大數據獲取企業、個人,甚至是國家的信息,通過這些信息進行一些不法的活動,因此要進一步對大數據的訪問安全問題進行研究,提升保護手段。