摘要:隨著信息時代的發展,數據量的規模迅速增長,數據的類型也變得復雜化,數據中往往包含了很多具有重要價值的信息,然而現階段數據隱私保護技術上的不完善,無法切實的對大數據環境下數據隱私進行加密保護,使得大數據的數據隱私加密的算法的優化改進逐漸成為研究的重要課題。該文就以大數據環境下數據隱私加密算法的原理及數據隱私加密算法的優化情況進行探討,對其現狀及發展趨勢進行分析。
關鍵詞:大數據;數據隱私;隱私保護
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)04-0018-02
隨著互聯網+與大數據時代的到來,以云計算和大數據為代表的信息技術深刻的改變了我們的生活。大數據環境的不斷發展,使得數據的存儲與計算、發布和共享等都有了極大的便利。據統計,現階段的互聯網用戶已經突破了30億,互聯網全球滲透率已經高達43%,越來越多的網絡用戶愿意將自己的個人數據提供給服務提供商,例如醫療機構、銀行以及大型的網絡企業等。隱私加密保護技術是防止隱私信息泄露的重要保障,通過對大數據的數據隱私加密算法進行研究,可以對現階段的數據隱私進行更好的了解和掌握。
1 大數據環境下數據隱私加密保護概述
1) 大數據隱私保護方法
隱私信息一般是指用戶不愿公開的與個人敏感事項有關的數據信息,例如,用戶的家庭關系、個人教育信息以及工作經歷等。這些數據又是由多個元組所組成的,每一個元組又同時包含多個用戶屬性。用戶屬性可以按照特征分為以下三類:一是準標識符,需要多個屬性進行組合才能共同對用戶的信息進行標識,即不能唯一標識一個用戶身份的屬性,例如,生日、地址等;二是顯示標識符,與準標識符相反,它可以標識出一個用戶的屬性,例如,姓名和證件號碼等;三是敏感屬性,主要包括用戶不愿意公布的信息,包括個人隱私的薪資和健康狀況的等。
2) 隱私保護技術
現階段主要的隱私保護技術主要有三種。
一是基于數據匿名的隱私保護技術,它是通過對數據進行移植和泛化等來對數據進行隱私保護,針對大數據環境下數據的多維多源性和大規模等特征,可以很好的進行針對性的操作。通過分布式計算模型設計以及多線程匿名技術等,大大的提高匿名的效率,起到數據保護的作用,主要的代表性技術有l-diversity 和 t-closeness 等。
二是基于數據失真的隱私保護技術,這種技術可以保證在用戶的一些數據的總體特征或者屬性不變的情況下對數據進行干擾,干擾的強度與數據失真的強度成正比:數據失真越大,隱私保護強度就越高。傳統的有差分隱私保護技術,通過對數據添加噪聲來進行隱私保護,但同時也會出現數據可用性較低的情況。
三是基于密碼學的隱私保護技術,通過對數據進行加密的方式來保護隱私信息,是現階段作為流行的一種技術,隱私的保護強度較高。在大數據環境下,數據隱私的加密算法逐漸受到各方面的關注,圍繞可加密算法所提出的新理論、新方法和新技術等大大的提高了數據隱私加密的安全性和可靠性。
3) 隱私保護技術的性能評價指標
在大數據環境下的數據隱私加密保護中,數據的存儲和計算等都是通過對云服務器來進行處理的,在對大數據的隱私加密技術進行評價時,可以從以下指標來進行測量:
一是隱私保護強度,主要是通過隱私信息泄露的風險1/R(s)來反映的,隱私泄露的風險越小則說明了保護的強度越高。
二是數據的可用性I,這主要是通過對隱私保護技術處理后的數據的缺損來進行反映。數據的缺損性越高,則所代表的數據的可用性就越低。在對數據的可用性進行度量時可運用的指標有分辨率度量DM,數據分類度量CM以及數據信息損失ILOSS等。
三是數據隱私加密的開銷成本C,包括數據計算開銷,指隱私保護技術處理數據時需占用的計算資源;數據通信開銷,指在云計算環境中用戶與云端進行數據傳輸時的通信量;數據存儲開銷,指云端存儲經隱私保護處理戶的數據空間大小。具體的原理可由下列公式來說明:
其中E表示隱私保護技術的評價值,α、β、為權重系數,并且通過E整體來評估隱私數據的性能,權重系數可以由用戶的具體需求來進行個性化的設定。
2 大數據環境下數據隱私加密算法的提出必要性
隨著大數據環境的發展,越來越多的敏感數據被存儲在云中,包括電子郵件、私人通信記錄以及企業的重要文件等。雖然借助云服務器所提供的高質量數據存儲服務為用戶使用數據提供了極大的便利;為了方便科學研究或者其他方面的運用,這些服務提供商通常采用私有云、混合云或者公有云的方式進行數據的存儲和管理,但是這種方式也會使得用戶的個人數據的物理控制權與所有權相分離。對于不經意間將隱私數據上傳到不可靠的云服務商來說,增加了隱私被泄露的風險;同時,一些黑客采用數據挖掘等方式來對數據中的隱私進行收集與傳播,導致用戶的權益得不到應有的保障。現階段將數據加密再進行上傳是一種比較常見的方法,但是在經過重重的加密后,數據的原有特性可能出現變化。特別的是,隨著大數據環境下數據量的不斷增加,數據的加密顯得尤為復雜,當用戶需要某些數據時,無法直接在密文中對數據進行篩選,無法直接得出自己想要的信息,很容易造成時間和帶寬的浪費。
對于以往的數據隱私加密算法而言,采用的是直接對數據進行加密,沒有注重對數據層與層之間的進行劃分,對于涉及到的一些較為復雜的問題,不能夠保證數據加密的準確性。在這種情況下對大數據環境下的數據加密算法進行改進具有很大的必要性,特別的是現在所流行的OPES+理論思想的運用,將隱私數據映射為數值,并且通過位置排序等方式將其劃分成桶,通過加強獲取的加密函數為依據進行隱私數據的優化保護,使其成為了現階段數據加密保護的一種比較流行的方式。
3 大數據環境下數據隱私加密算法
大數據環境下數據隱私加密保護的過程中,主要是對數據進行加密算法和加密秘鑰等方式將其從明文轉變成為密文,在通過解密的方式將其從密文來轉變成為明文,從而可以有效的對數據進行加密保護。在不改變大數據環境中的值的前提下有效的處理大數據環境下數據更新快以及數據量大的問題,通過對數據進行組建索引的方式,防止用戶數據信息的泄露。以下將用公式的方式來闡述大數據環境下數據的加密與解密過程:
1) 加密過程:(其中I表示加密迭代次數的變量)
從上述公式或者變量可以看出,大數據環境下的數據隱私加密保護原理,可以為大數據環境下的數據隱私加密提供切實可行的理論基礎,最大化的提高數據保護的效果。
4 大數據環境下數據隱私加密算法的優化建議
雖然當前采用的數據隱私加密算法對于促進數據的隱私保護方面具有重要的重要,可以最大化的保障大數據環境下的數據安全問題,但是大數據環境具有數據量大且復雜的特點,對于數據的保護的要求較高,而現有的數據加密保護隱私的算法也或多或少的存在一些不足,必須要進行不斷的改進才會使其保持應有的活力,更好的實現對用戶的隱私數據進行保護。以下便提出了一種基于改進保護序加密算法的大數據環境下的數據隱私加密算法。
1) 大數據環境下的隱私加密
大數據環境下的數據隱私加密的首要步驟就是運用OPES+的理論將隱私數據轉換成數值進行表述,并對已經排列好的數據按照桶來進行劃分,通過這種均勻的劃分方式將各個桶內點的數量控制在一個低于給定的閾值上,從而保證了數據加密的有效性。
在這個過程中,首先就是要做好數據的經緯度的表示,可以以度分秒的形式來進行表示。OPES+的理論為大數據環境下將隱私數據轉換從數值提供了很好的理論基礎。其次,需要將排列好的位置數據按照桶來進行劃分,保證其分布空間的安排合理有序。可以假定以字母P代表明文空間中的原始數據,則可以將P劃分為P={
其中,Z表示M(P)的范圍參數,表示加密的二次項系數。
由上述公式可以看出,在對大數據環境下數據隱私優化的加密保護過程中,運用OPES+的理論可以將大數據環境下的隱私述轉換成數值進行表述,通過將其劃分成為桶,可以保障數據在排列分布時的有序性,既保證了述分分布均勻,又在一定程度上將桶內數據的點的數量進行了限制,使其小于特定的閾值,并且還可以最大化的保證其順序的不變,為實現大數據環境下的數據加密奠定好了技術保障。
2) 大數據環境下數據隱私加密的優化原理
前面具體的闡述了對數據加密的過程的算法運用,以其為基礎,以獲取的加密函數為核心,下面將具體的闡述大數據環境下的數據優化加密原理,對具體的算法進行改進,實現數據的優化處理。
用下式表述數據隱私加密保護問題的約束同構的線性優化問題
其中,g(z,c)表示目標函數的參數,optξ表示數據加密的目標函數,f(z,a)表示隱私加密數據的決策變量。
在對大大數據環境下的數據隱私加密算法的優化設計中,最重要的是要保證數據隱私的安全性,要做好措施保證數據隱私的不被泄漏,通過檢查各種非基變量的檢驗數,達到最優解,以此來實現數據加密保護算法的不斷優化。
4 結束語
從以上的研究可知,隨著大數據環境的不斷發展變化,對數據的隱私加密算法的研究需要不斷的與時俱進,要對其進行進一步的探索,不斷提高其適用性,使其更好的符合大數據環境下數據的需求與發展變化。
參考文獻:
[1] 曾凌峰.大數據環境下新的數據加密算法研究[J].科技通報,2017(6):205-208.
[2] 張少芳,趙李東.IPSec VPN 中數據加密方式探究[J].電腦編程技巧與維護,2013(4):78-79.
[3] 朱錦明.計算機網絡通信安全中數據加密技術的應用[J].科技與創新,2014(8):129-130.
[4] 江偉.計算機網絡通信安全中數據加密技術的應用探析[J].建筑界,2013(14):64-65.