肖 潔,袁 嵩,譚 天
(武漢科技大學 計算機科學與技術學院,湖北 武漢 430065)
大數據時代數據隱私安全研究
肖 潔,袁 嵩,譚 天
(武漢科技大學 計算機科學與技術學院,湖北 武漢 430065)
近年來,利用數據分析的方法從大數據中挖掘出有價值信息的大數據應用發展極為迅速,為人們的日常生活帶來了極大的便利。然而,隨著隱私泄露事件的屢屢發生,隱私安全問題引起了社會的廣泛關注。文中對當下已然產生的各種數據隱私問題進行分析,將一系列的數據隱私保護方式進行綜合,從數據存儲、數據處理以及數據共享的角度出發,結合現有的數據處理技術給出在數據加密、數據防護、匿名保護技術等不同方面的保護措施以應對數據在處理、傳輸、共享中存在的安全隱患。由于使用云計算平臺來存儲和分析大數據的方式被廣泛應用,而云平臺的流動性、跨界的融合性以及動態的變化特性增加了隱私泄露的風險,文中還研究了基于云存儲及云處理的大數據保護,以期解決隱私泄露問題。
大數據;隱私保護;數據處理;數據存儲;數據加密
隨著互聯網技術的不斷發展,全球數據量呈現爆炸式增長。數據挖掘技術將這些之前無法聚合的數據聚集起來,從海量的、不完全的、有噪聲的、模糊的、隨機的大型數據庫中更迅速并且精確地發現有價值的信息。通過分析這些信息然后做出歸納性的推理,從中挖掘出潛在的模式,幫助人們做出正確決策。然而,科學技術是把雙刃劍,在為人類生活帶來巨大便利的同時,大數據背后所隱藏的安全隱患也是不容小覷的。隨著虛擬化、云計算等新技術的廣泛應用,互聯網隱私泄密事件屢見不鮮。如何能夠在享受到大數據時代下便利生活的同時有效避免其所帶來的威脅,也成了目前研究的熱點。
無論是閱讀網站還是購物網站,都存在根據對用戶瀏覽頁面停留時間、瀏覽內容等數據的分析后產生的用戶可能感興趣內容的推薦,這在很大程度上方便了用戶在網上進行目標性極強的瀏覽與選擇。可是在獲得方便快捷的個性化服務的背后,卻在某種程度上暴露了自己的隱私。使用互聯網時,信息在不知不覺中就被記錄下來;手機通話時,通話對象與通話時間,甚至通話地點均在運營商的掌控之中;發表言論或者分享照片時,互聯網運營商便可獲得用戶喜好……隨著數據采集技術的發展,個人的興趣習慣、身體特征等隱私信息可以在用戶毫無察覺的情況下被更容易地獲取。大數據時代產生的眾多精細化的數據,可以用來描述各種物體、社會和整個環境的行為。通過分析處理這些數據,可以大大減少社會的復雜度,提高人們認識世界、改造世界的能力,輔助人們做出重要決策。這些信息若被有效地利用確實會給人類生活帶來諸多便利,但是若對其無限制甚至惡意利用,所造成的后果將是無法估量的。
2014年2月,全球最大的比特幣交易平臺Mt.Gox由于交易系統出現漏洞,75萬個比特幣以及Mt.Gox自身賬號中約10萬個比特幣被竊,損失估計達到4.67億美元,被迫宣布破產。2014年3月,有安全研究人員在第三方漏洞收集平臺上曝出攜程安全支付日志可遍歷下載導致大量用戶銀行卡信息泄露。2014年4月Heartbleed漏洞被曝用于竊取服務器敏感信息,黑客利用OpenSSL漏洞發動攻擊,非法獲取了有些網站的用戶信息。2014年9月,大約有500萬谷歌的賬戶和密碼的數據庫被泄露給一家俄羅斯互聯網網絡安全論壇。2014年12月,索尼影業公司被黑客攻擊,攝制計劃、明星隱私、未發表的劇本等敏感數據都被黑客竊取并公布在網絡上,甚至包括到索尼影業員工的個人信息。2014年12月25日,大量12306用戶數據在互聯網瘋傳,內容包括用戶賬號、明文密碼、身份證號碼、手機號碼和電子郵箱等[1]。
上述事件凸顯了互聯網金融在網絡安全威脅面前的脆弱性,同時反映出信息若是遭遇入侵,不論是社會、企業還是個人都將遭受巨大的損失。基于云計算的網絡化社會為大數據提供了一個開放的環境。正是由于平臺暴露的原因,擁有巨大潛藏價值的大數據更容易遭到黑客的攻擊。大數據一旦遭受攻擊,失竊的數據量無疑將會是巨大的。以前,這些對人們的生活并不會造成很大的影響。因為面對海量冗雜的數據,即使刻意尋找也會消耗大量的時間和精力才能獲得某些有價值的信息。如今,大數據的分析能力導致看似簡單的信息也可能被挖掘出其中的隱私。這些隱私一旦遭到惡意使用,將會嚴重影響人們的正常生活。
數據作為企業和公共組織越來越重要的資產,其安全防護也隨之越發重要。近年來頻發的安全問題讓越來越多的人關注安全防護,隱私泄露問題已經令人無法忽視。生活在智能化的時代,避免數據的傳輸與分享從而切斷隱私泄露根源顯然是不可能事件,如何加強對數據的保護與加密成為了隱私保護的新命題。
3.1 數據存儲防護
想要解決大數據的存儲安全問題,數據加密必不可缺[2]。大數據安全服務設計根據安全存儲的要求將大數據存儲在數據集的任何存儲空間,通過安全套接層(SSL)協議加密[3]的方式實現在數據集的節點和應用程序之間移動保護大數據。與應用層協議獨立無關是SSL協議的最大優勢,同時,高層的應用層協議能透明地建立于SSL協議之上,SSL協議在應用層協議通信之前就已經將加密算法、通信密鑰的協商以及服務器認證工作完成。為保證通信的私密性,在此之后應用層協議所傳送的數據均得到了加密。如此便可在一定程度上減少數據被竊取與篡改的風險,使得數據安全得到保護。同時用軟件或硬件設備對向網絡上傳或從網絡下載的數據流進行有選擇的控制。設置好規則指定哪些類型的數據包被允許通過,哪些類型的數據包將會被阻止,使得數據包在從英特網向內部網絡傳輸數據以及從內部網絡向英特網傳輸數據的過程中能被控制是否通過。一旦發現非常態數據,可以自動阻止并切斷數據的傳輸,進一步提高了安全性。
目前,普遍采用虛擬化海量存儲技術[4]來存儲數據,大數據多被存儲于云端。由于數據在云端集中,其巨大的流動性、跨界的融合性以及動態的變化等特點使得數據在傳輸時的保密性受到極大威脅。作為第三方的云平臺在服務器故障的情況下,自身有可能將數據泄露;一旦被非法接入,數據將面臨被竊取、篡改、偽造等的風險。因此,數據擁有者通過拆分、加密后才將數據上傳存放在云端,用戶下載后經解密方可使用。這樣一來,即使數據在傳輸或存放的過程中意外丟失,也會因為實現加密避免發生機密信息泄露的情況。孫辛未等在文獻[5]中提出,在上傳數據前,將數據按照比特位進行拆分后重新組裝形成多個數據文件之后再分別上傳到云存儲服務器。下載時,先將所有數據文件下載,通過位合并再恢復成原始文件。利用移位和擴散的基本思想設計出的位拆分技術對數據隱私具有一定的保護作用,同時該方法不依賴于密鑰,通過匯編語言編寫核心代碼以及調整代碼順序的方式對BSBC隱私保護技術的代碼進行了優化,加快了數據拆分和合并的速度,進一步提高了隱私保護技術的性能,對于存儲在云端的數據有著很大的應用意義。
大數據在存儲階段面臨隱私泄露風險的主要原因是大數據的完整性驗證協議采用了第三方審計機構。因此,大數據存儲方面的主要隱私保護問題是如何設計一種安全高效的、能夠阻止數據擁有者的數據泄露給第三方審計機構的大數據完整性驗證協議[2]。曹夕等綜合考慮云存儲網絡環境的特性以及安全需求,設計了一種云存儲數據完整性驗證(CS—DIV)協議[6]。該協議通過隨機抽查客戶端上傳到云端的數據文件及其校驗標簽的方式,讓服務器生成指定數據塊的驗證證據并返回,之后再對數據文件的完整性進行判斷。該協議對于不同類型的文件均具有良好的適應性。通過檢查較小文件所有的數據塊的方式來保證結果的有效性。而對于較大的文件,則通過檢查其中的部分數據塊以概率來保證數據的完整性,如此便可減小對系統資源以及網絡帶寬的消耗。同時,該協議的有效執行只需要系統少量的存儲和通信開銷,并且隨著文件的增大,驗證所花的時間也仍然可以保持在一個低值水平,這滿足了云存儲中海量數據對處理效率的要求。該協議能夠以較低的存儲、通信以及時間開銷有效地驗證云存儲數據的完整性,同時又能抵抗惡意服務器欺騙和惡意客戶端攻擊,實現了對數據完整性的保護,提高了整個云存儲系統的可靠性和穩定性。
3.2 數據處理防護
大數據是龐大而又復雜數據集的匯集,只有經過分析挖掘后才能產生有用信息,體現出其價值。由于大數據具有數據多樣性、數據處理速度快、數據價值密度低等重要的特性,使得傳統的數據分析與處理方式不再完全適用,因此目前對大數據的處理方式大多是在Hadoop的框架上采用Mapreduce的模式對海量數據進行分布式的處理[7]。這種數據處理方式在某種程度上講能夠適應大數據的特性,并且具有低成本、高可擴展性、可容錯性的優勢,也能最大限度地利用機器資源。但是Mapreduce的數據處理模式過于復雜靈活,有著很強的依賴性,并且運行效率較低,而Hadoop對數據的聚合也增加了數據泄露的風險。
ZhangKH等提出的面向大數據的隱私感知混合云計算模式Sedic[8]在開源的Hadoop的模式上增加了隱私模塊。在用戶指定敏感數據之后將計算任務分割,把隱私數據留在私有云中處理,其他數據交由公有云計算。這樣一來既可以保證有效利用低計算成本的公有云,同時也可以保障敏感數據在私有云中的隱私性。陳志偉等提出了一種基于RSA和Paillier的同態云計算方案[9],該方案可實現公有云服務器的密文數據處理,無需解密密文可對其執行操作便能實現對明文數據的各種計算。對于某些用戶不愿意公開的密文數據,云端只需完成相關計算便可將所需數據的密文值返回。云端服務器在此操作過程中不接觸明文,在某種程度上保護了用戶隱私。由于通信鏈路和公有云服務器數據都是以RSA或Paillier加密的密文形式存在的,而未采用填充方案的RSA和Paillier是抗選擇明文攻擊(ChosenPlaintextAttack,CPA)的,所以該方案的密文數據符合CPA安全。此外出現在通信鏈路中的數據僅僅只是整個密文數據以及用戶操作的一部分,即使這部分數據被竊取,竊聽者也無法根據某次竊取的數據將明文或用戶的操作請求恢復,保證了用戶數據和請求的安全。在計算過程中該方案采用的是同態加密,密文規模是可以調控的,具有很好的同態操作深度。同時與基于格的全同態方案相比,基于整數域上的更容易實現和理解。雖然該方案在耗時方面有所增加,但是卻擁有更好的可行性和安全性,能夠很好地保護用戶的隱私安全。徐計等提出的基于粒計算的大數據處理方法[10]有助于提高數據處理的速度和效率,并且對隱私保護也有一定的作用。目前,粒計算已經成為發展迅速的一種信息處理方式,被很多學者列為處理大數據的首要方法。信息粒化的概念是建立基于外部世界的、有效的、以用戶為中心,同時簡化對物理世界和虛擬世界的認識,對于現今在大數據處理中面臨的挑戰有著十分重要的意義。粒化不僅可以實現對原始數據量的壓縮,而且能夠在一定程度上排除噪聲和不精確數據的影響。更重要的是,信息粒結構可以隱藏細節信息。隱私信息一般是以最細粒度原始數據的形式存在,采用粒計算處理將數據粒化之后,在傳輸和處理的過程中,規避了隱私泄露的風險。
3.3 數據共享防護
對于大數據中的結構化數據(或稱關系數據)而言,數據發布匿名保護是實現其隱私保護的核心關鍵技術與基本手段,目前仍處于不斷發展與完善階段[11]。而對于云共享中的數據來說,采用數據加密技術與數據水印技術相結合的方式,不僅能夠監控數據防止其被篡改或偽造,而且能夠保護隱私不被窺探與竊取。早期k匿名保護技術[12]使用最為普遍,不過其容易產生對某個屬性匿名處理不足的現象而被攻擊者利用。針對這種情況,l-diversity模型匿名保護技術[13]被提出。基于聚類的l-diversity匿名保護方法在滿足l-diversity模型的約束條件下,采用基于距離的層次化聚類算法劃分元組,對不同類型的準標識符使用不同的概化策略,并依據數據概化前后屬性值不確定性程度的變化描述數據概化帶來的信息損失。同現有的l-diversity模型相比,該方法不僅能夠較好地保護用戶的敏感信息,而且在一定程度上降低了概化處理帶來的信息損失。針對在數據共享中所需的敏感屬性的保護,王智慧等在文獻[14]中提出的L-Clustering不僅滿足結果數據集符合l-diversity模型,而且消除了傳統數據概化處理時的概念層次結構限制。在數據共享中對數據進行匿名保護,防止與個體相關的敏感屬性值泄漏。同時采取更為靈活的數據概化策略,利用基于聚類的思想來尋找合適的概化方案,從而有效地減少在實現匿名保護時概化處理所帶來的信息損失。通過數據匿名化實現隱私保護,為數據在傳輸過程中的隱私問題提供一定的保障。
對于云共享而言,訪問權限控制與數據加密是安全防護的關鍵。訪問權限控制確保合法用戶才能訪問云存儲數據,數據加密限制擁有解密密鑰的用戶才能對存儲在云端的數據進行下載并解密。劉孟占等提出的基于密文規則的屬性基加密技術的云存儲數據共享機制[15]通過制定合適的訪問結構來實現細粒度訪問權限控制。只需修改訪問結構的撤銷操作機制解決了公鑰基礎設施(PublicKeyInfrastructure,PKI)機制中用戶撤銷操作需要重復執行大量非對稱加密操作帶來的系統擴展性問題。數據使用公鑰加密技術加密,解密密鑰使用屬性加密(Ciphertext-PolicyABE,CP_ABE)技術加密,數據擁有者在共享數據時對共享用戶發放CP_ABE私鑰。當共享用戶的私鑰滿足密文的訪問結構時便可獲得解密密鑰,而后方能解密加密數據。CP_ABE加密技術具有靈活的訪問權限控制、簡單的用戶撤銷操作以及無需獲取用戶的公鑰證書等優勢,在一定程度上避免了PKI機制存在的系統擴展性問題。在用戶進行數據共享時,訪問權限控制和用戶撤銷操作不會向云存儲服務提供商泄露任何機密數據,確保了數據在不可信域中的機密性,達到了保護用戶數據隱私安全的目的。云平臺作為第三方,存在遭受外部攻擊以及系統故障等安全風險,除此之外對于參與計算的動態數據,云服務提供商可能窺探用戶在使用服務過程中產生的數據流和隱私信息。面對云服務下數據的機密性、隱私性、可靠性等方面可能存在安全風險的情況,數字水印技術被用于監控數據,保障數據安全。數字水印技術是將一些標識信息直接嵌入數字載體當中,但不影響原載體的使用價值,也不容易被人的知覺系統(如視覺或聽覺系統)覺察或注意到,是信息隱藏技術的一個重要研究方向。通過這些隱藏在載體中的信息,可以判斷并確認信息是否被篡改。作為標識信息的數字水印應在保證不會被篡改或偽造的同時保證極低的誤檢率,從而使得在被保護內容發生變化時做出相應的變化,以便檢測出被保護內容的變更。魯棒數字水印[16]目前廣泛用于在數字作品中標識著作權信息,利用這種水印技術在多媒體內容的數據中嵌入創建者、所有者的標識信息。在發生版權糾紛時,可用于確認數據的版權所有者,并能通過序列號追蹤違反協議的用戶。將這種水印技術移植到數據保護中可以監控數據,防止數據被惡意篡改,同時魯棒數字水印還能夠抵抗一些惡意攻擊。
大數據使人類生活變得方便而又高效,但是頻發的隱私泄露問題卻給在享受便利生活的人們敲響了警鐘,隱私安全問題得到了社會的普遍關注。文中從安全威脅事件切入,分別給出在數據存儲、數據處理與數據共享方面的相應保護措施,采用多種加密方式對數據進行層層加密來保護數據,利用水印技術監控數據是否被篡改。運用多種方法保護使數據在存儲和傳輸過程中不被竊取,希望能對隱私防護有所幫助。隨著隱私防護技術的不斷發展,相信人們能更安心地享受大數據時代的智能化生活。
[1]CCTIME.2014年全球14大網絡安全事件5個在中國[EB/OL].2015-01-20.http://www.cctime.com/html/2015-1-20/2015120161127366.htm.
[2] 黃劉生,田苗苗,黃 河.大數據隱私保護密碼技術研究綜述[J].軟件學報,2015,26(4):945-959.
[3] 鐘 軍,吳雪陽,江一民,等.一種安全協議的安全性分析及攻擊研究[J].計算機工程與科學,2014,36(6):1077-1082.
[4] 劉正偉,文中領,張海濤.云計算和云數據管理技術[J].計算機研究與發展,2012,49(S):26-31.
[5] 孫辛未,張 偉,徐 濤.面向云存儲的高性能數據隱私保護方法[J].計算機科學,2014,41(5):137-142.
[6] 曹 夕,許 力,陳蘭香.云存儲系統中數據完整性驗證協議[J].計算機應用,2012,32(1):8-12.
[7] 孫彥超,王興芬.基于Hadoop框架的MapReduce計算模式的優化設計[J].計算機科學,2014,41(11A):333-336.
[8]ZhangKH,ZhouXY,ChenYY,etal.Sedic:privacy-awaredataintensivecomputingonhybridclouds[C]//Proceedingsofthe18thACMconferenceoncomputerandcommunicationssecurity.Chicago,U.S.:ACM,2011:515-525.
[9] 陳志偉,杜 敏,楊亞濤,等.基于RSA和Paillier的同態云計算方案[J].計算機工程,2013,39(7):35-39.
[10] 徐 計,王國胤,于 洪.基于粒計算的大數據處理[J].計算機學報,2015,38(8):1497-1517.
[11] 馮登國,張 敏,李 昊.大數據安全與隱私保護[J].計算機學報,2014,37(1):246-258.
[12] 劉 斐,樊 華,金松昌,等.一種新型k匿名隱私保護算法[J].信息網絡安全,2012(8):199-202.
[13] 劉雅輝,張鐵贏,靳小龍,等.大數據時代的個人隱私保護[J].計算機研究與發展,2015,52(1):229-247.
[14] 王智慧,許 儉,汪 衛,等.一種基于聚類的數據匿名方法[J].軟件學報,2010,21(4):680-693.
[15] 劉孟占,印凱澤.基于密文規則的屬性基加密技術的云存儲數據共享機制[J].計算機應用,2013,33(S2):133-135.
[16] 史寶明,李恒杰,賀元香,等.基于微遺傳算法與SVD的魯棒性數字水印技術研究[J].蘭州文理學院學報:自然科學版,2014,28(6):45-49.
ResearchonDataPrivacyinBigDataAge
XIAOJie,YUANSong,TANTian
(CollegeofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430065,China)
Inrecentyears,bigdataanalysisandapplicationusedfordiggingoutvaluableinformationhasdevelopedrapidlyandbroughtgreatconvenienceforpeople.However,theprivacyleakincidentsoccurfrequentlyinbigdataage,theprivacysecurityhascausedtheextensiveconcern.Inthispaper,throughanalyzingthecurrentdataprivacyproblems,basedonaseriesofprivacypreservationways,fromtheperspectiveofdatastorage,dataprocessinganddatasharing,combinedwiththecurrenttechnologyofdataprocessing,thecorrespondingprotectionmeasuresindataencryption,dataprotectionandanonymousprotectiontechnologyareproposedtodealwiththesafehiddentroubleinthedataprocessing,transmissionandsharing.Thecloudcomputingplatformhasbeenwidelyused,anditsliquidity,cross-borderfusionanddynamicchangesincreasetheriskofprivacy.Therefore,thebigdatasecuritybasedoncloudstorageandcloudprocessingisstudiedinthispaper,inordertosolvetheproblemofprivacyleak.
bigdata;privacypreservation;dataprocessing;datastorage;dataencryption
2015-05-06
2015-08-12
時間:2016-05-05
湖北省高等學校2014年省級大學生創新創業訓練計劃項目(201410488037)
肖 潔(1994-),女,研究方向為軟件工程;袁 嵩,博士,副教授,研究方向為智能計算。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0814.020.html
TP
A
1673-629X(2016)05-0091-04
10.3969/j.issn.1673-629X.2016.05.019