工程學院 楊 華 郭 程
大數據安全與隱私保護
工程學院 楊 華 郭 程
大數據是當前知識界和產業界研究的熱點,正影響著人們的生活方式、思維模式及工作習慣。但目前大數據在收集、存儲和處理過程中面臨著諸多安全風險。大數據所導致的隱私泄密為用戶帶來嚴重困擾。虛假數據將導致錯誤或無效的數據分析結果。該文分析了大數據安全與隱私保護所面臨的技術挑戰。整理了若干技術及最新的進展,指出了在大數據引入安全問題的同時,也是解決信息安全問題的有效手段,它為信息安全領域的發展帶來了新的契機。
大數據;隱私保護;信息安全
當今,社會信息化和網絡化的發展導致數據爆炸式增長。據統計,平均每秒有200萬用戶在使用谷歌搜索,Facebook用戶每天共享的東西超過40億,推特每天處理的推特數量超過3.4個億。
目前,大數據已成為繼云計算之后信息技術領域的另一個信息產業增長點。據GarTener預測,到2016年全球在大數據方面的總花費將達到2320億美元。GarTner將“大數據”技術列入2012年對眾多公司和組織機構具有戰略意義的十大技術與趨勢之一。不僅如此,作為國家和社會的主要管理者,各國政府也是大數據技術推廣的主要推動者。截至目前,全世界已經正式有35個國家和地區構建了自己的數據開放門戶網站。美國政府聯合6個部門宣布了2億美元的“大數據要就與發展計劃”。在我國,2012年中國通信學會、中國計算機學會等重要學術組織先后成立了大數據專家委員會,為我國大數據應用和發展提供學術咨詢。
1.1大數據來源與特征
普遍觀點認為,大數據是指規模大且復雜、以至于很難用現有數據庫管理工具或主句處理應用來處理數據集。大數據的常見特點包括大規模(volume)、高速性(velocity)和多樣性(variety)。根據來源的不同,大數據大致可分為如下:
人們在互聯網活動以及使用移動互聯網過程中所產生的各類數據,包括文字、圖片、視頻等信息。
各類計算機信息系統產生的數據,以文件、數據庫、多媒體等形式存在、也包括審計、日志等自動生成的信息。
各類數字設備所采集的數據。如攝像頭產生的數字信號、醫療物聯網中產生的人的各項特征值、天文望遠鏡所產生的大量數據等。
1.2大數據分析目標
目前大數據分析應用于科學、醫藥、商業等各個領域,用途差異巨大。但其目標可以歸納如下:
人們進行數據分析由來已久,最初且最重要的目的就是獲得知識、利用知識。由于大數據包含大量原始、真實信息,大數據分析能夠有效地摒棄個體差異,幫助人們透過現象、更準確地把握事物背后的規律。基于挖掘出的知識,可以更準確地對自然或社會現象進行預測。
個體活動在滿足某些群體特征的同時,也具有鮮明的個性化特征。正如“長尾理論”中那條細長的尾巴那樣,這些特征可能千差萬別。企業通過長時間、多維度的數據積累,可以分析用戶行為規律,更準確地描繪個體輪廓,為用戶提供更好的個性化產品和服務,以及更準確地廣告推薦。
當前亟需針對前述大數據面臨的用戶隱私保護、數據內容可信驗證、訪問控制等安全挑戰,展開大數據安全關鍵技術研究。
2.1數據發布匿名保護技術
對于大數據中的結構化數據(或稱關系數據)而言,數據發布匿名保護是實現其隱私保護的核心關鍵技術與基本手段,目前仍處于不斷發展與完善階段。
2.2社交匿名保護技術
社交網絡產生的數據時大數據的重要來源之一,同時這些數據中包含大量用戶隱私數據。截至到2012年10月以前Facebook的用戶成員就達10億。由于社交網絡具有圖結構特征,其匿名保護技術與結構化數據有很大不同。社交網絡中典型匿名保護需求為用戶標識匿名與屬性匿名,在數據發布時隱藏了用戶的標識與屬性信息;以及用戶間關系匿名,在數據發布時隱藏用戶間的關系。
大數據帶來了新的安全問題,但它自身也是解決問題的重要手段。本文從大數據的隱私保護、信任、訪問控制等角度出發,梳理了當前大數據安全與隱私保護相關的關鍵技術。但總體上來說,當前國內外針對大數據安全與隱私保護的相關研究還不充分。只有通過技術手段與相關政策法規等相結合,才能更好地解決大數據安全與隱私保護問題。
[1]Jung T H,Li X Y,Wan Z G,et al.Privacy preserving cloud data access with multi-authorities[C]//IEEE International Conference on Computer Communication.2013:2625-2633.
[2]BLAZE G,BLEUMER G,STRAUSS M.Divertible protocols and automic Proxy-cryptography [C]//Advances in Cryptology-Eurocrypt.1998:127-144.