裴大容
摘要:隨著大數據時代的到來,目前已經成為了社會上各個領域關注的重點問題。大數據在人們的生活和生產中產生了重要的影響,帶來積極效應的同時,也帶來了一定的風險。大數據在收集、存儲和使用的過程中,都面臨著一定的安全風險,一旦大數據產生隱私泄露的情況,會對用戶的安全性造成嚴重威脅。本文對大數據安全與隱私保護技術的概念進行闡述,對相應的技術進行了探究。
關鍵詞:大數據;安全;隱私保護
隨著社會信息化和網絡化的發展,逐漸開始進入大數據時代。在大數據時代下,信息和數據的分析處理都會變得比以前更加繁雜,管理起來也更加麻煩。目前的大數據發展仍舊面臨著眾多問題,最受大眾關注的就是安全與隱私問題。隨著互聯網的發展,人們的一舉一動都會在商家那里進行記錄,例如購物習慣、好友聯絡情況等等。根據相關的調查報告發現,即使泄露的數據是無害的,也會對客戶造成一定程度上的損害。因此,如何保護用戶的隱私,是大數據在安全方面應當首先注重的問題。
1大數據概念
1.1大數據來源和特征
大數據所指的是具有龐大規模,并且較為復雜,難以使用現有數據管理工具或數據處理技術進行處理的數據集。因此,大數據通常具備大規模、高速性和多樣性的特點。根據大數據的來源不同,可以分為人、機、物3類。
人指的是人們在互聯網中活動以及使用互聯網時所產生的各類數據,數據類型包括文字、圖片、視頻等;機指的是各類計算機系統所產生的數據,大多數是通過文件、數據庫、多媒體等形式存在,還有審計、日志等自動生成的數據;物指的是各類科技設備所收集的數據,例如攝像頭的數字信號。
1.2大數據分析目標
根據目前我國的使用情況,大數據已經在科學、醫藥、商業等各個領域開始廣泛應用,在用途方面也各有區別,具體可以分為3類:獲得知識與推測趨勢、分析掌握個性化特征、辨識真相。
在進行數據分析之前,首先要獲得大量的知識,并利用知識進行分析。在大數據中有著大量的原始信息,這些信息具備一定的真實性。通過大數據進行分析,能夠避免數據中所產生的誤差,挖掘出更深層次的規律,通過這些規律,可以對自然或社會現象進行預測。
個體活動除了能夠反映出群體特征之外,還有著鮮明的個性化特征。這些特征各不相同,企業通過長時間、多方面的數據積累,能夠對用戶的行為進行分析。基于用戶的需求,更好的為用戶提供個性化的產品和服務。
錯誤的信息在數據中沒有任何意義,甚至會帶來負面影響。網絡中信息的傳播較為便利,所以一旦出現網絡虛假信息,則會帶來極大的危害。例如在2013年4月24日,美聯社的Twitter賬號被非法盜取,并發布了總統奧巴馬受到恐怖襲擊的虛假消息,即使消息在短時間內被控制,但是美國股市仍受到虛假信息的影響,引發了短暫的跳水。大數據的來源渠道較為廣泛,信息多樣化,通過大數據可以在一定程度上辨別信息的真偽。目前人們已經開始通過大數據對信息的真偽進行分析,確保數據的準確性。
2大數據帶來的安全挑戰
2.1大數據中的隱私保護
根據調查表明,當大數據處理不當時,會對用戶的隱私造成極大的損害。根據所需保護內容的不同,可以分為位置隱私保護、標識符匿名保護、連接關系匿名保護等等。大數據對面臨的安全挑戰除了個人隱私的泄露之外,還有對人們狀態和行為的預測。通過客戶的數據記錄,能夠發現用戶的政治觀點、消費習慣等等。
很多企業認為通過匿名處理,當去除了用戶信息的標識符后,便可以進行信息的公開發布。但即使通過匿名信息,也有一定的規律可循,通過數據中的某些信息,可以精確的定位到個人。目前在用戶數據的收集、存儲、管理和使用上都沒有相應的規范制度,監督制度也不夠完善,基本上需要通過企業的自律對大數據進行管理,而用戶則難以對自身隱私信息的使用情況進行了解。在商業化應用中,用戶應當有權利決定如何處理自己的信息,讓用戶可以對自身的隱私進行控制保護。
2.2大數據的可信性
在大多數的觀點中,都認為大數據可以說明事物的規律,數據本身就是事實。但在實際操作中,如果不對數據進行精確的分析和整理,數據也會有欺騙性。數據可信性的威脅之_是偽造的數據,一旦數據出現錯誤,則會導致錯誤的結論。一旦數據的應用場景明確,則有可能會有人根據場景特點刻意制造數據,使分析者得出錯誤的結論。大部分偽造的信息都摻雜在大量的信息中,導致難以對信息的真偽進行鑒別,從而導致最后的錯誤結論。由于網絡的散播性較強,虛假信息的轉播也越來越容易,速度越來越快,會產生嚴重的后果,而通過信息安全手段對所有的信息進行檢驗的可行性也較小。
大數據可信性威脅的另一方面是數據在傳播的過程中會逐步失真。其中一個原因是進行人工數據采集時,可能會有誤差的出現,由于在進行數據收集時產生了失真和偏差,影響到了最后結果的準確性。另一方面,造成數據失真的原因還有可能是版本變更。在數據傳播的過程中,實際情況已經有了一定的改變,原本收集到的數據難以表現出實時信息。
基于此,在使用大數據之前首先要保證數據來源的真實性,并對數據的傳播過程、加工處理過程進行嚴格控制,提高數據的可信性,避免因數據錯誤導致的錯誤結果。
3大數據安全與隱私保護技術
3.1數據溯源技術
在此之前,數據溯源技術的應用僅僅在數據庫的領域之中,隨著科學技術的不斷發展,在大數據的安全與隱私保護中也開始應用這項技術。數據溯源技術中最基本的就是標記法,其作用主要是對數據的來源和數據的計算方法進行記錄。通過對來源數據進行標記,不僅能夠對最后的分析結論進行檢驗,還能夠讓分析者在最短的時間內對信息的真實程度進行判定。另—方面,在文件的恢復過程中,數據溯源技術也可以得到良好的應用。
3.2數據水印技術
數據水印技術是在既不影響數據使用,也不影響數據內容的情況下,將標識信息通過一些較為隱秘的方式嵌入到數據載體中。這種技術一般都是應用在媒體版權保護上,在文本文件和數據庫上也有一定的應用。但是在多媒體載體上和在文本文檔以及數據庫上的應用有較大區別。在數據水印技術的分類上,可以分為強健水印類和脆弱水印類。強健水印類的應用基本上在數據起源的證明上,能夠對創作權等進行有效的保護。而脆弱水印類大多應用于數據真實性的證明。隨著目前大數據的發展,數據水印技術還需要不斷的進行完善。
3.3身份認證技術
身份認證技術指的是通過用戶以及所使用設備的行為數據的收集和分析來獲得行為特征,并通過這些特征對用戶以及所用的設備進行驗證,并確認身份。在身份認證技術的發展上,將大大降低被惡意入侵攻擊的可能性。不僅減輕了用戶的負擔,也統一了多種系統之間的認證機制。
3.4數據發布匿名保護技術
根據結構化數據的分析,數據發布匿名保護技術在數據安全與隱私的保護過程中占有重要地位。根據目前的研究狀況,此技術還有待完善,需要不斷的進行深入研究。在目前的數據發布匿名保護技術的理論中,大部分的背景環境都是在靜態的、一次性的對數據進行發布。但是這樣的方式有著一定的局限性,一些特殊的屬性難以被檢測出來。而且在實際的過程中,數據的發布往往是多次連續的。在如此復雜的大數據環境下,想要將數據發布匿名保護技術進行應用,會面臨著一定的困難。在攻擊者的角度,可以根據不同的途徑和不同的發布點來獲取信息,從而竊取到用戶的信息。因此在這一方面,相關的研究人員應當投入更多的精力對數據發布匿名保護技術進行研究,提高其安全性。
3.5社交網絡匿名保護技術
社交網絡所產生出的數據是大數據的重要來源之一,這些數據中包含著用戶的大量隱私信息。在社交網絡匿名保護技術中,攻擊者可能會通過其他的信息對匿名用戶的身份進行確定,尤其是對于用戶之間是否有聯系關系的判斷。由于社交網絡具備聚集特性,因此會對關系預測造成一定的影響。
4結語
大數據不僅為人們的生產生活帶來了便利,另一方面,大數據環境也帶來了一定的安全挑戰。隨著時代的發展,人們越來越意識到隱私信息的重要性,逐漸將信息安全放在首位。但根據目前的發展狀況而言,還有很長的道路要走。想要做到真正意義上的數據安全,必須要對大數據環境中的漏洞進行分析,針對性的進行安全與隱私保護技術的發展。通過數據溯源技術、數據水印技術、身份認證技術、數據發布匿名保護技術、社交網絡匿名保護技術等進行深入研究。除此之外,還要建立相應的法律法規,對大數據環境進行全面保護。