李英 張濤
(南陽師范學院軟件學院,河南 南陽 473061)
大數據時代數據安全隱私保護研究
李英 張濤
(南陽師范學院軟件學院,河南 南陽 473061)
近年來,大數據給我們的生活、工作學習帶來了潛移默化的影響。然而,大數據在采集、存儲及使用過程中,都潛在著風險,為此,近些年提出了許多大數據安全保護技術。本文對其現狀進行分類闡述,分析其優缺點。
大數據;數據安全;隱私保護
人們已經逐步認識到大數據的價值,并開始在公共衛生、商業、科學研究等領域應用大數據分析技術。據統計,當今世界每天產生250億字節左右的數據。國內某互聯網巨頭公司,每天經過壓縮處理的數據量高達100PB,而且現在還以日增長200~300TB,月增長10PB的速度不斷增長。因此,當今世界各國政府、工業界和學術界對大數據十分關注并高度重視。可以預測,隨著大數據分析技術的應用推廣,在當今時代大數據會變得越來越重要,它將成為一種與礦產和石油同樣重要的巨大經濟資產。
1.1 大數據的定義
研究機構Garther給大數據的定義為:需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征[1]。
1.2 大數據的結構特點
傳統的數據倉庫應用簡單,而大數據具有數據量大、查詢分析復雜等特點。大數據分析平臺需要具備的幾個重要特性在《計算機學報》里刊登的《架構大數據:挑戰、現狀與展望》一文中列出,并對現今主流實現平臺——并行數據庫、MapReduce及基于兩者的混合架構做了分析歸納,指出它們的優勢及不足,并也對每個方向的研究情況及作者在大數據分析上的成績進行介紹,對以后的研究也做了展望。
大數據有四個特點:①數據量大,從TB增長到PB;②數據類型多,有網絡日志、視頻、圖片、地圖信息等;③處理速度快,1秒定律,高價值的信息能從各種類型的數據中快速獲取,與傳統數據挖掘技術不同;④只有對數據正確、準確分析,才會帶來很高價值回報。業界將其歸納為4個“V”:Volume(數據體量大)、Variety(數據類型繁多)、Velocity(處理速度快)、Value(價值密度低)。
在大數據時代,大量數據會通過網絡匯聚在一起,安全與隱私問題是人們公認的關鍵問題之一。下面總結大數據安全問題的幾個方面。
2.1 數據來源安全
大數據中的數據來源很大部分是來自用戶在網絡上的自行輸入,如社交網絡、郵件、微博等,這些信息數據可能是不準確的,因此在采集數據時有必要對數據的真偽進行鑒別,否則即使通過數據分析也得不到準確的信息。
2.2 網絡攻擊
大數據已經成為網絡攻擊的目標:一方面,大數據意味著數據量大,也意味著其內有很多復雜及敏感的數據,因此它們很有可能受到不懷好意者的攻擊;另一方面,數據的大量匯集,使攻擊者一次能夠獲得更多的數據。
2.3 用戶隱私泄密
在大數據時代,用戶隱私泄露的風險很大。互聯網商家手中掌握著人們的一言一行,包括搜索習慣、閱讀習慣、購物習慣等。這些無害的數據被收集后,也會泄露個人隱私。再者,數據的集中存儲增加了數據被盜的風險。
2.4 數據存儲安全
在傳統模式下,個人與企業把數據存儲在自己的終端設備中,但當用云來存儲數據時,數據被云服務商控制著,因此云服務商可能泄露用戶隱私數據,更可能泄露給其他用戶。結構化數據和非結構化數據都存在于大數據中,因此傳統的關系數據庫無法滿足它的要求,所以要用到非關系數據庫,如Apache的HBase和Google的Big Ta?ble等。相對于較成熟的關系型數據庫,非關系型數據庫驗證和鑒權機制較為薄弱,使數據庫容易遭受攻擊,造成敏感數據被泄露。
因為大數據存在著各種安全問題,所以對其采取數據保護措施是必需的。為保障大數據的安全性,保護用戶的個人隱私,筆者提出以下關鍵技術。
3.1 數據溯源技術
一種記錄從原始數據到目標數據演變過程的技術叫做數據溯源技術。這種技術可以增加分析結果的正確性,幫助用戶確定數據運算。多位標記法是對數據進行標注,記錄原始數據出處、演算過程等的一種方法。此方法可細分為why、where、who等類別,分別記錄數據演算過程、出處、相關使用者等。發展到現在,數據溯源技術取得了巨大進步,通常被應用在云存儲的場景和一些文件進行回復及溯源等。
3.2 數據加密算法
傳統的數據加密方法僅在系統和軟件層面對數據進行保護,滿足不了大數據時代的數據保護。經過各界學者不斷研究,數據加密算法技術和大數據信息保護技術都已取得了顯著成果。
3.2.1 對稱加密算法。由于加密密鑰和解密密鑰相同,并且加密速度快,所以適應給大量數據加密,因此,對大數據進行加密可以選擇對稱加密算法。
采樣、搜集關鍵信息是對其處理的第一步,第二步可以直接采用加密算法對其進行加密。具體過程為:①首先采樣,得到樣本;②其次加密,得到密文。
對稱加密算法簡便,運行速度快,但是加密的安全性不高。由于此算法對密鑰保管及分發等過程未采取任何保護措施,所以非授權者易截獲密鑰,并破解密文。
3.2.2 線性混合加密算法。DES算法和AES算法的線性組合是對對稱加密算法的一種常見的改進。算法中有兩個對稱密碼算法組合對其加密,其運算速度快,比單一使用一種算法安全性高,因為密文有兩種算法構成,而且兩種密文在設計上不同,所以可以抵抗各種攻擊。
3.2.3 密鑰混合加密算法。現在該算法應用廣泛,由于其能夠發揮對稱與非對稱加密算法的優點,并彌補了對稱加密算法的不足,所以在一定程度其安全性得到增強。由于該算法還不能確定對方身份,所以不能夠知道是不是可信的雙方在傳送加密信息。
3.3 身份認證技術
身份認證技術是指系統的用戶在進入系統或訪問系統資源時,系統確認該用戶的身份是否真實、合法和唯一。身份認證技術是確認作者身份的有效方法。
身份認證技術不僅可以驗證操作者的身份,還可以增加黑客盜取信息的難度,增加非法用戶假冒合法用戶身份占用系統資源、刪除或篡改用戶存儲數據的難度,這也有利于大數據的隱私保護,利于大數據的不斷發展。
3.4 訪問控制
為了能保證大數據的安全,必須防止非法用戶對非授權資源及數據的訪問、使用、修改和刪除等操作,并對合法用戶的訪問權限加以限制。
大數據快速發展,如何保證大數據的安全是現今各方研究的重點和熱點。本文從大數據基本概念、大數據結構特點及大數據的安全需求來介紹大數據,并闡述了大數據安全保護的關鍵技術,分析了它們的優缺點。
[1]Meng Xiaofeng,Ci Xiang.Big data management:Con?cepts,techniques and challenges[J].Journal of Computer Research and Development,2013(1):146-169.
Research on Data Security and Privacy Protection in Big Data Age
Li YingZhang Tao
(School of Software,Nanyang Normal University,Nanyang Henan 473061)
In recent years,large data to our life,work and study has brought a subtle influence.However,large data collection,storage and use of the process,are potentially risky,for which in recent years put forward a number of large data security protection technology.In this paper,the present situation is classified and analyzed,and their ad?vantages and disadvantages were analyzed.
big data;data security;privacy protection
TP311.13;TP309
A
1003-5168(2017)08-0021-02
2017-07-03
南陽師范學院校級青年項目“云計算模式下數據安全關鍵技術研究”(QN2015018)。
李英(1982-),女,碩士,講師,研究方向:分布式計算,云計算;張濤(1983-),男,碩士,講師,研究方向:計算機網格、云計算。