甘紅梅 四川長江職業學院
大數據安全研究方向及現狀
甘紅梅 四川長江職業學院
大數據是通過對海量數據進行分析來獲得有巨大價值的產品和服務,隨著互聯網、社交網絡等技術的發展,大數據成為研究熱點,然而大數據在收集、存儲和使用過程中面臨著諸多安全風險。本文分析總結了大數據在存儲、應用分析和管理上的安全方法和現狀以及未來研究的趨勢,只有通過技術手段和相關政策法規相結合,才能更好的解決大數據安全與隱私保護問題。
大數據 數據安全 存儲 數據分析
大數據技術(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到截取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。目前大數據分析應用于科學、醫藥、商業等各個領域,用途差異巨大,但其目標可以歸納為如下幾類:①獲得知識和推測趨勢;②分析掌握個性化特征;③通過分析辨識真相。
大數據正在對每個領域造成影響,在商業、經濟和其他領域中,決策行為已日益基于數據分析做出,而不是像過去更多憑借經驗和直覺。甲骨文、IBM、微軟和SAP共投入超過15億美元成立各自的軟件智能數據管理和分析的專業公司。隨著海量數據的進一步集中和信息技術的進一步發展,信息安全成為大數據快速發展的瓶頸。
大數據系統的研究主要有3個方向:存儲、管理和應用分析。因而,其安全和隱私保護也可以從這3個方面著手。
在典型的大數據平臺(比如Apache Hadoop)中,海量數據是存儲在廉價服務器集群中各個節點的本地硬盤中的。為了保護存儲介質中的數據,防止敏感數據泄露,目前主要使用兩種手段:訪問控制和數據加密.但這兩種方法都各有不足:
①訪問控制:存在被外部黑客攻破或內部管理員繞過的風險;
②數據加密:雖然安全性較高,但加密解密海量數據會增加顯著開銷。
為了同時滿足大數據應用對數據存儲的高安全和高性能要求,由清華大學田洪亮等人提出了一種可信固態硬盤(Trusted SSD,Trusted Solid Stated Drive)的存儲方法,它提供安全增強的存儲設備接口和協議,使得用戶可以對存儲中的數據施以細粒度的訪問控制,從而保障存儲中數據的安全。同時通過實驗表明。無論是在合成的、還是真實的工作負載上,可信固態硬盤的運行開銷不到3%,有望成為大數據安全的新基礎。
數據分析層面的隱私保護技術,如匿名化(Data Anonymization)和差分隱私(Differential Privacy)等。
匿名化是數據挖掘中隱私保護的最主要的一種技術手段。匿名化通常有以下五種方法:擾動和泛化、K匿名化和I多樣性、分布式隱私保護、降低數據挖掘結果(隱藏某些關聯規則或輕微改變分類模型)、差分隱私保護。
差分隱私是研究人員最近提出的,其基本思想是通過添加噪聲的方法,確保刪除或者添加一個數據集中的記錄并不會影響分析的結果;因此,即使攻擊者得到了兩個僅相差一條記錄的數據集,通過分析兩者產生的結果都是相同的,也無法推斷出隱藏的那一條記錄的信息。
經過匿名處理后,信息不包含用戶的標識符,就可以公開發布了嗎?事實上,僅通過匿名保護并不能很好的達到隱私保護目標。例如,美國在線AOL公司在2006年曾公布了匿名處理后的3個月內近2千萬條真實的搜索記錄,雖然個人相關的標識符信息被精心處理過,但記錄的其它內容如搜索條目、時間以及點擊的鏈接并沒有做過任何處理,所以搜索的內容涉及到的個人隱私敏感信息與特定用戶有著密切的聯系。紐約時報隨即公布了其識別出的1位用戶,編號為4417749的用戶是一位62歲的寡居婦人,家里養了3條狗,患有某種疾病等等。
另外,大數據的可信性在應用中也起到關鍵的作用。數據自身就是事實,數據可以說明一切,但當前網絡使數據面臨著被攻擊的威脅,威脅之一是偽造或刻意制造數據,使用錯誤的數據進行分析決策往往會導致錯誤的結論。而當前網絡中虛假信息的產生和傳播變得越來越容易,用信息安全技術鑒別所有數據來源的真實性是不可能的。威脅之二是數據在傳播中的逐步失真,導致的原因之一是人工干預的數據采集過程可能引入誤差;原因之二是現實情況發生變化,早期采集的數據已不能反映真實情況,例如,餐廳電話號碼已經變更,但早期的信息已經被其它搜索引擎或應用收錄,所以用戶可能看到矛盾的信息而影響其判斷。
因此,大數據的應用分析,要求使用者有能力判斷數據來源的真實性、保障數據傳播途徑和數據加工處理過程,同時根據實際應用判斷哪些數據需要進行隱私保護以及采用哪種隱私保護方法,防止出現錯誤的分析結果以及用戶隱私信息泄露。
目前大數據一般采用分布式文件系統技術在云端存儲,在對云存儲環境進行安全防護的前提下,還可以對關鍵核心數據進行冗余備份,強化數據存儲安全,提高企業大數據安全存儲能力。數據管理層面的安全保護技術,如加密數據查詢和可信硬件等,可以加強大數據系統的安全性和隱私性,但無法完全替代在存儲層面的安全措施的作用。企業和組織中大數據分析技術的信息安全管理平臺架構主要包括所有IT資源(包括網絡、系統和應用)產生的安全信息(包括日志、告警等)進行統一實時監控、歷史分析,對來自外部的入侵和內部的違規、誤操作行為進行監控、審計分析、調查取證、出具各種報表報告。
大數據帶來了新的安全問題,但它自身也是解決問題的重要手段。業界對系統安全的共識是,沒有一種安全措施能夠防范所有安全威脅,多層次的安全機制才能最大限度地保證系統安全。本文分析了大數據在存儲、應用分析和管理上的安全方法和現狀以及未來需要研究的趨勢,目前用戶數據的收集、存儲、管理和使用等均缺乏規范,更缺乏監管,主要依靠企業的自律,用戶無法確定自己隱私信息的用途,而在商業化場景中,用戶應有權決定自己的信息如何被利用,實現用戶可控的隱私保護。只有通過技術手段與相關政策法規等相結合,才能更好的解決大數據安全與隱私保護問題。
[1]百度文庫:大數據
http://baike.baidu.com/link?url=2a26iTggpbJ3iG-jLzwHCrYyBJUub aWVVbRpaMFAfC35PQWBm5y4eWSlgn33IdKiN9kkiWhxokW1_owbO U2c77QSyq6Kv2bp2s8GjvrHOFXRkmzUMGTU3Sfo1cUlx9qC
[2]豆?。捍髷祿踩珕栴},http://www.docin.com/p-1399064031. html
[3]田洪亮,張勇,許信輝,李超,邢春曉.可信固態硬盤:大數據安全的新基礎[J].計算機學報,2016,39(1):154-168
[4]馬立川,裴慶祺,冷昊,李紅寧.大數據安全研究概述[J].無線電通信技術,2015,41(1):01-07
[5]馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2014,37(1):246-258
甘紅梅(1986—),女,四川廣安人,四川長江職業學院,助教,研究方向為大數據、信息安全。