胡 坤,劉 鏑,劉明輝
(1.中國聯合網絡通信集團有限公司博士后科研工作站 北京100033;2.中國聯通研究院平臺與云計算研究中心 北京100032)
大數據的產生使數據分析與應用更加復雜,難以管理。據統計,過去3年里全球產生的數據量比以往400年的數據加起來還多,這些數據包括文檔、圖片、視頻、Web頁面、電子郵件、微博等不同類型,其中,只有20%是結構化數據,80%則是非結構化數據[1]。數據的增多使數據安全和隱私保護問題日漸突出,各類安全事件給企業和用戶敲醒了警鐘。在整個數據生命周期里,企業需要遵守更嚴格的安全標準和保密規定,對數據存儲與使用的安全性和隱私性要求越來越高,傳統數據保護方法常常無法滿足新變化。網絡和數字化生活也使黑客更容易獲得他人信息,有了更多不易被追蹤和防范的犯罪手段,而現有的法律法規和技術手段卻難于解決此類問題。因此,在大數據環境下數據安全和隱私保護是一個重大挑戰。
但是也應該看到,在大數據時代,業務數據和安全需求相結合能夠有效提高企業的安全防護水平。通過對業務數據的大量搜集、過濾與整合,經過細致的業務分析和關聯規則挖掘,企業能夠感知自身的網絡安全態勢,預測業務數據走向,了解業務運營安全情況,這對企業來說具有革命性的意義。目前,在一些運營商的業務部門已經開始使用安全基線和大數據分析技術,及時檢測與發現網絡中的各種異常行為和安全威脅,從而采取相應的安全措施。據Gartner公司預測,2016年40%的企業(以銀行、保險、醫藥、電信、金融和國防等行業為主)將積極地對至少10 TB數據進行分析,以找出潛在的安全危險[2]。
隨著對大數據的廣泛關注,有關大數據安全的研究和實踐也已逐步展開,包括科研機構、政府組織、企事業單位、安全廠商等在內的各方力量,正在積極推動與大數據安全相關的標準制定和產品研發,為大數據的大規模應用奠定更加安全和堅實的基礎。
在理解大數據安全內涵、制定相應策略之前,有必要對各領域大數據的安全需求進行全面了解和掌握,以分析大數據環境下的安全特征與問題。
互聯網企業在應用大數據時,常會涉及數據安全和用戶隱私問題。隨著電子商務、手機上網行為的發展,互聯網企業受到攻擊的情況比以前更為隱蔽,攻擊的目的并不僅是讓服務器宕機,更多是以滲透APT的攻擊方式進行。因此,防止數據被損壞、篡改、泄露或竊取的任務十分艱巨。同時,由于用戶隱私和商業機密涉及的技術領域繁多、機理復雜,很難有專家可以貫通法理與專業技術,界定出由于個人隱私和商業機密的傳播而產生的損失,也很難界定侵權主體是出于個人目的還是企業行為。因此,互聯網企業的大數據安全需求是:可靠的數據存儲,安全的挖掘分析,嚴格的運營監管,呼喚針對用戶隱私的安全保護標準、法律法規、行業規范,期待從海量數據中合理發現和發掘商業機會和商業價值。
大量數據的產生、存儲和分析,使得運營商在數據對外應用和開放過程中面臨著數據保密、用戶隱私、商業合作等一系列問題。運營商需要利用企業平臺、系統和工具實現數據的科學建模,確定或歸類這些數據的價值。由于數據通常散亂在眾多系統中,信息來源十分龐雜,因此運營商需要進行有效的數據收集與分析,保障數據的完整性和安全性。在對外合作時,運營商需要能夠準確地將外部業務需求轉換成實際的數據需求,建立完善的數據對外開放訪問機制。在此過程中,如何有效保護用戶隱私,防止企業核心數據泄露,成為運營商對外開展大數據應用需要考慮的重要問題。因此,電信運營商的大數據安全需求是:確保核心數據與資源的保密性、完整性和可用性,在保障用戶利益、體驗和隱私的基礎上充分發揮數據價值。
金融行業的系統具有相互牽連、使用對象多樣化、安全風險多方位、信息可靠性、保密性要求高等特征。而且金融業對網絡的安全性、穩定性要求更高,系統要能夠高速處理數據,提供冗余備份和容錯功能,具備較好的管理能力和靈活性,以應對復雜的應用。雖然金融行業一直在數據安全方面追加投資和技術研發,但是由于金融領域業務鏈條的拉長、云計算模式的普及、自身系統復雜度的提升以及對數據的不當利用,都增加了金融業大數據的安全風險。因此,金融行業的大數據安全需求是:對數據訪問控制、處理算法、網絡安全、數據管理和應用等方面提出安全要求,期望利用大數據安全技術加強金融機構的內部控制,提高金融監管和服務水平,防范和化解金融風險。
隨著醫療數據的幾何倍數增長,數據存儲壓力也越來越大。數據存儲是否安全可靠,已經關乎醫院業務的連續性。因為系統一旦出現故障,首先考驗的就是數據的存儲、災備和恢復能力。如果數據不能迅速恢復,而且恢復不到斷點,則對醫院的業務、患者滿意度構成直接損害。同時,醫療數據具有極強的隱私性,大多數醫療數據擁有者不愿意將數據直接提供給其他單位或個人進行研究利用,而數據處理技術和手段的有限性也造成了寶貴數據資源的浪費。因此,醫療行業對大數據安全的需求是:數據隱私性高于安全性和機密性,同時需要安全和可靠的數據存儲、完善的數據備份和管理,以幫助醫生與病人進行疾病診斷、藥物開發、管理決策、完善醫院服務,提高病人滿意度,降低病人流失率。
大數據分析在安全上的潛能已經被各國政府組織發現,它的作用在于能夠幫助國家構建更加安全的網絡環境。例如,美國進口安全申報委員會不久前宣布,通過6個關鍵性的調查結果證明,大數據分析不僅具備強大的數據分析能力,而且能確保數據的安全性。美國國防部已經在積極部署大數據行動,利用海量數據挖掘高價值情報,提高快速響應能力,實現決策自動化。而美國中央情報局通過利用大數據技術,提高從大型復雜的數字數據集中提取知識和觀點的能力,加強國家安全[3]。因此,政府組織對大數據安全的需求是:隱私保護的安全監管、網絡環境的安全感知、大數據安全標準的制定、安全管理機制的規范等內容。
通過上述分析可知,各領域的安全需求正在發生改變,從數據采集、數據整合、數據提煉、數據挖掘、安全分析、安全態勢判斷、安全檢測到發現威脅,已經形成一個新的完整鏈條。在這一鏈條中,數據可能會丟失、泄露、被越權訪問、被篡改,甚至涉及用戶隱私和企業機密等內容。通常,大數據安全具有以下6個方面的特征和問題。
社交媒體、電子商務、物聯網等新應用的興起,打破了企業原有價值鏈的圍墻,僅對原有價值鏈各個環節的數據進行分析,已經不能滿足需求。需要借助大數據戰略打破數據邊界,使企業了解更全面的運營及運營環境的全景圖[4]。但是,這顯然會對企業的移動數據安全防范能力提出更高的要求。此外,數據價值的提升會造成更多敏感性分析數據在移動設備間傳遞,一些惡意軟件甚至具備一定的數據上傳和監控功能,能夠追蹤到用戶位置、竊取數據或機密信息,嚴重威脅個人的信息安全,使安全事故等級升高。在移動設備與移動平臺威脅飛速增長的情況下,如何跟蹤移動惡意軟件樣本及其始作蛹者,分析樣本相互間關系,成為移動大數據安全需要解決的問題。
在網絡空間里,大數據是更容易被發現的大目標。一方面,網絡訪問便捷化和數據流的形成,為實現資源的快速彈性推送和個性化服務提供基礎。正因為平臺的暴露,使得蘊含著潛在價值的大數據更容易吸引黑客的攻擊。另一方面,在開放的網絡化社會,大數據的數據量大且相互關聯,使得黑客成功攻擊一次就能獲得更多數據,無形中降低了黑客的進攻成本,增加了收益率[5]。例如,黑客能夠利用大數據發起僵尸網絡攻擊,同時控制上百萬臺傀儡機并發起攻擊,或者利用大數據技術最大限度地收集更多有用信息。
大數據的匯集不可避免地加大了用戶隱私數據信息泄露的風險。由于數據中包含大量的用戶信息,使得對大數據的開發利用很容易侵犯公民的隱私,惡意利用公民隱私的技術門檻大大降低。在大數據應用環境下,數據呈現動態特征,面對數據庫中屬性和表現形式不斷隨機變化,基于靜態數據集的傳統數據隱私保護技術面臨挑戰。各領域對于用戶隱私保護有多方面要求和特點,數據之間存在復雜的關聯和敏感性,而大部分現有隱私保護模型和算法都是僅針對傳統的關系型數據,不能直接將其移植到大數據應用中。
隨著結構化數據和非結構化數據量的持續增長以及分析數據來源的多樣化,以往的存儲系統已經無法滿足大數據應用的需要。對于占數據總量80%以上的非結構化數據,通常采用NoSQL存儲技術完成對大數據的抓取、管理和處理。雖然NoSQL數據存儲易擴展、高可用、性能好,但是仍存在一些問題。例如,訪問控制和隱私管理模式問題、技術漏洞和成熟度問題、授權與驗證的安全問題、數據管理與保密問題等[6]。而結構化數據的安全防護也存在漏洞,例如物理故障、人為誤操作、軟件問題、病毒、木馬和黑客攻擊等因素都可能嚴重威脅數據的安全性。大數據所帶來的存儲容量問題、延遲、并發訪問、安全問題、成本問題等,對大數據的存儲系統架構和安全防護提出挑戰。
傳統數據安全往往是圍繞數據生命周期部署的,即數據的產生、存儲、使用和銷毀。隨著大數據應用越來越多,數據的擁有者和管理者相分離,原來的數據生命周期逐漸轉變成數據的產生、傳輸、存儲和使用[7]。由于大數據的規模沒有上限,且許多數據的生命周期極為短暫,因此,傳統安全產品要想繼續發揮作用,則需要及時解決大數據存儲和處理的動態化、并行化特征,動態跟蹤數據邊界,管理對數據的操作行為。
大數據的最大障礙不是在多大程度上取得成功,而是讓人們真正相信大數據、信任大數據,這包括對別人數據的信任和自我數據被正確使用的信任。例如,近年來工資“被增長”、CPI“被下降”、房價“被降低”、失業率“被減少”,因百姓的切身感受與統計數據之間的差異以及國家和地方之間GDP數據嚴重不符,都導致了市場對統計數據的質疑。同時,大數據的信任安全問題也不僅是指要相信大數據本身,還包括要相信可以通過數據獲得的成果。但是,要讓人們相信和信任通過大數據模型獲得的洞察信息卻并不容易,而證明大數據本身的價值比成功完成一個項目要更加困難。因此,構建對大數據的安全信任至關重要,這需要政府機構、企事業單位、個人等多方面共同建設和維護好大數據可信任的安全環境。
基于以上大數據環境的安全分析,作者認為大數據安全應該包括兩個層面的含義,如圖1所示。

圖1 大數據安全內涵
大數據安全不同于關系型數據安全,大數據無論是在數據體量、結構類型、處理速度、價值密度方面,還是在數據存儲、查詢模式、分析應用上都與關系型數據有著顯著差異。大數據意味著數據及其承載系統的分布式,單個數據和系統的價值相對降低,空間和時間的大跨度、價值的稀疏,使得外部人員尋找價值攻擊點更不容易。但是,在大數據環境下完全的去中心化很難,只要存在中心就可能成為被攻擊的穴道,而對于低密度價值的提煉過程也是吸引攻擊的內容。針對這些問題,傳統安全產品所使用的監視、分析日志文件、發現數據和評估漏洞的技術在大數據環境中并不能有效運行。很多傳統安全技術方案中,數據的大小會影響到安全控制或配套操作能否正確運行。多數安全產品不能進行調整,無法滿足大數據領域,也不能完全理解其面對的信息。而且,在大數據時代會有越來越多的數據開放,交叉使用,在這個過程中如何保護用戶隱私是最需要考慮的問題。圖2說明了保障大數據安全的相關要點。
為解決大數據自身的安全問題,需要重新設計和構建大數據安全架構和開放數據服務,從網絡安全、數據安全、災難備份、安全風險管理、安全運營管理、安全事件管理、安全治理等各個角度考慮,部署整體的安全解決方案,保障大數據計算過程、數據形態、應用價值的安全。

圖2 保障大數據安全
大數據為安全分析提供新的可能性,對于海量數據的分析有助于更好地刻畫網絡異常行為,從而找出數據中的風險點,制定更好的預防攻擊、防止信息泄露的策略。例如網絡攻擊行為總會留下蛛絲馬跡,這些痕跡都以數據的形式隱藏在大數據中,利用大數據技術整合計算和處理資源有助于更有針對性地應對信息安全威脅,有助于找到攻擊的源頭。在此過程中,需要注意兩個問題:一是大數據可能成為高級可持續攻擊的載體;二是大數據分析技術也容易被黑客利用到攻擊中去。需要明確大數據安全保障對象,加強對敏感和要害數據的監管,加快面向大數據的信息安全技術的研究,建立并完善大數據信息安全體系。
大數據也為企業提供一個更寬廣的新視角,幫助它們更加前瞻性地發現安全威脅,利用大數據技術可以提升企業數據防護系統的安全效能、安全能力和安全效果。可以這樣講,大數據給信息安全帶來的最大改變是通過自動化分析處理與深度挖掘,將之前很多時候亡羊補牢式的事中、事后處理,轉向事前自動評估預測、應急處理,讓安全防護主動起來。
目前,大數據在信息安全領域的應用包括兩個方面:宏觀上的網絡安全態勢感知和微觀上的安全威脅發現[8]。前者是指運用大數據技術特有的海量存儲、并行計算、高效查詢等特點,解決大規模網絡安全事件數據的有效獲取,海量安全事件數據的實時關聯分析,客觀、可理解的網絡安全指標體系建立等問題,從中發現主機和網絡異常行為,起到全局安全預警的作用。后者是指從大數據中發現微觀事件,特別是APT攻擊發現。通過全面收集重要終端和服務器上的日志信息以及采集網絡設備上的原始流量,利用大數據技術進行分析和挖掘,檢測并還原整個APT攻擊場景,能夠起到動態預防的安全作用,如圖3所示。
在大數據產業鏈的各個環節,安全問題無處不在,面對這一系列的安全風險和關鍵問題,如何保障大數據安全,并在信息安全領域有效利用,是企業需要認真解決的問題。只有大數據技術和大數據安全“兩條腿”并行走路,大數據才可以真正成為企業的驅動力。根據傳統信息安全成功經驗及最新安全技術發展結果,作者認為可以從以下幾方面開展大數據安全工作。
數據信息安全是指數據信息的硬件、軟件及數據受到保護,不因偶然的或者惡意的原因而遭到破壞、更改、泄露,系統連續可靠正常地運行,信息服務不中斷。通常數據信息安全強調CIA三元組的目標,即保密性、完整性和可用性,另外還有一些其他目標,包括可追溯性、抗抵賴性、真實性、可控性等[9]。只有在正確完整的安全體系指導下,大數據信息安全建設所需的技術、產品、人員和操作等材料才能真正發揮各自的效力。設計大數據信息安全體系的目的在于:從管理和技術上保證數據安全策略得以完整準確的實現,全面準確地滿足大數據安全需求。從具體內容上來看,該安全體系應該包含實現大數據環境下的信息安全所必需的功能或服務、安全機制和技術、管理和操作以及這些因素在整個體系中的合理部署和相互關系。所以,該安全體系應該是多層次多方面的,必須能夠完整描述大數據環境下的數據信息安全建設所要實現的最終形態。

圖3 大數據與APT攻擊
大數據信息安全體系可以通過多種途徑表示,例如非常具體的框架或者比較抽象的模型。無論表現形式如何,大數據信息安全體系都應該結合防護、檢測、響應和恢復這幾個關鍵環節在一起的動態發展的完整體系,能夠為大數據安全的解決方案和工程實施提供參考和依據,幫助企業規范化、標準化大數據的安全防控內容和防護框架。
大數據安全保障技術可以從物理安全、系統安全、網絡安全、存儲安全、訪問安全、審計安全、運營安全等角度進行考慮,圍繞大數據全生命周期,即數據產生、采集、傳輸、存儲、處理、分析、發布、展示和應用、產生新數據等階段進行安全防護。其目標在于:最大程度地保護具有流動性和開放性特征的大數據自身安全,防止數據泄露、越權訪問、數據篡改、數據丟失、密鑰泄露、侵犯用戶隱私等問題的出現。因此,大數據安全保障技術需要設計和構建更多的技術標準、安全規范、工具產品、安全服務等形式來保護大數據的安全。
1)農機裝備水平高。主要表現為裝備標準高,配套農具數量多;科技含量高,自動化、智能化、機電液一體化程度高。
通過了解大數據安全內涵和技術特點,可以在信息安全領域利用大數據分析技術,得到相關的安全預警和防護建議。例如,在大數據采集的基礎上,企業可以從原始數據中進行二次提取,建立基礎指標、應用層指標等多種類型指標,然后基于指標之間的關聯分析、每個指標的變化狀況,通過大數據分析幫助企業建立信譽評估機制,感知信息安全態勢。
通過技術保護大數據的安全必然重要,但安全管理制度也很關鍵。要從海量數據中提取價值,提高企業生產效率,就必須使用科學的大數據管理方法,降低各種安全隱患[10]。具體來說,可以從以下幾個方面進行安全管理。
·規范大數據建設。規范化建設可以促進大數據管理過程的正規有序,實現各級各類信息系統的網絡互連、數據集成、資源共享,在統一的安全規范框架下運行。
·完善大數據資產管理。大數據資產管理要能夠清楚地定義數據元素,包括數據格式、別名、統計表以及其他特性標識符等;描述數據元素定義的信息來源及其相關數據元素的信息;記錄使用信息,包括數據元素的產生及修改信息、安全及訪問控制信息、訪問歷史記錄。
·建立以數據為中心的安全系統。為了確保數據中心系統的安全,防護系統主要通過防火墻、入侵檢測系統、安全審計、抵抗拒絕服務攻擊、流量整形和控制、網絡防病毒系統來實現全面的安全防護。同時,通過使用加密、識別管理并結合其他主動安全管理技術,貫穿于數據從使用到遷移、停用的全部過程。
·做好大數據安全風險評估。不同類型的數據形式以及數據的不同狀態,都有其不同的泄密風險層級。針對大數據的固有特點,可以將其分為不同的安全風險等級,從而加強安全防范,并在實際生產中明確安全風險治理目標,降低企業數據泄露風險,分析并消除信息安全盲點。
·提高企業員工安全意識。需要提升員工對大數據安全威脅的識別能力,了解正在使用的數據的價值,充分認識到自己在企業數據安全中的重要角色。企業也需要對員工進行安全培訓,讓員工對彼此在安全防護中的職責和戰略有所了解,并結合周期性的安全攻擊演習,以檢驗培訓的成果。
本文梳理了互聯網、電信、金融、醫療、政府組織五大行業的大數據安全需求,分析出大數據環境下的6個安全特征和問題,即移動數據安全、易攻擊目標、用戶隱私保護難題、安全存儲問題、數據安全進化、信任安全問題等。隨后,文中提煉出大數據的安全內涵,即保障大數據安全和應用大數據技術,并給出了相關的應對策略。
1 The big data security gap:protecting the Hadoop custer challenges and opportunities with big data.http://www.zettaset.com/info-center/datasheets/zettaset_wp_security_0413.pdf
2 馮偉.大數據時代面臨的信息安全機遇和挑戰.中國科技投資,2012(34):49~53
3 王文超,石海明,曾華鋒.芻議大數據時代的國家信息安全.國防科技,2013,34(2):1~5
4 聶元銘.大數據及其安全研究.信息安全與通信.2013(5):15~16
5 楊建春.網絡環境下數據安全控制技術研究,甘肅科技,2011(16):22~24
6 劉正偉,張華忠,文中領等.海量數據持續數據保護技術研究及實現.計算機研究與發展,2012(s1):37~41
7 郭三強,郭燕錦.大數據環境下的數據安全研究.科技廣場.2013(2):28~31
8潘柱廷.高端信息安全與大數據.信息安全與通信保密,2012(12):19~20
9 嚴霄鳳,張德馨.大數據研究.計算機技術與發展,2013(4):168~172
10 楊高明,楊靜,張健沛.隱私保護的數據發布研究.計算機科學,2011,38(9):11~17