楊曦 GULJabeen 羅平

摘要:認為云計算結合大數據,是時代發展的必然趨勢。提出了保障大數據安全的方法和技術,方法包括:構建云環境下的大數據信息安全體系,建立并研究基于Hadoop的大數據安全架構等;技術包括:基于大數據的威脅發現技術、大數據真實性分析技術、基于大數據的認證技術、基于大數據的安全規則挖掘技術,以及防范高級持續性威脅(APT)攻擊的技術。認為大數據帶來許多新的安全問題和挑戰,但它本身也是解決問題的重要手段,需要進一步地研究。
關鍵詞:大數據;云計算;大數據安全;APT攻擊;數據挖掘
隨著云時代的來臨,大數據也吸引了越來越多學術界和工業界的關注。從20世紀90年代“數據倉庫之父”Bill Inmon率先提出“大數據”的概念,到2011年麥肯錫全球研究院(MGI)發布了關于大數據的詳盡報告,直至2012年美國奧巴馬政府公布了“大數據研發計劃”,才使得大數據真正成為許多學科的重點研究課題。大數據科學的基礎研究已經成為當今社會的研究熱點。英國牛津大學教授維克托·邁爾·舍恩伯格,在他的《大數據時代:生活、工作與思維的大變革》一書中,深刻地闡述了大數據所帶來的三大變革,即思維變革、商業變革和管理變革。大數據帶來更多的是思維變革——樣本數據或局部數據向全體數據的變革,結果數據向過程數據的變革,靜態存儲數據向動態流處理數據的變革。
隨著大數據技術的不斷發展,許多傳統的信息安全技術也受到了挑戰。在大量數據產生、收集、存儲和分析的過程中,既會涉及一些傳統安全問題,也會涉及一些新的安全問題,并且這兩類問題會隨著數據規模、處理過程、安全要求等因素而被不斷放大。而大數據的4V(大量、高速、多樣、真實性)+1C(復雜)特征,也使得大數據在安全技術、管理等方面面臨新的安全威脅與挑戰[1]。
1 大數據安全技術發展現狀
談到大數據,不可避免地就要提及云計算技術,它們就像一枚硬幣的正反面一樣密不可分。云計算結合大數據,是時代發展的必然趨勢。云計算為大數據提供了存儲場所、訪問渠道、虛擬化的數據處理空間,具有盤活數據資產價值的能力。另一方面,大數據技術通過挖掘價值信息[2]進行預測分析、策略決斷,為國家、企業甚至個人提供決策和服務。
作為一個云化的大數據架構平臺,Hadoop自身也存在著云計算面臨的安全風險,企業需要實施基于身份驗證的安全訪問機制,而Hadoop派生的新數據集也同樣面臨著數據加密問題。云端大數據從使用頻率上有靜態數據加密機制和動態數據加密機制兩種[3]。靜態數據加密機制與傳統加密一樣,有對稱加密算法和非對稱加密算法兩種。而動態數據加密機制方面近年來則有較多的論述,較為常用的是同態加密機制[4]。對加法同態的加密算法有Paillier算法[5],對乘法同態的加密算法有RSA算法,還有對加法和簡單標量乘法同態的加密算法,如IHC和MRS算法[6]。Craig Gentry提出一種基于理想格的全同態加密算法[7],實現了全同態加密所有屬性的解決方案。
同樣,大數據依托的非關系型數據庫(NoSQL)技術沒有經過長期發展和完善,在維護數據安全方面也未設置嚴格的訪問控制和隱私管理,缺乏保密性和完整性特質。另一方面,NoSQL對來自不同系統、不同應用程序及不同活動的數據進行關聯,也加大了隱私泄露的風險。大數據時代,想屏蔽外部數據商挖掘個人信息是不可能的,大數據隱私問題堪憂。Itani提出的協議能夠在云計算環境下保證用戶的隱私[8],Creese的方案有效地解決了企業云部署中的隱私安全問題[9]。除了常見的基于加密體制的數據存儲和數據處理的隱私性保護方案外,A. Parakh等于2011年和2013年分別提出了基于空間有效性的機密共享隱式機制[10]及運用隱式機制的云端計算機制[11]。針對非結構化數據(比如社交網絡產生的大量數據)的隱私保護技術也是云時代下大數據安全隱私保護的重大挑戰,典型的匿名保護需求為用戶標識匿名、屬性匿名(也稱點匿名)及邊匿名(用戶間關系匿名)。目前邊匿名方案大多是基于邊的增刪[12],還有一個重要思路是基于超級節點對圖結構進行分割和聚集操作[13]。
2 基于大數據的安全技術及發展趨勢
新形勢下的大數據安全也面臨諸多新的挑戰,在大數據產業鏈的各個環節,安全問題無處不在。面對一系列的安全風險和關鍵問題,如何保障大數據安全,并在信息安全領域有效利用,是學術界和工業界都需要認真對待和解決的問題。
2.1 構建云環境下的大數據信息安全體系
只有在正確完整的安全體系指導下,大數據信息安全建設所需的技術、產品、人員和操作等才能真正發揮各自的效力。大數據應用過程通常劃分為采集、存儲、挖掘、發布4個環節,它們的安全性可通過下面一些技術和方法實現:
(1)數據采集階段的安全問題主要是數據匯聚過程中的傳輸安全問題,需要使用身份認證、數據加密、完整性保護等安全機制來保證采集過程的安全性。傳輸安全主要用到虛擬專用網絡(VPN)和基于安全套接層協議VPN(SSL VPN)技術。
(2)數據存儲階段需要保證數據的機密性和可用性,提供隱私保護、備份與恢復技術等。這個階段可能用到的技術有:基于數據變換的隱私保護技術(包括隨機化、數據交換、添加噪聲等)、基于數據加密的隱私保護技術、基于匿名化的隱私保護技術(通常采用抑制、泛化兩種基本操作)、靜態數據加密機制(數據加密標準(DES)、高級加密標準(AES)、IDEA、RSA、ElGamal等)、動態數據加密機制(同態加密)、異地備份、磁盤陣列(RAID)、數據鏡像、Hadoop分布式文件系統(HDFS)等。
(3)數據挖掘階段需要認證挖掘者的身份、嚴格控制挖掘的操作權限,防止機密信息的泄露。這個階段涉及到的技術有:基于秘密信息的身份認證、基于信物的身份認證技術、基于生物特征的身份認證技術、自主訪問控制、強制訪問控制、基于角色的訪問控制等。
(4)數據發布階段需要進行安全審計,并保證可以對可能的機密泄露進行數據溯源。這個階段的技術可能涉及到:基于日志的審計技術、基于網絡監聽的審計技術、基于網關的審計技術、基于代理的審計技術、數據水印技術等。
2.2 基于Hadoop的大數據安全架構
Hadoop是一種分布式數據和計算的框架,在全球范圍內已成為大數據應用最為廣泛的技術架構。當前,Hadoop已成為工業界和學術界進行云計算應用和研究的標準平臺。分布式文件系統使大規模并行計算成為可能,但堆棧各層的集成以及數據節點與客戶端/資源管理機構之間通信,都會引入新的安全問題。圖1是Hadoop核心HDFS的架構,在不破壞大數據集群的基本功能及大數據本身必要特點的前提下,我們先來分析這種架構下的安全問題及隱患并給出相應安全解決建議。
在高度分布式數據集群中,很難驗證異構平臺之間安全的一致性,即不同的數據結點的數據安全的整體性和一致性是分布式計算的痛點。而與傳統集中式數據安全模型不同的是,大數據集群內的數據是流動的,有多個副本,在不同節點間移動以確保冗余和彈性的機制導致數據很難及時、準確地定位存儲位置,無法獲知數據備份個數,這加大了副本安全保護機制設計上的難度。對于數據訪問,大多數大數據環境提供了schema級別的訪問控制,但沒有更細的粒度,雖然在大數據環境中可以借鑒安全標簽和其他高級屬性,但需要應用設計者將這些功能集成到應用和數據存儲中去。對于節點間的通信,Hadoop和絕大多數組件之間的通信是不安全的,它們使用傳輸控制協議(TCP)/IP之上的遠程過程調用協議(RPC),并沒有嵌入安全傳輸層協議(TSL)和SSL等安全機制。另外,客戶端可以直接與資源管理者及節點進行交互,增加了惡意代碼或鏈接發送的概率,也難以保證客戶端免受數據節點的攻擊。最后,最為重要的是大數據棧自身設計并沒有考慮安全機制。這些都是基于HDFS架構的大數據環境的安全隱憂。
基于Hadoop的大數據架構,其安全機制可以通過下面一些方法和技術得以保證:
(1)使用Kerberos進行節點驗證。Kerberos是一個最有效的安全控制措施之一,并且可以集成到Hadoop基礎設施中。其可有效驗證服務間通信,阻斷集群中的惡意節點和應用程序,保護Web控制臺的訪問,使得管理通道難以被攻擊。
(2)對于惡意客戶端發起的獲取文件請求,可以通過使用文件層加密對數據加以保護。被惡意訪問的文件是不可讀的磁盤映像,且文件層加密提供一致安全保護,有些產品甚至提供內存加密保護。
(3)使用密鑰管理服務分發密鑰和證書,并為每個組應用程序和用戶設置不同密鑰,可以提高密鑰的安全性,防止文件加密的失效。
(4)在節點之間、節點與應用程序之間使用SSL/TLS組件實現安全通信,設計、集成有效的安全通信機制和現成組件。
2.3 基于大數據的威脅發現技術
由于大數據分析技術的出現,企業可以超越以往的“保護—檢測—響應—恢復”(PDDR)模式,更主動地發現潛在的安全威脅?!袄忡R”計劃也可以被理解為應用大數據方法進行安全分析的成功故事。通過收集各個國家各種類型的數據,利用安全威脅數據和安全分析形成系統方法發現潛在危險局勢,在攻擊發生之前識別威脅。基于大數據的威脅發現技術可以使分析內容的范圍更大,通過在威脅檢測方面引入大數據分析技術,可以更全面地發現針對企業數據資產、軟件資產、實物資產、人員資產、服務資產和其他為業務提供支持的無形資產等各種信息資產的攻擊。另一方面,基于大數據的威脅發現技術可以使分析內容的時間跨度更長,現有的威脅分析技術通常受限于內存大小,無法應對持續性和潛伏性攻擊。而引入大數據分析技術后,威脅分析窗口可以橫跨若干年的數據,因此威脅發現能力更強,可以有效應對高級持續性威脅(APT)類攻擊。基于大數據的威脅分析,我們可以對攻擊威脅進行超前預判,能夠尋找潛在的安全威脅,對未發生的攻擊行為進行預防。而傳統的安全防護技術或工具大多是在攻擊發生后對攻擊行為進行分析和歸類,并做出響應。傳統的威脅分析通常是由經驗豐富的專業人員根據企業需求和實際情況展開,然而這種威脅分析的結果很大程度上依賴于個人經驗。同時,分析所發現的威脅也是已知的。大數據分析的特點是側重于普通的關聯分析,而不側重因果分析,因此通過采用恰當的分析模型可發現未知威脅。
2.4 大數據真實性分析技術
目前,基于大數據的數據真實性分析被廣泛認為是最為有效的方法。基于大數據的數據真實性分析技術能夠提高垃圾信息的鑒別能力。一方面,引入大數據分析可以獲得更高的識別準確率。例如,對于點評網站的虛假評論,可以通過收集評論者的大量位置信息、評論內容、評論時間等進行分析,鑒別其評論的可靠性。如果某評論者為某品牌多個同類產品都發表了惡意評論,則其評論的真實性就值得懷疑。另一方面,在進行大數據分析時,通過機器學習技術可以發現更多具有新特征的垃圾信息。然而該技術仍然面臨一些困難,主要是虛假信息的定義、分析模型的構建等。
云時代的未來必將涌現出更多、更豐富的安全應用和安全服務。對于絕大多數信息安全企業來說,更為現實的方式是通過某種方式獲得大數據服務,結合自己的技術特色領域,對外提供安全服務。一種未來的發展前景是:以底層大數據服務為基礎,各個企業之間組成相互依賴、相互支撐的信息安全服務體系,總體上可以形成信息安全產業界的良好生態環境。
2.5 基于大數據的認證技術
傳統的認證技術主要通過用戶所知的秘密(例如口令),或者持有的憑證(例如數字證書)來鑒別。這樣就會存在問題:首先,攻擊者總是能夠找到方法來騙取用戶所知的秘密或竊取用戶持有的憑證,從而輕松通過認證;其次,傳統認證技術中認證方式越安全往往意味著用戶負擔越重(例如攜帶硬件USBKey),如果采用先進的生物認證技術,又需要設備具有生物特征識別功能,從而限制了這些先進技術的使用。如果在認證技術中引入大數據分析則能夠有效地解決這兩個問題。基于大數據的認證技術指的是收集用戶行為和設備行為數據,并對這些數據進行分析,獲得用戶行為和設備行為的特征,進而通過鑒別操作者行為及其設備行為來確定其身份。這與傳統認證技術利用用戶所知秘密、所持有憑證或具有的生物特征來確認其身份有很大不同。這樣,攻擊者很難模擬用戶行為特征來通過認證,因此更加安全,同時又減小了用戶認證負擔,可以更好地支持各系統認證機制的統一。
2.6 基于大數據的安全規則挖掘技術
在Internet網絡中,為保證網絡安全,會引入防火墻技術和入侵檢測技術等。在這些技術中,通常是通過建立一套安全規則或過濾規則達到其安全目標,而這些規則的建立傳統方法是通過專家知識系統。在大數據時代,這些安全規則可以通過數據挖掘技術或方法實現。
聚類分析是數據挖掘中的一項重要技術,根據在數據中發現的描述對象及其關系的信息,將數據對象分組。組內相似性越大,組間差別越大,聚類效果就越好。
K-means算法作為聚類分析中的一種基本方法,由J.MacQueen于1967年首次提出[14],由于其容易實現,時間復雜度與數據規模接近線性,并且能夠快速地收斂到局部最優值,因此成為最廣泛應用的聚類算法[15]。然而K-means算法也存在較為明顯的缺陷,其中有以下兩點:
(1)K-means算法需要人為確定聚類數K和選取初始質心集,其聚類結果的好壞明顯受到初始化條件的影響[16-18],即選取不同的K值和初始質心集會得到不同的聚類結果。
(2)K-means算法僅適用于數據項全是數字的情況。對非數字數據進行聚類分析是一個特別棘手的問題[19],這在很大程度上限制了K-means算法的應用范圍。
針對問題(1),Ester M等提出了基于密度的聚類方法DBSCAN[20],該算法以及以此為基礎的一些改進算法[17-18]采用基于密度的自動聚類,避免了對初始條件的隨機選取,在一定程度上解決了K-means算法對初始條件敏感的問題。然而,由于基于密度的聚類算法時間復雜度通常較高,在處理大規模數據集時會出現瓶頸;同時在對于非數字數據集的聚類過程中,采用傳統的基于密度的聚類算法往往會造成聚類失效問題。
針對以上問題,在借鑒K-means算法框架的基礎上,文獻[21]提出一種基于“預抽樣-次質心”的密度聚類算法,采用預抽樣的方法將算法時間復雜度控制為線性,同時通過引入次質心的概念,解決聚類失效問題。分析表明該算法能很好地克服K-means算法的初始條件敏感性和一般密度聚類算法的聚類失效問題,實現較為理想的聚類結果。
2.7 防范APT攻擊的技術
APT攻擊是大數據時代面臨的最復雜的信息安全問題之一,而大數據分析技術又為對抗APT攻擊提供了新的解決手段。APT具有極強的隱蔽性,且潛伏期長、持續性和目標性強,技術高級,威脅性也大。APT攻擊檢測方案通常有沙箱方案、異常檢測、全流量審計、基于深層協議解析的異常識別、攻擊溯源等。在APT攻擊檢測中,存在的問題包括:攻擊過程包含路徑和時序;攻擊過程的大部分貌似正常操作;不是所有的異常操作都能立即檢測;不能保證被檢測到的異常在APT過程的開始或早期?;谠缙谟洃浀臋z測可以有效緩解上述問題,既然APT是在很長時間發生的,我們的對抗也要在一個時間窗內來進行,并對長時間、全流量數據進行深度分析。APT攻擊防范策略包括防范社會工程、通過全面采集行為記錄避免內部監控盲點、IT系統異常行為檢測等。
3 結束語
大數據帶來許多新的安全問題和挑戰,但大數據本身也是解決問題的重要手段,它就像一把雙刃劍,既需要研究合適的“盾”來保護大數據,也需要研究如何用好大數據這根“矛”。戰略資詢公司麥肯錫認為:大數據將會是帶動未來生產力發展、科技創新及消費需求增長的指向標,它以前所未有的速度,顛覆人們探索世界的方法,驅動產業間的融合與分立。大數據已成為各個國家和領域關注的重要戰略資源,可能對國家治理模式、企業決策、組織業務流程、個人生活方式都將產生一系列長遠、巨大的影響。
參考文獻
[1] MANADHATA P K. Big Data for Security: Challenges, Opportunities, and Examples [C]//Proceedings of the 2012 ACM Workshop on Building Analysis Datasets and Gathering Experience Returns for Security, Raleigh, North Carolina, USA, 2012
[2] YU S C, WANG C, REN K, et al. Achieving Secure, Scalable, and Fine-grained Data Access Control in Cloud Computing [C]// Proceedings of the INFOCOM'10,the 29th conference on Information communication, Piscataway, USA, 2010: 534-542
[3] BELARE M and ROGAWAY P. Introduction to Modern Cryptography [J]. Ucsd Cse, 2005:207
[4] GENTRY C, HALEVI S, SMART N P. Homomorphic Evaluation of The AES Circuit [M]. Germany: Springer Berlin Heidelberg, 2012
[5] CATALANO D. Paillier's Cryptosystem Revisited [C]// in Proceedings of the 8th ACM conference on Computer and Communications Security, PA, USA, 2001:206-214
[6] BENDLIN R, DAMGARD I, ORLANDI C, et al. Semi-Homomorphic Encryption and Multiparty Computation [M]. Germany: Springer Berlin Heidelberg, 2011
[7] GENTRY C. A Fully Homomorphic Encryption Scheme [D]. Standford University, 2009
[8] ITANI W, KAYSSI A, CHEHAB A. Privacy As a Service: Privacy-Aware Data Storage and Processing in Cloud Computing Architectures [C]// Eighth IEEE International Conference on Dependable, Autonomic and Secure Computing, Washington DC, USA, 2009:711-716.doi: 10.1109/DASC.2009.139
[9] CREESE S, HOPKINS P, PEARSON S, et al. Data Protection-Aware Design for Cloud Services [M]. Germany: Springer Berlin Heidelberg, 2009
[10] PARAKH A, KAK S. Space Efficient Secret Sharing for Implicit Data Security [J]. Information Science, 2011, 181(2): 335-341
[11] PARAKH A, MAHONEY W. Privacy Preserving Computations Using Implicit Security [C] // Proceedings of the 22nd International Conference on Computer Communications and Networks (ICCCN), Nassau, Bahamas, 2013: 1-6. doi: 10.1109/ICCCN.2013.6614172
[12] ZHANG L J, ZHANG W N. Edge Anonymity in Social Network Graphs [C] // Proceedings of the International Conference on Computational Science and Engineering(CSE'09),Vancouver, Canada, 2009:1-8
[13] MICHAEL H A, GEROME M, DAVID J, et al. Resisting Structural Re-identification in Anonymized Social Networks[C] // Proceedings of the 34th International Conference on Very Large Data Bases(VLDB'2008), Aucklnad, New Zealand, 2008: 102-114
[14] MACQUEEN J. Some Methods for Classification and Analysis of Multivariate Observations. [C] // Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Oakland, USA,1967: 281-297
[15] JAIN A K. Data Clustering: 50 Years Beyond K-Means [J]. Pattern recognition letters, 2010,1(8):651-666
[16] PIETRASZEK T, TANNER A. An Efficient K-Means with Good Initial Starting Points [J]. Georgian Electronic Scientific Journal: Computer Science and Telecommunications, 2009, 19(2):47-57
[17] SHEHROZ A A, KHAN S. Cluster Center Initialization Algorithm for K -Means Clustering[J]. Pattern Recognition Letters, 2004, 25(11): 1293-1302.doi: 10.1016/j.patrec.2004.04.007
[18] Stephen C H, REDMOND J. A Method for Initialising the K-Means Clustering Algorithm Using KD-Trees [J]. Pattern Recognition Letters, 2007, 28(8):965-973.doi: 10.1016/j.patrec.2007.01.001
[19] TAN P N, STEINBACH M, KUMAR V, et al. Introduction to Data Mining[J]. Pearson Addison Wesley Boston, 2006,1(1): 226-230
[20] ESTER M, KRIEGEL H P, SANDER J. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise [J]. Kdd,1996, 96: 226-231
[21] GENGeng J K, YE DAREN, LUO P. A Novel Algorithm DBCAPSIC for Clustering Non-Numeric Data[C] // To Appear the ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Sydney, Australia, 2015