田沛霖
(復旦大學文獻信息中心,上海 200433)
隨著大數據技術的發展,各行各業都積累并存儲了海量的相關數據,其附屬的分析機構可以利用數據挖掘技術從中獲取更有價值的信息[1]。但在面臨海量數據的收集、傳輸、存儲和分析挖掘時,鑒于大數據特別的“4V+1C”新特征,傳統的數據安全技術并不能滿足新形勢下的數據安全需求[2],而企事業單位中承載極大數據量的信息系統一旦發生安全問題,造成泄密事件,勢必會導致企事業單位的公信力、經濟效益大幅降低,同時伴有經濟活動參與單位或個人信息泄露等次生災害,產生連帶效應造成巨大損失,甚至危害國家安全:如2015年5月美國國稅局系統遭到攻擊導致10 萬納稅人永久信息遭到泄露事件,造成國稅局的退稅服務系統被迫關閉,納稅人的退稅資金的安全受到威脅。所以如何利用大數據技術保護大數據環境下數據的安全性的問題應運而生。
在大數據環境下,“大數據”與數據安全問題的關系有兩方面:大數據既是“保護對象”,又是“保護手段”。一方面,大數據環境下的數據安全主體是大數據的安全;另一方面,大數據分析等安全技術也是信息系統防范外界攻擊的重要手段。
大數據環境下的數據存儲單位往往具有強大的數據體系,但也很容易存在網絡問題,如出現漏洞,用戶的相關數據很容易被不法分子利用或者進行售賣,對個人數據安全造成嚴重威脅[3]。同時,為實現大數據的有效處理,相關工作也引入了分布式的計算與存儲框架,這些新型框架也帶來了新的安全風險。在這樣的安全環境下,信息泄露的風險時刻存在,不法分子利用大數據的技術便利進行大規模的犯罪活動,會阻礙社會和諧穩定發展。大數據面臨的數據安全問題主要集中在隱私泄露、外界攻擊和數據存儲3個方面。
1.2.1 隱私泄露
數據隱私即數據收集與數據傳播間的關系,涉及公共隱私預期、技術、法律與政治等多領域要素。企業本身對數據的保護程度不夠造成了用戶隱私在系統未被攻擊的情況下的可能泄露。如在匿名問題中,企業僅關注了對用戶標識符的消除,而忽略了對IP 地址、HASH值等亦能反映用戶特征的數據,導致某些用戶在系統中的行為日志記錄項即使被匿名化處理,仍能精確地定為于特定用戶;或者匿名信息在與其他未匿名化處理的數據源結合時,通過行為匹配,匿名信息的用戶就有被識別的可能。
1.2.2 外界攻擊
大數據由于其體量大,多樣性豐富的特點,更容易成為黑客攻擊的目標:攻擊規模大的數據集合使黑客在所獲數據量與努力值相比的“收益率”大大提高,這驅動黑客傾向于攻擊大數據信息系統。
黑客的攻擊通常具有很強的目的性,在編輯攻擊大數據信息系統的程序時,會針對系統的防御架構,因此更容易破壞系統數據安全體系,造成數據泄露與損失。此外,隨著數據安全技術的不斷提升,大數據信息系統的安全性也顯著提升,近年來雖然沒有發生大規模的黑客攻擊事件,但黑客仍會進行較小規模的入侵,在用戶未察覺的情況下盜取用戶信息,這種攻擊方式對數據安全造成了很大影響,不僅會導致信息系統崩潰,而且會使大量數據泄露。
1.2.3 數據存儲
傳統數據安全體系傾向于將數據虛擬化統一存儲,這會帶來兩方面的問題:(1)存儲設備經常會是異構的,其虛擬化存儲功能難于統一部署和管理;(2)虛擬化存儲的實現過程是在相同物理介質上混合存儲不同密級數據,加之用戶并不清晰自己的數據以何種存儲方式存儲在何種地方的何種介質中,容易造成數據的越權訪問,進而可能導致數據泄露。
通過分析與傳統數據安全體系特點的比對,發現實現大數據安全的捷徑是在傳統數據安全體系框架中,補充對于由大數據帶來的數據安全風險的防護功能。
外界攻擊是使數據安全發生問題的最高頻原因,因此也是研究探討技術的主要涉及領域。
Hadoop是一個使用Java編寫的開源分布式軟件框架,其以可靠、高效、可伸縮的方式對大數據進行分布式處理,在存儲和計算方面與普通的現有的單節點計算相比具有顯著優勢,在全球范圍內應用廣泛。汪來富等[4]研究了基于Hadoop 的大數據安全架構,主要設計了一種Hadoop的技術架構,以分層、分功能模塊的形式對可能存在的威脅情報進行滾動分析和動態更新。
但大數據分布式計算天生的缺點是難于保證異構平臺、各數據結點間的一致性和安全性,較大的數據冗余、難以及時準確地定位、沒有嵌入安全傳輸層協議TSL都使其安全機制非常薄弱。
威脅情報是通過大數據、分布式系統等方式獲取的漏洞、威脅、特征、行為等的知識集合及可操作性建議[5],其基于攻擊者的視角,依靠廣泛的可見性及對互聯網威脅的全方位理解,對傳統防御方式進行了邏輯上的補充,從而幫助管理者全方位地了解可能的威脅,并采取準確的行動以消弭損失。宋曉峰等[5]研究了私有威脅情報系統的構建,設計通過爬取、流量分析等方式采集威脅情報數據,利用大數據和機器學習技術構建私有威脅情報系統,以獲取可疑IP、域名或HASH值的詳細威脅報告。
APT(Advanced Persisted Threat)攻擊是針對重要數據進行的一系列多方位多方法的持續攻擊行為,在發動攻擊前收集被攻擊對象的業務流程和目標系統等相關信息。在收集過程中,APT 攻擊會主動挖掘目標受信系統和應用程序的漏洞,利用其組建攻擊者所需的網絡,并利用漏洞進行精確攻擊。周濤[6]研究了5種APT 攻擊檢測方案,其研究的主要思想是借助大數據分析技術,綜合以深度學習為基礎的網絡異常行為和異常流量檢測、未知行為沙箱行為檢測、攻擊溯源等檢測技術,對APT 攻擊鏈的7個階段進行全面關聯檢測。文獻同時為不同檢測技術和APT攻擊鏈不同階段間建立了邏輯關系模型。
網絡隔離技術是指把兩個或兩個以上可以路由的網絡通過不可路由的協議進行數據交換,從而達到隔離的目的。范浩[7]提出了采用內墻和外墻兩種模式隔離網絡的方法:內墻防護數據系統,只與特定的業務系統交互;外墻防護業務系統,避免攻擊滲透到內網。
但2018年11月初發生的伊朗核設施遭到以色列“震網”病毒攻擊導致癱瘓的事件向我們證明了即使是與外界物理、通信都隔離的系統也有被攻擊的可能,這說明網絡隔離的方法從邏輯上仍需改變。
身份認證技術是當前應用最廣泛的數據安全防護策略,即系統在對操作者身份加以識別時,以特定數據為依據,對用戶進行認定并授權。因此,可利用身份認證技術,借助個性化指令、個性化認證密鑰的應用,判斷當前操作者是否合法,以此推動數據安全防線的構建。高陽等[8]提出通過數字證書、虹膜識別等身份認證方式來授予用戶接觸數據的權限。但這種單一的身份認證方式在用戶、硬件上均有其局限性:用戶的專屬標識可能會被盜取、木馬截獲或因經濟利益出賣;忘記攜帶或認證過程過于繁瑣也會對日常工作造成很多負擔。
數據安全技術可以通過數據挖掘來建立安全規則,保證數據信息的安全,其主要手段是聚類分析,按照數據中所發現對象的描述信息和關系信息對數據對象進行分組。譚正云[9]提出運用K-means 的聚類型數據挖掘算法探索并求證數據安全規則,從而實現防火墻或入侵檢測的功能,研究也對K-means 算法做了相關改進:突破了其數據項僅適用于數字的情況的限制、采用了基于密度的自動聚類,在很大程度上克服了算法的初始條件敏感性和可能的聚類失效問題。
經過對大數據環境下數據安全技術研究現狀的探索,研究發現在這些主流技術中,基于Hadoop 的安全架構、網絡隔離與身份認證技術存在較明顯的問題,是下面研究探索解決方案的對象。
根據問題的難易程度與現實狀況,研究采取文獻研究法、功能分析法、個案分析法與描述性研究法解決問題:針對Hadoop 平臺架構的安全機制問題,通過查閱相關文獻資料并嘗試總結歸納以得出解決方案;針對網絡隔離與身份認證技術,由其實現的機制及反映缺陷的案例入手,從整個業務流程角度探索技術路線的優化方案。
3.2.1 Hadoop平臺架構的安全機制
(1)針對其數據結點難于準確定位與平臺安全性的問題,可以采用基于密鑰-證書系統的結點認證措施以識別并及時阻斷惡意結點,保護數據通道;并依據不同密級與權限,為不同應用程序與用戶分發不同級別的密鑰。相關認證與密鑰授權服務可基于Kerberos 身份認證機制實現[10]:即在安全性不確定的網絡通信環境下,實體使用Kerberos 機制以安全的方式向另一個實體證明其身份,其核心是密鑰分發中心,基于系統-單一用戶間記載每個Kerberos 用戶的密鑰數據庫,密鑰分發中心為需要進行通信的兩實體間建立臨時會話密鑰,從而加密其交互信息。該機制的實現首先要在Hadoop集群的每個節點上配置Kerberos認證并安裝密鑰分發中心,建立對應的數據庫,最后配置Hadoop 集群使用Kerberos認證。
(2)針對其沒有嵌入安全傳輸層協議TLS的問題,可以在Hadoop的各數據結點間、數據結點與應用程序間嵌入TLS組件,保障服務器與代理間的交互,并對用戶的訪問進行加密保護,以設計出可靠的安全通信機制。
3.2.2 網絡隔離的脆弱性
從伊朗核設施遭“震網”病毒攻擊一事來看,只注重物理上的防御機制是不夠的:(1)要從管理層面,嚴控供應鏈管理,從源頭保障設備的安全性;加強從業人員的保密意識,防止系統漏洞信息外泄或被盜;同時,要做好移動存儲介質的管控,減少惡意代碼和病毒的傳播;(2)要從技術層面,做好網絡流量監測審計、設置安全設備進行網絡邊界防護、安全域劃分和控制系統主機防護等措施,廣泛采用各種安全技術,從技術層面加強系統安全防護能力。
只有實現保密單位“人防”、“物防”和“技防”三位一體,才能切實增強系統抵御如APT攻擊等破壞、竊取數據行為的能力,通過網絡實現數據安全防護。
3.2.3 身份認證的局限性與不便性
(1)增強對涉密人員關于涉密數據的保密意識的培訓,加強對間諜及危險行為的甄別、抵制能力,嚴防特異性數據的泄露。
(2)從立法角度對針對涉密數據的違規行為進行限制,違者嚴懲。
(3)運用大數據綜合分析手段,結合用戶生物特征及行為特征的特異性,進行多維度身份識別,如可以結合指紋控制系統和視網膜控制系統共同參與身份認證;也可以采取動態電子口令認證的形式來進一步強化數據的安全性。
(4)在加強對合法用戶獲取數據時的安全性的控制的同時,也需要加強對非法用戶入侵的管理和防范,可以通過建立黑名單系統,在云端加強數據安全防護能力。這一來防止敵對分子僅使用某一項授權特征即獲得數據權限,二來多維度身份識別使用戶不再為缺失某一項特征而煩惱,提高了系統的友好程度。
(1)研究針對Hadoop 平臺架構安全機制提出的解決方案未能從實際操作的角度開展實驗,完成并演示Kerberos認證機制和嵌入TLS組件的具體實現流程,后續有條件可以對相關操作進行詳細論述。
(2)在探索網絡隔離的解決方案時,未找到“震網”病毒所涉及技術的細節,因此在“技防”領域不能列舉出采用的針對性技術,后續可以嘗試深入了解“震網”病毒及其攻擊原理與應對技術,從而更具體、更針對性探討相應的數據安全問題。
伴隨著大數據的快速發展與廣泛應用,相關的數據安全問題也日益凸顯。大數據作為一種技術,可以與其他各種技術相結合,為作為數據源的自身提供安全防護。通過對流行技術的分析與對其缺陷的調查,不難發現只有全面完整的安全技術體系才能為大數據產業鏈的各階段提供可靠的數據安全保障。通過技術調研,研究發現在當前主流的數據安全技術中,基于Hadoop 的安全架構、網絡隔離與身份認證技術有較大改進空間,所以相關研究人員需要從整體和細節兩方面入手,積極創新現有的數據安全技術研究方法和研究內容,從而更加有效地保障大數據的安全和可靠,提高大數據所參與行業的信息安全水平,進而促進大數據相關產業的蓬勃發展。