陳迎春
(中共青海省委黨校,青海 西寧 810001)
大數(shù)據(jù)技術(shù)的快速發(fā)展帶來了越來越多的機(jī)遇和挑戰(zhàn),社會發(fā)生了巨大的變化,日新月異的智能終端、無處不在的無線網(wǎng)絡(luò)、各具特色的互動平臺,讓普通的企業(yè)和個人變得豐富而立體。大數(shù)據(jù)的挖掘和應(yīng)用的深入不斷推動新藍(lán)海、新經(jīng)濟(jì)的成長。企業(yè)已經(jīng)完全可以對個人消費習(xí)慣和傾向行為進(jìn)行大規(guī)模、準(zhǔn)確的研究,給企業(yè)帶來巨大業(yè)務(wù)潛力和市場需求[1]。因此,在大數(shù)據(jù)時代,數(shù)據(jù)處理與分析已經(jīng)成為新一代信息技術(shù)應(yīng)用的支撐點,引領(lǐng)著大數(shù)據(jù)產(chǎn)業(yè)技術(shù)未來的發(fā)展方向,吸引著眾多互聯(lián)網(wǎng)巨頭搶占布局,占領(lǐng)市場產(chǎn)業(yè)制高點。隨著大數(shù)據(jù)在各個領(lǐng)域的應(yīng)用逐漸深入滲透,大數(shù)據(jù)的商業(yè)價值愈發(fā)不可估量,在這種形勢下數(shù)據(jù)安全顯得尤為重要,這給信息安全技術(shù)帶來了發(fā)展機(jī)遇和巨大挑戰(zhàn),必須從全局的角度分析、認(rèn)識和處理整個大數(shù)據(jù)生命周期內(nèi)的各種安全保障技術(shù)。本文以大數(shù)據(jù)的生命周期為連接線,分析了大數(shù)據(jù)在各個階段面臨的安全風(fēng)險,并闡述了相應(yīng)的大安全保障關(guān)鍵技術(shù)。
隨著大數(shù)據(jù)應(yīng)用的快速發(fā)展,各類信息的開放度也不斷加大,廠商不停發(fā)布新的信息搜索引擎,為龐大的數(shù)據(jù)分析和挖掘提供數(shù)據(jù)支撐。當(dāng)數(shù)據(jù)的采集、存儲和處理分析方式出現(xiàn)新的變化時,信息系統(tǒng)基礎(chǔ)結(jié)構(gòu)受到的影響可能極大,它將變得越來越一體化,并趨向于外向型。這個情況會對大數(shù)據(jù)安全構(gòu)成極大風(fēng)險,若不認(rèn)真客觀了解其大數(shù)據(jù)內(nèi)涵,其風(fēng)險成本將直線飆升,因此一定要全程關(guān)注大數(shù)據(jù)的完整生命周期[2]。
一般情況下數(shù)據(jù)的生命周期可以分為7個階段:數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)歸檔、數(shù)據(jù)銷毀等。經(jīng)過合并精簡,根據(jù)大數(shù)據(jù)特征及應(yīng)用特點,最終依據(jù)應(yīng)用過程將大數(shù)據(jù)的生命周期劃分為4個環(huán)節(jié):數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)發(fā)布。大數(shù)據(jù)采集安全問題主要集中在數(shù)據(jù)的采集與匯聚過程中;數(shù)據(jù)存儲安全是保證所采集數(shù)據(jù)的機(jī)密性、私密性、可靠性和可用性,數(shù)據(jù)挖掘安全是要保證數(shù)據(jù)挖掘者的可信任身份,嚴(yán)格控制數(shù)據(jù)分析處理的操作權(quán)限,重點是防止信息泄密。數(shù)據(jù)發(fā)布安全是執(zhí)行嚴(yán)格的安全審計,用以保證可以追根溯源到可能的泄密泄露數(shù)據(jù)。
不同源不同類的大數(shù)據(jù)需求日益增長,損壞、丟失、泄密、被盜取等安全隱患也顯現(xiàn)在各類數(shù)據(jù)采集過程中,必須利用技術(shù)手段來保證采集過程中的數(shù)據(jù)安全。
常用的VPN(虛擬專用網(wǎng))技術(shù)完美解決了數(shù)據(jù)安全傳輸?shù)囊?可充分保證被傳輸數(shù)據(jù)的機(jī)密性、完整性、真實性和防止重放攻擊等。其主要原理是:將隧道技術(shù)、協(xié)議封裝技術(shù)、密碼技術(shù)和配置管理技術(shù)進(jìn)行封裝,在源頭端和目的端采用虛擬的數(shù)據(jù)傳輸專用通道,將源頭數(shù)據(jù)加密封裝,嵌套入另一種協(xié)議的數(shù)據(jù)報文中,偽裝成普通數(shù)據(jù)報文,在網(wǎng)絡(luò)中進(jìn)行傳輸,到達(dá)目的地后用戶再解析還原通道中的嵌套信息。當(dāng)前市場上比較主流和成熟的VPN技術(shù)采用的協(xié)議主要分為兩種:Ipsec協(xié)議和SSL協(xié)議。
只有保障數(shù)據(jù)存儲的安全,大數(shù)據(jù)的分析和利用才有可能。傳統(tǒng)的數(shù)據(jù)具有生命周期長、使用頻繁的特征,而在現(xiàn)有的大數(shù)據(jù)環(huán)境下,各類云服務(wù)的廣泛應(yīng)用增加了數(shù)據(jù)安全隱患,其中隱私數(shù)據(jù)的泄露概率、機(jī)密數(shù)據(jù)被竊取的風(fēng)險大大增加;另外,由于大數(shù)據(jù)的身價逐日提升,國內(nèi)外的黑客盯上關(guān)鍵數(shù)據(jù)并設(shè)法竊取,換取高額利益,關(guān)鍵數(shù)據(jù)的泄露將會對企業(yè)和用戶造成巨大的損失。大數(shù)據(jù)的深度應(yīng)用與快速發(fā)展必須建立在數(shù)據(jù)存儲的安全保證上。大數(shù)據(jù)存儲安全的關(guān)鍵技術(shù)主要包括隱私保護(hù)、數(shù)據(jù)加密、數(shù)據(jù)備份與恢復(fù)等。
2.2.1 隱私保護(hù)
在大數(shù)據(jù)存儲過程中,隱私安全保護(hù)技術(shù)的終極目的是保證數(shù)據(jù)在快速傳輸和有效使用中不泄密、不丟失。目前隱私保護(hù)技術(shù)大致分為以下幾種:一是基于數(shù)據(jù)變換的隱私保護(hù)技術(shù),它的運算效率較高,但不能保證數(shù)據(jù)的完整性,存在一定的數(shù)據(jù)丟失率;二是基于數(shù)據(jù)加密的隱私保護(hù)技術(shù),它的優(yōu)勢是能夠保障數(shù)據(jù)的完整性、安全性,但計算占用資源巨大;三是基于匿名化的隱私保護(hù)技術(shù),能保證發(fā)布信息的真實性,但發(fā)布的數(shù)據(jù)存在一定的數(shù)據(jù)丟失率。每種隱私保護(hù)技術(shù)各有優(yōu)缺點,用戶應(yīng)當(dāng)根據(jù)實際業(yè)務(wù)應(yīng)用,選擇合適的隱私保護(hù)技術(shù)。
2.2.2 數(shù)據(jù)加密
利用VPN通道可把數(shù)據(jù)安全傳輸?shù)侥康亩?目的端存儲系統(tǒng)收到后必須先進(jìn)行數(shù)據(jù)解密,才能進(jìn)入存儲過程。當(dāng)數(shù)據(jù)以明文形式進(jìn)行存儲,遭遇非法入侵者的攻擊和破壞時,明文數(shù)據(jù)不堪一擊,因此,數(shù)據(jù)存儲時也要進(jìn)行加密,為了平衡存儲速度與安全,只對敏感核心數(shù)據(jù)采取存儲加密技術(shù)手段。根據(jù)數(shù)據(jù)類型,數(shù)據(jù)加密機(jī)制可分為靜態(tài)數(shù)據(jù)加密機(jī)制和動態(tài)數(shù)據(jù)加密機(jī)制。
2.2.3 備份與恢復(fù)
為防止發(fā)生災(zāi)難性事故,存儲系統(tǒng)有必要提供數(shù)據(jù)備份和恢復(fù)機(jī)制。在數(shù)據(jù)存儲完好時啟用備份機(jī)制,當(dāng)數(shù)據(jù)意外丟失或遭到破壞時,可以啟用恢復(fù)機(jī)制來保障數(shù)據(jù)的可用性和完整性。常見的備份和恢復(fù)機(jī)制有異地備份、Raid備份、數(shù)據(jù)鏡像和快照等。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的存儲一般都使用Hadoop研發(fā)的HDFS備份與恢復(fù)機(jī)制,對于極其重要的數(shù)據(jù),還應(yīng)該建立遠(yuǎn)程容災(zāi)備份。
數(shù)據(jù)分析是通過分析海量數(shù)據(jù)提取有用信息的挖掘過程,是充分體現(xiàn)大數(shù)據(jù)價值的過程。在數(shù)據(jù)分析過程中,會引入多領(lǐng)域的專業(yè)理論和技術(shù),例如人工智能、云計算模式、檢索引擎、統(tǒng)計應(yīng)用、生物識別等。復(fù)雜的交叉學(xué)科運用決定了擁有海量基礎(chǔ)大數(shù)據(jù)的機(jī)構(gòu)不可能是全能的專業(yè)分析挖掘者,必定會引入擁有綜合能力的第三方數(shù)據(jù)分析機(jī)構(gòu),數(shù)據(jù)分析過程將面臨安全問題,如何能保證第三方在使用數(shù)據(jù)時不植入惡意代碼,同時保證提取數(shù)據(jù)后不泄密是需要關(guān)注的重點。因此,在數(shù)據(jù)分析處理過程中,數(shù)據(jù)安全保障技術(shù)重點是登錄用戶的身份認(rèn)證和訪問控制策略。
2.3.1 身份認(rèn)證
身份認(rèn)證是指應(yīng)用系統(tǒng)中用戶登錄身份的確認(rèn)過程,即用戶的登錄身份與其真實身份相認(rèn)證的過程。根據(jù)用戶的認(rèn)證信息,身份認(rèn)證技術(shù)一般可分為3種:基于機(jī)密數(shù)據(jù)的身份認(rèn)證、基于特定信息的身份認(rèn)證和基于人體生物特征的身份認(rèn)證。
2.3.2 訪問控制
訪問控制是數(shù)據(jù)分析過程中安全保護(hù)的核心策略,原理是對每個用戶制定特定控制策略,授予不同訪問級別,保證合法用戶獲得相關(guān)數(shù)據(jù),尤其針對關(guān)鍵重要的資源訪問,一定要制定嚴(yán)格的訪問控制策略,以保證用戶的合法性。訪問控制根據(jù)行為特征可以分為自主和非自主兩種,目前常使用的訪問控制模式大致包含3種:一是自主訪問控制;二是強(qiáng)制訪問控制;三是基于角色的訪問控制。
大數(shù)據(jù)在經(jīng)過分析處理過程后,進(jìn)入數(shù)據(jù)發(fā)布過程,這是數(shù)據(jù)公開使用的環(huán)節(jié),其安全性更為重要。必須在數(shù)據(jù)發(fā)布前對數(shù)據(jù)進(jìn)行全方位審核,確定輸出數(shù)據(jù)的保密性、合規(guī)性等。但是再嚴(yán)格的審核流程,也難免百密一疏,因此數(shù)據(jù)發(fā)布之后,如果出現(xiàn)數(shù)據(jù)機(jī)密外泄、隱私泄露等意外情況,要馬上啟用追溯機(jī)制,迅速定位到出現(xiàn)數(shù)據(jù)安全的環(huán)節(jié),及時做出應(yīng)急響應(yīng)[3]。
2.4.1 安全審計
安全審計是指根據(jù)采集的安全大數(shù)據(jù)進(jìn)行分析、評估和審查,查找安全隱患,并通過審核稽查和計算追查事故緣由,進(jìn)而做出處理。在數(shù)據(jù)發(fā)布過程中選擇安全審計技術(shù)方案時,一要考慮不對現(xiàn)有應(yīng)用系統(tǒng)造成任何影響;二要考慮方案的穩(wěn)定性、可靠性和可用性。審計技術(shù)包括日志審計、網(wǎng)絡(luò)監(jiān)聽審計、網(wǎng)關(guān)審計、代理審計等[4]。網(wǎng)關(guān)審計技術(shù)部署如圖1所示。

圖1 網(wǎng)管審計技術(shù)部署
2.4.2 數(shù)據(jù)溯源
數(shù)據(jù)溯源的普遍定義是:對大數(shù)據(jù)應(yīng)用周期的環(huán)節(jié)和操作進(jìn)行標(biāo)記和定位,發(fā)生數(shù)據(jù)安全故障時,可以快速準(zhǔn)確定位到出現(xiàn)問題的環(huán)節(jié)和責(zé)任者,以便解決數(shù)據(jù)安全問題。目前數(shù)據(jù)溯源的主要方法是標(biāo)注法和反向查詢法,但是對于非法入侵者來說,溯源標(biāo)記是很容易被破壞的,因此數(shù)據(jù)溯源應(yīng)用目前處于研究階段,還缺乏成熟的應(yīng)用模式。目前,由于缺乏統(tǒng)一的業(yè)界標(biāo)準(zhǔn),多數(shù)數(shù)據(jù)溯源管理系統(tǒng)只實現(xiàn)于一個封閉的系統(tǒng)內(nèi)部,如何在分布式數(shù)據(jù)系統(tǒng)間進(jìn)行溯源管理正成為研究熱點。
APT攻擊是指攻擊者通過多種攻擊途徑(如物聯(lián)網(wǎng)、欺騙等),竊取機(jī)密信息或破壞(阻礙)目標(biāo)信息(組織)的關(guān)鍵系統(tǒng),或駐留在組織的內(nèi)部網(wǎng)絡(luò)以待后續(xù)攻擊。目前的檢測和防范技術(shù)并不能完全有效應(yīng)對所有APT攻擊,事實上有些攻擊潛伏很長時間后才被檢測到,甚至有可能一直未被發(fā)現(xiàn)。表1對比了APT攻擊與傳統(tǒng)攻擊方式的不同。

表1 APT攻擊與傳統(tǒng)攻擊方式的不同
令人遺憾的是,目前的檢測和防范技術(shù)并不能完全有效應(yīng)對所有APT攻擊,事實上有些攻擊潛伏很長時間后才被檢測到,甚至有可能一直未被發(fā)現(xiàn)。鑒于這種情況,需要轉(zhuǎn)換保護(hù)所有數(shù)據(jù)的慣性安全思維,把安全重點放到關(guān)鍵資源保護(hù)上,在各個重點環(huán)節(jié)上部署檢測和防護(hù),全面記錄采集行為,建立一種新的安全防護(hù)體系。當(dāng)前檢測APT攻擊的常見方案有5種:一是沙箱方案;二是異常檢測;三是全流量審計;四是基于深層協(xié)議解析的異常識別;五是攻擊溯源。
隨著社會不同領(lǐng)域?qū)Υ髷?shù)據(jù)應(yīng)用的重視,大數(shù)據(jù)安全保障問題凸顯,關(guān)注度也日益提升。一方面,大數(shù)據(jù)應(yīng)用技術(shù)的迅猛發(fā)展,為攻擊者提供了更多的攻擊途徑,致使數(shù)據(jù)服務(wù)平臺面臨巨大安全威脅;另一方面,大數(shù)據(jù)應(yīng)用的整個生命周期各個階段都面臨不同的安全風(fēng)險威脅,必須改變固有的傳統(tǒng)安全思維,建立全新的安全意識。本文圍繞大數(shù)據(jù)應(yīng)用的整個生命周期,重點論述了每個階段的安全隱患和安全保障技術(shù),希望大數(shù)據(jù)應(yīng)用者能夠了解相關(guān)安全保障技術(shù),并在此基礎(chǔ)上轉(zhuǎn)換新的安全思維模式。