楊小漫
(武漢船舶職業(yè)技術(shù)學(xué)院,湖北武漢 430000)
習(xí)近平總書記就推動(dòng)大數(shù)據(jù)和數(shù)字經(jīng)濟(jì)相關(guān)戰(zhàn)略部署、發(fā)展大數(shù)據(jù)產(chǎn)業(yè)多次做出重要指示。2021年工業(yè)和信息化部發(fā)布了《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)從規(guī)模增長向結(jié)構(gòu)優(yōu)化、質(zhì)量提升轉(zhuǎn)型。大數(shù)據(jù)技術(shù)正加速人類社會(huì)各個(gè)方面的深刻變革,由數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用在各個(gè)領(lǐng)域發(fā)揮重要作用,數(shù)據(jù)的重要性和潛在價(jià)值日益提升。也正因大數(shù)據(jù)的潛在價(jià)值,使其面臨著攻擊、泄露、濫用等風(fēng)險(xiǎn),這些安全風(fēng)險(xiǎn)還將隨著大數(shù)據(jù)技術(shù)的發(fā)展全面輻射到各行各業(yè)。因此,大數(shù)據(jù)安全是發(fā)展大數(shù)據(jù)的前提,也是被重點(diǎn)研究的課題。
近年來,全球數(shù)據(jù)安全事件持續(xù)高頻發(fā)生,2018年印度政府身份數(shù)據(jù)庫Aadhaar 遭入侵;2020 年甲骨文公司泄露數(shù)十億條網(wǎng)絡(luò)數(shù)據(jù)記錄;2022年國內(nèi)西工大郵件系統(tǒng)遭境外組織攻擊等,這些數(shù)據(jù)安全事件造成企業(yè)資產(chǎn)丟失、品牌信譽(yù)塌陷等重大損失,甚至讓國家安全和社會(huì)穩(wěn)定面臨威脅。世界各國已出臺(tái)數(shù)據(jù)安全相關(guān)政策,設(shè)立各層次、各領(lǐng)域的法律法規(guī),例如,歐盟實(shí)施的關(guān)于個(gè)人隱私保護(hù)的通用數(shù)據(jù)保護(hù)條例、巴基斯坦的《2020 年個(gè)人數(shù)據(jù)保護(hù)法案》、美國的《美國數(shù)據(jù)隱私保護(hù)法》、俄羅斯的《個(gè)人數(shù)據(jù)保護(hù)法案》和英國的《開放數(shù)據(jù)白皮書》等。
我國“十四五”規(guī)劃指出“加快推進(jìn)數(shù)據(jù)安全、個(gè)人信息保護(hù)等領(lǐng)域基礎(chǔ)性立法,強(qiáng)化數(shù)據(jù)資源全生命周期安全保護(hù)”。已實(shí)施的《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》《數(shù)據(jù)安全管理辦法》等持續(xù)健全我國數(shù)據(jù)安全法律法規(guī)矩陣。各行業(yè)的數(shù)據(jù)安全標(biāo)準(zhǔn)規(guī)范也密集落地實(shí)施,騰訊構(gòu)建以“科技為善、數(shù)據(jù)有度”為價(jià)值理念的數(shù)據(jù)安全管理體系;聯(lián)通大數(shù)據(jù)堅(jiān)持“數(shù)據(jù)安全是生命線、安全事件零容忍、敏感數(shù)據(jù)不出門”三大安全原則;阿里巴巴提出大數(shù)據(jù)安全能力成熟度模型。雖然國內(nèi)各界加快推進(jìn)數(shù)據(jù)外規(guī)內(nèi)化、風(fēng)險(xiǎn)治理方面的步伐,但是大數(shù)據(jù)安全與隱私保護(hù)的基礎(chǔ)性、原創(chuàng)性成果不足[1],且“定制化”攻擊技術(shù)層出不窮,攻擊形式隱蔽、多樣,大數(shù)據(jù)安全將面臨更多的新挑戰(zhàn)。
大數(shù)據(jù)安全既可指大數(shù)據(jù)自身安全也可指大數(shù)據(jù)技術(shù)應(yīng)用于安全,本文是對(duì)大數(shù)據(jù)自身安全進(jìn)行探討,即保障大數(shù)據(jù)的完整性、可靠性、可用性和機(jī)密性。大數(shù)據(jù)“5V”特性、開放性、動(dòng)態(tài)性及分離性賦予了大數(shù)據(jù)安全區(qū)別于傳統(tǒng)數(shù)據(jù)安全的特殊性。
挑戰(zhàn)一:如何構(gòu)建實(shí)時(shí)、高效的大數(shù)據(jù)安全保障體系。大數(shù)據(jù)平臺(tái)是分布式系統(tǒng)部署,具有眾多復(fù)雜的數(shù)據(jù)應(yīng)用訪問者,安全風(fēng)險(xiǎn)成因也瞬息萬變。因此,大數(shù)據(jù)平臺(tái)的安全措施不但要全節(jié)點(diǎn)、全流程覆蓋,還要保證實(shí)時(shí)、高效。
挑戰(zhàn)二:如何改善大數(shù)據(jù)安全技術(shù)的滯后性。大數(shù)據(jù)在處理方式、系統(tǒng)結(jié)構(gòu)、應(yīng)用理念等方面不斷革新,迫使大數(shù)據(jù)平臺(tái)安全需求和防護(hù)理念隨之改變。隨著批流一體、湖倉一體、HTAP(混合事務(wù)分析處理)等融合架構(gòu)的研究與應(yīng)用,框架自身的安全技術(shù)也需快速更新。另外,前沿大數(shù)據(jù)技術(shù)反被黑客用來實(shí)現(xiàn)更精準(zhǔn)的攻擊,若提升安全技術(shù)的更新速度則能在攻擊與保護(hù)的博弈中贏得先機(jī)。
挑戰(zhàn)三:如何解決大數(shù)據(jù)安全等級(jí)和高效處理之間的矛盾。安全是效率的基礎(chǔ),效率是安全的核心。大數(shù)據(jù)安全等級(jí)越高越會(huì)影響數(shù)據(jù)處理效率,而追求大數(shù)據(jù)處理效率也會(huì)調(diào)整安全等級(jí)。如何協(xié)調(diào)兩者也是大數(shù)據(jù)安全面臨的難題。
挑戰(zhàn)四:如何權(quán)衡大數(shù)據(jù)安全和開放。大數(shù)據(jù)是在開放和流通中不斷創(chuàng)造新價(jià)值的特殊資產(chǎn),而數(shù)據(jù)頻繁地跨界流動(dòng)與共享將帶來更嚴(yán)峻的安全風(fēng)險(xiǎn)。若處理好安全和開放,則能實(shí)現(xiàn)大數(shù)據(jù)“可用不可見”“可算不可識(shí)”。
挑戰(zhàn)五:大數(shù)據(jù)平臺(tái)的整套安全體系還不完善。目前,通過采用Hadoop 生態(tài)內(nèi)的一系列組件實(shí)現(xiàn)大數(shù)據(jù)的采集、存儲(chǔ)和處理功能,針對(duì)單個(gè)組件或單個(gè)環(huán)節(jié)的加密技術(shù)(如HDFS、HBase 等加密)較為成熟,但對(duì)組件間數(shù)據(jù)流轉(zhuǎn)的安全保護(hù)較弱,整套安全體系還有待完善。
大數(shù)據(jù)生命周期主要包括數(shù)據(jù)采集、傳輸、存儲(chǔ)、處理與共享、銷毀五個(gè)階段,每個(gè)階段都面臨著數(shù)據(jù)丟失、泄露、被篡改等風(fēng)險(xiǎn)。
大數(shù)據(jù)采集是指通過各種渠道匯聚復(fù)雜關(guān)聯(lián)的基礎(chǔ)源數(shù)據(jù),是安全建設(shè)的第一道屏障。采集數(shù)據(jù)的質(zhì)量決定數(shù)據(jù)的價(jià)值,采集安全又是采集質(zhì)量的保障。大數(shù)據(jù)采集安全性主要表現(xiàn)在采集終端的接入、敏感和隱私數(shù)據(jù)采集、采集行為權(quán)限及異常采集識(shí)別等方面。
大數(shù)據(jù)采集方法有多種,依數(shù)據(jù)來源分為:數(shù)據(jù)庫采集、系統(tǒng)日志采集和網(wǎng)絡(luò)數(shù)據(jù)采集;依采集端分為:移動(dòng)大數(shù)據(jù)采集、網(wǎng)上行為大數(shù)據(jù)采集、感知設(shè)備數(shù)據(jù)采集;依時(shí)效性分為離線和實(shí)時(shí)采集。目前較流行的采集技術(shù)主要有:離線采集ETL、實(shí)時(shí)采集Flume/Kafka、數(shù)據(jù)同步Sqoop/Datax、爬蟲、日志收集Logstash、Filebeat等。
1)安全風(fēng)險(xiǎn)分析
采集時(shí)及采集后都可能出現(xiàn)數(shù)據(jù)安全風(fēng)險(xiǎn),特別是采集后存在脫離數(shù)據(jù)所有者控制的情況。大數(shù)據(jù)采集的數(shù)據(jù)復(fù)雜、來源廣,參與方多,面臨的不安全因素也較多。
①采集行為權(quán)限越界
雖然數(shù)據(jù)安全相關(guān)法律法規(guī)已落地實(shí)施,但實(shí)際應(yīng)用情況復(fù)雜多變,存在越權(quán)采集、超出目的使用、非法轉(zhuǎn)讓等異常行為。例如,惡意爬蟲不遵守robots 協(xié)議、違反網(wǎng)站意愿強(qiáng)行突破反爬措施、采集法律保護(hù)的特定數(shù)據(jù),而且爬蟲與反爬蟲持續(xù)博弈,爬蟲技術(shù)不斷升級(jí)。
②潛在安全風(fēng)險(xiǎn)突出
隨著機(jī)器學(xué)習(xí)、智能算法的優(yōu)化及應(yīng)用,采集不敏感或非隱私數(shù)據(jù)也會(huì)隱藏著安全風(fēng)險(xiǎn)。若數(shù)據(jù)所有者對(duì)數(shù)據(jù)結(jié)構(gòu)深入分析不夠,缺少采集風(fēng)險(xiǎn)評(píng)估,那么采集者可通過群組特性、關(guān)聯(lián)規(guī)則、聚合分析等方法,挖掘出涉密目標(biāo)或形成更有價(jià)值的衍生數(shù)據(jù)。雖然可通過技術(shù)(如匿名化、去標(biāo)識(shí)化等)對(duì)數(shù)據(jù)進(jìn)行泛化或擾動(dòng)來降低數(shù)據(jù)敏感度和被重識(shí)別的可能性,但是部分方法與背景知識(shí)密切相關(guān),保護(hù)水平有限。
③異常采集行為識(shí)別技術(shù)有待提升
某些領(lǐng)域采集安全邊界較模糊,異常采集行為較隱蔽,而且劣質(zhì)信息源(如社交媒體上的水軍,電商虛假評(píng)論等)普遍存在,導(dǎo)致異常采集行為的識(shí)別難度加大。
2)數(shù)據(jù)安全保護(hù)策略
大數(shù)據(jù)采集安全的目標(biāo)是在提升采集效率和質(zhì)量時(shí)保障采集安全、提高非法采集行為的識(shí)別能力。
①建立數(shù)據(jù)采集安全體系
目前,大數(shù)據(jù)采集技術(shù)的安全機(jī)制普遍不完善,不但要從技術(shù)、管理、法律等方面規(guī)范采集行為,還要升級(jí)數(shù)據(jù)脫敏、數(shù)據(jù)分級(jí)、采集權(quán)限管理等方面的技術(shù),保證采集數(shù)據(jù)遵循最小化原則[2],逐步完善采集安全體系。
②做好數(shù)據(jù)安全分級(jí)
在熟知源數(shù)據(jù)結(jié)構(gòu)基礎(chǔ)上,按需細(xì)化數(shù)據(jù)粒度、數(shù)據(jù)權(quán)屬、使用期限等管理規(guī)范,依數(shù)據(jù)敏感性或影響程度進(jìn)行安全分級(jí)。做好數(shù)據(jù)層隔離和權(quán)限管理,降低由數(shù)據(jù)易復(fù)制特性帶來的數(shù)據(jù)濫用風(fēng)險(xiǎn)。
③進(jìn)行采集風(fēng)險(xiǎn)評(píng)估
對(duì)采集設(shè)備管理、采集行為、采集環(huán)境等做好安全風(fēng)險(xiǎn)評(píng)估,使用基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng),提升潛在異常采集的識(shí)別。
④數(shù)據(jù)脫敏
脫敏讓敏感數(shù)據(jù)既不被泄露又保證數(shù)據(jù)可用性的特性。隨著脫敏算法、脫敏能力及脫敏性能的進(jìn)步,脫敏技術(shù)在精確識(shí)別敏感數(shù)據(jù)時(shí),還要提升數(shù)據(jù)脫敏的智能化。基于人工智能的敏感數(shù)據(jù)自動(dòng)識(shí)別、異構(gòu)大數(shù)據(jù)脫敏、智能自適應(yīng)脫敏算法等都是數(shù)據(jù)脫敏研究的熱門方向[3-4]。
⑤差分隱私
差分隱私保護(hù)是通過加噪來抵御差分攻擊[5],既可用于數(shù)據(jù)收集階段也可用于信息分享階段。小米公司運(yùn)用差分隱私保護(hù)用戶的真實(shí)數(shù)據(jù),Google 利用本地化差分隱私保護(hù)技術(shù)從瀏覽器每天采集千萬用戶行為統(tǒng)計(jì)數(shù)據(jù)。

圖1 采集階段大數(shù)據(jù)安全策略
1)安全風(fēng)險(xiǎn)分析
大數(shù)據(jù)傳輸?shù)臄?shù)據(jù)量大、產(chǎn)生速度快,容易產(chǎn)生傳輸網(wǎng)絡(luò)擁堵、節(jié)點(diǎn)故障等問題,導(dǎo)致傳輸安全性、實(shí)時(shí)性和穩(wěn)定性較差,影響大數(shù)據(jù)分析處理的時(shí)效性和準(zhǔn)確性。大數(shù)據(jù)傳輸安全體現(xiàn)在內(nèi)部和外部安全:內(nèi)部安全指在整個(gè)傳輸過程中傳輸介質(zhì)的物理安全性和網(wǎng)絡(luò)穩(wěn)定性,保證數(shù)據(jù)完整、可用;外部安全要求能防御外來非法攻擊(傳輸信道干擾、攔截攻擊等)。
2)數(shù)據(jù)安全保護(hù)策略
已有從優(yōu)化傳輸模型、數(shù)據(jù)加密、網(wǎng)絡(luò)隔離等方面研究大數(shù)據(jù)安全傳輸?shù)某晒纾夯谕瑧B(tài)哈希認(rèn)證的大數(shù)據(jù)安全傳輸[6]。大數(shù)據(jù)安全傳輸應(yīng)在優(yōu)化響應(yīng)時(shí)間、吞吐量等傳輸性能指標(biāo)的同時(shí)升級(jí)安全傳輸策略。
①身份識(shí)別
傳輸層對(duì)接的客戶端比較多,傳輸數(shù)據(jù)之前一定要做好身份識(shí)別。
②優(yōu)化傳輸策略
針對(duì)已安全分級(jí)的數(shù)據(jù),依級(jí)別采取不同的優(yōu)先安全傳輸策略,達(dá)到既緩解傳輸壓力又保障安全傳輸?shù)哪康摹?/p>
③量子通信
量子有量子態(tài)不可克隆、不確定性、量子態(tài)測量坍塌的特點(diǎn),通過量子密鑰分發(fā)、量子密鑰中繼、經(jīng)典量子波分復(fù)用等技術(shù)實(shí)現(xiàn)量子加密傳輸,保障傳輸?shù)慕^對(duì)安全。所以,量子通信的保密性強(qiáng)、魯棒性高、速率快、容量大、遠(yuǎn)距離傳輸?shù)葍?yōu)點(diǎn)助力大數(shù)據(jù)實(shí)現(xiàn)安全傳輸。
④邊緣計(jì)算
它是將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和應(yīng)用服務(wù)功能分散到靠近數(shù)據(jù)源的邊緣設(shè)備上,以便本地處理和分析數(shù)據(jù),提供最近端服務(wù)。核心是為了產(chǎn)生更快的網(wǎng)絡(luò)服務(wù)響應(yīng),滿足實(shí)時(shí)業(yè)務(wù)、安全與隱私保護(hù)等方面的需求。利用邊緣計(jì)算可一定程度上緩解大數(shù)據(jù)的傳輸負(fù)荷,提高大數(shù)據(jù)傳輸可靠性和安全性。

圖2 傳輸階段大數(shù)據(jù)安全策略
1)安全風(fēng)險(xiǎn)分析
大數(shù)據(jù)存儲(chǔ)的核心任務(wù)是存儲(chǔ)和管理數(shù)據(jù),保障數(shù)據(jù)不丟失、不泄露、不被篡改以及服務(wù)不中斷,處于大數(shù)據(jù)生命周期中的核心位置。存儲(chǔ)安全是大數(shù)據(jù)安全的重中之重。
①存儲(chǔ)方式的安全機(jī)制不完善
大數(shù)據(jù)存儲(chǔ)方式主要有分布式系統(tǒng)、NoSQL數(shù)據(jù)庫和云存儲(chǔ)。NoSQL 主要以提高海量數(shù)據(jù)的處理速度和擴(kuò)展性為主,而內(nèi)部安全機(jī)制尚不完善,諸如授權(quán)過程、身份驗(yàn)證和輸入驗(yàn)證等[7]。云存儲(chǔ)中因用戶數(shù)據(jù)管理權(quán)和所有權(quán)分離,數(shù)據(jù)安全和隱私保護(hù)是云存儲(chǔ)的難題。
②存儲(chǔ)性能與安全間的矛盾
大數(shù)據(jù)存儲(chǔ)系統(tǒng)不但要考慮數(shù)據(jù)的安全可靠、系統(tǒng)的備份和還原能力,還要優(yōu)化檢索效率、搜索響應(yīng)時(shí)間等性能指標(biāo)。加密技術(shù)可保障大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)安全,但也會(huì)帶來計(jì)算負(fù)擔(dān),造成響應(yīng)延遲。
③新存儲(chǔ)架構(gòu)中安全策略更新滯后
數(shù)據(jù)湖、湖倉一體等新型架構(gòu)的研究為解決“數(shù)據(jù)孤島”問題提供了新思路,但因處于發(fā)展階段,其數(shù)據(jù)安全策略更新略顯滯后。若能對(duì)數(shù)據(jù)湖進(jìn)行訪問控制優(yōu)化,控制力度做到“庫表列行”等不同級(jí)別,則可避免數(shù)據(jù)湖退化為“數(shù)據(jù)沼澤”。
④大數(shù)據(jù)加密算法的優(yōu)化
大數(shù)據(jù)對(duì)加密算法要求較高,既要到達(dá)安全目標(biāo)又要保持低耗能和存儲(chǔ)效率。若在大數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)中加密信息和相關(guān)各類參數(shù)不同步更新,將導(dǎo)致數(shù)據(jù)形態(tài)的不對(duì)等,影響計(jì)算的準(zhǔn)確性。
2)數(shù)據(jù)安全保護(hù)策略
存儲(chǔ)階段主要安全技術(shù)有設(shè)備系統(tǒng)安全、身份認(rèn)證和訪問控制、數(shù)據(jù)加密、完整性校驗(yàn)、容災(zāi)備份等[8],針對(duì)大數(shù)據(jù)存儲(chǔ)特性的安全技術(shù)還需要更深入研究。
①訪問控制
因存在量大、增速快的主客體和外包存儲(chǔ)環(huán)境,大數(shù)據(jù)存儲(chǔ)授權(quán)管理的難度和復(fù)雜度呈爆炸式增長,訪問控制也在強(qiáng)制訪問控制、自主訪問控制、基于屬性或角色訪問控制等基礎(chǔ)上不斷升級(jí)。對(duì)于未預(yù)先定義的數(shù)據(jù)訪問,既要有嚴(yán)格的訪問控制策略又要有自適應(yīng)調(diào)整權(quán)限的技術(shù)。
訪問控制研究成果較多,特別在提高訪問控制自動(dòng)化和自適應(yīng)性方面:基于區(qū)塊鏈的大數(shù)據(jù)訪問控制機(jī)制,實(shí)現(xiàn)大數(shù)據(jù)資源自動(dòng)化的訪問控制[9];基于智能合約的訪問控制,實(shí)現(xiàn)靜態(tài)和動(dòng)態(tài)訪問控制方法[10];基于用戶屬性的細(xì)粒度訪問控制,實(shí)現(xiàn)用戶屬性級(jí)別的授權(quán)和基于可變屬性的動(dòng)態(tài)訪問控制[11];還有基于大數(shù)據(jù)分析結(jié)果、世系數(shù)據(jù)、密碼學(xué)及多技術(shù)融合[12]等訪問控制。
②提升存儲(chǔ)風(fēng)險(xiǎn)的智能識(shí)別能力
利用機(jī)器學(xué)習(xí)中聚類、分類優(yōu)化算法提高數(shù)據(jù)存儲(chǔ)安全等級(jí)識(shí)別的效率和準(zhǔn)確率,建立敏感數(shù)據(jù)發(fā)現(xiàn)引擎。精準(zhǔn)定位安全漏洞,提前做好應(yīng)急保護(hù)措施。
③密態(tài)數(shù)據(jù)庫
它是存儲(chǔ)和管理密態(tài)數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng),核心任務(wù)是保護(hù)數(shù)據(jù)全生命周期的安全,并支持密態(tài)數(shù)據(jù)的檢索和計(jì)算,是數(shù)據(jù)庫系統(tǒng)、加密技術(shù)及數(shù)學(xué)算法深度結(jié)合的產(chǎn)物。
④多安全技術(shù)融合的存儲(chǔ)模型
區(qū)塊鏈的可信用性、安全性讓更多數(shù)據(jù)被釋放出來,與其他安全技術(shù)結(jié)合的安全存儲(chǔ)模型(基于區(qū)塊鏈的安全存儲(chǔ)模型[13]、結(jié)合區(qū)塊鏈和邊緣計(jì)算的安全存儲(chǔ)方案[14]等)可極大降低大數(shù)據(jù)信用成本。
⑤大數(shù)據(jù)平臺(tái)安全技術(shù)
大數(shù)據(jù)平臺(tái)集成的眾多開源技術(shù)有內(nèi)置的安全保護(hù)機(jī)制。Hadoop開源社區(qū)增加了身份認(rèn)證、訪問控制、數(shù)據(jù)加密等安全機(jī)制,HDFS的副本策略保證了系統(tǒng)的高容錯(cuò)性和可靠性。在實(shí)際應(yīng)用中要充分發(fā)揮大數(shù)據(jù)平臺(tái)的內(nèi)置安全機(jī)制,由內(nèi)而外保護(hù)數(shù)據(jù)安全。

圖3 存儲(chǔ)階段大數(shù)據(jù)安全策略
1)安全風(fēng)險(xiǎn)分析
大數(shù)據(jù)的價(jià)值在于融合與挖掘,只有通過處理和不斷流動(dòng)、共享才能充分釋放數(shù)據(jù)要素價(jià)值。批處理、流處理和流批一體混合處理是大數(shù)據(jù)處理的主要方式,數(shù)據(jù)開放和數(shù)據(jù)交換實(shí)現(xiàn)大數(shù)據(jù)共享。該階段的主要安全風(fēng)險(xiǎn)有:
①內(nèi)部安全風(fēng)險(xiǎn)(如內(nèi)部客戶或工作人員違規(guī)處理數(shù)據(jù))和外部攻擊(如黑客攻擊);
②為提升數(shù)據(jù)價(jià)值和數(shù)量進(jìn)行數(shù)據(jù)交易和共享,造成數(shù)據(jù)被二次分析或非法使用,主要表現(xiàn)為數(shù)據(jù)濫用、數(shù)據(jù)不可控、隱私泄露等;
③攻擊者通過深度挖掘方法對(duì)不敏感、隱匿數(shù)據(jù)進(jìn)行關(guān)聯(lián)攻擊,或利用大數(shù)據(jù)技術(shù)發(fā)起高級(jí)可持續(xù)的威脅攻擊;
④機(jī)器學(xué)習(xí)在訓(xùn)練和預(yù)測過程中存在隱私泄漏風(fēng)險(xiǎn),機(jī)器學(xué)習(xí)中安全和隱私問題(如投毒攻擊、模型安全、對(duì)抗樣本攻擊等)已引起各界的關(guān)注[15]。
2)數(shù)據(jù)安全保護(hù)策略
①隱私計(jì)算
它是人工智能、密碼學(xué)、數(shù)據(jù)科學(xué)等眾多學(xué)科交叉融合的技術(shù)體系,參與方在不泄露各自數(shù)據(jù)的前提下通過協(xié)作進(jìn)行聯(lián)合機(jī)器學(xué)習(xí)和分析。在分析處理過程中保持?jǐn)?shù)據(jù)不透明、不被泄露,實(shí)現(xiàn)“可控可計(jì)量”的數(shù)據(jù)服務(wù)新范式,解決數(shù)據(jù)保密性和共享性間的矛盾。隱私計(jì)算主要包括多方安全計(jì)算、可信執(zhí)行環(huán)境、聯(lián)邦學(xué)習(xí)、機(jī)密計(jì)算、差分隱私及數(shù)據(jù)脫敏等。
②聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是包含安全加密、隱私保護(hù)技術(shù)的分布式機(jī)器學(xué)習(xí),在滿足數(shù)據(jù)安全需求下幫助多個(gè)機(jī)構(gòu)完成大數(shù)據(jù)的使用和建模,核心思想是“數(shù)據(jù)不動(dòng)模型動(dòng)”。它實(shí)現(xiàn)數(shù)據(jù)“價(jià)值”和“知識(shí)”的流動(dòng)與共享,既解決“數(shù)據(jù)孤島”“數(shù)據(jù)壟斷”問題又保護(hù)數(shù)據(jù)安全,達(dá)到“可用不可見”。
③同態(tài)加密
同態(tài)加密解決了大數(shù)據(jù)應(yīng)用與安全的矛盾,在不泄露敏感信息的前提下完成對(duì)密文的處理,即對(duì)密文進(jìn)行特定形式的代數(shù)運(yùn)算后,得到的結(jié)果解密后與對(duì)明文進(jìn)行同樣的運(yùn)算結(jié)果一樣。完全同態(tài)加密是不需要密鑰就能夠?qū)崿F(xiàn)對(duì)密文進(jìn)行任意操作的加密方案。
④機(jī)器學(xué)習(xí)隱私保護(hù)
在機(jī)器學(xué)習(xí)的各個(gè)階段設(shè)計(jì)基于擾動(dòng)、加密、安全多方計(jì)算[16]的隱私保護(hù)方案,形成機(jī)器學(xué)習(xí)的數(shù)據(jù)安全保護(hù)體系。對(duì)機(jī)器學(xué)習(xí)全過程中出現(xiàn)的數(shù)據(jù)投毒攻擊、數(shù)據(jù)竊取攻擊、對(duì)抗樣本攻擊和隱私詢問攻擊,制定相對(duì)應(yīng)的安全防御機(jī)制,主要包括:正則化、對(duì)抗訓(xùn)練、防御精餾、隱私保護(hù)等。
⑤探索多技術(shù)融合的保護(hù)方案
大數(shù)據(jù)處理環(huán)節(jié)和技術(shù)較多,單一安全技術(shù)的保護(hù)偏好不同、保護(hù)能力有限,若整合適當(dāng)安全技術(shù)實(shí)現(xiàn)功能互補(bǔ),可提升整體數(shù)據(jù)保護(hù)能力。如:邊緣計(jì)算提升用戶身份驗(yàn)證;加密和區(qū)塊鏈提升數(shù)據(jù)可信性;數(shù)據(jù)脫敏技術(shù)通過數(shù)據(jù)失真降低敏感度;差分隱私通過加噪抵抗差分攻擊等。

圖4 處理與共享階段大數(shù)據(jù)安全策略
數(shù)據(jù)銷毀是數(shù)據(jù)生命周期的最后環(huán)節(jié),也是保護(hù)數(shù)據(jù)安全的關(guān)鍵部分,主要面臨著數(shù)據(jù)刻意恢復(fù)、銷毀不徹底、銷毀流程不規(guī)范等風(fēng)險(xiǎn)。銷毀時(shí)參與方也較多,應(yīng)采取措施防范利用技術(shù)恢復(fù)數(shù)據(jù),特別提防只刪除索引而沒有刪除數(shù)據(jù)本身的情況。
1)數(shù)據(jù)安全保護(hù)策略
①在技術(shù)方面,采用多種大數(shù)據(jù)專業(yè)銷毀技術(shù)、可信刪除技術(shù)確保數(shù)據(jù)被徹底刪除,通過專用的數(shù)據(jù)刪除軟件、數(shù)據(jù)清除、物理銷毀等方式進(jìn)行銷毀;還可使用數(shù)字水印技術(shù),使數(shù)據(jù)溯源追責(zé)有章可循。
②在管理方面,要有嚴(yán)格的刪除管理制度、規(guī)范的刪除審批流程,特別是對(duì)刪除權(quán)限做好嚴(yán)格控制,確保各個(gè)節(jié)點(diǎn)數(shù)據(jù)銷毀徹底、副本刪除不可恢復(fù)。
大數(shù)據(jù)應(yīng)用環(huán)境復(fù)雜多變,構(gòu)建基于大數(shù)據(jù)生命周期的智能安全防御架構(gòu),改變傳統(tǒng)“發(fā)現(xiàn)-分析-處理”攻擊威脅的處理模式,實(shí)現(xiàn)“難進(jìn)、難取、難用、難改”的大數(shù)據(jù)安全保護(hù)目標(biāo)。
1)多層面設(shè)計(jì)
從技術(shù)安全、管理安全、運(yùn)營安全等方面設(shè)計(jì)安全措施,全方位確保生命周期每個(gè)階段的數(shù)據(jù)安全。
2)多技術(shù)融入
在數(shù)據(jù)生命周期的適當(dāng)環(huán)節(jié)中融入前沿安全技術(shù),如:隱私計(jì)算、可信執(zhí)行環(huán)境、區(qū)塊鏈、量子通信、加密算法、訪問控制等,提升整個(gè)大數(shù)據(jù)平臺(tái)是數(shù)據(jù)安全保護(hù)能力。
3)全過程護(hù)航
在整個(gè)數(shù)據(jù)生命周期中檢測大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流,從安全風(fēng)險(xiǎn)智能識(shí)別、預(yù)測預(yù)警、實(shí)時(shí)監(jiān)測、追蹤溯源的整個(gè)流程設(shè)計(jì),做到“事前預(yù)測、事中監(jiān)測、事后追蹤”的全過程安全覆蓋。
4)法律法規(guī)保障
國內(nèi)有關(guān)大數(shù)據(jù)安全的法律法規(guī)雖然已基本形成體系,但還需要在監(jiān)管對(duì)象、監(jiān)管內(nèi)容等具體規(guī)則方面進(jìn)一步細(xì)化,特別是大數(shù)據(jù)保護(hù)對(duì)象、敏感數(shù)據(jù)定義、數(shù)據(jù)主體權(quán)利、交易要求、罰則等方面。

圖5 基于生命周期的大數(shù)據(jù)安全架構(gòu)
大數(shù)據(jù)安全保護(hù)是一個(gè)綜合、復(fù)雜、不斷完善的系統(tǒng)工程,需要技術(shù)、管理、制度、教育、標(biāo)準(zhǔn)等方面的協(xié)作,也需要數(shù)據(jù)主體、數(shù)據(jù)處理者、數(shù)據(jù)控制者和數(shù)據(jù)監(jiān)管者等多方的參與,文章提出基于生命周期的大數(shù)據(jù)安全架構(gòu),不僅關(guān)注每個(gè)節(jié)點(diǎn)每個(gè)階段的安全,還要確保整個(gè)大數(shù)據(jù)生態(tài)建設(shè)的全流程安全覆蓋,達(dá)到“全面防護(hù),智能分析,自動(dòng)響應(yīng)”的數(shù)據(jù)安全防護(hù)效果。
國內(nèi)有關(guān)大數(shù)據(jù)安全的基礎(chǔ)性、原創(chuàng)性的研究還在繼續(xù)深入。在實(shí)際應(yīng)用中,不同應(yīng)用領(lǐng)域中的大數(shù)據(jù)安全保護(hù)體系還要結(jié)合具體業(yè)務(wù)來不斷豐富,大數(shù)據(jù)安全技術(shù)的落地實(shí)施還要在實(shí)踐中不斷探索與驗(yàn)證。未來,復(fù)雜的高維大數(shù)據(jù)的普遍產(chǎn)生將給大數(shù)據(jù)安全帶來更嚴(yán)峻的挑戰(zhàn)。