蘇禮
【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)安全;數(shù)據(jù)隱私;危機(jī);數(shù)據(jù)加密
隨著大數(shù)據(jù)時代的到來,當(dāng)下社會的各行各業(yè)都發(fā)生了巨大的轉(zhuǎn)變,人們的工作和生活實(shí)現(xiàn)了信息化與智能化的轉(zhuǎn)變,利用計算機(jī)網(wǎng)絡(luò)為基礎(chǔ)的通信、網(wǎng)絡(luò)服務(wù)等信息基礎(chǔ)設(shè)施在人們的生活中也扮演著越來越重要的角色。近年來,隨著傳感器等研究領(lǐng)域的不斷創(chuàng)新,移動設(shè)備、云計算系統(tǒng)、社交媒體、物聯(lián)網(wǎng)等計算機(jī)及網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,面對互聯(lián)網(wǎng)海量的數(shù)據(jù)業(yè)務(wù)、數(shù)據(jù)迭代更新等特點(diǎn),各類數(shù)據(jù)所存在的安全問題凸顯,因此研究新形勢下大數(shù)據(jù)的信息安全及安全預(yù)防技術(shù)具有非常重要的意義。世界各地也在積極探索大數(shù)據(jù)背景下的信息安全等相關(guān)技術(shù),在保障大數(shù)據(jù)穩(wěn)步發(fā)展的前提下,通過大數(shù)據(jù)的應(yīng)用,為我國的經(jīng)濟(jì)提升和社會穩(wěn)定提供充分的保障,同時維護(hù)大數(shù)據(jù)信息的使用安全,達(dá)到數(shù)據(jù)技術(shù)的可持續(xù)發(fā)展。
(一)大數(shù)據(jù)的概念及發(fā)展
大數(shù)據(jù)一般是指以計算機(jī)和網(wǎng)絡(luò)為基礎(chǔ)的,通過數(shù)據(jù)的分類、挖掘等方法,獲取數(shù)據(jù)潛在的內(nèi)部規(guī)律,從而實(shí)現(xiàn)對數(shù)據(jù)分析,得出新信息,找出有價值有意義的數(shù)據(jù),通常與云計算有著緊密地聯(lián)系。同時要求對數(shù)據(jù)信息處理更加的高效、并且智能地從海量信息中找到可以進(jìn)行利用的數(shù)據(jù)。大數(shù)據(jù)不單單是指數(shù)據(jù)規(guī)模大、數(shù)據(jù)數(shù)量多,尤其是數(shù)據(jù)的類型較為復(fù)雜多變,例如包括視頻音頻、文字圖片等等。當(dāng)今聊天工具、直播平臺和微博博客以及購物平臺等信息傳播方式的轉(zhuǎn)變,產(chǎn)生了越來越多的數(shù)據(jù),因此對數(shù)據(jù)的處理質(zhì)量也有著較高的要求,尤其對這些海量數(shù)據(jù)的分類及安全性的研究,一直是許多科研工作者廣泛研究的課題之一[1]。
大數(shù)據(jù)按四個V對數(shù)據(jù)進(jìn)行了分類,即速度、種類、真實(shí)性、體積。這些特征性為大數(shù)據(jù)的識別提供了獨(dú)特的功能,同時,這些特點(diǎn)也導(dǎo)致了數(shù)據(jù)隱私技術(shù)和數(shù)據(jù)安全問題的產(chǎn)生[2]。在本文中,筆者針對這些問題和挑戰(zhàn),提出了一種在工具和技術(shù)方面的補(bǔ)救方法。
(二)大數(shù)據(jù)面臨的主要挑戰(zhàn)
大數(shù)據(jù)面臨的主要挑戰(zhàn)主要分為以下幾部分,即不安全的計算能力、輸入和驗(yàn)證過濾、精細(xì)訪問控制、不安全的存儲數(shù)據(jù)、隱私問題等。大數(shù)據(jù)背景下的信息安全涉及范圍較廣,一般可分為:系統(tǒng)安全、環(huán)境安全、程序安全、數(shù)據(jù)安全四個方面。當(dāng)下進(jìn)入大數(shù)據(jù)時代下,網(wǎng)絡(luò)信息已滲透到每一個人的工作和生活中,因?yàn)樵诨ヂ?lián)網(wǎng)中充斥著大量流動的信息,因此大數(shù)據(jù)的信息安全即成為網(wǎng)絡(luò)應(yīng)用中最突出的問題之一??紤]到以上場景中的這些挑戰(zhàn),我們可以使用一些大數(shù)據(jù)工具和技術(shù)加以優(yōu)化[3]。
大數(shù)據(jù)的體系結(jié)構(gòu)包含許多技能,例如開發(fā)可靠的自動化數(shù)據(jù)管道。實(shí)際上,大數(shù)據(jù)沒有特定的標(biāo)準(zhǔn)化體系架構(gòu),這也是一項(xiàng)新的研究領(lǐng)域,例如速度、體積、延遲、真實(shí)性、可擴(kuò)展性等特征,容錯也剛剛成為大數(shù)據(jù)架構(gòu)的關(guān)鍵和重要特征。大數(shù)據(jù)還有許多其他的內(nèi)在屬性,如自動分層、容易轉(zhuǎn)移等[4]。除了傳統(tǒng)的數(shù)據(jù)源之外,還可以使用許多其他在線資源來完成數(shù)據(jù)源整合。Map-Reduce提供了更靈活、更強(qiáng)大的執(zhí)行編程范式框架,程序分為多個數(shù)據(jù)節(jié)點(diǎn)執(zhí)行各自的數(shù)據(jù)節(jié)點(diǎn),最后將其縮減為單個集合的結(jié)果。
(一)大數(shù)據(jù)安全面臨的挑戰(zhàn)
大數(shù)據(jù)的安全機(jī)制并非普遍薄弱,點(diǎn)對點(diǎn)的安全機(jī)制是大數(shù)據(jù)處理方面最好的機(jī)制之一。通過使用并行性、自動分層等特性,可獲得更加有效的安全機(jī)制[5]。
1、數(shù)據(jù)挖掘中的隱私問題:數(shù)據(jù)挖掘概念在隱私方面存在許多問題,而且給分析結(jié)果賦予了很多挑戰(zhàn),比如信息披露、公私密鑰的披露等。
2、不安全的數(shù)據(jù)存儲:數(shù)據(jù)的身份驗(yàn)證和授權(quán)是最主要的問題,從數(shù)據(jù)的存儲到交付至數(shù)據(jù)管理節(jié)點(diǎn),可能經(jīng)歷不安全的數(shù)據(jù)計算、身份驗(yàn)證、授權(quán)、數(shù)據(jù)加密和不安全的介質(zhì)等。
3、不安全的計算:不受信任的計算編程范式。攻擊者使用不安全的數(shù)據(jù)計算來獲取數(shù)據(jù)中的敏感和機(jī)密信息等資源,不僅會造成信息的泄露,還會破壞數(shù)據(jù),導(dǎo)致分析和預(yù)測的結(jié)果不準(zhǔn)確或無效。
4、在DOS輸入驗(yàn)證和過濾中:拒絕服務(wù)(DOS)也將影響在輸入驗(yàn)證中和訪問大規(guī)模并行編程語言的禁用。由于大數(shù)據(jù)需要收集各種輸入信息,因此,它需要一個更嚴(yán)謹(jǐn)和更可靠的驗(yàn)證輸入,以及一個過濾惡意數(shù)據(jù)的過濾器。
考慮到上述這些挑戰(zhàn),可以通過某些方案加以解決,如密碼學(xué)、安全計算數(shù)據(jù)存儲、實(shí)施綜合輸入驗(yàn)證等。處理大數(shù)據(jù)需要更快計算響應(yīng)時間,并加入安全含義。本文將在下面的章節(jié)中,討論上述兩個解決方案[6]。
(二)大數(shù)據(jù)安全的密碼解決方案
在Hadoop中,沒有算法來加密或解密機(jī)載數(shù)據(jù),即本地數(shù)據(jù)和HDFS文件系統(tǒng)。Hadoop工作在Linux平臺,所以它使用Linux本地系統(tǒng)作為臨時存儲系統(tǒng)。在Map-Reduce任務(wù)處理后,Map-Reduce的輸入進(jìn)入本地以及HDFS(在用戶的幫助下)。Hadoop只有一個端到端的安全系統(tǒng)Kerberos。Kerberos是一種基于跟蹤用戶對特定服務(wù)的訪問和系統(tǒng)限制決策的服務(wù)。僅提供安全網(wǎng)關(guān)來限制訪問Hadoop環(huán)境中不需要的或未經(jīng)授權(quán)的用戶和服務(wù),基本可以認(rèn)為是Hadoop的策略管理器。首先假設(shè),如果未經(jīng)授權(quán)的用戶獲得了Hadoop環(huán)境的許可,那么整個Hadoop系統(tǒng)就會受到損害,它將導(dǎo)致數(shù)據(jù)失竊或數(shù)據(jù)丟失,為了確保這個循環(huán)漏洞,我們可以創(chuàng)建一個RSA+AES加密和解密算法的系統(tǒng),這樣,即使Hadoop系統(tǒng)受到威脅,HDFS或本地中的數(shù)據(jù)也不會受到影響。數(shù)據(jù)在加密和解密時,只提供一次寫入和多次讀取的機(jī)會,并被保存在文件系統(tǒng)中,用戶使用密鑰組合以及一些支持的文件來打開(解密)該文件以供使用。這是一個自動化的過程,如果用戶在讀取文件后關(guān)閉此文件,并要求再次讀取該數(shù)據(jù)文件時,則需要提供密鑰和使用文件組合來再次讀取[7]。
MapReduce框架能夠使用分布式計算來處理數(shù)據(jù)。這是一個編程模型和一個處理大數(shù)據(jù)的分布式計算框架。可用于編寫自動可擴(kuò)展云環(huán)境中的分布式應(yīng)用程序。此框架可自動擴(kuò)展和并行化算法,負(fù)責(zé)對數(shù)據(jù)的數(shù)據(jù)新型分區(qū)、調(diào)度、同步和處理故障,讓程序員更專注于開發(fā)算法并盡可能的減少后臺任務(wù)。MapReduce被認(rèn)為是最可持續(xù)和最強(qiáng)大的大數(shù)據(jù)下的編程范式。
在大數(shù)據(jù)隱私范式中,對敏感和機(jī)密數(shù)據(jù)的隔離非常重要。幾乎所有內(nèi)部和外部數(shù)據(jù)來源的過濾都必須是強(qiáng)制性的。需要對大數(shù)據(jù)源和解決方案進(jìn)行關(guān)鍵性輸入驗(yàn)證和過濾特性的評估,從而證實(shí)數(shù)據(jù)源能否進(jìn)行擴(kuò)大數(shù)據(jù)需求和安全問題處理。通常有兩種預(yù)防的方法,攻擊,當(dāng)存在不安全的隱患時映射器保護(hù)數(shù)據(jù),同時完整地保護(hù)映射;為敏感數(shù)據(jù)啟用數(shù)據(jù)節(jié)點(diǎn)加密,驗(yàn)證所有相關(guān)組件的API安全的正確配置等。這些算法用于數(shù)據(jù)的分析和預(yù)測,必須及時驗(yàn)證分類和回歸,以便敏感數(shù)據(jù)得到及時敏感化。當(dāng)然,這也會降低敏感和機(jī)密數(shù)據(jù)的泄露率,但這是為大數(shù)據(jù)中使用的預(yù)防措施而建立的測試和分析,這點(diǎn)很重要,而且必須經(jīng)過滲透測試。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,與之相關(guān)的安全問題也在發(fā)展,數(shù)據(jù)安全問題必須成為人類一直研發(fā)和發(fā)展的重要課題之一。只有新創(chuàng)建的海量數(shù)據(jù)形式,要配有新的應(yīng)用程序和驅(qū)動算法來進(jìn)行數(shù)據(jù)分析,并開發(fā)實(shí)時監(jiān)控數(shù)據(jù)安全技術(shù),也相應(yīng)研發(fā)維護(hù)數(shù)據(jù)安全和隱私策略的特殊方法,才能不斷的應(yīng)對和解決不斷變化的數(shù)據(jù)安全問題。