大數(shù)據(jù)背景下信息安全及應(yīng)對策略

2021-01-13 10:32:43蘇禮

消費(fèi)電子 2021年12期

蘇禮

【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)安全;數(shù)據(jù)隱私;危機(jī);數(shù)據(jù)加密

隨著大數(shù)據(jù)時代的到來，當(dāng)下社會的各行各業(yè)都發(fā)生了巨大的轉(zhuǎn)變，人們的工作和生活實(shí)現(xiàn)了信息化與智能化的轉(zhuǎn)變，利用計算機(jī)網(wǎng)絡(luò)為基礎(chǔ)的通信、網(wǎng)絡(luò)服務(wù)等信息基礎(chǔ)設(shè)施在人們的生活中也扮演著越來越重要的角色。近年來，隨著傳感器等研究領(lǐng)域的不斷創(chuàng)新，移動設(shè)備、云計算系統(tǒng)、社交媒體、物聯(lián)網(wǎng)等計算機(jī)及網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展，面對互聯(lián)網(wǎng)海量的數(shù)據(jù)業(yè)務(wù)、數(shù)據(jù)迭代更新等特點(diǎn)，各類數(shù)據(jù)所存在的安全問題凸顯，因此研究新形勢下大數(shù)據(jù)的信息安全及安全預(yù)防技術(shù)具有非常重要的意義。世界各地也在積極探索大數(shù)據(jù)背景下的信息安全等相關(guān)技術(shù)，在保障大數(shù)據(jù)穩(wěn)步發(fā)展的前提下，通過大數(shù)據(jù)的應(yīng)用，為我國的經(jīng)濟(jì)提升和社會穩(wěn)定提供充分的保障，同時維護(hù)大數(shù)據(jù)信息的使用安全，達(dá)到數(shù)據(jù)技術(shù)的可持續(xù)發(fā)展。

（一）大數(shù)據(jù)的概念及發(fā)展

大數(shù)據(jù)一般是指以計算機(jī)和網(wǎng)絡(luò)為基礎(chǔ)的，通過數(shù)據(jù)的分類、挖掘等方法，獲取數(shù)據(jù)潛在的內(nèi)部規(guī)律，從而實(shí)現(xiàn)對數(shù)據(jù)分析，得出新信息，找出有價值有意義的數(shù)據(jù)，通常與云計算有著緊密地聯(lián)系。同時要求對數(shù)據(jù)信息處理更加的高效、并且智能地從海量信息中找到可以進(jìn)行利用的數(shù)據(jù)。大數(shù)據(jù)不單單是指數(shù)據(jù)規(guī)模大、數(shù)據(jù)數(shù)量多，尤其是數(shù)據(jù)的類型較為復(fù)雜多變，例如包括視頻音頻、文字圖片等等。當(dāng)今聊天工具、直播平臺和微博博客以及購物平臺等信息傳播方式的轉(zhuǎn)變，產(chǎn)生了越來越多的數(shù)據(jù)，因此對數(shù)據(jù)的處理質(zhì)量也有著較高的要求，尤其對這些海量數(shù)據(jù)的分類及安全性的研究，一直是許多科研工作者廣泛研究的課題之一[1]。

大數(shù)據(jù)按四個V對數(shù)據(jù)進(jìn)行了分類，即速度、種類、真實(shí)性、體積。這些特征性為大數(shù)據(jù)的識別提供了獨(dú)特的功能，同時，這些特點(diǎn)也導(dǎo)致了數(shù)據(jù)隱私技術(shù)和數(shù)據(jù)安全問題的產(chǎn)生[2]。在本文中，筆者針對這些問題和挑戰(zhàn)，提出了一種在工具和技術(shù)方面的補(bǔ)救方法。

（二）大數(shù)據(jù)面臨的主要挑戰(zhàn)

大數(shù)據(jù)面臨的主要挑戰(zhàn)主要分為以下幾部分，即不安全的計算能力、輸入和驗(yàn)證過濾、精細(xì)訪問控制、不安全的存儲數(shù)據(jù)、隱私問題等。大數(shù)據(jù)背景下的信息安全涉及范圍較廣，一般可分為：系統(tǒng)安全、環(huán)境安全、程序安全、數(shù)據(jù)安全四個方面。當(dāng)下進(jìn)入大數(shù)據(jù)時代下，網(wǎng)絡(luò)信息已滲透到每一個人的工作和生活中，因?yàn)樵诨ヂ?lián)網(wǎng)中充斥著大量流動的信息，因此大數(shù)據(jù)的信息安全即成為網(wǎng)絡(luò)應(yīng)用中最突出的問題之一?？紤]到以上場景中的這些挑戰(zhàn)，我們可以使用一些大數(shù)據(jù)工具和技術(shù)加以優(yōu)化[3]。

大數(shù)據(jù)的體系結(jié)構(gòu)包含許多技能，例如開發(fā)可靠的自動化數(shù)據(jù)管道。實(shí)際上，大數(shù)據(jù)沒有特定的標(biāo)準(zhǔn)化體系架構(gòu)，這也是一項(xiàng)新的研究領(lǐng)域，例如速度、體積、延遲、真實(shí)性、可擴(kuò)展性等特征，容錯也剛剛成為大數(shù)據(jù)架構(gòu)的關(guān)鍵和重要特征。大數(shù)據(jù)還有許多其他的內(nèi)在屬性，如自動分層、容易轉(zhuǎn)移等[4]。除了傳統(tǒng)的數(shù)據(jù)源之外，還可以使用許多其他在線資源來完成數(shù)據(jù)源整合。Map-Reduce提供了更靈活、更強(qiáng)大的執(zhí)行編程范式框架，程序分為多個數(shù)據(jù)節(jié)點(diǎn)執(zhí)行各自的數(shù)據(jù)節(jié)點(diǎn)，最后將其縮減為單個集合的結(jié)果。

（一）大數(shù)據(jù)安全面臨的挑戰(zhàn)

大數(shù)據(jù)的安全機(jī)制并非普遍薄弱，點(diǎn)對點(diǎn)的安全機(jī)制是大數(shù)據(jù)處理方面最好的機(jī)制之一。通過使用并行性、自動分層等特性，可獲得更加有效的安全機(jī)制[5]。

1、數(shù)據(jù)挖掘中的隱私問題：數(shù)據(jù)挖掘概念在隱私方面存在許多問題，而且給分析結(jié)果賦予了很多挑戰(zhàn)，比如信息披露、公私密鑰的披露等。

2、不安全的數(shù)據(jù)存儲：數(shù)據(jù)的身份驗(yàn)證和授權(quán)是最主要的問題，從數(shù)據(jù)的存儲到交付至數(shù)據(jù)管理節(jié)點(diǎn)，可能經(jīng)歷不安全的數(shù)據(jù)計算、身份驗(yàn)證、授權(quán)、數(shù)據(jù)加密和不安全的介質(zhì)等。

3、不安全的計算：不受信任的計算編程范式。攻擊者使用不安全的數(shù)據(jù)計算來獲取數(shù)據(jù)中的敏感和機(jī)密信息等資源，不僅會造成信息的泄露，還會破壞數(shù)據(jù)，導(dǎo)致分析和預(yù)測的結(jié)果不準(zhǔn)確或無效。

4、在DOS輸入驗(yàn)證和過濾中：拒絕服務(wù)（DOS）也將影響在輸入驗(yàn)證中和訪問大規(guī)模并行編程語言的禁用。由于大數(shù)據(jù)需要收集各種輸入信息，因此，它需要一個更嚴(yán)謹(jǐn)和更可靠的驗(yàn)證輸入，以及一個過濾惡意數(shù)據(jù)的過濾器。

考慮到上述這些挑戰(zhàn)，可以通過某些方案加以解決，如密碼學(xué)、安全計算數(shù)據(jù)存儲、實(shí)施綜合輸入驗(yàn)證等。處理大數(shù)據(jù)需要更快計算響應(yīng)時間，并加入安全含義。本文將在下面的章節(jié)中，討論上述兩個解決方案[6]。

（二）大數(shù)據(jù)安全的密碼解決方案

在Hadoop中，沒有算法來加密或解密機(jī)載數(shù)據(jù)，即本地數(shù)據(jù)和HDFS文件系統(tǒng)。Hadoop工作在Linux平臺，所以它使用Linux本地系統(tǒng)作為臨時存儲系統(tǒng)。在Map-Reduce任務(wù)處理后，Map-Reduce的輸入進(jìn)入本地以及HDFS（在用戶的幫助下）。Hadoop只有一個端到端的安全系統(tǒng)Kerberos。Kerberos是一種基于跟蹤用戶對特定服務(wù)的訪問和系統(tǒng)限制決策的服務(wù)。僅提供安全網(wǎng)關(guān)來限制訪問Hadoop環(huán)境中不需要的或未經(jīng)授權(quán)的用戶和服務(wù)，基本可以認(rèn)為是Hadoop的策略管理器。首先假設(shè)，如果未經(jīng)授權(quán)的用戶獲得了Hadoop環(huán)境的許可，那么整個Hadoop系統(tǒng)就會受到損害，它將導(dǎo)致數(shù)據(jù)失竊或數(shù)據(jù)丟失，為了確保這個循環(huán)漏洞，我們可以創(chuàng)建一個RSA+AES加密和解密算法的系統(tǒng)，這樣，即使Hadoop系統(tǒng)受到威脅，HDFS或本地中的數(shù)據(jù)也不會受到影響。數(shù)據(jù)在加密和解密時，只提供一次寫入和多次讀取的機(jī)會，并被保存在文件系統(tǒng)中，用戶使用密鑰組合以及一些支持的文件來打開（解密）該文件以供使用。這是一個自動化的過程，如果用戶在讀取文件后關(guān)閉此文件，并要求再次讀取該數(shù)據(jù)文件時，則需要提供密鑰和使用文件組合來再次讀取[7]。

MapReduce框架能夠使用分布式計算來處理數(shù)據(jù)。這是一個編程模型和一個處理大數(shù)據(jù)的分布式計算框架。可用于編寫自動可擴(kuò)展云環(huán)境中的分布式應(yīng)用程序。此框架可自動擴(kuò)展和并行化算法，負(fù)責(zé)對數(shù)據(jù)的數(shù)據(jù)新型分區(qū)、調(diào)度、同步和處理故障，讓程序員更專注于開發(fā)算法并盡可能的減少后臺任務(wù)。MapReduce被認(rèn)為是最可持續(xù)和最強(qiáng)大的大數(shù)據(jù)下的編程范式。

在大數(shù)據(jù)隱私范式中，對敏感和機(jī)密數(shù)據(jù)的隔離非常重要。幾乎所有內(nèi)部和外部數(shù)據(jù)來源的過濾都必須是強(qiáng)制性的。需要對大數(shù)據(jù)源和解決方案進(jìn)行關(guān)鍵性輸入驗(yàn)證和過濾特性的評估，從而證實(shí)數(shù)據(jù)源能否進(jìn)行擴(kuò)大數(shù)據(jù)需求和安全問題處理。通常有兩種預(yù)防的方法，攻擊，當(dāng)存在不安全的隱患時映射器保護(hù)數(shù)據(jù)，同時完整地保護(hù)映射;為敏感數(shù)據(jù)啟用數(shù)據(jù)節(jié)點(diǎn)加密，驗(yàn)證所有相關(guān)組件的API安全的正確配置等。這些算法用于數(shù)據(jù)的分析和預(yù)測，必須及時驗(yàn)證分類和回歸，以便敏感數(shù)據(jù)得到及時敏感化。當(dāng)然，這也會降低敏感和機(jī)密數(shù)據(jù)的泄露率，但這是為大數(shù)據(jù)中使用的預(yù)防措施而建立的測試和分析，這點(diǎn)很重要，而且必須經(jīng)過滲透測試。

隨著大數(shù)據(jù)技術(shù)的發(fā)展，與之相關(guān)的安全問題也在發(fā)展，數(shù)據(jù)安全問題必須成為人類一直研發(fā)和發(fā)展的重要課題之一。只有新創(chuàng)建的海量數(shù)據(jù)形式，要配有新的應(yīng)用程序和驅(qū)動算法來進(jìn)行數(shù)據(jù)分析，并開發(fā)實(shí)時監(jiān)控數(shù)據(jù)安全技術(shù)，也相應(yīng)研發(fā)維護(hù)數(shù)據(jù)安全和隱私策略的特殊方法，才能不斷的應(yīng)對和解決不斷變化的數(shù)據(jù)安全問題。