賈若飛
(中海油東方石化有限責任公司,海南 東方 572600)
現階段,大數據領域內的數據分析與存儲能力顯著強化,且數據的使用價值不斷提升,保證數據安全,實施對數據的安全治理,不僅是保護數據自身安全以及使用期間的安全,同時,也是保護應用數據的實體安全。大數據在各個領域內的逐漸滲透,使其商業價值日益顯現,信息安全技術面臨著發展機遇,基于大數據生命周期展開各類安全治理技術,轉變安全思維模式,實現數據安全治理。
從某種程度來講,數據的生命周期可以反映出數據在不同階段的變化以及發展規律,因使用目的不同,數據生命周期也會不一樣,比如,云數據生命周期。數據生命周期一般以“全過程監管”為主,將接下來的數據流轉階段詳細劃分為準備、存儲、使用以及銷毀幾個不同的階段。
數據的準備階段,這是數據應用的重要前提,其中主要涵蓋了數據的生成、篩選以及匯集等部分,該階段可有效解決數據來源過于分散的問題,滿足數據使用的多樣化要求。數據生成主要是指新數據的生產,不管是以軟件服務為基礎生成了原始數據,還是以現有數據為基礎生成了新數據,都可以作為數據的生成過程;關于數據的篩選,主要是對數據進行可用性選擇,未通過篩選的數據就是無用數據,需要進一步被銷毀;數據的匯集指的是更換數據存儲位置,比如,個體用戶將計算機內的本地數據上傳至云端。
在數據的使用階段,其中主要包含數據分析、數據大規模計算以及數據合作等部分,這是發揮數據使用價值的重要時期。數據的分析旨在掌握數據信息,挖掘其中價值,采取自動化分析方法,依靠大數據模型完成分析;數據大規模計算主要是對數據的分析成果進行部署;數據合作就是利用不同主體進行單獨的數據任務。
在數據的存儲階段,需要將數據保存在一定存儲容器內,做好數據的隨時調用準備,該時期應加大對數據的安全保護,謹防數據泄露。
在數據的銷毀階段,任何階段的數據都有可能被銷毀,銷毀后的數據無法再使用,如果擁有者想使用銷毀數據,使用者就要給出已經銷毀的證明。
大數據不僅數據量大且數據源眾多,且涉及的用戶和系統接口較多,所以大數據在應用期間會存在較多安全問題,具體體現在以下幾方面:(1)敏感信息和個人隱私發生泄漏問題。由于信息管理不善,或者對數據的技術防護能力不足,系統受到網絡攻擊,導致信息被不法分子以非正式渠道對外披露。(2)非授權訪問與數據濫用,高級別的數據被沒有相應訪問權限的用戶獲取。(3)數據篡改與偽造,導致數據的完整性遭到破壞,內容與格式被改變,數據原有價值受到影響,甚至被用來制造虛假數據,從而引發系統運行異常問題。(4)數據污染,高質量與低質量數據被混合甚至其中混入了垃圾數據,數據分析結果受到影響,特別是在人工智能與機器學習等領域內,數據污染將會引發系統形成極端分析結果。
基于大數據的數據安全治理本身就是一項長期且復雜的項目,為保證數據安全治理技術的高效落實,在高效應用相應技術的同時,有必要遵循以下基本原則:(1)合規性治理原則,即充分考慮法律法規對于數據安全保護提出的要求,開展數據安全治理活動時必須依法合規。(2)經濟性治理原則,安全治理雖然以確保數據使用安全為目標,所采取的措施必須考慮到業務實際情況,以最經濟的手段達到預期防護效果。(3)完備性治理原則,數據系統、系統用戶與權限、安全事件都有著一定的生命周期,數據安全治理可以形成閉環。(4)可追溯性治理原則,依靠技術手段完成數據追溯,其中有人員操作的追溯行為和數據流轉的追溯行為,同時,也包含對安全事件的追溯行為。
遵循上述治理原則,梳理其中要點,得知數據安全治理技術的應用涵蓋了數據、人員以及事件等各個環節,各環節都要采取必要的管控措施。大數據應用下的數據安全治理技術整體架構如下:
(1)人員安全管控。這部分主要針對用戶即人員展開統一授權認證處理,對用戶可以訪問的系統文件與數據庫提供安全級別,完成訪問關系映射,再對用戶的操作行為做好記錄審計,對其中存在的任何異地登錄或者非授權訪問等行為予以告警。
(2)數據全生命周期安全治理。根據上文對數據生命周期的研究,其中涵蓋數據采集、傳輸、存儲、處理、使用以及銷毀等環節,各環節采取的措施各不相同。在數據采集環節,有必要加強對數據來源的驗證,判斷數據的合法性,核對數據質量問題,分析數據是否合規,對于采集到的數據項完成級別判定與標簽設置等工作;數據傳輸環節,應保證所有數據不會被惡意篡改或者被不法分子竊取,一般會使用SFTP以及Https等合理的加密協議,避免信息被泄露,或者應用摘要算法保證數據在傳輸期間的完整。如果數據需要進行導入或者導出操作,此時,還應對數據的提供與接收者、數據來源與去向做好溯源管理;數據存儲環節,有必要做好數據的分離存儲,特別是對于敏感與非敏感性數據,以及不同等級的數據,需要及時被存儲于不同的區域,再使用類似SM4的密碼技術完成數據加密存儲,最后,定期對數據進行備份測試即可;數據處理環節,應對于數據加工等操作合理授權,只允許特定人員完成以上操作,處理時保證所有數據都能完成脫敏與去標識化處理,防止信息被泄露。如果處理后的數據存在敏感性變化,此時應重置標簽;數據使用環節,對于數據的使用需提前完成授權管理,只有符合要求的用戶進行數據訪問操作,數據共享或者數據開放前應完成脫敏處理,或者依靠隱私計算技術對數據完成不可見的共享;數據銷毀環節,如果數據不再使用,此時應及時銷毀,但必須要用正規的銷毀工具將數據和副本全部銷毀,最大程度上保證數據的安全。
(3)系統安全防護。依據網絡安全等級提出的保護要求,對用戶身份加以鑒別,再完成訪問控制,隨后利用接口工具進行外聯接口的統一管理。依靠集中審計平臺對所有日志加以審計,最后實施對安全漏洞的專項治理。
(4)事件分析和處置。按照事件的具體分析規則,確立預警機制,創建監測預警平臺,負責對網絡流量、訪問與操作日志進行監測預警分析。與此同時,還應創建統一風險管控與安全態勢分析平臺,以便及時做好應急處置工作。
(1)全過程監管安全技術。這一技術的應用主要是對數據生命周期內的各個過程加以監控和管理,再完成數據流轉過程的高效溯源,驗證參與者的行為,及時做好數據安全治理形式的全局管理。在數據溯源過程中,不僅要對系統與應用層的數據操作歷史全面掌握,還要了解數據的演變過程,經過零知識證明向監管方證明系統已獲得用戶許可擁有數據保護等操作,謹防數據隱私泄露。采用區塊鏈技術,以此作為去中心化特征下的分布式賬本,完成數據存儲與傳輸,發揮區塊鏈技術的防篡改性特征,確保所有記錄內容的可信度,再依靠態勢感知分析數據流動的實際情況,完成數據預警,判斷在接下來一段時間內的數據使用安全大致情況。
(2)數據使用安全技術。在數據的使用階段,此時是數據安全的最薄弱環節,為發揮數據價值,需采取有效的方法,如聯邦學習與同態加密方法,使用者不會與原始數據產生直接接觸即可使用數據,聯邦學習方法能夠解決數據孤島的問題,在節點不用上傳數據的情況下學習節點數據;同態加密就是基于密文的基礎上完成加法與乘法運算,解密后直接在原文處計算結果即可。采用數據分類分級操作,完成數據類別與密級的有效劃分,以便高效采取差異化操作。
(3)數據存儲與銷毀安全技術。首先,數據存儲技術的應用旨在保護數據不被篡改與竊取,一般會防止非常規訪問,同時,通過密態操作方法與存儲過程審計來強化數據的安全性。其次,數據分類分級與安全隔離、訪問控制等技術,可指導數據完成差異化存儲,提高數據訪問門檻。最后,密態操作,即采用密文的形式存儲數據,避免越權訪問,保證明文數據使用安全。
(1)用于隱私保護的數據安全治理。隱私保護是數據使用期間的重點要求,應根據法律要求進行數據安全治理,及時去除隱私信息,基于數據生命周期應用數據安全技術。從去除隱私信息角度入手,通過數據匿名化與數據脫敏等操作,應用數據掩蔽工具的脫敏模塊達到脫敏需要,國內可使用SIMP-SDM進行脫敏處理。
(2)用于數據采集與存儲環節的數據安全治理。使用VPN技術解決數據在傳輸方面的安全問題,確保數據的機密性與真實性,聯合密碼技術與隧道技術,從源頭端與目的端入手,以虛擬化數據傳輸專用通道,對源頭數據加密封裝,再將其嵌入另一協議數據報文內,使其被偽裝為普通的數據報文。目前市場上常見的VPN技術使用的協議主要有Ipsec協議與SSL協議兩種。利用VPN通道將數據傳輸到目的端,相應的存儲系統先解密數據才能存儲數據,采用明文的存儲形式時容易受到攻擊,因此,這部分數據也要做好加密處理,如應用存儲加密技術,按照數據的類型和加密機制,選擇靜態或動態加密方式。為避免遇到事故,數據存儲系統應做好備份和恢復工作,對存儲好的數據建立備份機制,避免數據意外丟失,啟用恢復裝置即可完善數據。支持異地備份、數據鏡像以及Raid備份等措施,可使用Hadoop下的HDFS備份與恢復工作機制,為數據確立容災備份。
(3)用于數據分析的數據安全治理。做好身份認證,及時確認用戶身份,辨別其真實身份,再根據用戶認證信息完成機密數據、特定信息以及人體生物特征信息的認證。完成訪問控制,這是數據安全保護的關鍵,對不同的用戶指定特定的控制策略,為用戶授予相應的訪問級別,在訪問重要資源時,必須制定嚴格的訪問控制策略,同時綜合自主訪問、強制訪問、基于角色的訪問控制等方式。
(4)用于數據發布的數據安全治理。大數據在經過數據分析與處理后將會進入發布環節,這是指數據公開使用的階段,數據的安全性至關重要,有必要在數據正式發布前做好數據的審核分析,保證所有輸出數據的保密性。整個數據發布環節,需要采取以下數據安全治理工作:①數據安全審計,這是指按照采集的安全大數據,經過評估與審查后尋找其中的安全隱患,再通過審核稽查,找出事故發生的原因,以此做出有效處理。數據發布時,應選擇相應的安全審計方案,比如,采用日志審計技術、網絡監聽審計技術或者網關審計技術,確保數據發布的安全性。②數據溯源,即對大數據的應用周期做出標記定位,一旦遇到數據故障問題,應及時定位責任人員,采取標注法或者反向查詢法進行數據溯源。③防范APT攻擊,這種數據攻擊主要是攻擊者采用物聯網等途徑實施攻擊行為,從而竊取目標信息,或者選擇駐留在內部網絡后尋找進一步的攻擊機會。在APT攻擊檢測時,可選擇沙箱方案完成異常檢測,再經過全流量審計,基于深層協議進行異常情況的有效識別,為接下來的攻擊溯源創造有利條件。
總而言之,現階段各個領域加大了對大數據應用的重視程度,大數據的使用與安全治理問題日益突出。根據數據的生命周期情況,了解數據質量現狀,遵循相應治理原則,完善數據安全治理技術架構,加強隱私保護,實現用戶身份認證,對不同的數據采取適當的存儲與備份、恢復方式,全方位保護數據應用安全。