實現虛擬機敏感數據識別

2020-06-20 13:02:06中國移動通信集團天津有限公司李越鵬

網絡安全和信息化 2020年6期

■ 中國移動通信集團天津有限公司李越鵬

云計算環境下，很多業務部署在虛擬機資源池，包括客戶身份相關數據、客戶服務內容數據、用戶服務衍生數據等。在云環境中，由于存儲、計算的多層面虛擬化，帶來了數據管理權與所有權分離，網絡邊界模糊等新問題，與傳統環境相比，在敏感數據識別方面存在更多的困難和風險。這些問題會導致企業面對急速增長的數據安全問題無法做到主動發現、動態識別敏感數據，甚至于因問題資產檢測遺漏引發的安全事件在爆發后相當長的一段時間后才被知曉，安全管控措施較為被動。

本次研究基于云計算環境，設計了兩種方式的識別敏感數據。一是通過主機Agent抓取數據庫、文件夾、文件中的數據，根據規則匹配其中的敏感數據，以得到敏感數據資產。二是利用網絡流量分析技術，通過在核心交換機上部署TAP設備，對流量數據進行鏡像采集和分析，進而識別敏感數據，實現對虛擬資源承載的敏感數據的有效識別。研究關注的焦點是敏感數據的有效識別，形成有效信息載體清單用于后期實施控制，對于出云敏感數據的實時監控和告警，不涉及分類后控制管理工作。

基于主機Agent的敏感數據識別

本次研究采用在主機上部署Agent，實現對數據庫、主機承載的敏感數據資產的自動化采集。

動態敏感數據識別引擎通過集成數據庫表結構、主機目錄（文件）的Agent作為采集引擎，采用規則、特征庫以及SQL語句處理，實現完全不影響業務系統正常運行的“無損探傷”模式的采集分析功能，對包含個人敏感信息的數據進行識別、特征提取從而進行智能發現，以實現全面掌控數據庫、主機的數據資產變化情況的目的。系統整體分為四套引擎，分別為：數據資產建模引擎、任務調度引擎、配置采集引擎和資產分析引擎。

1.結構化敏感數據識別流程說明

(1)連接虛擬環境中的數據庫。

(2)解析數據庫中的庫表結構。

(3)根據庫表結構，正確的獲取數據庫表中每條記錄每個字段的內容。

(4)使用預先定義的敏感數據發現分類規則掃描字段內容，從而判斷數據庫中是否還存有敏感數據。

2.非結構化敏感數據識別

本次研究中使用了基于自然語言理解與機器學習的方法，實現敏感數據標簽動態學習過程。通過掃描文件夾、文件中的非結構化數據，分析其中的敏感數據匹配度，突破了傳統上依靠關鍵字、正則表達式的識別方法，實現敏感數據識別的智能化。利用機器學習算法對敏感字段識別不僅能夠提高識別的準確率，同時也能提高識別效率，從而高效地完成敏感數據的存儲策略制定和數據落庫。

識別流程如圖1所示。

流程說明：

（1）利用Agent遞歸掃描虛擬資源中所有文件目錄，以便于發現其中的敏感數據，為了提高掃描速度，支持對不同操作系統的掃描路徑進行優化。

（2）掃描到壓縮文件以后，會將壓縮文件展開，以便于后續進一步掃描壓縮文件中的相關數據。支持逐級展開級聯壓縮的壓縮文件，以保證壓縮文件中所有的數據文件都會被展開，避免漏掃。

圖1 識別流程拓撲結構

（3）解析文件格式，根據文件的二進制格式頭判定文件的存儲格式，然后根據文件格式提取文件內容。

（4）處理中文編碼，由于常見的中文編碼包含GBK，UTF8和Unicode，為了后續的監測敏感數據模塊能正確工作，必須鑒別文件內容中中文的編碼方式，以保證文件內容被正確理解。

（5）使用預先定義的敏感數據識別分類規則掃描文件內容，從而判斷相關文件是否屬于敏感數據。

基于網絡流量的敏感數據識別

本次研究除支持基于主機Agent實現對虛擬資源的識別外，還支持從網絡傳輸層面上發現敏感數據以及敏感數據的操作識別。研究過程是將TAP設備，并旁路部署在核心交換機側，通過在核心交換機上的相關端口進行鏡像，從交換機中獲取訪問各個虛擬機的流量,分離出來類似HTTP、FTP、SMTP、POP3等可以傳輸、訪問文件的協議，并從這協議中獲取傳輸文件、訪問文件的日志，結合該虛擬機的敏感數據結果，進行分析、展示。

流程說明：

（1）采集TAP設備發送的網絡流量數據。

（2）對采集到的流量數據進行協議解析，解析對象為支持文件傳輸及訪問的協議，如HTTP、FTP、SMTP、POP3。

（3）提取協議中的文件傳輸及訪問的日志信息。

（4）敏感數據信息進行比對。

（5）呈現敏感數據的分析結果。

研究成果

本次研究基于Agent和流量采集技術，集成敏感數據發現工具，實現云計算環境下，針對虛擬資源承載的敏感數據進行內容級的敏感數據發現，建立完善的虛擬資源發現流程，覆蓋原云資源池數據識別安全盲區，建設效果如圖2所示。

圖2 建設效果圖

1.資源管理能力：實現實時監控虛擬機的變化情況，實時掌握發生變更的虛擬機是否承載了敏感數據，采取有針對性的安全防護手段保護敏感數據；

2.敏感數據發現能力：敏感數據的準確發現和識別是敏感數據防護的基礎，在私有云環境中，敏感數據多以文件的形式存儲在虛擬服務器，本期項目實現基于自然語言處理的敏感數據文件內容識別功能，能夠關聯文件內容的語境、語義進行敏感數據內容的發現，且只需要遍歷一次文件內容，將提升敏感數據內容發現的準確率，大幅降低對服務器性能的消耗。

3.終端管理能力：無法識別用戶通過瘦客戶端訪問虛擬桌面的源IP地址，進而不能定位發生的安全問題；能夠自動分析搜客戶端的源IP地址，實現虛擬桌面操作和傳輸敏感數據行為監控。

4.敏感數據傳輸監控能力：目前的敏感數據傳輸監控只支持FTP、SMTP、HTTP三類協議，在云環境下，除支持FTP、SMTP、HTTP三類協議外，還需要支持SFTP、封裝API的協議。

5.增強敏感數據管理和展現：通過多種不同的方式對敏感數據進行展現，包括建立敏感數據資產載體視圖、敏感數據報表等方式，直觀地對敏感數據進行展示。

6.云資源池安全防護策略制定和推進：云資源池虛擬機敏感數據高效識別，目前已完成，下一步考慮在敏感數據泄露風險的快速響應工作，制定敏感數據防護策略和規范，從而進一步提升敏感數據的安全防護。