天融信作為信息安全領域的引領者,以網絡安全為核心,大數據為基石,長期致力于大數據安全領域的研究,為用戶提供安全云服務,集全公司優勢資源打造安全的大數據環境,積極推動大數據安全的發展。
隨著互聯網、物聯網、移動互聯網、云計算和人工智能等新興技術的高速發展,各種智能終端、社交網絡服務的大量涌現,全球數據量出現了巨幅增長。據相關統計,預計到2020年全球數據將增至35.2ZB。顯而易見,真正的大數據時代已經到來。一方面,云計算技術的成熟,為這些多樣化的數據提供了存儲和計算的平臺;另一方面,數據挖掘和人工智能等技術為大數據時代提供了信息參考,大數據的快速發展進一步擴大了信息的開放程度,但是隨之而來的一系列安全問題已經成為影響大數據發展的關鍵因素。
麥肯錫稱:“今天的數據,已經滲透到當今每個行業和業務功能區域,成為一個重要的生產要素。人們對于大量的數據挖掘和利用,預示著一個新的生產力增長和消費者剩余影響的到來。”大數據已在物理、生物、環境、生態學等領域以及軍事、金融、通信等行業存在一定時間,近年來,大數據在互聯網、企業以及個人等方面的應用進一步促使我們身處大數據時代。
在互聯網應用方面,互聯網公司在日常運營中形成積累用戶網絡行為數據,具有海量的數據規模、多樣的數據類型、價值密度較低、快速的數據流轉以及時效性要求高等特點。毫無疑問,大數據將加速推動互聯網的發展。中國互聯網協會理事長鄔賀銓在河南省首屆互聯網大會的主題演講中指出:“隨著互聯網的快速發展產生大數據,大數據反過來加速推動互聯網各種各樣應用的演進。在可預見的將來,通過對大數據的全面挖掘將產生更多新的應用,將促使產生更多的新業態,將給我們帶來更多的便利和驚喜。”
在企業應用方面,據《中國大數據發展調查報告(2017年)》顯示,2016年大數據市場168億元,大數據平臺軟件市場規模占50%左右,達到72.6億元。約有50%左右的企業自建大數據平臺,大數據平臺正逐步成為企業重要的關鍵基礎設施。
在個人應用方面,大數據不僅僅是一種技術,更是一種思維方式、行為模式與治理理念的全方位變革,大數據的落實應用正在改變我們的衣食住行。
鑒于大數據時代的快速發展以及產生的重大影響,2015年8月,國務院印發《促進大數據發展行動綱要》,首次明確提出建設數據強國;2015年10月,黨的十八屆五中全會提出“實施國家大數據戰略”,將大數據上升為國家戰略。其后,國家政府部門、科研院所、互聯網大企業、傳統工業企業等不斷發布戰略藍皮書,對未來進行規劃布局。
大數據在各應用領域發展迅速,為社會帶來巨大的價值。同時,大數據的安全問題已成為制約大數據發展的重要阻礙。對于大數據的特點,行業內普遍的認識可以用5V來表達:即體量大(volume)、速度快(velocity)、多樣化(variety)、難辨識(veracity)和價值密度低(value),大數據的這些特點使得大數據安全需求與傳統數據安全存在差異。大數據環境下存在的安全隱患如下:
(1)采集階段安全隱患:在大數據應用場景下,存在大量不同種類的數據來源,例如傳感設備、移動終端等。由于設備類型眾多,并且數據來源的設備位置不固定,也就可以看作被采集的設備處于一個安全程度較低的場景,因此在采集階段存在采集設備的不可信性,采集數據中可能含有如病毒、惡意腳本等惡意代碼,數據變更的屬性關系、分析計算的復雜性等方面均存在安全隱患。
(2)存儲與計算階段安全隱患:大數據環境主要使用開源軟件來構建,這些軟件設計初衷是為了高效的數據處理,但在安全功能方面缺乏嚴謹的設計,存在安全漏洞,安全防護能力較差;大數據需要匯集多源數據進行集中存儲與管理,包括用戶敏感隱私數據,數據集中存儲管理也帶來風險的積聚效應。
(3)應用階段安全隱患:在大數據時代存在與傳統不同的情況,一方面,在使用傳統傳輸協議的情況下,急速增加的海量數據造成對傳統邊界防護手段的處理性能要求同樣急速增加,在處理性能不足的情況下不得已只能將安全策略粒度放寬,這就可能會被黑客利用協議漏洞進行攻擊,發生傳輸過程中的數據竊取;另一方面,大數據時代的網絡更加注重無線傳輸,無線傳輸相比傳統的傳輸模式具有更強的開放性,數據在這種傳輸環境中更易遭到攔截或監聽。大數據應用中,數據開放是大數據業務發展的重要方向,同時也必然存在個人隱私、企業信息泄露等關鍵問題。
政策法規作為信息安全的重要依據,大數據處理同樣需要符合相關政策法規要求,比如涉及企業金融信息方面,應遵循Sarbanes-Oxley Act;涉及個人健康記錄共享應遵循HIPAA等。同時,企業應遵守自身安全策略、隱私策略、共享協議等。這些都對數據訪問控制及審計粒度提出了更加嚴苛的要求。而由全國信息安全標準化委員會推出的《大數據安全標準化白皮書(2017)》為大數據安全建設提供了參考。尤其在國家“十三五”發展規劃中明確提出了加快大數據安全與隱私保護的發展要求,更是把大數據安全提升到了前所未有的高度。
大數據環境包括了構建環境的各個組件、可能對接的各類系統以及環境中的各類數據,因此大數據環境的安全防護應該按大數據環境的網絡域劃分,從平臺體系安全到邊界安全構成一個縱向分層的安全防護體系;同時按數據的流轉過程,從數據采集到數據應用構成一個橫向的安全防護體系,全方位的保障大數據的安全性。
大數據環境的邊界安全主要是實現大數據環境邊界安全防護,主要手段是通過在網絡邊界部署防火墻、入侵防護、病毒過濾、VPN、抗DDOS、WAF、漏洞掃描、數據防泄漏等網絡安全設備,確保大數據環境的邊界防護。
大數據環境自身體系安全不僅涉及到傳統的物理安全、基礎設施安全的安全防護要求,數據更是具有體量大、速度快、多樣性、辨識低、碎片化的特點,這就造成了對于大數據環境安全治理手段需要依據不同應用、類型、格式的數據,根據其特點進行差異化分析。
(1)統一門戶管理:大數據集中化的屬性,需要對不同業務系統的用戶、權限進行統一動態管理,另一方面也需要對所有系統實現統一的安全策略。因此大數據集中身份管理系統,通過對大數據環境的用戶和系統資源進行集中身份管理、集中認證管理、集中授權管理和集中審計管理,讓大數據環境的訪問方式更加簡便、安全,大幅提升大數據的安全管理。

(2)大數據環境安全域管理:大數據環境根據業務以及功能不同,分為不同的區,針對這些區域進行相應的安全域管控策略,主要包括訪問控制、入侵檢測以及安全隔離等,實現大數據環境的安全管理。
(3)采用大數據技術保證大數據環境安全:以大數據技術為基礎,通過分類建模分析以及流式分析手段,實現大數據的安全監控、事件分析及策略聯動,最終形成完整的大數據治理架構,確保大數據環境安全,我們稱為安全大數據技術,以實現大數據環境的全方位態勢感知與安全防御。
基于大數據環境的態勢感知系統能夠提供探知檢測、大數據存儲計算、挖掘分析、信息檢索、探索分析、通報處置、威脅情報管理等能力。探知檢測能力融合網絡資產探測、終端檢測防護、網站檢測、流量監測類、日志采集子系統。
資產探測功能能夠對目標IP范圍進行資產基礎信息探測,獲取網絡在線IP及位置、操作系統、端口、服務、應用、設備類型等多種詳細信息,根據操作系統、服務、應用等版本信息關聯已知漏洞,對重要漏洞能進行全網快速驗證發現。
終端檢測防護功能對大數據終端上的病毒進行檢測查殺,對終端訪問互聯網過程進行安全防護,實現操作系統自身及應用程序安全加固,控制網絡接入行為。


網站檢測功能對大數據環境業務網站可用性、漏洞進行檢測,能發現網站被掛馬及篡改行為,能監測網站是否存在敏感信息。
流量監測功能包括但不限于僵木蠕檢測、入侵檢測、網絡行為檢測等子系統。
日志采集功能對網絡、安全、主機服務器、應用系統等日志數據進行收集。
大數據存儲計算功能提供交換接口,將探知檢測到的事實數據接入,進行清洗后存儲到存儲計算引擎中。存儲計算引擎包括分布式文件存儲、數據倉庫、NoSQL數據庫、關系數據及分布式計算框架。事實數據經過匯入處理后形成的結果數據,用于網絡態勢感知的基礎數據也交由大數據存儲計算子系統進行存儲。
挖掘分析功能提供數據分析算子,基于數據分析算子能夠可視化構建數據分析模型,并將分析模型采用任務方式進行調度執行,能夠支持的數據分析模型包括但不限于攻擊檢測、情報關聯、態勢統計、IP畫像等分析模型,分析模塊能夠進行快速自定義擴展。
信息檢索功能提供對系統中存儲的資產、日志、情報等進行快速檢索。探索分析能力能夠以探索任務的方式對風險事件進行確認和追溯發生原因,能夠將線索數據添加可視化界面,并在界面上對線索數據進行多種操作分析形成更多線索數據,多種線索數據相互關聯快速確認風險事件和追溯發生原因。
通報處置功能支撐風險事件流程化處置,威脅情報管理功能匯集多種情報源,提升風險識別和處置效率。
大數據環境的數據安全需要貫穿于數據的全生命周期,主要包括數據采集安全、數據傳輸安全、數據存儲安全、數據挖掘安全和數據發布與應用安全。
(1)數據采集安全:數據采集階段面臨的安全風險,包括采集階段面臨的未經授權的數據采集、數據分類分級不清、敏感數據識別依據不清、采集過程缺乏細粒度的訪問控制、數據無法追本溯源、敏感數據的泄密、采集設備的安全性以及采集過程的事后審計等。針對上述面臨的安全風險,通過安全認證、數據清洗、敏感數據識別以及數據標簽作為數據采集過程的安全途徑。
(2)數據傳輸安全:加密技術是解決數據傳輸的有效途徑,而在大數據環境中存在大量用戶即數據的擁有者、使用者,用戶間的數據傳輸場景相對于傳統網絡環境十分復雜,所以在傳統的以用戶為基礎采用公鑰加密的方式下,密鑰管理將會成為整個系統的瓶頸。為解決上述問題,我們可以將加密的對象從用戶轉變為數據的屬性,也就是數據標簽,通過這種方式實現對加密數據的更細致地管控,并大量減少密鑰管理的性能消耗。
(3)數據存儲安全:傳統的數據分類通常以數據的類型、結構等進行,在大數據環境下,由于數據體量的龐大,上述數據分類方式很難解決大數據安全問題;所以需要將標簽技術與分級分類相結合,依照數據的標簽、類型、結構、內容等進行分類存儲,實現不同類型數據的隔離,便于訪問控制手段的具體應用以及計算過程中的分類調用。在分類存儲的基礎上,考慮到在安全及應用的開發、測試階段對數據模板參考的需求,從安全角度需要避免數據的二次泄漏,數據脫敏技術則應運而生。不過在大數據環境下,脫敏的應用又與傳統數據安全體系存在差異,常見的數據脫敏方式包括數據隨機化技術、數據匿名化技術、數據關聯規則隱藏技術等;但在大數據環境下,由于龐大數據量和數據碎片化、低密度等特點,造成單獨某一種脫敏方式存在被破解和還原的風險,比如說匿名化技術可以將敏感數據隱藏,在一定程度上保護用戶敏感信息,但攻擊者利用數據的關聯規則作為技術條件,還原匿名數據,造成敏感數據的泄露。所以在大數據環境下,需要在多種數據脫敏技術的基礎上進行綜合應用,如匿名技術與關聯規則隱藏技術相結合,從而實現大數據的靜態脫敏。
(4)數據挖掘安全:大數據挖掘是從海量數據中提取和挖掘知識,在大數據挖掘的特定應用和具體過程中,大數據挖掘安全首先需要做好隱私保護,目前隱私保護的數據挖掘方法按照基本策略主要有數據擾亂法、查詢現值法和混合策略。其次,大數據挖掘安全技術方面還需要加強第三方挖掘機構的身份認證和訪問管理,以確保第三方在數據挖掘過程中不植入惡意程序,不竊取系統數據。
(5)數據發布與應用安全:大數據應用的安全途徑主要是針對應用系統的權限控制,即認證、授權和審計等。其中數據防泄漏在應用方面主要是針對數據進行內容的檢測,防止敏感數據泄露。通過一套完整的數據識別引擎,完成數據格式的識別,數據內容的抽取以及數據內容的標注,設計和實現一套指紋和標簽化工具,生成數據的指紋和標簽;通過數據泄露防護引擎,完成數據合規性檢查、泄露數據的統計分析及泄露風險提示。■