李棟科
摘 要:結合目前海量日志挖掘的大數據特性,文章提出了海量網絡審計日志的敏感用戶挖掘分析架構設想,探討了數據關聯技術、敏感用戶畫像、基于用戶畫像的敏感用戶監控、基于群體關系挖掘的敏感群體監控等在體系架構中的分層應用,并以此架構為基礎,提出未來需要進一步深入研究的關鍵技術和初步解決方案。
關鍵詞:大數據;網絡審計日志;敏感用戶;挖掘分析
中圖分類號:TP39 文獻標識碼:A
Abstract: Combining the big data features of current massive log mining, this paper proposes an assumption of sensitive user mining analysis framework for massive network audit logs and discusses data association technology, sensitive user portraits, sensitive user monitoring based on user portraits, sensitive groups based on group relationship mining in the architecture. Based on this architecture, we put forward key technologies and preliminary solutions that need further research in the future.
Key words: big data; network audit logs; sensitive user; mining analysis
1 引言
隨著互聯網規模的日益發展以及國家對網絡空間安全的重視,信息化平臺不斷完善壯大,相較過去,如今各企業、事業單位、國家行政機關、政府等機構的網絡與互聯網已進一步融合,應用和用戶數量的壯大、無線網絡的增長,其產生的數據量也在空前絕后的成倍增加。網絡技術帶來的極大便利性,也導致了新的安全性問題,企業的商業機密、工作資料可能通過網絡泄露,反動、黃色等非法信息泛濫難以根治。反恐、謠言、群體事件、失竊密等重大社會事件對社會安全和企業的經營都造成了嚴重的危害。在此背景下,我國對于互聯網數據訪問內容的關注程度日益提高,對于政府機關、企事業單位對互聯網的訪問行為,國家頒布執行了一系列法律法規,要求政府機構和企事業單位、校園互聯網加強對互聯網內容訪問的管理與審計[1]。目前,大多數單位均建設了網絡信息安全審計系統[2-4],系統在實現業務功能的同時產生了海量網絡審計日志[5-7],具體分為兩類。
行為日志:通過對網絡上所有用戶行為進行解析、記錄和告警,可以分為上網行為、OA 行為、運維行為和業務操作等。
網絡內容日志:通過捕獲網絡上的原始數據包,然后進行協議解析,并還原原始報文應用數據內容,用于審計網絡數據的合規性。
本文將充分利用網絡審計系統的網絡審計日志,從大數據挖掘分析的角度實現面向反恐、謠言、群體事件、失竊密等重大社會事件的海量網絡審計日志的分析,旨在針對涉及信息內容安全的敏感用戶的挖掘出行為模式,從而形成網絡訪問與社交過程中針對敏感用戶的行為監控能力,實現在反恐、謠言、群體事件、失竊密等重大社會事件中針對敏感用戶的挖掘分析。
2 國內外研究現狀
國內外已經有很多面向網絡信息安全的審計產品,國外的安全審計產品如芝加哥Netikus.Net公司開發Sentry系統用于Windows事件管理和服務器監控、Dorian Software Creations公司開發的Event Archiver產品、Ripple Techa.公司的Log Caster產品,以及TNTSoftware公司開發的Event Log Monitor產品。國內主要的安全審計產品有 AAS-M 系統是昂楷科技開發的專門為加強企業內部運維安全的審計系統、安華金和數據庫監控與審計系統 x Secure-DBAudit、中軟華泰 Hua Tech 終端安全審計預警系統等。
在網絡日志采集方面,李旭芳等人[8]對零拷貝技術進行了研究與試驗,并成功實現了該技術,從軟件上滿足了基于高速網絡的信息審計系統的需求。李明明[9]采用旁路截獲(交換機端口鏡像)流經網絡上的所有數據包實現數據包零拷貝抓取,基于旁路網絡數據捕獲實現對網絡信息安全審計系統的內部網絡監管、智能審計等功能。
在各領域在網絡流量日志應用方面,賈王晶等人[10]運用Apriori算法的改進版Fp-growth算法作為關聯規則的建立算法,在已有日志關聯技術的基礎上,提出能夠應用在網絡犯罪取證中的新的取證方案。張躍仙等人[11]通過對網絡流量進行分析設計了針對計算機網絡犯罪的IP定位跟蹤軟件系統,該系統可直接應用于網絡犯罪的偵查辦案,為公安部門破獲網絡犯罪案件提供有利工具。
現在雖然有許多的商用網絡信息安全審計產品,但功能都不是很齊全。很多都只是對部分應用層協議進行審計;有的可以對可疑行為事前告警,但針對網絡用戶以及用戶群體的挖掘深度還不夠,同時網絡審計日志的應用在公安在反恐、謠言、群體事件、失竊密等重大社會事件中針對敏感用戶的挖掘分析應用較少。
3 基于海量網絡審計日志的大數據挖掘分析架構
本文提出的基于海量網絡審計日志的大數據挖掘分析架構圖,如圖1所示。其中,網絡信息安全審計系統通過在旁路方式下偵聽的網絡中的數據包作為數據源,根據應用層的協議定義,拼接和還原數據,借助數據包拼接、協議棧恢復和協議還原技術,將數據還原到原始數據,同時將審計過程中產生的網絡審計日志通過網絡審計日志回傳服務器回傳至網絡審計日志存儲集群,為網絡審計日志挖掘分析平臺提供海量日志數據。該架構采用的旁路偵聽的模式是采用與交換機的鏡像端口相連,通過抓包的方式,實現對網絡數據的審計,其優點是可靠性高,安全性好,不增加網絡延遲,設備故障時不影響整個網絡運行。
4 基于海量網絡審計日志的大數據挖掘分析工作流程
基于網絡審計日志存儲集群中的海量網絡審計日志數據,本文提出了多維度深度分析的大數據處理平臺,該平臺重點面向公安業務實現敏感用戶監控、敏感群體監控兩個研究方向。為了達到以上目標,平臺主要包括三個層次,分別是數據層、挖掘分析層和業務層。數據層主要實現海量網絡審計日志的接入、存儲以及檢索。挖掘分析層是整個架構的核心,主要包括兩方面的工作:敏感用戶畫像、敏感用戶關系挖掘,其工作流程圖如2所示。面向海量網絡審計日志的挖掘分析平臺在數據關聯的基礎上,采用分布式圖引擎對數據進行組織、存儲和計算。為了確保處理的時效性,同時降低平臺計算的復雜性,對于日志數據引入基于時間戳的衰退機制。在大規模圖建?;A上,從動態特征、靜態特征和關聯特征等對敏感用戶進行多維度畫像。基于敏感用戶畫像和大規模圖引擎,挖掘敏感用戶的關系,為敏感群體用戶挖掘提供基礎。
5 關鍵技術研究與初步解決方案
5.1 數據關聯
目前網絡審計日志標識的類型并不相同,各類審計日志之間存在孤島問題。針對網絡審計日志的大數據挖掘分析需要以網絡空間中的所有行為、內容、交互關系為基礎。因此,首先需要打通各種類型的網絡審計日志數據,采用統一的模型描述,為后續用戶畫像等打下基礎。本節從用戶的網絡行為和通信內容出發,從三個方面打通各種類型的日志,關聯出用戶的不同數據。
(1)賬號關聯:用戶在網絡空間中針對不同應用使用各種賬號,為了實現賬號與用戶的綁定,首先需要針對網絡審計日志中用戶的不同賬號進行關聯。賬號主要包括郵箱,內容服務類應用(網頁瀏覽、論壇、微博等)用戶名或昵稱,手機號,撥號賬號等。賬號關聯的方法包括以IP地址為基礎的賬號關聯(包括同類賬號的關聯以及不同類型賬號的關聯)、以用戶昵稱的賬號關聯、以入網許可IMEI號為基礎的手機號關聯。
(2)內容關聯:以各種網絡審計日志存儲的內容關鍵詞(URL)為基礎,打通各種類型網絡審計日志,關聯用戶數據。
(3)移動網行為關聯:針對網絡審計日志中包含手機號和社交網絡、APP等登錄賬號信息,可以關聯出用戶在移動互聯網中使用的IP地址和在移動網中手機號,進而關聯用戶在固網和移動網絡的行為數據。
基于以上三方面的數據關聯后,不同類型的日志數據能夠形成統一的平臺。不同業務系統日志在數據關聯后,需要采用統一的圖引擎進行處理,具體應用中可采用大規模圖建模、圖查詢等技術[12-15]。
5.2 敏感用戶畫像
在數據關聯的基礎上,從多維度刻畫敏感用戶的身份信息、社交關系、內容偏好、行為特征等,進而實現敏感用戶畫像,為后續的敏感用戶挖掘、敏感群體挖掘和敏感事件挖掘打下基礎。
代表性的用戶畫像標簽標注方法:針對用戶的網絡審計日志各類協議的網絡內容,首先分析用戶是否命中敏感關鍵詞,其次在分析詞的基礎上,分析用戶的主題標簽詞。
敏感用戶在網絡空間中可能擁有多個賬號信息,但是賬號具有很好的穩定性,并且不同賬號之間一定存在一定的關聯性,很容易綁定到特定的用戶。因此,主要通過網絡審計日志中人口統計屬性和賬號屬性兩個方面的信息作為敏感用戶的唯一標識。
采用用戶活躍度度量的方法標注用戶屬性,用戶活躍度度量主要是針對用戶活躍的程度。在圖引擎中,重點挖掘兩類用戶,一類是活躍度非常高的用戶,另一類是活躍度非常低的用戶。
采用敏感用戶信息完備性度量標注用戶屬性,主要按照敏感用戶標簽集合中的標簽權重以及標簽的優先級別計算敏感用戶信息的完備程度。
5.3 基于用戶畫像的敏感用戶挖掘
在數據關聯的基礎上,從賬號信息、真實身份等出發,挖掘系統日志中用戶使用的各種賬號信息(郵箱、微博等私人賬號),并追蹤敏感用戶的在不同網絡中使用的各個賬號信息,收集多個數據源的行為數據、訪問內容等。從賬號信息、IP地址信息、內容標簽、行為特征等多角度盡可能抽取全面的敏感用戶數據。進一步從日志的內容信息和社交關系等出發,判定敏感用戶的危險程度。具體方案如圖3所示。
5.4 基于群體關系挖掘的敏感群體挖掘
敏感用戶在網絡空間中產生大量的交互信息,通過對敏感用戶交互信息的挖掘,從郵件關系、APP通信、社交關系和短信關系出發,在敏感畫像的支撐下,構建敏感用戶的關系圖譜。在敏感用戶關系圖譜上主要進行四個方面的挖掘:頻繁關系挖掘、新關系挖掘、聯合群體挖掘和群體標簽挖掘,具體的流程如圖4所示。
敏感群體挖掘在敏感用戶身份刻畫的基礎上,進一步針對敏感用戶的關系網絡進行挖掘分析,進而實現對敏感群體進行挖掘。
具體的解決方案:抽取敏感用戶的APP通信、郵件、社交(微博)、短信等多個業務系統中的日志數據,采用非平衡二部圖建模敏感用戶之間、敏感用戶和敏感詞之間的關系。在關系建模時,主要考慮兩種關系,一是敏感用戶之間的關系,二是敏感用戶與敏感詞之間的關系,建模方法如圖5所示。在考慮用戶之間的關系時,通過邊的屬性代表敏感用戶之間不同的交互方式,節點代表用戶,并通過身份刻畫特征表示用戶屬性??紤]用戶和敏感詞之間的關系時,將各業務系統基于關鍵詞打通,解決各業務系統的孤立問題??紤]用戶和敏感詞之間的關系同時能夠為后續敏感用戶群標簽挖掘奠定基礎。
在關系建模的基礎上,對關系圖進行挖掘分析。主要包括四個方面。
頻繁關系挖掘:以用戶交互圖為基礎,通過頻繁模式挖掘算法挖掘用戶之間的頻繁交互模式。
新關系挖掘:在實時日志處理時,重點關注新敏感用戶產生的關系。一是通過新關系對應的敏感用戶身份刻畫特征進行分析,甄別是否需要重點監控。 二是分析新關系對敏感群體聚集效應的評估。
聯合群體挖掘:從用戶交互圖出發,挖掘交互圖中的社區結構。挖掘算法擬采用局部相似性度量為基礎,從內容和關系兩方面聯合挖掘群體結構關系。
群體標簽挖掘:通過群體用戶的共現敏感詞,挖掘群體標簽,進一步展示出群體用戶的意圖。
6 結束語
大數據挖掘分析技術具有的數據量大、挖掘效率高等特點,為大規模網絡安全態勢感知技術的突破創造了機遇。本文通過采集海量網絡審計日志的條件下提出一種面向海量網絡審計體重的敏感用戶挖掘體系架構,對敏感用戶挖掘分析和大數據技術的結合點進行了研究,并提出了基于海量網絡審計日志的大數據挖掘分析工作流程、關鍵技術研究以及初步解決方案,對于大數據在公安取證以及應急管理等領域的應用研究具有重要探索價值。
參考文獻
[1] 林元華.基于旁路接入的互聯網訪問內容審計系統設計[D].華東理工大學, 2011.
[2] 殷俊,王海燕,潘顯萌.基于DNS重定向技術的網絡安全審計系統[J].計算機科學, 2016, 43(s2):407-410.
[3] 辛晶.基于安全審計系統在網絡安全管理中的應用[J].電子技術與軟件工程, 2017(21):185-185.
[4] 林迅.信息安全審計系統的架構設計[J].網絡安全技術與應用, 2016(10):53-54.
[5] Qing X. Log-Based Network Security Audit System Research and Design[J]. Advanced Materials Research, 2010, 129-131:1426-1431.
[6] 徐開勇, 龔雪容, 成茂才. 基于改進Apriori算法的審計日志關聯規則挖掘[J]. 計算機應用, 2016, 36(7):1847-1851.
[7] 成茂才,徐開勇.基于可信計算平臺的審計日志安全存儲系統[J].計算機科學, 2016, 43(6):146-151.
[8] 李旭芳.網絡信息審計系統中數據采集的研究與實現[J].計算機工程與設計, 2007, 28(3):550-552.
[9] 李明明.基于零拷貝的網絡信息安全審計系統的設計與實現[D].華中科技大學, 2015.
[10] 賈王晶.面向網絡犯罪偵查的日志關聯取證技術研究[J].網絡安全技術與應用, 2017(12):152-153.
[11] 張躍仙.網絡犯罪偵查的IP定位跟蹤技術研究[J].信息網絡安全, 2011(6):72-74.
[12] Kelly R, Jacobsen D, Sun Y J, et al. KGraph: a system for visualizing and evaluating complex genetic associations[J]. Bioinformatics, 2007, 23(2):249-251.
[13] Liu J, Yao Y, Fu X, et al. Evolving K-Graph: Modeling Hybrid Interactions in Networks[C]// ACM International Symposium on Mobile Ad Hoc NETWORKING and Computing. ACM, 2017:29.
[14] Ahn J, Hong S, Yoo S, et al. A scalable processing-in-memory accelerator for parallel graph processing[C]// ACM/IEEE, International Symposium on Computer Architecture. IEEE, 2016:105-117.
[15] Kashyap N K, Pandey B K, Mandoria H L, et al. Graph Mining Using gSpan: Graph-Based Substructure Pattern Mining[J]. 2016, 7(2):132.
作者簡介:
李棟科(1983-),男,漢族,河南葉縣人,博士,工程師;主要研究方向和關注領域:網絡安全和大數據技術。