孫加萌?宋文凱



摘要:現如今,企業面臨的內網安全威脅逐漸嚴重。為了預防內部隱患,檢測內部員工對特殊文件的異常行為,本文構建了一種基于大數據處理平臺的人員異常行為分析模型。通過該模型刻畫了員工的異常行為模式,包括非工作時間操作行為,權限不一致操作行為和文件外發行為,模型采集企業應用和安全系統的操作日志,經過提取清洗處理后,與文件和設備用戶數據以及員工考勤記錄數據進行關聯計算,提取出員工異常行為,得出數據統計結果。根據人員和設備維度進行聚合處理,經過前端的可視化見面,生成特定用戶或設備的異常行為趨勢。該模型根據內網空間安全范疇刻畫了人員異常行為模式,利用企業操作日志生成員工和設備的異常行為統計,使系統能夠實時高效地判斷異常行為,實現企業內部網絡安全的自動化預警。
關鍵詞: 內網安全;異常行為;大數據平臺;自動化預警
一、引言
隨著信息技術的飛速發展,企業內積累的核心數據資產愈發倍增。這些數據信息的特點是存儲體量大、涉及范圍廣、細分類型多,往往代表著企業的知識產權和商業機密,關乎著企業的核心利益。特別是對于一些行業龍頭甚至軍工級企業,核心數據代表著行業和國家級的利益,是立足之本。這些數據資產一旦泄露,將會造成不可估量的損失。因此,很多企業出于對外網的主動攻擊的防范,選擇使用封閉的內部網絡環境用于生產開發。然而,來自內部員工有意或無意的安全威脅往往更難以防范。Verizon公司發布的《2021年數據泄露調查報告》中表明,超過五分之一的數據泄露來自企業內部[1]。
由于計算機網絡的先天復雜性,決定了網絡管理者必須使用足夠的網絡安全技術保障網絡的基礎資源安全和使用體驗。為了能夠多角度多層面應對快速發展的網絡安全服務,管理者需要從以下技術方面考慮:數據加密技術、訪問控制技術、防火墻技術、網絡安全掃描技術、網絡入侵技術和黑客誘騙技術[2]。對于內部網絡而言,訪問控制技術是重中之重,主要保證網絡資源能夠在規定的權限體系下依法訪問,杜絕非常訪問[3],是維護網絡資源安全訪問的關鍵策略。訪問控制技術涉及層面比較廣泛,包括網絡接入控制、網絡權限控制、網絡目錄級控制、用戶屬性控制等等手段[4]。其本質上還是要控制不同級別用戶的可視網絡范圍,一旦越過規定權限,數據泄露便不可避免。與此同時,依托于信息技術的快速迭代和逐漸廣泛復雜的產品應用,規模較大的企業必定會產生海量的業務數據。大型企業日志事件的日增量可以達到百億條,中小規模企業產生的數據也相當可觀[5]。這些數據直接或間接地記錄了企業內部各類生產交互的行為活動,具有巨大的商業價值。企業內部員工很有可能在擁有合法的權限下產生異常行為,如特殊文件操作、違規打印等,而通過常規的安全管理體系很難及時察覺。因此,針對用戶異常行為的自動化分析與檢測在企業安全管理中尤為重要。
本文基于Hadoop和J2EE開發框架,收集企業內部的應用安全系統、設備用戶數據庫、員工考勤記錄等數據作為數據源,進行提取清洗處理,然后構建人員異常行為分析模型,對處理后的數據進行分析判別,抽取出關聯異常行為的人員和相關文件或設備數據進行業務分析,通過聚合形成報表統計和報告,直觀地展示出內部員工的異常行為,對企業網絡安全檢測和保密工作管理具有一定的現實意義。
二、人員異常行為分析流程
本文設計的企業人員異常行為分析方法流程如圖1所示。
(一)數據收集
本文的數據來源主要是企業內部的應用系統、安全系統等產生的日志信息,設備用戶數據以及考勤記錄數據等。由于該日志包含了人員的行為信息,具有明顯的大數據特征[6-7],因此本文使用基于Hadoop的大數據平臺作為數據的分布式存儲和處理,保證數據的高可用性。
(二)數據預處理
不同來源的日志數據格式上有一定差異,而且內容上也會存在重復或者關聯的情況。本文對采集到的原始數據進行一系列預處理操作,包括提取、清洗、關聯處理等,目的是為了抽取目標信息,并將不同來源的數據通過人員信息關聯起來,轉換為方便后續分析處理的結構化數據。本文采用Hive和Presto作為計算分析引擎進行處理,能夠保證海量數據下的秒級統計查詢。
(三)人員異常行為刻畫
企業內部的網絡可以看作內網信息環境的一個整體域,基礎設施、網絡和操作人員相互獨立且依存,共同組成了內網空間[8]。對內網空間安全造成威脅的人員行為可認為屬于人員異常行為的范疇。網絡空間安全主要包括設備安全、數據安全、內容安全和行為安全[8],這里內容安全主要針對互聯網環境。本文以操作特殊數據行為、設備操作記錄以及人員操作時間等維度作為基準,以應對數據安全,設備安全和行為安全。
(四)異常行為分析模型
在對人員異常行為刻畫的基礎上,抽象出畫像所需的行為數據,根據一定規則建立異常行為分析模型。模型前提是日志數據中包含特殊數據文件或設備的操作記錄,即提前做好日志埋點。同時擁有員工權限對應的可操作文件或設備的范圍,最后還要建立員工考勤記錄的數據庫。在此基礎上,可以設立正常行為標準,即工作時間內操作符合人員權限的文件或設備。在此標準下,本文定義了特定條件下的異常行為模型,如下圖所示:
非工作時間范圍內對于數據文件或設備的操作,均認為是異常行為記錄;工作時間范圍對特殊文件或設備的操作,如涉密文件、核心設備等,首先判斷操作人的權限是否足夠,判斷操作人與設備歸屬人是否統一,其一不符合則認為是異常行為。對于工作時間對于普通文件的操作,僅記錄外發、打印等涉外操作作為異常行為,其余認為正常。將異常行為數據按照時間維度和人員維度進行聚合統計,得到模型分析結果。另外,需要對內網設備進行定期安全審計,包括設備系統接入和變更情況、應用系統和數據庫、專用移動存儲介質變更等內容,及時更新信息,以預防通過系統底層手段繞過異常行為分析,進一步全方位提升內網環境的保密能力。
(五)異常行為分析結果展示
異常行為分析結果需要進行可視化的直觀展示。本文以時間和人員作為主要展示維度,羅列出時間軸下異常行為統計和具體人員的異常行為統計,并延伸出數量排行,數量趨勢等統計結果。
三、人員異常行為分析實現
本文以企業內部的應用、安全系統等日志作為分析數據源,基于Hadoop大數據平臺進行存儲和統計分析,并使用Java語言和Spring框架完成業務處理,最后在前端展示出來,基本系統結構如下圖所示:
采集層作為數據的接入,提供模型的外部基礎;存儲層用于接入和分析數據的儲存,計算層用于提供模型的計算資源;核心分析層充分利用上層數據進行分析,計算完成后通過展示層實現異常行為的合理化展示。
(一)模型實現
基于上文的內容,本文的人員異常行為分析系統實現數據流程圖如圖4所示。
原始日志數據和文件設備-用戶數據以及員工考勤記錄數據通過采集聚合輸入到大數據平臺中,然后通過Hive進行數據整理和清洗,得到規整后的可計算數據,然后根據不同的維度劃分,得到帶有時間維度的員工文件或設備操作記錄。將該數據與預處理過的考勤記錄進行關聯計算,判斷操作記錄是否處于員工工作時間,非工作時間內的操作記錄直接判定為異常行為;對于工作時間內的操作記錄,與預處理過的用戶設備記錄進行關聯計算,判斷操作的目標文件或設備是否與用戶權限范圍一致,不一致則判定為異常行為。進一步的,還要判斷是否有文件外派操作的敏感行為,如文件的復制外發,打印等,如有則判定為異常行為。上述異常行為的判定使用Presto計算引擎和Spring框架完成數據計算和業務實現,并對外提供輸出接口。將上述異常行為按照人員和設備維度使用Presto聚合整理后,進行可視化展示。
另外,業務層會提供對外調用異常行為分析的API接口,可以實現下游的更多分析操作,也可以手動導入或導出審計報告,包括設備系統變更、文件權限變更等,以提升系統的數據更新能力。
四、結束語
近年來網絡技術的發展,企業產生的數據與日俱增。在與外網網絡環境隔離的情況下,內網網絡空間的安全性尤為重要。本文針對企業內網空間的設備和人員維度,提出人員異常行為模型分析方法,通過采集企業應用和安全系統的操作日志,基于Hadoop的大數據平臺進行提取清洗處理,存儲到Hive庫中。然后使用Presto計算引擎與文件/設備用戶數據和員工考勤記錄進行關聯計算,將非工作時間內的操作行為、權限不一致行為、文件特殊外派行為進行聚合處理后作為人員異常行為可視化展示,使得能夠直觀地展示出人員或設備維度下異常行為的趨勢情況。系統使用者可以直觀感知或者使用提供的接口,進一步挖掘和分析異常數據,根據需要完成更具體的分析結果。該系統可以為保密性質企業提供一定的內網安全保障。
作者單位:孫加萌 宋文凱 南京電子技術研究所
參? 考? 文? 獻
[1]Jartelius M. The 2020 Data Breach Investigations Report-a CSOs perspective[J]. Network Security, 2020, 2020(7): 9-12.
[2]張紅梅. 內網終端安全防護管理系統研究[D]. 西安電子科技大學, 2018.
[3]趙紅偉. 局域網計算機終端安全防護策略分析[J]. 電子制作, 2013 (17): 152-152.
[4]陳宇. 四川移動互聯網電視內容管理基礎平臺設計與實現[D]. 電子科技大學, 2014.
[5]Cardenas A A, Manadhata P K, Rajan S P. Big data analytics for security[J]. IEEE Security & Privacy, 2013, 11(6): 74-76.
[6]賴建華, 唐敏. 用戶異常行為分析方法研究與應用[J]. 軟件導刊, 2019, 18(8): 181-185.
[7]匡石磊, 韋峻峰. 基于內網用戶異常行為安全管理研究[J]. 郵電設計技術, 2019(4):16-20.
[8]張煥國,韓文報,來學嘉,等. 網絡空間安全綜述[J]. 中國科學(信息科學),2016,46(2):125-164.