內部威脅檢測中用戶行為模式畫像方法研究

2019-01-31 02:34:38郭淵博劉春輝孔菁王一豐

通信學報 2018年12期

郭淵博，劉春輝,2，孔菁，王一豐

（1. 中國人民解放軍戰略支援部隊信息工程大學密碼工程學院，河南鄭州 450001；2. 中國人民解放軍61213部隊，山西臨汾 041000）

1 引言

全球企業每年因為內部用戶蓄意破壞或無意失職而造成的損失所占比重越來越大，內部威脅日益成為企業安全關注的重點。2015年美國網絡犯罪調查顯示，23%的電子犯罪事件來自于內部人員，45%的受訪者認為內部人員攻擊造成的損害要遠高于外部攻擊帶來的損害。Verizon RISK Team發布的《2017年數據泄露調查報告》[1]指出，15%的數據泄露是由內部人員造成的。Crowd Research Partners在2018年對472位資深網絡安全專家進行的在線調查[2]顯示，53%的組織確認過去一年內遭受過內部威脅攻擊，29%的組織認為內部威脅攻擊越來越頻繁。

內部威脅攻擊中，攻擊者來自企業內部，攻擊行為往往發生在工作時間，惡意行為嵌入大量正常數據中，增加了數據挖掘分析的難度。同時，內部攻擊者往往具有組織安全防御機制的相關知識，會采取措施規避安全檢測[3]。

用戶在訪問文件、使用應用程序、獲取內部資源、使用設施設備的時間和頻率等方面會形成一個相對固定的行為模式。相同角色、相同工作部門的用戶的工作性質相近，其行為模式具有一定的相似性。若用戶行為明顯偏離正常模式，則表示該用戶有意隱藏其惡意行為或存在違反企業相關政策（如知識產權政策）違規獲取工作需求之外信息的行為。對用戶正常行為進行畫像，并加以對比分析，可以有效檢測用戶行為模式變化。

本文對內部威脅中用戶行為模式畫像方法進行了研究，針對標簽式畫像方法特征提取過度依賴人工提取，行為模型缺少細節、不夠全面等問題，提出了一種全新的自動化行為細節特征提取方案，構建了細節描寫與全局刻畫相結合的用戶行為模式畫像框架。

用戶對不同網站的訪問模式、與某個 E-mail賬戶的聯系模式等，都可以用來描述該用戶的歷史性、習慣性行為。通過自動化提取行為細節特征，利用一分類支持向量機（OCSVM，one class support vector machine）集群構建全細節行為畫像，可以判斷用戶行為是否與歷史習慣存在明顯差異。

用戶每天進行大量業務操作，且其工作具有穩定性，業務流程具有固定性，因此用戶每天的活動具有一定的重復性。采用隱馬爾可夫模型整合多類行為數據，提取用戶行為序列，可以揭示隱藏在行為背后的業務邏輯，預測業務流程的轉移概率，刻畫用戶全局行為模式。根據轉移概率的大小可以判定用戶行為偏離歷史行為的程度。

全細節行為畫像與業務狀態轉移預測相結合的用戶行為模式畫像框架，能夠充分提取并利用審計日志中的用戶行為信息，較全面地刻畫用戶行為模式，有效提高企業內部用戶異常行動判定的準確率。

2 研究現狀

近年來，隨著內部用戶攻擊行為對企業造成的影響越來越大，內部威脅檢測也被越來越多的人關注。相關領域的專家、學者針對此類問題提出了不同的技術方法和解決方案。但由于內部攻擊具有隱蔽性、多元性等特點[3]，內部威脅依然是企業組織面臨的主要威脅之一。Nurse等[4]整合并明確定義內部威脅的多方面因素，提出了表征內部用戶攻擊行為的框架，對表征用戶心理狀態變化的因素進行了研究。Legg等[5]提出了基于樹型結構的用戶角色特征畫像模型，人工定義了一系列描述用戶日常行為的特征，并通過主成分分析（PCA, principal component analysis）方法對特征進行了降維，對每一個用戶、每一個工作角色的活動記錄進行特征提取，構建了刻畫用戶、角色行為的樹型模型，然而，該方法特征提取過度依賴人工挑選，缺乏有效的自動化處理機制，無法與用戶歷史行為進行有效貼合。Rashid等[6]首次將隱馬爾可夫模型應用到內部威脅檢測中，利用隱馬爾可夫模型學習用戶正常行為序列，通過對比發現明顯偏離正常行為的用戶，然而，單純利用隱馬爾可夫模型，并沒有取得較高的檢測準確率。Gamachchi等[7]將圖處理技術應用到內部威脅檢測中，提出了圖處理單元與異常檢測單元相結合的理論框架，然而，只是將圖理論用到了用戶與設備、用戶與行為的描述上，并沒有關注用戶行為的畫像問題。Gavai等[8]提出了利用企業在線活動和社交數據檢測內部威脅的方法，利用非監督的獨異森林方法檢測統計意義上的異常點，準確率達到了73.4%，利用監督學習方法，預測用戶離職情況，取得了0.77的AUC分數，同樣地，該方法沒有關注用戶行為畫像問題。Parveen P[9]在系統中部署k個分類器，提出了一種基于“k-投票”形式的內部威脅解決方案，使用Hadoop分布式框架提高學習效率，然而，未針對內部威脅數據進行實驗，無法判斷其實際效果。文獻[10]提出文件內容異常檢測模型，該模型使用文本分割和樸素貝葉斯方法對企業內部文件內容進行分類，根據個體行為與群組行為偏移量檢測文件訪問異常行為，實驗證明該模型對保護內部文件訪問有一定作用，但只針對文件操作單域行為，且檢測效果完全取決于所用詞匯庫的豐富程度。Ioannis等[11]提出了活動樹模型，記錄用戶的工作流模式，根據分支長度、對應節點相似度等指標判斷新行為與歷史工作流模式的匹配度。本文將正常用戶行為日志存儲至全文搜索引擎，通過搜索用戶當前行為與歷史行為的差異，形成行為特征向量，實現了特征提取的自動化，并能夠有效衡量當前行為與歷史行為的偏離程度。

由于內部威脅的復雜性和企業數據的隱私性，之前的研究多從某一個或幾個維度對用戶活動進行檢測，存在檢測準確率低、誤報率高等問題。本研究結合用戶歷史行為提取特征，從單類行為細節和全局狀態轉移 2個方面對用戶行為進行綜合畫像，較全面地刻畫了用戶行為模式，異常行為檢測效果得到了明顯提升。

3 思路和方法

在內部威脅檢測中，由于攻擊模式多樣、攻擊樣本缺乏、人工標記標簽工作量大等困難，當前較為成熟的有監督學習分類方法無法有效利用現有數據進行訓練。用戶行為畫像技術無需標簽數據，通過學習用戶的歷史行為模式，可以形成精細描繪用戶行為的歷史畫像。本文的主要目標有：1) 研究行為特征自動提取和局部全細節行為畫像方法、行為序列劃分和全局業務狀態轉移預測方法；2) 將局部描寫與全局預測相結合，搭建基于行為畫像的內部威脅檢測框架；3) 利用卡耐基梅隆大學計算機安全應急響應組（CMU-CERT, Carnegie Mellon University Computer Emergency Response Team）數據集對本文所述方法的有效性進行檢驗。本節主要介紹方法思路和涉及的理論基礎。

3.1 審計日志獲取和數據準備

隨著企業安全意識的提高，安全策略、訪問控制、權限管理等防護措施都基本完善，然而僅通過這些防護措施，并不能完全保證企業信息的安全。為保證合法用戶有效訪問受保護資源、防止非法用戶非授權訪問、保留用戶行為記錄進行違規追查，日志分析和審計成為保護企業信息安全、監控內部用戶行為合規性的重要手段。在審計系統中，部署在企業內部的各類傳感器會不斷記錄用戶操作行為，并生成相關日志，存儲至日志服務器。用戶登錄、文件操作、郵件收發、網頁瀏覽、外設使用等行為，是企業審計用戶行為所使用的最基本的數據，相比網絡流量、能量消耗等數據，這5類數據具有采集方便、可理解性強的特點。

企業內部惡意活動往往以竊取信息、偽裝身份、破壞系統為主要目的，其中發生最多的是竊取組織內部信息資產，這些信息資產包括但不限于用戶數據信息、金融/財務信息、知識產權、內部人員信息等。信息竊取過程中，惡意員工通常通過企業的數據庫服務器、文件服務器、OA應用/業務應用、終端等獲取內部信息，然后通過移動介質、郵件、網頁上傳等方式將信息轉移出企業內部。身份偽裝攻擊多表現為惡意員工竊取合法員工的身份，冒充他人身份發布惡意信息、執行破壞性操作等。系統破壞攻擊多為員工的報復性行為，通常表現為惡意刪除關鍵數據、刪除關鍵系統模塊等行為。通過監控用戶文件操作、郵件收發、外設使用、網絡瀏覽行為可以防范信息竊取威脅，監控用戶登錄、郵件收發、文件操作可以防范身份偽裝威脅，監控文件操作可以防范惡意系統破壞威脅。綜上所述，綜合分析員工審計日志中的登錄行為、文件操作行為、郵件收發行為、外設使用情況、網頁瀏覽記錄等內容，提取用戶的行為特征，進行行為畫像，能夠為檢測內部威脅行為提供解決方法。

3.2 行為特征提取和全細節行為畫像方法

企業審計日志中，用戶行為本身沒有分類標簽，且很難及時準確地判斷其是否具有威脅性。為海量日志人工標記標簽不僅耗時耗力，而且無法保證準確性。

全文搜索引擎技術通過掃描文檔中的每一個詞，對每個詞建立索引，指明該詞在文檔中出現的次數和位置，當用戶查詢時，檢索程序就根據事先建立的索引進行查找，并將查找的結果即時反饋給用戶[12]。

為用戶的歷史行為日志建立索引，并存儲到搜索引擎數據庫中。當新的行為數據到來時，檢索該行為模式在歷史行為中出現的次數以及出現的時間節點等信息，通過與歷史行為對比，可以判斷新行為是否為異常操作。本文將全文搜索引擎技術作為聯系用戶新行為和歷史行為的橋梁。在訓練階段，將之前某一段時間內的歷史用戶行為數據作為正常數據索引并存儲至搜索引擎數據庫中，作為初始搜索的基礎數據。之后，對新的行為進行全文搜索，可以得到新行為是否出現在歷史行為記錄中以及在歷史行為中的占比，進而將字符型的日志數據轉化為方便處理的數值型向量。

由于用戶歷史行為不具有分類標簽，傳統的二分類方法不能很好地適應該問題。在模型訓練階段，本文假設開始一段時間內用戶行為日志中不包含惡意行為。由于一分類支持向量機對數值型向量分類具有良好的分類效果，本文將OCSVM作為基礎分類器。OCSVM集群能夠有效降低單模型中數據過擬合導致的誤報、漏報問題帶來的影響，并能夠隨著時間推移學習用戶行為模式變化，實現行為模式的在線更新，提高建模的健壯性和穩定性，于是，本文提出利用一分類支持向量機集群對用戶歷史行為模式進行細節畫像的方法。

首先將用戶單類行為序列按時間順序，以某固定時間窗口（例如 7 d）為單位劃分為不同的行為塊。同時，保證每一個行為塊中包含用戶工作日和休息日的行為數據，這樣可以較為全面地描述一段時間內的行為模式。利用每一個行為塊中的數據訓練得到一個OCSVM分類器。保存時間最近的v個數據塊形成的分類器集合M={M1,M2,…,Mv}，構成OCSVM集群。當新來數據時，取M個分類器得分的平均值作為新數據的異常得分。一分類支持向量機集群如圖1所示。

3.3 隱馬爾可夫全局畫像和行為序列劃分方法

一分類支持向量機集群可以對用戶單個行為的細節進行畫像，能夠有效判斷單類行為的異常。但是當內部攻擊者具有組織安全防御機制的相關知識，并采取一定的規避措施時，僅利用單類行為判斷用戶是否存在攻擊行為的準確性有所降低。此時，整合多類行為數據，能夠更好地刻畫用戶全局行為模式。本文采用隱馬爾可夫模型，提取用戶全局行為序列，揭示隱藏在行為背后的業務邏輯，預測業務狀態的轉移概率。

隱馬爾可夫模型（HMM，hidden Markov model）是結構最簡單的動態貝葉斯網絡，是一種著名的有向圖模型，主要用于時序數據建模[13-14]。隱馬爾可夫模型是馬爾可夫鏈的一種，它的狀態不能直接地觀察到，但能通過觀測向量序列觀察到，每個觀測向量都是通過某些概率密度分布表現為各種狀態，每一個觀測向量由一個具有相應概率密度分布的狀態序列產生[14]。

如圖2所示，隱馬爾可夫模型中的變量可以分為2組。第一組是狀態變量{y1,y2,…,yn}，其中yi∈Y表示第i時刻的系統狀態。通常假定狀態變量是隱藏的、不可被觀測到的，因此狀態變量又稱為隱變量。第2組是觀測變量{x1,x2,…,xm}，其中xi∈X表示第i時刻的觀測值。在隱馬爾可夫模型中，系統通常在多個狀態{s1,s2,…,sN}之間轉換，因此狀態變量yi的取值范圍Y通常是有N個可能取值的離散空間。

圖2 隱馬爾可夫模型的圖結構

圖2中的箭頭表示了變量間的依賴關系。在任一時刻，觀測變量的取值僅依賴于相對應的狀態變量，與其他狀態變量及觀測變量的取值無關。同時t時刻的狀態yt僅依賴于t-1時刻的狀態yt-1，與其余狀態無關。基于這種依賴關系，所有變量的聯合概率分布為

企業安全審計系統中，由于不同活動的監控器傳感器不同，同一類活動中所有用戶數據混合在一起。為方便后續操作，需要將行為日志進行預處理。首先，將日志數據庫中的不同日志數據，按照用戶ID進行重新劃分，將每個用戶的全部行為數據放到一個獨立的文件中。隨后，將每個用戶的行為按照發生的時間順序進行排序，得到用戶行為數據流。

圖1 一分類支持向量機集群

在隱馬爾可夫模型中，要求觀測序列離散且有限。因此需要將用戶行為數據流中的長序列劃分為便于處理的短序列。在現實生活中，由于用戶處理的業務流程不同，產生的行為序列也會存在差異。在進行業務切換時，用戶行為的間隔時間比業務進行時的間隔時間長。基于以上情況，本文假設相同業務狀態中用戶行為間隔時間Δ小于時間間隔閾值θ，在業務狀態發生切換時，Δ＞θ。根據時間間隔閾值θ可以將用戶行為序列流劃分為多個具有先后順序的短序列。

在相同的業務流程中，用戶的行為序列應大致相同。為保證觀測值的有限性，提升HMM模型預測效率，將劃分好的短序列根據萊文斯坦比進行k-means聚類。相似的短序列被聚到同一類中，于是，在進行HMM模型訓練時，可以用類名稱代替該類中的所有短序列。得到觀測值集合X={x1,x2,…,xm}，其中xi∈X表示第i時刻的觀測值所在的類名稱。

4 系統實現

在內部威脅檢測中，由于獲取攻擊行為樣本代價高、難度大，且正負例樣本比例嚴重失衡，傳統的二分類方法不能很好地適應該問題。因此，在畫像提取部分，只能對單類行為細節和全局行為序列特征進行學習，并分別形成一個對正常用戶行為的數據描述模型。而后，根據設定的閾值判斷新行為樣本的歸屬。利用上文介紹的隱馬爾可夫模型和單分類支持向量機集群構建集成學習方法，組成一個提取用戶畫像、計算用戶行為異常得分的框架。用戶行為模式畫像框架如圖3所示。

4.1 日志解析器

由于企業數據的機密性、隱私性等原因，目前無法獲取到真實企業中的數據為本文方法進行訓練和測試。因此，使用目前認可度較高的 CMUCERT集成數據集作為實驗數據源。

CMU-CERT數據集是由美國國防部高級研究計劃局（DARPA, defense advanced research projects agency）贊助的卡耐基梅隆大學內部威脅研究中心與ExactData公司合作，從真實企業環境中采集數據構造的一個內部威脅測試集。該數據集模擬了惡意內部用戶實施系統破壞、信息竊取與身份偽裝 3類主要的攻擊行為。除攻擊行為數據外，還包含了大量正常的背景數據。在該數據集中，企業審計日志包含5個分別記錄不同用戶活動的文件。這5類活動是登錄（login）、外設使用（device）、電子郵件（e-mail）、網頁（Web）、文件讀寫（file access）。解析每一條數據可以得到時間戳（timestamp）、用戶 ID（userID）、設備 ID（deviceID）、活動名稱（activity）等信息，部分活動可能包含更多的信息，本文中統稱為活動屬性（attribute），例如電子郵件包含收件人、發件人、郵件內容等。CMU-CERT數據集用戶行為活動的具體內容如表1所示。

表1 CMU-CERT數據集用戶行為活動內容

針對不同活動的屬性，在解析過程中，需要進行一定的處理。在電子郵件活動中，考慮到真實企業環境中郵件內容的機密性，將郵件內容和附件信息直接舍棄，不進行處理；在發送的郵件中，將收件人信息加入活動屬性；在接收的郵件中，將發件人信息加入活動屬性。在文件讀寫活動中，將路徑和文件名加入活動屬性。在網頁瀏覽中，將 URL信息加入活動屬性。登錄和外設使用兩類活動不包含屬性數據，將其活動屬性設為空(None)。

圖3 用戶行為模式畫像框架

最終，每一條日志可以解析為一個五元組(timestamp,userID,deviceID,activity,attribute)。

4.2 行為序列劃分和全文搜索引擎特征提取

圖3中，日志解析器首先將原始日志數據按照用戶 ID劃分為不同的數據流。隨后將數據流分別進行行為序列劃分和特征提取。行為序列劃分如算法1所示。

算法1首先計算相鄰行為之間的時間間隔，當時間間隔ti小于時間間隔閾值θ時，將行為劃分到相同的短序列中；當時間間隔ti大于時間間隔閾值θ時，開啟一個新序列，后一個行為被劃分到新序列中。當用戶行為序列按照時間間隔閾值劃分為多個短序列時，根據序列相似度，對所有短序列進行聚類。最后，輸出聚類后的序列集合。

ES（elastic search）是一款基于apache lucence的開源的實時分布式搜索和分析引擎，能夠以極高的速度處理大規模數據，實現穩定、可靠、快速地實時搜索，是當前流行的企業級搜索引擎。在實現過程中，本文使用開源的ES作為全文搜索引擎的技術支撐。

對于每條活動記錄，按算法2進行全文搜索，得到特征向量V。

算法2中，對userID,deviceID,activity,attribute，timestamp進行組合查詢，得到相應的查詢數hit_num，并計算不同hit_num之間的比值關系，最終輸出由不同的比值關系組成的行為向量。算法2中，用戶行為時間區間設置為±30 min，實現過程中可以根據實際效果對該值進行調整。

從算法2中可以看出，pc_per_user值代表用戶使用此臺設備的頻率，當某用戶在一臺不常用的設備上進行操作時，該值趨近于 0；若某用戶在常用設備上進行操作時，該值趨近于 1。同樣地，當用戶執行的活動與其慣有活動存在明顯差異時，act_per_user也趨近于0。當用戶在某個異常時間點進行慣有操作時，act_time_per_user趨近于 0。當用戶訪問了歷史中不常訪問網頁或者拷貝了某項機密文件時，attri_per_user_i趨近于 0。綜合上述分析，當用戶操作出現異常時，特征向量V中的一項或幾項值會趨近于0。

4.3 行為畫像異常得分計算

前序活動完成后，將經過處理的行為類別和行為向量輸入行為畫像器進行異常得分計算。行為畫像器中異常得分的計算過程如圖4所示。

圖4 異常得分計算過程

圖 4中行為序列{a11,a12,…,a1n}構成觀測狀態x1，x1對應隱狀態y1。P12表示隱狀態y1向y2轉移的概率。當新序列{a21,a22,…,a2m}到來時，可以得到計算P1,2。對于每一個行為a2i，利用之前訓練好的OCSVM集群可以得出該行為的異常得分si。最終，新序列的異常得分為

當隱狀態y1向y2轉移的概率很大，且行為序列中的活動為用戶歷史常做活動時，異常得分S值趨近于1。反之，當隱狀態y1向y2轉移的概率很小，或行為序列中出現歷史罕見活動時，S值趨近于0。

最后，根據選定的得分閾值判定當前行為是否為異常。判定為異常行為時，系統向安全運維人員發出警報；判定為正常行為時，將當前行為數據存儲至全文搜索引擎，更新歷史用戶行為模式。

5 實驗驗證

為驗證文中所提方法的有效性，本文利用Python語言開發了原型測試系統。測試環境操作系統為 CentOS 7，CPU 為 Intel i7-4790 @3.60 GHz ，RAM 為16 GB，硬盤為1TB 機械硬盤。

5.1 實驗數據

CMU-CERT數據集包含企業內部4 000名用戶500 d的所有活動記錄，部分記錄為攻擊活動。由于實驗條件的限制，對所有用戶數據進行實驗，會耗費大量的時間，且不利于模型參數的調校。本文選取用戶 CMP2946和用戶 CDE1846進行實驗驗證。根據CMU-CERT中的異常行為標簽，可知該用戶前90 d的數據中不包含攻擊數據。實驗中選取前90 d的數據作為訓練數據，提取正常用戶行為畫像，剩下410 d的數據作為測試數據。測試過程中，當用戶行為判定為正常后，也會被加入到正常數據中，用于充實和更新正常用戶畫像。

根據CERT數據集的介紹，用戶CMP2946和用戶 CDE1846，涉及兩個完全不同的內部威脅場景。用戶CMP2946從某天開始瀏覽求職網站，向競爭單位發出求職申請，并在離開公司之前，使用可移動存儲設備偷竊公司數據。用戶 CDE1846登錄其他用戶的機器找尋機密文件信息，將找到的機密文件通過E-mail發送到私人郵箱中。兩用戶所有活動中包含的惡意行為如表2所示。

表2 內部威脅場景中惡意行為信息

5.2 評價標準

為評判本文提出方法的有效性，需要結合多個不同的指標作為評價標準。在內部威脅檢測中僅用一個指標很難準確評價系統的效果，查準率（P，precision）、查全率（R，recall）、F1 得分（F1，F1-score）是經常用來評價模型效果的重要指標。

對于二分類問題，可將樣例根據其真實類別與分類器預測類別的組合劃分為真正例（TP，ture positive）、假正例（FP，false positive）、真反例（TN，true negative）、假反例（FN，false negative），令TP、FP、TN、FN分別表示其對應的樣例數，則顯然有TP+FP+TN+FN=樣例總數。分類結果的混淆矩陣如表3所示。

表3 分類結果混淆矩陣

查準率P和查全率R是一對矛盾的度量，一般來說，查準率高時，查全率往往偏低，反之亦然。查準率P、查全率R分別定義為F1是基于查準率和查全率的調和評價，定義如式(5)所示。

受試者工作特性曲線（ROC曲線，receiver operator characteristic curve）是反映敏感度和特異度連續變量，評價系統有效性的綜合型指標。根據學習器的預測結果對樣例進行排序，按此順序逐個把樣本作為正例進行預測，每次計算出假正例率和真正例率，分別以它們作為橫、縱坐標作圖就得到了ROC曲線。AUC(area under curve)即ROC曲線下面的面積，AUC越大模型效果越好。一般來說，AUC接近 1時，實驗取得了較理想的效果，AUC在0.7～0.9時，實驗的準確性較高。

5.3 實驗結果

在劃分觀測序列時，不同的時間間隔對序列長短、序列數量以及序列劃分的有效性會產生不同的影響。為選取合理的時間間隔，方便后續實驗開展，在其他實驗參數固定的情況下，分別對2 min、5 min、10 min的時間間隔進行驗證。圖5展示了2個不同用戶在不同的時間間隔下，14 d活動的異常得分分布情況。可以看出，當時間間隔為2 min時，序列劃分數量比5 min、10 min時要多，且得分分布較分散，此時異常得分均值分別為0.37和0.205，方差分別為0.073和0.037。時間間隔為10 min時，序列數量急劇減少，一個序列中包含的活動數量增加，但當一天中用戶活動數量較少時，不能很好地表現用戶工作狀態的轉換情況，此時得分的均值分別為0.228和0.069，方差分別為0.039和0.008。綜上比較，最終選擇5 min為合理的活動序列劃分時間間隔，此時得分的均值分別為0.217和0.151，方差分別為0.027和0.034。

將5 min作為用戶行為觀測序列的劃分間隔，進行后續實驗。用訓練好的畫像器預測剩下的410 d中的活動，得到圖6中的異常得分圖。從圖6可以看出，隨著時間的推移，每個活動的異常得分趨于平穩，由于隱馬爾可夫模型中部分隱狀態的轉換概率較小，存在少部分活動得分小于 1 × 1 0-4。

圖5 不同時間間隔下異常得分分布

圖6 測試數據異常得分

選取不同的得分閾值作為異常行為的評判標準，訓練模型的檢測效果也會有所不同，如表4所示。

在實際工作中，不同的企業對查全率和查準率的要求不同。在安全級別較高的企業中，漏報惡意行為會引起較大損失，該類企業更傾向于低漏報率。一般企業中，當異常行為排查難度大時，高誤報會加大安全工程師的工作量，降低正常員工的滿意度和工作積極性，該類企業更傾向于低誤報率。企業可以根據自身特征選擇合適的評定閾值。從表4中，可以得出，用戶CMP2946、用戶CDE1846、整體均在10-7時取得最大F1。通過實驗結果可以看出，該系統中，異常行為的得分趨近于0。

系統的ROC曲線如圖7所示。從圖7中可以看到用戶CMP2946的AUC達到了0.95，系統整體的AUC為0.88。

為充分表現本文所提方法的有效性，就查準率P、查全率R、F1得分、AUC這4項指標與現有研究方法進行了對比。本文第2節對內部威脅檢測領域中現有方法進行了介紹，并對部分方法的優缺點進行了分析。鑒于上述文獻中的方法并未提供用于測試的開源代碼，且根據文獻描述無法完全復現實驗細節，這里選取與本文使用相同數據集(CMUCERT)進行實驗的文獻[5]和文獻[6]作為性能對比對象。文獻[5]中使用查準率P、查全率R這2項指標對實驗結果進行的評價，此處根據F1定義計算得出其F1得分。文獻[6]中使用AUC作為評價實驗結果的標準，但全文未出現查準率P、查全率R的確切數值。表5展示了3種方法的性能對比，表中文獻[5]和文獻[6]的數據選取自其原文中最優的實驗結果。

圖7 系統ROC曲線

表5 實驗結果對比

從表5中的數據對比可以看出，本文方法在保證高查準率的同時，能夠得到較高的查全率，F1得分為0.925遠高于文獻[5]的0.591。同時，本文方法整體AUC得分為0.88，大于文獻[6]中最優實驗結果0.83。通過對比，進一步證明本文提出的方法具有可行性。

表4 不同得分閾值下模型效果

6 結束語

隨著信息化時代的全面到來，企業核心業務及機密信息都存儲于信息系統。內部威脅攻擊發生在企業內部，具有隱蔽性強、破壞性大的特點，直接威脅到企業的核心利益，造成嚴重危害。

本文針對當前標簽式畫像方法特征提取過度依賴人工，對用戶行為模式畫像缺少細節、不夠全面等問題，提出了一種使用全文搜索方法的全新的自動化行為細節特征提取方案。通過自動化提取行為細節特征，利用一分類支持向量機集群構建了全細節單類行為畫像。采用隱馬爾可夫模型，整合多類行為數據，提取用戶行為序列，揭示隱藏在行為背后的業務邏輯，預測業務流程的轉移概率，刻畫了用戶全局行為模式。通過構建全細節行為畫像與業務狀態轉移預測相結合的用戶行為模式畫像框架，充分提取并利用了審計日志中的用戶行為信息，可以較全面地刻畫用戶行為模式，有效提高企業內部用戶異常行動判定準確率。

利用 CMU-CERT數據集對方法的有效性進行了驗證，異常行為檢測查準率為 0.999，單用戶的AUC得分高達0.95，系統整體AUC得分為0.88，充分證明了本文方法的有效性。本文提出的框架為企業安全運維人員建立用戶行為模式畫像，有效檢測惡意用戶行為具有一定的借鑒意義。