邱 宏
(中國人民警察大學 智慧警務(wù)學院,河北 廊坊 065000)
隨著互聯(lián)網(wǎng)技術(shù)在各行各業(yè)的廣泛應(yīng)用和移動網(wǎng)絡(luò)技術(shù)的普及,電視商務(wù)等網(wǎng)絡(luò)活動越來越多,網(wǎng)絡(luò)空間處理并存儲的敏感信息不斷增加。因此,網(wǎng)絡(luò)安全管理成為一個亟待解決的問題。在分布式系統(tǒng)出現(xiàn)后,以防火墻、網(wǎng)絡(luò)安全監(jiān)控以及入侵檢測等為代表的傳統(tǒng)網(wǎng)絡(luò)安全技術(shù)手段逐漸不能滿足安全管理的需求。首先,目前的認證機制是基于用戶身份認證的,但在大規(guī)模分布式系統(tǒng)中,系統(tǒng)不一定熟知所有用戶。其次,傳統(tǒng)的安全管理機制對新的訪問條件無效,也沒有委托機制。最后,傳統(tǒng)的安全機制多是服務(wù)器實現(xiàn)所有的訪問控制,如果服務(wù)器層面安全失效,那么整個訪問控制策略會受到影響[1]。目前,人工智能技術(shù)在很多領(lǐng)域獲得了深入應(yīng)用。網(wǎng)絡(luò)安全管理技術(shù)和人工智能技術(shù)的結(jié)合,對網(wǎng)絡(luò)安具有重要作用,如基于聚類的入侵檢測和基于模糊聚類的信任模型等。
林果園等使用一種借助合法數(shù)據(jù)集對網(wǎng)絡(luò)進行重復(fù)訓(xùn)練的方法,降低了網(wǎng)絡(luò)安全攻擊的效果,提高了網(wǎng)絡(luò)抗攻擊的能力[2]。汪洋等利用公開的API重建網(wǎng)絡(luò)安全信任模型,證明重建的模型對各種人工智能算法都有效,可以有效防止網(wǎng)絡(luò)攻擊[3]。郭惠聽等在網(wǎng)絡(luò)結(jié)構(gòu)中引入一個附加層,并且增加了一個擾動噪聲,既能夠保持用戶網(wǎng)絡(luò)行為的準確性,又可以檢測網(wǎng)絡(luò)中的異常行為[4]。Wonhyung Park提出以數(shù)據(jù)融合模型為基礎(chǔ)的網(wǎng)絡(luò)安全架構(gòu),增加一個措施層,在面臨網(wǎng)絡(luò)攻擊時能夠提供可選擇的防護措施,從而幫助決策[5]。趙鵬飛提出一個層次化的網(wǎng)絡(luò)安全評估模型,在面臨網(wǎng)絡(luò)安全問題時采取先局部后整體的評估方法,有效結(jié)合了網(wǎng)絡(luò)性能、網(wǎng)絡(luò)架構(gòu)以及海量報警信息,但其信息來源只有入侵檢測報警信息一種,缺乏防火墻和系統(tǒng)日志等信息[6]。符江鵬構(gòu)建一種多層次多角度的網(wǎng)絡(luò)安全量化模型,采集入侵檢測和防火墻等多種信息源的數(shù)據(jù),保障了數(shù)據(jù)源的全面性和準確性[7]。
人工智能的一個重要應(yīng)用分支是模式識別。在具有已知模式類別和樣本數(shù)據(jù)屬性的情況下,分類訓(xùn)練所有非樣本數(shù)據(jù),以達到正確的分類效果。模式識別要求對分類的問題有足夠的先驗知識,預(yù)先設(shè)定的類別要足夠準確,否則在沒有先驗知識的前提下對數(shù)據(jù)進行分類需要借助無監(jiān)督的分類技術(shù),也就是聚類分析。
聚類分析根據(jù)最大化同類的相似性和最小化不同類的相似性原則,把所有的數(shù)據(jù)分成多個類別。同類別的數(shù)據(jù)具有較高的相似度。傳統(tǒng)的聚類分析方式是硬劃分,即數(shù)據(jù)樣本要么屬于A類,要么屬于B類或其他類,不存在哪個類別也不屬于的情況。這種非此即彼的劃分存在一定的缺點,因為多數(shù)對象并沒有嚴格的類別屬性,在類屬方面可能存在中介性。傳統(tǒng)的聚類分析方式割裂了樣本間的聯(lián)系,導(dǎo)致樣本數(shù)據(jù)分類時的偏差較大,容易出現(xiàn)局部最優(yōu)解的情況。
模糊聚類方法克服了傳統(tǒng)聚類分析在類別硬劃分上的缺陷,把數(shù)據(jù)樣本隸屬于不同類別的隸屬度擴展到一個區(qū)間。當數(shù)據(jù)樣本的隸屬度在此區(qū)間時,認為屬于某一類別,而不是根據(jù)絕對的屬于或不屬于來判斷。模糊聚類方法在對不同類別間的數(shù)據(jù)集進行分類時更加有效,分類效果遠遠優(yōu)于傳統(tǒng)的硬分類。
在聚類比較密集且不同類別間有明顯區(qū)別時,K-均值聚類算法有較好的效果。K-均值聚類算法在分類初始時選擇一個參數(shù)K,將所有的數(shù)據(jù)分成K個簇,每個簇內(nèi)有較高的相似度,而簇間的相似度較低。首先,隨機選擇K個對象,將其作為K個簇的初始平均值或中心。其次,計算剩余的每個對象與K個簇中心的距離,并將對象的類別設(shè)置為距離它最近的簇。再次,重新計算每個簇的平均值,并再次劃分剩余對象的類別。最后,不斷重復(fù)這一過程,直到收斂函數(shù)達到設(shè)定的閾值[8]。
將人工智能技術(shù)應(yīng)用于網(wǎng)絡(luò)安全時,常見的主要有數(shù)據(jù)搜索、行為建模和構(gòu)建畫像3層架構(gòu)。網(wǎng)絡(luò)安全中的人工智能技術(shù)架構(gòu)如圖1所示。

圖1 網(wǎng)絡(luò)安全中的人工智能技術(shù)架構(gòu)
數(shù)據(jù)搜集階段需要搜集的數(shù)據(jù)包括網(wǎng)絡(luò)行為數(shù)據(jù)、用戶偏好數(shù)據(jù)以及交易數(shù)據(jù)等。這些數(shù)據(jù)經(jīng)過如聚類算法、自然語言處理以及機器學習等人工智能技術(shù)的處理后,可以得到網(wǎng)絡(luò)用戶的行為模型。
行為模型的建模過程中,常用的人工智能技術(shù)包括聚類算法和機器學習等,對網(wǎng)絡(luò)安全管理具有重要作用。
用戶畫像是根據(jù)網(wǎng)絡(luò)用戶的行為習慣等信息,抽象得到一個標簽化的用戶模型。構(gòu)建用戶畫像的過程實際上是給用戶打標簽的過程。這些用戶標簽代表了用戶使用網(wǎng)絡(luò)過程中的各種信息特征。
均值聚類算法的優(yōu)點是計算簡單,收斂速度較快,因此在網(wǎng)絡(luò)安全領(lǐng)域得到了廣泛應(yīng)用,尤其是網(wǎng)絡(luò)入侵檢測方面。然而,K-均值聚類算法對初始值要求較高,如果參數(shù)K設(shè)置不恰當,容易出現(xiàn)局部極值點。
為了解決K-均值聚類算法初始化參數(shù)要求高的問題,可以借助克隆選擇算法優(yōu)化目標函數(shù)。使用基于克隆選擇的聚類方法進行網(wǎng)絡(luò)異常行為檢測時,需要滿足兩個條件:一是正常的網(wǎng)絡(luò)行為數(shù)目需要遠遠大于入侵網(wǎng)絡(luò)行為;二是入侵網(wǎng)絡(luò)行為的特征與正常網(wǎng)絡(luò)行為特征間需要存在較大差別。利用基于克隆選擇的聚類算法進行入侵檢測時,需要先使用克隆選擇算法進行聚類,將所有的網(wǎng)絡(luò)行為分成兩大類別,然后基于入侵網(wǎng)絡(luò)行為和正常網(wǎng)絡(luò)行為存在較大差別且數(shù)目相對少的原則,從所有網(wǎng)絡(luò)行為中檢測出異常。
基于克隆選擇的聚類算法在進行聚類時,主要操作步驟如下。
步驟1:需要先隨機生成初始群體,將初始群體每個個體解碼為對應(yīng)的二進制編碼特征組合;
步驟2:在新樣本集合中計算各個個體的親和度;
步驟3:檢查是否滿足迭代終止條件,如果達到迭代次數(shù)或者收斂函數(shù)滿足收斂條件,則將當前個體確定為最優(yōu)解,否則繼續(xù);
步驟4:執(zhí)行克隆操作,并將克隆出來的二進制特征編碼進行變異,然后再次計算親和度;
步驟5:重復(fù)步驟2~步驟4,直到收斂函數(shù)收斂[9]。
使用基于克隆選擇的聚類算法聚類后,再統(tǒng)計所有類別包含的數(shù)據(jù)量,并根據(jù)數(shù)據(jù)量從多到少進行排序。由于正常數(shù)據(jù)形成的聚類包含的數(shù)據(jù)量要遠遠大于異常數(shù)據(jù)聚類包含的數(shù)據(jù)量,根據(jù)預(yù)先設(shè)定的閾值,可以將包含的數(shù)據(jù)量多于此閾值的分類設(shè)定為正常類,而數(shù)據(jù)量小于此閾值的分類設(shè)定為異常類。
克隆選擇算法是群體搜索策略,具有并行性和搜索變化的隨機性,不會導(dǎo)致局部最優(yōu)解的問題,且收斂速度較快。因此,基于克隆選擇的聚類算法在入侵檢測中應(yīng)用廣泛,完全適用于大數(shù)據(jù)集的聚類分析。
網(wǎng)絡(luò)范疇中的信任指的是能夠根據(jù)證據(jù)或經(jīng)驗,判斷參與通信協(xié)議的實體是否遵守預(yù)先設(shè)置的規(guī)則集。顧名思義,信任模型是用于計算或判斷網(wǎng)絡(luò)節(jié)點可信任度的模型,主要作用是建立并管理網(wǎng)絡(luò)間的信任關(guān)系。常見的信任模型包括Beth信任模型和Josang信任模型。
Beth信任模型將經(jīng)驗定義為實體完成任務(wù)的情況記錄。如果實體完成任務(wù)成功,則增加其肯定經(jīng)驗,否則增加其否定經(jīng)驗。Josang信任模型引入證據(jù)空間和邏輯空間對信任關(guān)系進行描述,是一種基于主觀邏輯的信任管理模型。每個實體產(chǎn)生的事件被分成肯定事件和否定事件。證據(jù)空間表示為多個實體產(chǎn)生的可觀測事件,并根據(jù)二項分布得到觀測的肯定事件數(shù)目和否定事件數(shù)目決定的概率密度函數(shù),計算實體產(chǎn)生某個事件的可信度。
可以將推薦機制引入信任模型管理,如果請求節(jié)點i發(fā)起對節(jié)點j的信任度查詢,則網(wǎng)絡(luò)中和節(jié)點j曾經(jīng)存在直接交互的節(jié)點(稱為推薦節(jié)點)收到信息后,會將其保留的節(jié)點j的交互性信息發(fā)送給節(jié)點i。節(jié)點i收到所有推薦節(jié)點的交互性信息后,匯總推薦節(jié)點的認知信息,從而得到節(jié)點j的信任度集合。
節(jié)點i隨后計算節(jié)點j的信任度。首先,計算局部信任度,即兩個節(jié)點交互完成后,請求節(jié)點i根據(jù)節(jié)點j為其提供的服務(wù)進行評價。其次,計算聚合局部信任度。節(jié)點i根據(jù)得到的信任度集合計算信任度均值。最后,信任度評價。根據(jù)局部信任度和聚合的局部信任度,計算每個推薦節(jié)點與聚合局部信任度的方差。信任度方差高的節(jié)點標記為正常節(jié)點,而信任度方差低的節(jié)點標記為惡意節(jié)點。
為驗證信任管理模型,可以使用Query Cycle Simulator仿真包,在模擬P2P共享網(wǎng)絡(luò)的同時,實現(xiàn)信任管理模型的改進。仿真過程由多個查詢周期組成,每個查詢周期內(nèi)網(wǎng)絡(luò)節(jié)點的狀態(tài)是不一定的,可能處于在線狀態(tài)或離線狀態(tài)。網(wǎng)絡(luò)仿真設(shè)置如表1所示。

表1 網(wǎng)絡(luò)仿真設(shè)置
在分析仿真結(jié)果前,可以先進一步劃分惡意節(jié)點。簡單惡意節(jié)點在網(wǎng)絡(luò)系統(tǒng)中并不主動發(fā)起危害網(wǎng)絡(luò)安全的行為,但是在有網(wǎng)絡(luò)安全行為時可能會提供錯誤的信息。詆毀節(jié)點在評價其他節(jié)點的信任度時,會提供不真實的負面評價[10]。
對信任模型進行抗攻擊性仿真實驗后,對比不同信任機制下的成功率,并將成功率作為仿真的評價標準,可以得到如下結(jié)論。一方面,在系統(tǒng)沒有惡意節(jié)點時,網(wǎng)絡(luò)系統(tǒng)的成功率幾乎在95%以上。隨著網(wǎng)絡(luò)中惡意節(jié)點數(shù)目的增加,各種信任模型的成功率都會呈現(xiàn)下降趨勢。相比之下,Beth信任模型下降更快。另一方面,隨著詆毀節(jié)點的增加,Josang信任模型比Beth信任模型的成功率下降得更快,尤其是在網(wǎng)絡(luò)系統(tǒng)中詆毀節(jié)點的比例超過30%時。正如前文所言,Josang信任模型是一種基于主觀邏輯的信任管理模型,更易受到主觀因素的影響。
本文研究了基于人工智能的網(wǎng)絡(luò)安全管理技術(shù),介紹了聚類分析技術(shù)和常見的聚類方法,并將其應(yīng)用于網(wǎng)絡(luò)安全常見的異常行為檢測,同時闡述了信任管理模型并進行了仿真。結(jié)果表明,基于人工智能的網(wǎng)絡(luò)安全管理技術(shù)對網(wǎng)絡(luò)安全管理具有重要作用。