999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監督子空間聚類的協議識別方法

2021-11-05 01:29:30朱玉娜張玉濤閆少閣范鈺丹陳韓托
計算機應用 2021年10期
關鍵詞:特征方法

朱玉娜,張玉濤,閆少閣,范鈺丹,陳韓托

(1.中國人民解放軍91033部隊,山東青島 266035;2.中國人民解放軍91286部隊,山東青島 266003;3.中國人民解放軍信息工程大學,鄭州 450001;4.中國人民解放軍63850部隊,吉林白城 137001)

0 引言

隨著密碼協議在互聯網中的廣泛應用,與密碼協議相關的網絡流量日益增加,密碼協議識別已成為當前網絡安全領域的關鍵技術之一。

網絡上協議類型多種多樣,新類型協議不斷涌現,因此不僅需要準確識別已知協議,還需要擴展識別未知新類型協議。在協議識別領域,現有方法主要包括基于端口映射的識別方法、基于負載內容的識別方法[1]和基于流量統計特征的識別方法,其中,基于流量統計特征的識別方法[2-6]一般采用機器學習,只需要很少的計算資源就可以檢測發現新類型協議,并且避免了隱私問題,日益受到人們關注。根據協議數據集樣本的不同標記程度,可將基于統計特征的協議識別方法分為有監督、無監督和半監督三類。半監督協議識別方法兼具有監督方法準確度高和無監督方法檢測新類型協議的優點,更適宜于互聯網中的協議識別需求。文獻[2]提出基于高斯混合模型和隱馬爾可夫模型識別加密流量,文獻[3]提出基于卷積神經網絡識別虛擬專用網絡(Virtual Private Network,VPN)加密流量,文獻[4]提出基于深度神經網絡進行流量分類,文獻[5]提出一種基于近鄰傳播學習的半監督流量分類方法;但現有方法[2-5]大都選擇統一的統計特征集合,沒有考慮不同協議個體之間的差異,影響協議識別效果。為此,應引入特征權重來強化重要特征的積極作用,削減冗余特征的不利影響[6]。

子空間聚類方法分為硬子空間聚類方法和軟子空間聚類方法,在對數據樣本集聚類劃分類簇的同時,得到各個數據簇對應的特征子集。為提高協議識別的準確性,SubFlow[7]首次采用硬子空間聚類方法構建協議個體化特征庫并進行協議識別,但在提取協議特征階段,要求流量由同一類協議組成,不適用多種協議混雜的情況。軟子空間聚類相較硬子空間聚類方法具有更好的適應性和靈活性,已成為學術界的研究熱點,模糊子空間聚類(Fuzzy Subspace Clustering,FSC)[8]是其中的典型方法。

為提高基于統計特征的識別效果,本文結合半監督學習和模糊子空間聚類(FSC)方法,提出一種新的半監督子空間聚類協議識別方法(Semi-supervised Subspace-clustering Protocol Identification Approach,SSPIA),對統計特征進行加權,獲取各個特征的權重系數,以構建個體化的協議實例特征庫,并用于后續協議識別。

1 SSPIA總體框架

SSPIA總體框架主要包括4個階段,如圖1所示。

圖1 SSPIA總體框架Fig.1 Overall framework of SSPIA

1)數據預處理。按照網絡流5 元組定義對協議流量分流,并提取統計特征,將網絡流抽象為一組統計特征值構成的屬性向量。數據包大小、包到達時間間隔是網絡流中用于協議識別的關鍵特征[9]。Haffner等[10]指出只需要流的前64 B負載就可以確定協議識別特征,因此本文關注的統計特征為前N個數據包的大小、包到達間隔時間以及流中前64 B 負載字節值的分布。

2)已知標簽樣本流約束。半監督學習能夠使用有限數量的有標簽樣本和大量無標簽的樣本進行學習。首先,基于三元組性質對有標簽樣本進行擴展,獲取更多先驗信息;隨后,利用有標簽樣本獲取先驗約束條件,將有標簽的樣本流轉化為成對約束信息,得到must-link約束集合和cannot-link約束集合。

3)基于SFSC 的特征加權。結合模糊子空間聚類(FSC)方法和半監督學習的成對約束,提出半監督模糊子空間聚類(Semi-supervised Fuzzy Subspace Clustering,SFSC)算法,利用成對約束信息來指導聚類過程,建立類簇和協議類型映射的同時,得到不同類簇各個特征的權重系數,并將特征和特征權重系數、類簇距離閾值存入協議實例特征庫。

4)密碼協議在線識別。在線提取實際網絡環境下的網絡數據報文特征,并根據協議特征庫的識別規則識別網絡報文所屬協議類型。

2 已知標簽樣本流約束

2.1 擴展有標簽樣本

文獻[11]中研究表明,在給定的一段時間內,具有相同三元組(destination_ip,destination_port,transport_protocol)的流來自同一應用。根據三元組性質,與同一主機指定端口相連的多個流屬于同一類型協議,因此,若某一無標簽樣本與有標簽樣本的三元組相同,則可以將有標簽樣本的協議類型標記給該無標簽樣本,從而獲取盡可能多的先驗信息。

記預處理后的數據集D={x1,x2,…,xn};D中有標簽樣本組成的集合為A={xl1,xl2,…,xlm},相應的協議類型標簽集合為La={yl1,yl2,…,ylm},A?D,xli∈A|1 ≤i≤m對應的協議類型標簽為yli∈L|1 ≤i≤m;無標簽數據組成的集合為B={xu1,xu2,…,xuk},B?D,A∪B=D。

提取數據集D中每個樣本流對應三元組(destination_ip,destination_port,transport_protocol)。記xli∈A|1 ≤i≤m為有標簽樣本流,其相應的協議類型標簽為yli,xuj∈B|1 ≤j≤k為無標簽樣本流。若xli和xuj對應的三元組相同,根據三元組性質,則xuj對應的協議類型也為yli。對xuj的協議類型進行標記,并將其放入有標簽集合中,從而可以獲取更多的先驗信息。

2.2 構建約束集合

Wagstaff等[12]將兩種成對約束must-link(用于限制兩個樣本必須屬于某一類)和cannot-link(用于限制兩個樣本不屬于同一類別)引入到半監督聚類方法中,其基本思想是:給定數據集、must-link 構成的正約束集以及cannot-link 構成的負約束集,要求每一步數據集的劃分都滿足must-link連接的樣本劃分到同一個類簇中,滿足cannot-link連接的樣本劃分到不同的類簇中,最終得到的類簇劃分結果滿足所有成對約束信息。

本文與之類似,若兩個有標簽樣本流Xi、Xj標簽類型相同,屬于同一類,則滿足 must-link 約束,記為(Xi,Xj)∈Mustlink。若兩個有標簽樣本流Xi、Xj標簽類型不同,不屬于同一類別,則滿足cannot-link 約束,記為(Xi,Xj)∈Cannotlink。

將有標簽的樣本流轉化為成對約束信息,得到兩個約束集合——must-link 集合SML和cannot-link 集合SCL,其中mustlink 約束在樣本集上滿足自反、對稱、傳遞關系。在確定某個約束關系后,利用約束的傳遞關系,可以得到更多同種類型和不同類型的IP 流約束信息。即若(Xi,Xj)∈Mustlink且(Xi,Xk)∈Mustlink,則 (Xj,Xk)∈Mustlink;若 (Xi,Xj)∈Cannotlink且(Xi,Xk)∈Mustlink,則(Xj,Xk)∈Cannotlink。

隨后設置違背約束的條件VIOLATE-CONSTRAINTS。記d、d1為數據集兩個樣本點,z為劃分的某一類簇,d∈z,則違背約束條件函數VIOLATE-CONSTRAINTS(d,z,SML,SCL)為:1)對每一個(d,d1)∈SML,若d1?z,則返回True;2)對每一個(d,d1)∈SCL,若d∈z,則返回True;3)其余情況,返回False。

3 基于SFSC的特征加權

為保證FSC 結果滿足給定的成對約束,結合半監督學習和FSC 方法,提出SFSC 算法,用給定的約束集合SML和SCL指導FSC的聚類過程。

SFSC 算法輸入為:樣本數據集D={x1,x2,…,xn}、mustlink約束集SML?D×D、cannot-link集合SCL?D×D、類簇數目k、模糊加權指數α,協議類型標簽集合L={L1,L2,…,Lm},其中L通過有標簽樣本對應的標簽集合Le獲取,Le中元素可能是重復的,統計Le中互不相同的類別標簽,得到協議類型標簽集合L。

輸出為:類簇U,類簇中心矩陣Z,Z對應的類型標簽LZ,特征加權系數矩陣W。

3.1 初始點選擇算法

FSC 方法對初始點較為敏感,初始類簇中心的選擇直接影響聚類效果,選擇不當容易陷入局部最優解。為此,SFSC方法在結合成對約束的基礎上,與K-mean++類似選取彼此距離盡可能遠的k個樣本點作為初始點。

記有標簽樣本點的協議類別數目為k1(k1≤k)。首先從數據集D中選擇1個有標簽樣本點作為第1個類簇中心,隨后的k1-1 個樣本點從有標簽樣本集合中依據規則x|max(min(d(x,zi)))選取。具體而言:1)記已選取的類簇中心集合為z={z1,z2,…,zn'}|n'≤k1-1,首先在有標簽樣本集合中查找與類簇中心集合z中類別標簽不同的樣本點集合X,若某一有標簽樣本點與z中所有元素都構成cannot-link 約束關系,則將該樣本點并入集合X中。2)對樣本點集合X中的每一個元素x,計算x與已選取類簇中心zi|zi∈z,1 ≤i≤(k1-1)之間的距離d(x,zi),并取其最小值d(x)=min(d(x,zi)),確定x與最近類簇中心之間的距離;3)從X中選取一個元素作為新的類簇中心,選取依據是:d(x)較大的點,表示該樣本點離所有已選取類簇中心的距離較大,則該樣本點被選取作為類簇中心的概率較大。

若k1

3.2 SFSC聚類

SFSC 與FSC 最大不同之處在于:當基于W和Z更新類簇劃分時,對每一個樣本點di,查找與其加權距離最近的類簇中心Zj,并使得該樣本點不違背給定的約束條件(VIOLATECONSTRAINTS(di,zj,SML,SCL)==False),保 證有must-link 約束的兩個樣本點在同一個類簇,有cannot-link 約束的兩個樣本點在不同的類簇中。

SFSC算法步驟如下所示。

步驟1 從協議數據集D中利用初始點選擇算法選擇k個中心點。

步驟2 SFSC 聚類。初始化特征加權系數矩陣W,并利用約束條件引導聚類過程,對每一個樣本點di,根據FSC 迭代公式估計整個協議數據集的類簇劃分U,并保證不違背約束條件;而后利用FSC迭代公式更新U、W以及類簇中心矩陣Z,直到目標函數收斂。在目標函數收斂后可以得到整個協議數據集的類簇劃分U,類簇中心矩陣Z,特征加權系數矩陣W。

步驟3 建立類簇與協議類型的映射,將類簇中包含最多數目的類型標簽賦給該類簇。記協議類型集合為L={L1,L2,…,Lm},類簇中心集合為z={z1,z2,…,zn'},根據最大似然估計,可以得到類簇zj與協議類型Ls(1 ≤s≤m)的映射函數為l(zj)=arg maxp(l=Ls|zj)=arg max(/Nj),其中,為類簇zj中協議類型Ls的樣本數目,為類簇zj中無標簽樣本的數目;Nj是類簇zj的樣本數目。若某類簇中,不包含任何有標簽的樣本流,則認定其為未知協議類型,標記為“未知類型ut”,其中ut初始值為1,每出現一個未知協議類型的類簇,ut值增加1。

3.3 將協議特征存入協議實例特征庫

記x' 為某一樣本點,zj為第j個類簇的中心,wj=[wj1,wj2,…,wjd]為該類簇的特征加權矢量,則x'與zj的加權歐氏距離為d(x'-zj)=。借鑒文獻[11]的思想,基于類簇內距離的方差對每一個協議類簇設定距離閾值rj=T×,其中,表示第j個類簇內加權歐氏距離的方差,用于描述類簇內距離的離散程度,T為正值參數,用于調整方差對rj的影響程度。如果d(x'-zj)

在確定類簇對應的協議類型后,將該類簇中心相關的統計特征值和特征加權系數、類簇距離閾值存入協議實例特征庫,以用于后續識別。

4 實驗評估與結果分析

選取安全套接層(Secure Sockets Layer,SSL)協議、安全殼(Secure SHell,SSH)協議、NS(Needclham-Schroeder)公鑰協議、sof 協議、Skype 這5 類經典密碼協議進行實驗,驗證SSPIA的聚類質量和協議識別性能,其中,SSL、SSH 和Skype 協議是網絡中廣泛應用的密碼協議;NS 公鑰協議和sof 屬于經典基礎密碼協議。

協議流量數據集由4部分組成,如表1所示。

表1 協議數據集Tab.1 Protocol dataset

對協議流量數據集進行預處理,Wireshark 軟件內嵌一個Lua 語言執行引擎,并提供一系列Lua 腳本函數接口?;贚ua腳本可以編寫Wireshark插件,實現協議識別、協議報文解析,也可以獲取Wireshark 提供的與協議相關的信息,例如通信雙方IP、端口、載荷內容、數據包大小、包到達時間間隔等。

數據集分為兩部分:一部分為訓練集,從SSL、SSH、NS、sof 協議流量中分別提取500 個完整會話,用于獲取協議統計特征及其相應的特征權重系數。隨后,對數據集設置標簽率p(即有標簽樣本占總樣本的比重),從數據集中隨機抽取標簽率為p的樣本標記其協議類型,作為有標簽樣本,其他樣本則不標記協議類型,作為無標簽樣本;其余部分作為測試集,用于測試識別結果。協議在網絡運行中以IP 數據包形式進行傳輸。數據包結構為網絡層協議頭部||傳輸層協議頭部||應用層協議報文。在Wireshark 捕獲報文后,基于Lua 腳本獲取與協議相關的信息,對每一個到達的數據包,根據雙向流定義進行分流,并依據密碼協議特征庫內容,在線提取實際網絡環境下獲取的流及流中報文的相關特征,提取流的端口特征FlowPort、流中前64 B 負載字節的值(包括負載內容的值ContentValue、偏移ContentOffset)、流量統計特征(包括數據包大小PacketLength、包到達時間間隔PacketIntervalTime 等)。對數據包所在流的識別操作也主要利用這些特征屬性進行。與訓練集相比,在測試集中包含了未訓練的Skype 協議,用于檢測識別方法發現新協議的能力。

4.1 SSPIA評價指標

聚類效果越好,構建的協議識別分類器也越精確。本文根據聚類效果和識別效果評價SSPIA。

1)聚類質量評價指標。

本文基于標準化互信息(Normarlized Mutual Information,NMI)和DBI(Davies-Bouldin Index)衡量SSPIA的聚類質量。

其中:X和Y分別為樣本集中表示協議類型和類簇標識的變量;I(X;Y)=為X和Y的互信息;H(X)和H(Y)分別為X和Y的熵。NMI(X,Y) ∈[0,1],值越大,表明聚類結果與真實情況越符合。當協議類型與類簇標識一一對應時,NMI(X,Y)=1。

其中:k為劃分的類簇數目為類簇Ci內的平均離散度,ci為類簇Ci的中心,d(ci,cj)為兩個類簇中心ci和cj的距離。DBI 指數越小,說明同一類簇內部越緊密,不同類簇之間越分散,聚類質量越好。

2)識別性能評價指標。

采用識別率和誤識別率性能指標衡量識別效果。記測試集中某協議A的樣本數目為N。N1表示被正確識別為A的樣本數,N2表示非A被錯誤識別為A的樣本數,則:識別率RTP=N1/N,誤識別率RFP=N2/(N1+N2)。

4.2 參數設置

參數主要包括FSC模糊指數α、FSC類簇數目k、數據包個數Np、標簽率(即有標簽樣本在數據集中的比重)p、距離閾值rj中的T。

文獻[8]建議α設置在2 附近。與之相同,設置α=2.1。類簇數目k和數據包個數Np則采用NMI 進行設置。與文獻[5]相同,設置p=0.1。隨后在使用10%的標簽率下,計算不同聚類數目下的NMI值,如圖2所示。

圖2 不同聚類數目k下的NMI值Fig.2 NMI under different cluster number k

由圖2 可知,當k=4,Np=4 時,NMI 為最大值,聚類效果最佳。因此,本文設定k=4,Np=4。

對T值,本文依據文獻[13]方法進行設定。當k=4,Np=4時,在不同T值情況下,計算數據集中的樣本點與所有類簇中心的距離,若所有距離均小于給定的距離閾值,則該樣本標記為未知協議類型。統計不同T值情況下數據集中標記為未知協議類型的比例,如圖3所示。當T增大時,標記為未知協議類型的比例降低,相應地發現新協議類型的概率也隨著下降。將能夠較好標記協議類型的最小T值作為閾值,設定T=2.5。

圖3 不同T值下,標記為未知協議的比率Fig.3 Rate of protocols labeled to unknow under different T

4.3 結果分析

4.3.1 聚類質量結果

為說明SSPIA 的優勢,本文在相同條件下(標簽率p=0.1,數據包個數Np=4)運行傳統K-means 方法和FSC 方法,并利用NMI和DBI兩類聚類質量指標比較SSPIA、K-means和FSC,如表2所示。

表2 聚類質量比較Tab.2 Comparison of clustering quality

由表2 可知:1)與K-means和FSC相比,SSPIA的NMI值多數時候較大,因此SSPIA相應的類簇劃分更為合理。這是因為K-means和FSC對初始點選擇敏感,容易陷入局部最優解。在數據集中,NS公鑰協議和sof協議特征較為相似,采用K-means和FSC聚類,會出現若干類簇合并的現象,將NS公鑰協議流量和sof協議流量劃分為同一類簇。SSPIA由于引入半監督機制,可以較好引導類簇劃分,將NS公鑰協議流量和sof協議流量劃分為不同的2 個類簇,因此其NMI 值相對K-means 和FSC 大。2)對DBI 值進行比較,結果表明,SSPIA 和FSC 的DBI 值顯著小于K-means 的DBI 值。與FSC 的DBI 值相比,SSPIA 的DBI值多數情況下相對更小,或者比較接近。這表明:①在引入特征權重系數后,FSC 和SSPIA 形成的類簇相對K-means 方法而言,同一類簇之內更為緊湊,不同類簇之間更為分散。②由于引入半監督機制,能夠利用少量有標簽樣本指導協議識別模型的構建,SSPIA相對FSC聚類質量更好。

由上述分析可知,與K-means方法和FSC方法相比,SSPIA聚類質量更好,因此SSPIA構建的協議識別分類器也更為精確。

4.3.2 協議識別結果

由表2 可知,當類簇數目k=4 時,K-means 方法、FSC 方法、SSPIA 構建的協議識別分類器最為準確。本文采用相同條件下(k=4、標簽率p=0.1、數據包個數Np=4)構建的協議識別分類器對測試集進行識別,識別結果如圖4所示。

圖4 協議識別結果Fig.4 Protocol identification results

對SSL和SSH協議而言,由于FSC和SSPIA考慮了不同協議特征的權重,識別效果相較K-means、FSC更好。

對NS和sof協議而言:①K-means和FSC方法在訓練過程中,NS 公鑰協議流量和sof 協議流量劃分為同一類簇,導致無法識別sof協議,識別率為0;②由于K-means和FSC 方法無法識別sof 協議,導致其他協議樣本也未被錯誤識別為sof,誤識別率也為0,反而小于SSPIA 的誤識別率;③K-means和FSC方法大多數sof 協議均被識別為NS 協議,NS 協議的誤識別率較高,而SSPIA 由于引入半監督學習,在訓練過程中可以較好區分NS公鑰協議流量和sof協議流量,相應的識別效果也較好。

對Skype 協議而言,由于訓練集未訓練,K-means、FSC、SSPIA 均識別為未知協議,SSPIA 相較K-means、FSC 識別效果更好,發現新類型協議的能力更好。

5 結語

為提高基于統計特征的識別效果,針對統計特征的加權問題,本文提出SSPIA,結合半監督學習和子空間聚類方法,獲取各個統計特征的權重系數。SSPIA 首先引入成對約束——must-link 和cannot-link,將有標簽樣本流轉換為成對約束信息,獲取數據集的先驗約束條件;隨后,在FSC方法中加入成對約束,提出半監督模糊子空間聚類(SFSC)算法,對數據集進行聚類,并建立類簇和協議類型之間的映射關系;最后,獲取協議類簇中心對應的特征值、特征權重系數以及類簇的距離閾值,存入協議實例特征庫,并進行后續協議識別。實驗結果表明,針對基于統計特征的協議識別問題,與傳統K-means 方法和FSC方法相比,SSPIA聚類效果更好,相應的SSPIA構建的協議識別分類器和SSPIA協議識別效果也更為精確。

但本文方法還存在一定的局限性:1)僅針對5 個經典密碼協議進行實驗,以后需對更多協議進行實驗(例如無線傳感器多因素認證協議[14]、雙因素身份驗證協議[15])以驗證本文方法的有效性;2)本文捕獲流量為協議完整的運行過程,還需要考慮當捕獲流量不完整時的會話識別。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 热久久这里是精品6免费观看| 91无码人妻精品一区| h网站在线播放| 91丝袜乱伦| 欧美啪啪精品| 中文字幕在线永久在线视频2020| 亚洲视频三级| 久久semm亚洲国产| 国产乱子伦视频在线播放| 国产香蕉在线视频| 综1合AV在线播放| 中美日韩在线网免费毛片视频| 国产aaaaa一级毛片| 欧美无专区| 亚洲高清在线播放| 国产青榴视频在线观看网站| 亚洲无码久久久久| 亚洲中文字幕无码爆乳| 国产福利一区二区在线观看| 国产一级在线观看www色| 欧美五月婷婷| 天天色天天综合| 免费人成网站在线观看欧美| av手机版在线播放| 国产网站黄| 亚洲欧美日韩成人在线| 992tv国产人成在线观看| 亚洲swag精品自拍一区| 白浆免费视频国产精品视频| 亚洲欧州色色免费AV| 亚洲国产综合第一精品小说| 91精品啪在线观看国产| 在线不卡免费视频| 无码粉嫩虎白一线天在线观看| 美女毛片在线| 国产成人h在线观看网站站| 国产乱子伦视频在线播放| 国产精品视频a| 国产亚洲精品自在线| 高潮毛片免费观看| 中美日韩在线网免费毛片视频| 亚洲国产欧美目韩成人综合| 亚洲欧美成aⅴ人在线观看| 成人在线观看一区| 国产国语一级毛片在线视频| 亚洲中字无码AV电影在线观看| 制服丝袜国产精品| 久一在线视频| 国产精品对白刺激| 亚洲第一精品福利| 91国内视频在线观看| 欧美乱妇高清无乱码免费| 亚洲AV无码久久精品色欲| 97免费在线观看视频| 91麻豆国产在线| 亚洲欧洲自拍拍偷午夜色无码| 精品一区二区三区水蜜桃| 国产va在线观看| 国国产a国产片免费麻豆| 久久香蕉国产线看观看精品蕉| 99成人在线观看| 亚洲第一成年网| 国产玖玖视频| 亚洲欧洲AV一区二区三区| 色妞www精品视频一级下载| 久久综合丝袜长腿丝袜| 亚洲熟女中文字幕男人总站| 永久在线精品免费视频观看| 欧美日本视频在线观看| 日韩 欧美 国产 精品 综合| 666精品国产精品亚洲| 色噜噜狠狠狠综合曰曰曰| 久草国产在线观看| 亚洲性一区| h视频在线观看网站| 亚洲美女视频一区| 超碰色了色| 亚洲成在人线av品善网好看| 狠狠色丁香婷婷综合| 丝袜国产一区| 在线欧美一区| 福利视频一区|