999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的二進制變種協議字段劃分方法

2024-04-23 04:34:42安曉明王忠勇翟慧鵬鞏克現
計算機工程與設計 2024年4期
關鍵詞:特征方法模型

安曉明,王忠勇,翟慧鵬,鞏克現,王 瑋+,孫 鵬

(1.鄭州大學 河南先進技術研究院,河南 鄭州 450000;2.鄭州大學 電氣與信息工程學院,河南 鄭州 450001;3.國家計算機網絡與信息安全管理中心河南分中心 技術保障處,河南 鄭州 450000)

0 引 言

隨著網絡協議種類的增加[1],大量的二進制未知協議被廣泛地應用于各種惡意網絡行為中,對網絡通信安全產生了極大的威脅[2,3]。二進制協議與文本協議相比報文缺少可識別的ASCII碼,其逆向分析工作具有較高的研究價值[4]。其中協議字段格式劃分是協議逆向分析中一個重要的研究方向[5]。未知協議通常可以分為兩類,一類是格式和語法未公開的協議,另一類是對開源協議的部分載荷進行了變化拓展的變種協議。本文主要針對二進制變種協議進行字段格式劃分。

現有的協議字段格式劃分方法有信息論投票[6,7]、序列對比[8]、概率統計[9,10]、頻繁項挖掘[11-13]等方法。分析發現,上述研究的核心是統計高頻關鍵詞及其位置以推斷協議字段劃分點,而關鍵詞與字段域未必等價,且二進制協議字段的關鍵詞和位置沒有那么固定,導致字段格式劃分的準確率大大降低。近年來,深度學習在數據高層特征提取上表現出了強大的能力[14]。Zhao等[15,16]將長短時記憶全卷積神經網絡模型應用到字段格式化分問題上。這類方法不局限于尋找固定的關鍵詞,但由于需要將字段進行嚴格對齊處理,僅適用于定長的協議,且部分字段無法準確確定其所屬類型,從而導致字段格式劃分的準確率降低。

基于以上分析,為了充分考慮協議報文數據的連續性,本文搭建了一種神經網絡模型PRO-BILSTM-CRF。將提出的一種提取協議報文序列字段列特征數據集方法與雙向長短時記憶(bi-directional long short-term memory,BILSTM)神經網絡進行融合,解決了BILSTM無法考慮字段變化規律的問題,并通過條件隨機場(conditional random field,CRF)的處理解決了預測標簽不合理的問題。與前人基于深度學習的方法相比,不再將問題轉化為關鍵字類型分類問題而是將其視為序列標注問題,利用BILSTM神經網絡捕獲協議報文中字段的局部關鍵特征、字段上下文特征等,不局限于處理定長協議報文數據,避免了字段分類困難的情況。

1 本文方法

1.1 基本框架

設計了一種二進制變種協議字段格式劃分方法,其框架如圖1所示,首先將協議報文序列數據集進行列特征提取得到對應的列特征數據集。再將協議報文序列數據集和字段列特征數據集進行標注處理生成訓練集,利用其對搭建的PRO-BILSTM-CRF神經網絡進行訓練,挖掘協議字段格式特征。然后,利用訓練好的模型對變種協議的報文序列數據集進行字段格式劃分預測,得到變種報文序列每行的字段格式劃分,最后,將劃分結果進行統計分析即可獲得變種協議的字段格式劃分方法。

圖1 基于深度學習的二進制變種協議字段格式劃分方法整體框架

1.2 字段列特征數據集與標記集

將二進制變種協議字段格式劃分問題看作序列標注問題,學習輸入的報文序列的字段格式特征,但是傳統的序列標注問題通常都不會關注元素在垂直方向上的變化規律。在二進制協議字段格式劃分任務中,數據字段在幀中的位置信息即垂直方向上的列特征是至關重要的,例如有些字段在幀中的位置較為固定,且有數值取值較為固定或數值遞增遞減等特點[17]。此類字段在字段格式劃分任務中較為特殊,在人工協議字段格式劃分和傳統未知協議字段格式劃分方法中都發揮著至關重要的作用。因此,在傳統BILSTM-CRF神經網絡的基礎上,增加了協議報文數據字段列特征提取的部分,并將其與協議報文數據字段特征進行融合。列特征數據集計算方法如下:

將協議報文序列以1 bit為單位切割成長度為L的數據段,長度不夠L的消息在末位補零,假設共有r行數據,則可構成如下協議報文數據集矩陣Ur×L

(1)

對矩陣Ur×L做如下處理

(2)

并將wij組成字段列特征數據集矩陣Wr×L,在Wr×L中可觀察到某些列取值或固定或遞增遞減或隨機變化的特點。然后將Ur×L和Wr×L轉換成16進制,得到以半字節為單位的協議報文序列數據集Ar×l和字段列特征數據集Dr×l

(3)

其中,l=L/4。

將式(3)中的協議報文序列數據集Ar×l和字段列特征數據集Dr×l按照協議規定進行字段格式劃分,并進行如下規則的序列標注:構造4元標注集:T={B,M,E,S}。 若字段長度為1,即由一個單位構成,則此單位標記為S。若字段長度大于1,則將字段開頭元素標記為B,將字段結尾元素標記為E,字段中間元素標記為M。例如,有字段“02ebd”則將其對應標注序列為“B M M M E”,字段“7”標注為“S”。通過上述規則對報文序列數據集和字段列特征數據集進行標注,得到神經網絡的訓練集。

1.3 PRO-BILSTM-CRF神經網絡模型

為了充分挖掘協議字段的深層特征,捕捉字段內單元的上下文序列信息,本文搭建了一個神經網絡模型PRO-BILSTM-CRF,其結構如圖2所示。模型由兩大部分組成,一部分負責處理協議報文序列數據集,另一部分負責處理字段列特征數據集,然后將兩個部分學習到的特征進行融合,根據得到的特征為每個元素進行標注。其中,詞嵌入層對輸入的字段進行編碼,將輸入的單元映射為對應的詞向量,作為各個時刻網絡的輸入。BI-LSTM層提取字段序列的抽象格式特征。全連接層將學習到的協議字段格式特征和字段列特征進行融合并分類。CRF層處理全連接層的輸出,結合標簽轉移特征給出最終合理的識別結果。

圖2 PRO-BILSTM-CRF神經網絡結構

1.3.1 Word2vec詞嵌入層

Word2vec模型可以根據字段間局部上下文語義信息的相關性,將半字節字段元素轉換成向量模式,便于神經網絡模型對特征進行抽取操作。

(4)

得到下一層兩個BILSTM模型的輸入α和β。

1.3.2 BILSTM模型

BILSTM是循環神經網絡(recurrent neural network,RNN) 中長短時記憶網絡(long short-term memory network,LSTM)的一種變體,能夠同時利用正向和反向的上下文信息,可以更好地捕捉雙向的語義依賴。在協議字段格式劃分任務上,BILSTM模型能夠充分考慮輸入字段單元的上下文元素信息,學習到字段中每個元素之間的聯系,不只關注單個輸入元素,能夠更加充分完整地學習字段特征。

圖3 BILSTM細胞單元結構

(5)

(6)

將兩個BILSTM模型提取到的字段特征htα和htβ進行拼接,得到融合字段特征矩陣Hr×l×n′, 其中n′=n1+n2,n1和n2分別為兩個BILSTM神經網絡的特征輸出維度。

1.3.3 全連接層

全連接層可將BILSTM層輸出的融合特征矩陣Hr×l×n′映射到標簽樣本空間 T={B,M,E,S}。 得到每個元素對應的各標簽的概率矩陣Pr×l×4

(7)

其中,Pij={pB,pM,pE,pS},pz(z∈{B,M,E,S}) 表示此處標簽是z的概率。

1.3.4 CRF層

通過對嵌入層、BI-LSTM層和全連接的訓練,可得到各單元對應各標簽的概率,此時的輸出并沒有考慮標簽間的關系,如標簽B的后面不可以直接連接B,標簽E的后面只能接B或S等。如果直接輸出全連接層的字段格式劃分結果,可能會存在標簽不合理的情況。為了處理此類問題,在全連接層后加一個CRF層來融合上下文標簽間的關系,讓模型的輸出更加準確合理。具體方式是CRF層對全連接層得到的標簽序列概率矩陣Pr×l×4中各標簽之間的轉移概率進行建模然后在所有標簽序列中選取一條最高得分的路徑作為最終標簽序列。若CRF模型預測序列ai={ai1,ai2,…,ail} 對應的標簽序列yi={yi1,yi2,…,yil}, 則分數定義為Score(ai,yi) 表示輸入序列ai,對應標簽序列為yi的概率分數,計算公式為

(8)

其中,Qyij,yi(j+1)表示標yij到標簽yi(j+1)的轉移概率,Pi,j,yij表示aij的標簽為yij的概率。求出最大的Score(ai,yi) 值,則對應的yi即為序列ai的最佳標簽序列。

2 實驗數據和結果分析

2.1 數據集來源

本文的研究對象是從122星、KU水平極化、986.034 857 MHZ信號收集到的LINKSTAR數據,其協議格式是基于DVB-RCS協議的變形設計,具有數據量大、數據變化多的特點,可滿足本方法訓練集所需數據變化多樣性的要求。數據集的具體規模見表1。

表1 數據集規模

數據集特點:

(1)以4 bit為最小分割單位,字段格式劃分不再以字節為單位,劃分結果更為準確;

(2)單條數據過長,最長可達3000多個單位;

(3)單條數據中存在含義相同內容不同的數據段的多次循環情況,且循環次數不固定。

根據LSTM網絡的特點,單條數據長度最好在250~500單位之間,并且根據協議數據循環的特點,若對過長的數據進行截短,截取足夠長的單位作為樣本數據,也可以推斷協議的字段格式劃分方式。本文將單條數據進行切割,只留單條數據的前400個單位作為訓練數據,實驗結果表明可以正確推斷出協議字段格式劃分。

2.2 評估標準

本文研究的問題可看成一個多分類問題,分類結果可以分為4種情況:

TP(true positive):預測字段格式劃分位置與真實字段格式劃分位置相同的情況。

TN(true negative):沒有字段格式劃分的位置被預測為沒被劃分的情況。

FN(false negative):本應被劃分的位置沒有被劃分的情況。

FP(false positive):本不應劃分的位置被預測為劃分的情況。

采用常用的準確率(ρ)、召回率(γ)、綜合評價指標(F1)來對字段格式劃分方法的性能進行衡量

(9)

其中,準確率(ρ)代表被正確劃分的字段數量占被劃分字段總數的比例。召回率(γ)代表被正確劃分的字段占實際劃分字段總數的比例。F1綜合衡量了準確率和召回率,當F1較高時表明實驗方法較為理想。

2.3 超參數設置

在實驗過程中,本文采用控制變量方法,對模型中的詞向量維度、LSTM隱藏層維度、Dropout等參數進行調優,確定了基于本文的數據集下的最優參數,見表2。

表2 超參數設置

(1)詞向量維度選取

詞向量維度代表了元素單元的特征,維度越大越能準確的將元素區分,但維度太大會弱化元素間的關系。因此在其它參數固定的情況下,設置了不同的詞向量維度進行對比實驗,對比結果如圖4所示。從圖4中可以看出,當詞向量維度為25時,綜合評價指標F1達到了最高值。

圖4 詞向量維度選取實驗結果

(2)LSTM隱藏層神經單元個數選取

LSTM隱藏層神經元的個數與學習到的特征數量有關,如果隱藏層神經單元數量太少學習到的特征不足會導致欠擬合;相反神經單元數太多,數據不足以訓練網絡中所有的神經元則會發生過擬合,且太多的神經元會導致神經網絡復雜度變大,泛化能力降低。因此在其它參數固定的情況下,設置了不同的神經單元個數進行對比實驗,對比結果如圖5所示,從圖5中可以看出,當LSTM隱藏層神經單元個數為64時,綜合評價指標F1達到了最高值。

圖5 LSTM隱藏層神經元個數選取實驗結果

(3)Dropout值的選取

在模型訓練過程中讓某個神經元的激活值以一定的Dropout概率停止工作,可以減少模型的過擬合現象。因此在其它參數固定的情況下,設置不同的Dropout值進行對比實驗,對比結果如圖6所示,從圖中可以看出當Dropout值為0.5時,綜合評價指標F1達到了最高值。

圖6 Dropout值選取實驗結果

(4)損失函數

模型所用的損失函數是CRF層的損失函數如式(10)所示,基本思想是在訓練過程中不斷更新神經網絡模型,使真實字段序列標簽路徑得分在所有可能序列標簽路徑得分和的占比最大

(10)

2.4 實驗結果分析

采用本文提出的PRO-BILSTM-CRF神經網絡進行二進制變種協議劃分,其結果見表3。單行字段格式劃分準確率最高可達87.4%。平均行字段格式劃分準確率為65.7%。

表3 字段格式劃分評估結果

進一步對PRO-BILSTM-CRF模型輸出的每條數據的字段格式劃分結果進行統計分析,方法如下:首先依次取每條數據的字段格式劃分結果,將每條數據中對應字段格式劃分位置的計數加一,全部數據都處理完后,對位置的出現次數進行篩選,閾值是總行數的1/10,篩選過后的位置即為最終的變種協議字段格式劃分方式。圖7是經過統計篩選后的變種協議預測字段格式劃分方式與變種協議真實字段格式劃分方式的對比圖,由于數據過長,此處只顯示前90個單位的字段格式劃分結果。

圖7 字段格式劃分總結結果

圖7中顯示的點即為應字段格式劃分的位置。對比預測結果與真實的字段格式劃分方式可以發現在預測結果中會出現多劃分的情況,其中多劃分的情況出現在60單位之后的位置,根據對實驗數據的分析,這種情況是由于從60單位向后的字段為循環字段,每條數據的循環段循環次數、循環起始位置可能不同,經過統計后就會出現多劃分的情況。若只關注循環前的字段格式劃分方式,本實驗得到的結果與真實的字段格式劃分方式幾乎相同,這反映了本方法的結果有較高的參考價值。

(1)對比實驗一:不同神經網絡模型的實驗結果對比

為了驗證提出的PRO-BILSTM-CRF神經網絡模型在二進制變種協議字段格式劃分問題上的有效性,設置幾個模型(LSTM、LSTM-CRF、BILSTM-CRF、PRO-BILSTM-CRF)進行對照實驗,在使用相同的數據集和超參數的情況下,比較字段格式劃分的準確率、召回率、F1值。實驗結果見表4。

表4 模型對比結果

從表4中可以分析出,首先LSTM模型與其它3種LSTM+CRF結構相比,反應整體性能的F1值都有所下降,這是由于單LSTM模型忽略了標簽結果間的轉移關系,出現了不合理的標簽組合,導致了最終準確率的下降。LSTM+CRF結構在LSTM層后加入了CRF層,充分考慮了標簽間的轉移關系,降低了不合理標簽組合出現的概率,能夠得到較為準確的結果。其次,BILSTM-CRF模型與LSTM-CRF模型相比,F1值也有所提高,這是因為BILSTM充分考慮了正向和反向的上下文信息,而單向的LSTM只能捕捉到正向的信息,對反向的信息并未捕捉到。另外本文提出PRO-BILSTM-CRF模型與BILSTM-CRF模型相比,F1值也有所提高,這是因為在所提方法中考慮字段格式劃分特有的字段變化特征即列特征,向模型中加入了列特征數據集特征提取部分,這能夠更好地挖掘協議字段格式。由上述分析可知,對于二進制變種協議字段格式劃分研究任務而言,本文提出的PRO-BILSTM-CRF模型與BILSTM-CRF、LSTM-CRF、LSTM模型相比更適用、更有效。

(2)對比實驗二:與現有協議字段格式劃分方法的實驗結果對比

將本文方法與現有未知協議字段格式劃分方法進行對比,方法一是秦等[11]提出的基于邊界投票算法的字段格式劃分方法。方法二是王[18]提出的改進的基于數據挖掘的字段格式劃分方法。實驗結果見表5。

表5 對比實驗二結果

從表5中可以發現,方法一的召回率(γ)高于其它兩種方法,其原因在于召回率代表被正確劃分的字段占實際劃分字段總數的比例,方法一將大部分可能的劃分點全部提出,犧牲了準確率,從綜合評價指標(F1)的值可以看出方法一結果的參考價值較小。表5表明本文方法的準確率和F1值都高于另外兩種方法,原因在于方法一和方法二的字段格式劃分依據數據中的位置和數值較為固定的關鍵詞或出現概率較大的關鍵詞進行字段格式劃分。本文的樣本數據,有些字段出現位置較為固定,但每條數據的字段數值都不一樣即出現頻率不夠大;有些字段雖然出現頻率夠大,但出現位置較為分散;數據中位置相對固定的字段較少。導致方法一和方法二不能得到很好的字段格式劃分結果。

3 結束語

目前二進制字段劃分方法存在依賴高頻關鍵詞或無法處理變長協議報文數據等問題。為此,提出了一種基于深度學習的二進制變種協議字段格式劃分方法,將BILSTM-CRF神經網絡應用到此問題上,并提出了一種具有針對性的PRO-BILSTM-CRF網絡模型。該方法向模型中加入字段格式劃分問題特有的字段變化規律即列特征來提高模型的準確率,以半字節為最小單位利用協議字段格式特征對變種協議字段格式劃分方式進行推斷。最后將本文方法與現有模型和方法進行實驗對比,結果驗證本文提出的模型在二進制變種協議字段格式劃分任務上優于其它模型,并且和現有協議字段格式劃分方法相比有更高的參考價值。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲女同一区二区| 热思思久久免费视频| 麻豆AV网站免费进入| 自慰网址在线观看| 伊人91在线| 日韩黄色精品| 99在线小视频| 国禁国产you女视频网站| 亚洲日韩精品欧美中文字幕| 日韩在线永久免费播放| 91麻豆国产视频| 成人精品亚洲| 激情在线网| 亚洲视频一区| 亚洲国产精品美女| 国产日韩av在线播放| 亚洲五月激情网| 欧美亚洲另类在线观看| 亚洲综合经典在线一区二区| 久久久久亚洲精品成人网| 国产一区二区网站| 暴力调教一区二区三区| 色妞www精品视频一级下载| 99热这里只有精品5| 亚洲天堂精品视频| 欧美爱爱网| 国产性精品| 99热这里只有精品在线观看| 亚洲国产中文在线二区三区免| 亚洲系列中文字幕一区二区| 国产精品亚洲一区二区在线观看| 中文字幕在线不卡视频| 亚洲国产系列| 日本亚洲欧美在线| 亚洲综合日韩精品| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲男人的天堂在线观看| 超碰aⅴ人人做人人爽欧美| 国产成人艳妇AA视频在线| AV不卡无码免费一区二区三区| 欧洲欧美人成免费全部视频| 国产91视频观看| 国产第三区| 99视频在线看| 亚洲人成人无码www| 成人午夜网址| 亚洲天堂区| 日韩高清中文字幕| 欧美怡红院视频一区二区三区| 毛片网站免费在线观看| 国产精品亚洲а∨天堂免下载| 亚洲色图欧美在线| 国产91在线|日本| 亚洲an第二区国产精品| 国产成人三级| 本亚洲精品网站| 一区二区欧美日韩高清免费| 毛片网站观看| 免费A∨中文乱码专区| 一级毛片免费的| 天天色综网| 亚欧成人无码AV在线播放| 欧美成人精品高清在线下载| 国产精品白浆无码流出在线看| 在线一级毛片| 热伊人99re久久精品最新地| 欧美啪啪视频免码| 国产亚洲日韩av在线| 欧美日韩一区二区在线免费观看| 被公侵犯人妻少妇一区二区三区| 亚洲香蕉在线| 99视频在线免费| 国产草草影院18成年视频| 久久91精品牛牛| 毛片最新网址| 成人福利一区二区视频在线| 亚洲人成日本在线观看| 一级毛片免费高清视频| 国产成人精品在线1区| 国产美女在线免费观看| 四虎永久免费地址| 91在线日韩在线播放|