999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向工控系統漏洞的多維屬性評估*

2023-02-20 02:48:30李彤彤王詩蕊張耀方王佰玲王子博劉紅日
計算機工程與科學 2023年2期
關鍵詞:文本模型

李彤彤,王詩蕊,張耀方,王佰玲,王子博,劉紅日

(1.哈爾濱工業大學(威海)計算機科學與技術學院,山東 威海 264209;2.國家工業信息安全發展研究中心,北京 100040; 3.哈爾濱工業大學網絡空間安全學院,黑龍江 哈爾濱 150001; 4.威海天之衛網絡空間安全科技有限公司,山東 威海 264209)

1 引言

工業控制系統ICS(Industrial Control System)是確保工業基礎設施自動化運行,并進行過程控制與監控的業務流程管控系統(下文簡稱工控系統)[1]。近年來,工控系統的攻擊事件日益增多,暴露出其在安全防護方面的嚴重不足,研究高效、規模化的工控系統漏洞的屬性分析預測以及漏洞危害性評估等方法,已成為維護國家工業、制造業安全的重要保障和迫切需求。對工控漏洞的分類為工控系統管理者提供指導,對了解系統中存在的漏洞以及檢測這些漏洞的最佳方法有所幫助[2]。

現有的工控系統的安全風險評估方法存在要素提取機制尚不全面,要素覆蓋程度還不夠完善等問題,導致對工控系統的安全風險評估達不到理想效果。因此,本文從ICS漏洞的有效性、類別屬性和風險程度等多維角度展開分析與研究,實現對已知的、未知的工業漏洞的高效檢測、分析與處理,全面獲取工業控制系統的設備關鍵脆弱點信息。通過對工控系統漏洞的多維評估要素提取分析,解決現有評估方法存在的問題。

針對上述問題,本文提出了面向工控系統漏洞的多維屬性評估方法。考慮到不是所有漏洞都具備有效性,因此在對漏洞進行多維屬性評估前,首先利用機器學習模型對該漏洞進行有效性判定,并在此基礎上,采用機器學習算法對漏洞風險類型進行智能化分類處理。從工業控制系統漏洞信息本質屬性出發,提出將工控漏洞重要性、危害性和可利用性作為漏洞風險程度的3個要素,提出一種基于ERNIE(Enhanced Representation through kNowledge IntEgration)[3]與CatBoostClassifier[4]結合的ernieCat模型,利用該模型對漏洞的風險程度屬性進行預測。最后融合資產層級信息要素與漏洞風險指標,提出了一種基于層級分析法的工業設備安全漏洞危害等級評估模型,對漏洞進行全面多維評估,解決了漏洞與具體工控環境聯系不緊密的問題。

2 相關工作

伴隨著工業安全漏洞的數量、種類逐年增加,提高對漏洞進行有效分類和管理的能力,對于工控系統的安全風險評估至關重要。在漏洞分類方面,廖曉鋒等[5]提出了一種結合LDA(Latent Direichlet Allocation)和SVM(Support Vector Machine)的自動漏洞分類器,但該方法不能很好地適用于大規模漏洞分類場景。曲瀧玉等[6]針對大規模漏洞分類問題,提出了一種基于卷積神經網絡的漏洞自動分類方法,該方法在漏洞自動分類效率上有顯著提升。郭正斌等[7]提出了一種面向文本分類的特征向量優化方法,將漏洞特征信息與特征向量化相結合實現漏洞的量化分析。雷柯楠等[8]通過對漏洞進行特征評價完成漏洞的可利用性評分,并分析了影響漏洞利用性的重要因素。

在利用漏洞信息對漏洞的嚴重性進行預測方面,Kudjo等[9]提出了Bellvul算法,選出樣本數據中的最優特征子集對模型進行訓練,可提高漏洞嚴重性預測模型的準確度。Fang等[10]提出了一種結合FastText[11]和LightGBM(Light Gradient Boosting Machine)算法的預測模型,可預測漏洞的可利用性,即使在極端不平衡數據集上,該模型仍然有效。Sharma等[12]使用詞嵌入GloVe(Global Vectors)算法和卷積神經網絡,根據漏洞描述對漏洞嚴重性進行預測。相對于現有的漏洞評分方法,該方法不需要人工干預,可保證漏洞預測的客觀性。上述研究在漏洞分析層面的準確性和綜合性能上已能初步滿足業務需求,但是對于數據的特性認識不夠清晰,大多忽略了未知漏洞或僅存在漏洞概念證明可利用的情況,對于漏洞數據庫的延時情況也缺乏應急處理對策。

工控安全漏洞的風險評估技術主要是針對工控設備確定漏洞情況[13],從危害性與威脅嚴重性等方面進行評估。席榮榮等[14]提出了基于隱馬爾可夫模型的脆弱性評估方法,定義了警報質量的概念,在分析警報統計特征時獲取觀測的序列,接著通過狀態轉移矩陣輸出最終結果。Liu等[15]使用預期的負載削減指數來量化由于網絡攻擊而造成的潛在系統損失。該方法針對電力系統進行安全風險評估,不具有通用性。陶耀東等[16]基于CVSS(Common Vulnerability Scoring System),將可見性、可控性和漏洞利用目標等指標納入量化評估范圍,設計了針對通用工控系統的工控漏洞評分系統。

在工控系統的脆弱性安全風險評估方面,主流方法的要素提取機制還尚不全面,多數情況下僅單獨獲取漏洞信息所包含的內在屬性與外部影響,準確性和利用性達不到理想效果。本文綜合考慮漏洞的有效性、風險類別、重要性、危害性及可利用性,并聯合漏洞的資產層級屬性,對工控系統進行全面多維的安全風險評估。

3 漏洞的多維屬性分析模型

本節從工控漏洞的多維角度入手,實現對已知的和未知的工控漏洞高效檢測、分析與處理,全面獲取工業控制系統的設備關鍵脆弱信息。對未知漏洞情況進行重要性、影響性、可利用性的預測,以及對漏洞優先進行有效性判別的風險類別判定。

3.1 漏洞風險類型屬性分類

Chen等[17]將不能被復現或不能被證明會對設備的安全性造成威脅的漏洞稱為無效漏洞,無效漏洞的存在會對工控系統安全風險評估造成干擾,以及造成不必要的資源浪費。因此,本文首先對漏洞的有效性進行判定,確認漏洞具備被利用的條件時,再進行風險類別的判定,便于掌握漏洞整體信息,初步進行威脅程度度量。

本文收集公開漏洞描述文本作為研究樣本,為減少漏洞描述文本的處理運算規模和時間復雜度,避免對分詞處理的影響,本文對獲取的文本進行數據清洗和整理,去除網頁獲取的多余附加結構。針對中英文的漏洞描述采用基于統計學規律的方法建立分詞模板,去除文本中的標點并在保證文本語義完整的情況下去除停用詞,接著對文本分割處理后的詞語進行詞性標注和詞形還原處理。

經過預處理后的文本信息為非結構化形式,因此需要將文本內容映射為數值權重向量,以簡化文本表示模型。針對此高維稀疏的特征向量表示數據,本文使用TF-IDF(Term Frequency-Inverse Document Frequency)進行數據降維和特征擇優,提取能保留文本信息的關鍵特征詞,對不同特征詞進行動態加權。將向量化數據輸入分類器中進行訓練。基于文本處理的風險類別分類流程如圖1所示。具體流程包含如下步驟:

Figure 1 Risk category classification process based on text processing圖1 基于文本處理的風險類別分類流程

Step1訓練樣本獲取。使用腳本從公開漏洞數據庫獲取漏洞信息,覆蓋樣本類別;漏洞有效性判定提取標注為REJECTED駁回或DISPUTED爭議的無效漏洞;風險類別判斷為保證后續研究數據充實采用通用漏洞枚舉CWE(Common Weakness Enumeration)中10種類型作為基礎進行模型訓練。10種風險類型為:跨站腳本、緩沖區溢出、輸入驗證有誤、信息泄露、SQL注入、權限訪問控制、路徑名限制、資源管理、跨站請求偽造和過界讀取。

Step2漏洞文本預處理。在獲取描述性漏洞信息后,為進一步進行數據挖掘與分析,對文本進行預處理,首先進行噪聲數據清理,便于形成文本特征項,對包含語義的完整性中英文漏洞描述分別使用Python組件jieba與NLTK(Natural Language ToolKit)進行分詞處理,將其轉化為最小統計單位;并在處理過程中完成停用詞過濾和詞根還原,除去冗余信息,以提高后續分析判定的效率與準確性。

Step3文本特征提取。將之前獲取的文本特征項進行向量化轉換,以便機器學習模型能夠針對特征項進行識別計算,主要采用TF-IDF逆頻率思想的預處理方法,將描述語料中頻次較少的特征項權值加大,以反映出特征矩陣的重要程度。

Step4模型判定及評價。利用機器學習與深度學習分類算法對漏洞文本有效性和風險類別進行判定,并通過相關性能指標對分類性能進行有效評價,選取最佳算法模型。

3.2 基于ernieCat的未知漏洞風險程度屬性預測

對漏洞風險程度進行預測應首先對相關屬性進行分析,具體包括漏洞重要性、漏洞危害性及漏洞可利用性3個方面,其屬性標簽參考通用漏洞評分方法CVSS3.0中提供的取值:基本得分(Base Score)、影響性得分(Impact Score)及可利用性得分(Exploitability Score),從而對漏洞屬性進行風險危害評估。其指標屬性映射關系如圖2所示。

Figure 2 Mapping of vulnerability evaluation metrics圖2 漏洞評價指標映射關系

(1)工控設備漏洞嚴重性:反映漏洞本身安全風險的危害系數,不隨外界環境的變化而改變。其值與Base Score的數值對應,定為5級。

(2)工控設備漏洞危害性:利用漏洞成功實施攻擊行為后,用于評價對系統造成的影響程度及損失范圍。其值與Impact Score的數值對應,定為5級。

(3)工控設備漏洞可利用性:利用漏洞所需技術支持復雜度,衡量系統遭受攻擊的可能性。其值與Exploitability Score的數值對應,定為5級。

在解決面向工業聯網設備的漏洞風險情況時,重新定義工業行業漏洞下的風險衡量指標,以漏洞重要性、危害性和可利用性作為切入點進行度量評估,以漏洞文本特征與漏洞內在危害指標的結合作為預測模型的輸入,通過漏洞風險預測模型訓練得到相關嵌入表示,輸出工控風險衡量指標的等級情況。

在3.1節中的漏洞屬性判定中,通過對機器學習的效果進行對比發現,在處理漏洞相關數據時,相較于基礎算法,集成學習模型的效果更為出色。因此,在本節選用ERNIE模型[3]與CatBoostClassifier[4]的融合完成風險程度預測,將漏洞描述文本以及其他漏洞內在屬性特征進行融合作為模型輸入。其他屬性特征如表 1所示。

Table 1 Features for the intrinsic properties of the vulnerability表1 漏洞內在屬性特征

ERNIE模型在BERT(Bidirectional Encoder Representation from Transformers)[18]的基礎上進行了改進,將知識和語言語義信息進行融合,達到了增強語義表示的目的,它將BERT中的隨機掩碼優化為實體級別或短語級別,從而使得模型可以在學習過程中充分捕捉到更多語法相關的語義知識,極大地增強了通用語義表示能力。

CatBoostClassifier將完全對稱樹作為基學習器,參數較少并且準確度高,解決了工控漏洞風險程度預測延時性苛刻的問題,依然部署快速、運算效率高。同時,通過排序提升對抗噪點,有效改進了梯度偏差和預測偏移的情況,減小了過擬合程度,泛化能力強。并且該模型在處理非數值型特征時具有相對優勢,可以自動將其處理為數值型特征,同時考慮組合類別之間的特征聯系情況,在機器學習等一類模型中減少了對前期數據的處理工作量。

為解決漏洞風險多角度預測,本文提出了基于ERNIE與CatBoostClassifier算法相結合的預測模型,稱為ernieCat。此模型可有效描述漏洞本身的風險程度,包括嚴重性、危害性及可利用性。模型使用增強語義理解的ERNIE將漏洞相關描述文本進行語義特征提取,而后與其他漏洞的內在屬性特征相融合,應用CatBoostClassifier分類算法完成風險程度多角度預測。

4 漏洞危害風險評估模型

層次分析法是一種較為常見的評估方法,近幾年來,一些研究人員將其應用在工控安全風險評估領域。賈馳千等[19]提出一種基于模糊層次分析法的工業控制系統安全評估方法,將工業控制系統的9種典型設備作為工控安全評估的要素。

本文考慮到風險評估受到資產、威脅和脆弱性3要素影響,參考該原理,定義資產設備層、漏洞風險類別及風險描述指標3個方面的影響因素,應用在工業控制環境下對漏洞的風險等級分析中,通過基于層次分析的方法建立工控漏洞風險等級分析模型,如圖3所示。

Figure 3 Evaluation model of the hazard of ICS vulnerabilities圖3 工控漏洞危害性評估模型

該模型將工控漏洞危害性描述等級作為量化層評估結果,評估的過程中劃分為要素層和具體的指標層,涵蓋影響漏洞風險等級的具體指標,包括資產設備層次下詳細劃分的現場控制層、過程監控層和生產調度層;選取工業環境下數量較多、危害性大的漏洞風險類別,包括緩沖區錯誤、資源管理、輸入驗證錯誤、SQL注入和權限訪問限制;以及風險程度描述下的嚴重性、危害性和可利用性情況。

在建立工控漏洞危害性評估模型后,引用模糊數學的概念,通過構造模糊矩陣對模型中所有指標因素的重要性相對程度進行綜合考慮。

依據模糊矩陣優先關系數量標度對各指標因素的相對重要性予以打分,當指標i與指標j重要性相同時,則標度fij=0.5,當指標i重要性大于指標j的重要性時,則標度0.5

Table 2 Device-level assignment表2 設備層級賦值表

Table 3 Assignments for vulnerability risk threat levels表3 漏洞風險威脅程度賦值表

Table 4 Assignment for vulnerability risk types表4 漏洞風險類型賦值表

表3為漏洞風險威脅程度賦值表。對于工業控制系統而言,攻擊漏洞導致的工控系統可用性降低會造成嚴重的損失,因此在工業控制系統中可利用性指標的重要性大于嚴重性和威脅性。其次危害性指標的重要性大于嚴重性指標的。

根據賦值情況,可構造模糊判斷矩陣R=(rij)n*n,以設備層級賦值為例構造如(1)所示的模糊矩陣R1,并依據式(2)轉換為模糊一致矩陣RF1,如式(3)所示:

(1)

(2)

(3)

其中ri為對矩陣R按行求和。

為獲取設備層級要素的相對權重情況,根據式(4)對RF1排序:

(4)

其中,i=1,2,…,n,參數α滿足α≥(n-1)/2,且α大小與權重差異成反比,當α最小時評估要素的權重差異最大。由此可得到設備層級的權重分別為W1=(0.417,0.250,0.333),同理風險類型、風險威脅程度的權重分別為W2=(0.160,0.175,0.225,0.245,0.195),W3=(0.384,0.316,0.300)。以漏洞CVE-2019-5160為例,該漏洞存在于萬可公司生產的一款PLC(Programmable Logic Controller)中,在其云連接功能中攻擊者借助特制的HTTPS POST請求,利用該漏洞未授權訪問固件更新功能。該漏洞的風險分析要素情況如表 5所示。

Table 5 Vulnerability assessment element details表5 漏洞評估要素詳情

設備層次要素、風險類型要素、風險程度描述包含的3項指標均以5級程度作為相同基數,其中風險程度描述在預測結果中已在原基礎上自行分級。最終以3類評估要素與其權重的乘積和作為該漏洞的最終風險評分結果,取值在[3.05,8.31]。

5 實驗

(1)漏洞風險類型判定模型。

對于3.1節中漏洞有效性判定模型的選取,按照文本操作流程對漏洞描述樣本訓練集進行規范化處理,對10種傳統機器學習算法進行有效性判別效果對比,在模型學習階段利用占比70%的文本訓練集對判定模型進行過程訓練,以此得到適合的分類器參數。10類機器學習的判別效果如表6所示,表中列出了精度Pr、召回率Re、F1值3個指標。從實驗對比結果可以看出,隨機森林算法的綜合效果最佳,因此本文選取該算法作為漏洞有效性的判別模型。

Table 6 Discrimination of the validity of different machine learning algorithms表6 不同機器學習算法有效性判別情況 %

通過爬取公開漏洞數據庫64 459條英文和13 353條中文漏洞信息,對傳統機器學習算法與深度神經網絡算法進行判別效果對比。表7和表8分別展示了不同算法下中英文漏洞類別判別情況。中文漏洞數據的屬性分類情況最終可以穩定在精度92.1%的程度,效果要優于英文漏洞數據,且從對比實驗可看出,整體效果最優的算法為AdaBoostClassifier算法;深度神經網絡雖然也能夠保證較高精度,但從整體運算效率和占用運算資源的角度考慮,其并不適用于本文針對已知公開漏洞風險類型的分析。英文漏洞數據的屬性分類情況精度可以達到86.4%,LeNet5卷積神經網絡結構分類效果較其它算法出色,雖然其卷積結構并不復雜,但應對漏洞數據的擬合效果與運算效率相較于其他深度神經網絡表現最好。

Table 7 Discrimination of vulnerability categories in Chinese表7 中文漏洞類別判別情況 %

Table 8 Discrimination of vulnerability categories in English表8 英文漏洞類別判別情況 %

(2)漏洞風險預測實驗與分析。

通過爬蟲獲取2020年的公開漏洞數據,共包含3 200條信息。輸入特征包括漏洞文本描述和描述內在特征2部分,分別進行工控漏洞嚴重性、工控漏洞危害性和工控漏洞可利用性3個方面的風險程度預測實驗。在實驗過程中,將在該領域中應用廣泛的FastText[11]、TextCNN[20]及基本ERNIE方法作為基線模型,分別與改進后的ernieCat模型進行對比實驗,從而驗證該模型在應用漏洞風險預測方面的優越性。

FastText作為一個快速的文本分類模型,在其整體性能與部分基于深度神經網絡的模型性能可以抗衡的同時,訓練速度效率突出,采用嵌入向量的形式,得到文本的隱向量表達。在詞袋模型基礎上加入了N-gram特征,考慮到了上下文之間的內在邏輯關系。

TextCNN在文本分類中應用卷積神經網絡CNN來處理相關任務,其結構簡單,通過一維卷積來獲取文本中的特征表示,對淺層特征的抽取能力很強,能更好地捕捉局部相關性。

通過對比實驗來驗證ernieCat模型在漏洞風險程度預測中的優越性,圖4展示了在漏洞嚴重性預測中,分別基于原始ernie、FastText、TextCNN和改進后的融合ernieCat模型得到的混淆矩陣結果。在對角線上的數值為正確預測的情況,顏色越深表示正確預測效果越好。從圖4中可以看出,盡管屬性等級分布存在不平衡的情況,ernieCat模型在漏洞風險重要性預測中,發生誤判的樣本數量和概率明顯較小,預測效果要優于其他的基線模型。

Figure 4 Confusion matrices of four risk prediction models圖4 4種風險預測模型的混淆矩陣

為了更加直觀地表述實驗對比結果,表 9分別展示了實驗對比的4組預測模型在漏洞風險程度多角度預測中的識別精度Pr、召回率Re和F1值。通過表9可以看出,基于ernieCat的風險預測模型的表現均要優于其他原始的基線模型。可以看出,在進行工控漏洞風險程度多角度預測研究中,本文所提出的ernieCat融合模型預測效果較好,效果提升明顯。

Table 9 Comparison of evaluation results of risk prediction models表9 風險預測模型評價結果對比 %

6 結束語

為了推進工控系統的安全防護建設工作,進行漏洞信息全方位分析研究尤為重要。本文首先對漏洞信息風險類別進行判定,分別選取性能最佳的算法模型對漏洞利用有效性和漏洞風險類別進行判定,為后續的漏洞風險危害性評估提供了部分要素信息。同時,提出了ernieCat風險預測模型,結合文本特征與屬性特征,從漏洞的危害性屬性、影響性屬性及可利用性屬性3個方面對漏洞進行多角度風險預測。對工控設備漏洞信息進行高效及時的分析,全面準確地把握工控系統的設備關鍵脆弱點信息。最后將獲取到的資產級信息要素與漏洞級風險要素相結合,對設備漏洞的風險危害程度進行量化評估,輸出總體危害評分,對漏洞威脅程度進行合理描述。通過實驗選取有效性最佳的隨機森林算法作為漏洞有效性判定模型,AdaBoostClassifier模型作為中文漏洞風險類別判定模型,LeNet5卷積神經網絡作為英文漏洞風險類別判定模型。分別進行工控漏洞嚴重性、危害性和可利用性3個方面的風險程度預測實驗,本文提出的ernieCat模型在漏洞風險程度預測中,發生誤判的樣本數量和概率明顯較小,預測效果要優于其他的基線模型。本文提出的工控系統漏洞多屬性評估方法更能反映工控系統的安全風險,對網絡安全人員進行工控系統安全防護具有指導意義。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 在线观看免费黄色网址| 色悠久久久| 国产成人综合在线观看| 超碰91免费人妻| 亚洲天堂视频在线观看免费| 国产精品欧美在线观看| 情侣午夜国产在线一区无码| 亚洲精品福利视频| 在线看免费无码av天堂的| 欧美日韩福利| 精品剧情v国产在线观看| 国语少妇高潮| 中文国产成人精品久久| 国产剧情国内精品原创| 99热最新网址| 亚洲第一国产综合| 国产毛片基地| 欧美精品一二三区| www.精品视频| 直接黄91麻豆网站| 好吊色国产欧美日韩免费观看| 97影院午夜在线观看视频| 欧美午夜网| 欧美黑人欧美精品刺激| 在线视频亚洲色图| 白丝美女办公室高潮喷水视频| 亚洲精选无码久久久| 日本不卡在线视频| 又爽又大又黄a级毛片在线视频| 波多野结衣中文字幕一区| 国产亚洲精久久久久久久91| 精品视频一区二区观看| 日本一区二区不卡视频| 尤物在线观看乱码| 日本高清免费不卡视频| 国产丝袜啪啪| 中文字幕乱妇无码AV在线| 日韩欧美中文字幕在线韩免费| 亚洲国产精品VA在线看黑人| 久久黄色一级视频| 久久久久青草线综合超碰| 91在线播放国产| 国产黄在线免费观看| 久久黄色毛片| 91精品国产91欠久久久久| 欧美一区二区福利视频| 久热re国产手机在线观看| 亚洲91精品视频| 日韩国产高清无码| 456亚洲人成高清在线| 久久久国产精品无码专区| 中文字幕久久亚洲一区| 中国一级特黄大片在线观看| 一级爆乳无码av| 国产在线日本| 欧美不卡视频一区发布| 国产精品丝袜在线| 亚洲三级影院| 无码中文字幕乱码免费2| 久久久久国产一区二区| 99久久精品国产精品亚洲| 欧美区一区| 久久久久免费精品国产| a免费毛片在线播放| www.国产福利| 在线色综合| 亚洲第一成年人网站| 91精品专区国产盗摄| 狠狠色丁婷婷综合久久| 欧美色图第一页| 成人国产精品网站在线看| 国产成人精品在线| 五月天在线网站| 玩两个丰满老熟女久久网| 免费在线一区| 国产91色在线| 久久黄色影院| 国产精品夜夜嗨视频免费视频 | 国产乱人伦AV在线A| 国产熟女一级毛片| 亚洲国产av无码综合原创国产| 国产亚洲视频中文字幕视频 |