劉巖 韓璐 李娜

摘要:隨著數字經濟的全面推進,我國的“智慧城市”建設開始進入實質性的啟動階段,城市網絡安全問題就更為突出、嚴重,面向智慧城市的城市級網絡安全態勢感知技術研究和應用迅速成為學術界和工業界的研究熱點。此前,為得到性能更佳的態勢感知模型,傳統做法是利用機器學習、深度學習等手段集中訓練網絡數據,從而獲得模型參數。但隨著智慧城市中建設中網絡設備類型增多,數據屬性多樣,流量內容復雜多變,網絡邊界模糊,影響態勢評估的不確定性增加,加之對集中訓練帶來的數據安全和隱私保護的擔憂,數據安全問題已然成為智慧城市中網絡安全態勢感知技術發展的重要制約瓶頸和亟需突破的關鍵挑戰。在這種情況下,“聯邦學習”的概念被提出,旨在保護數據安全與隱私的同時,利用分布的網絡數據進行聯合模型訓練,從而達到或接近基于數據集中的訓練效果。為此,該文借助“聯邦學習”和“證據理論”,對智慧城市網絡安全態勢感知技術的應用模式和方法進行了研究和探討,以期為智慧城市的網絡安全態勢感知技術發展提供一定的借鑒和參考。
關鍵詞:網絡安全態勢感知;聯邦學習;證據理論;數據安全;智慧城市
中圖分類號:TP311? ?文獻標識碼:A
文章編號:1009-3044(2022)15-0022-03
隨著數字中國建設整體布局的不斷推進,我國的“智慧城市”建設開始進入實質性的啟動階段,以智慧醫療、智慧交通、智慧家居、智慧金融、智能制造等為代表的一系列智慧城市基礎設施的建成落地,為千行百業提供了全新的發展動力和活力。智慧城市的平穩運行,離不開大量聯網設備的交流協作,史無前例的超大規模、屬性復雜的網絡流量運行在城域互聯網上,給城市的網絡安全保衛工作帶來了嚴峻的考驗,城市網絡安全與否已成為事關城市平穩運行的重大問題。
《CNCERT互聯網安全威脅報告-2022年1月》數據顯示,2022年1月我國境內感染木馬或僵尸網絡惡意程序的終端數為446萬余個;境內被篡改網站數量4 327個,其中被篡改政府網站數量為24個;境內被植入后門的網站數量為1 812個,其中政府網站有2個;針對境內網站的仿冒頁面數量為187個;CNVD收集整理信息系統安全漏洞2 072個。其中,高危漏洞631個,可被利用來實施遠程攻擊的漏洞有1 719個[1]。面對如此嚴峻的互聯網安全形勢,如何快速且準確地感知城域互聯網網絡中的異常信息,預測網絡安全態勢,增強網絡安全主動防御能力成為城市網絡安全主管部門和網絡運營商的關注重點。
目前網絡安全態勢感知技術都是把事先利用機器學習、深度學習等手段集中訓練網絡數據得到的態勢理解模型,部署在某個網絡匯聚節點上,對流經此節點的流量進行特征匹配和識別。訓練使用的網絡數據的質量決定了態勢感知和評估的成效。但智慧城市里聯網的設備種類繁多、網絡邊界模糊、數據屬性多樣、流量內容復雜多變、影響網絡安全的不確定因素大大增加,現有的網絡安全態勢感知技術和產品不足以滿足現實需求。加之對網絡數據集中訓練帶來的數據安全和隱私問題的擔憂,安全態勢感知技術服務提供者們只能使用自身數據訓練,數據不全面,使得訓練得到的模型無法滿足網絡安全主管部門和網絡運營商的現實監管需求?!奥摪顚W習”能夠在訓練數據不共享的情況下達到參數共享目的,具有數據隔離、質量保證、各參數方地位等同、獨立性等優點;證據理論為降低網絡態勢感知中的不確定性因素提供了解決思路,受到學術界和工業界的廣泛關注。本文詳細地探討了聯邦學習和證據理論的原理及其在智慧城市網絡安全態勢感知中的應用模式和方法,以期待為其發展提供參考。
1 智慧城市網絡安全態勢感知概述
態勢感知的概念來源于軍事對峙領域,1999年Tim Bass將態勢感知引進了網絡安全的研究中,由此產生了網絡安全態勢感知這個概念[2]。網絡安全態勢感知是綜合分析網絡安全要素,評估網絡安全狀況,預測其發展趨勢,并以可視化的方式展現給用戶,并給出相應的報表和應對措施。
從上述概念看,網絡安全態勢感知的過程大致包括以下幾個步驟:
1)數據采集:通過在網絡中某個節點部署探針等檢測工具,對流經此節點的數據進行采集獲取,這是態勢感知的前提;
2)態勢理解:對采集到的數據進行分類、歸并、關聯分析等手段進行處理融合,對融合的信息進行綜合分析,得出影響網絡的整體安全狀況,這是態勢感知基礎;
3)態勢評估:定性、定量分析網絡當前的安全狀態和薄弱環節,并給出相應的應對措施,這是態勢感知的核心;
4)態勢預測:通過對態勢評估輸出的數據,預測網絡安全狀況的發展趨勢,這是態勢感知的目標。
在網絡安全態勢分析方面,已經有很多成熟的模型,比如始于感知的Endsley模型、終于循環對抗的OODA模型、基于數據融合的JDL模型和采用假設推理的RPD模型等,但他們都離不開態勢感知、態勢理解和態勢預測這三個基本點。
網絡安全態勢感知模型中也都需要通過網絡安全態勢特征提取技術、網絡入侵檢測技術、網絡安全態勢感知評估技術、網絡安全態勢預測技術等關鍵技術完成對網絡安全態勢要素獲取、理解、預測和評估[3]。
隨著計算能力的提升,機器學習和深度學習由于具有較強的學習能力、較好的適應性、易實現自動化,且對復雜的特征處理、數據分類、預測等在實踐中能獲得較好的效果,在網絡安全態勢感知中得到深入的研究和廣泛的應用。
自數據安全法和個人信息保護法實施以來,出于數據安全和隱私保護的需要,目前使用的網絡安全態勢感知模型多是由安全態勢感知技術服務提供者使用單一來源或者多源同質的流量數據訓練得到的,即使使用機器學習和深度學習等新技術,但受限于訓練數據質量,使得產生的知識庫模型不夠完備,達不到預期效果。而且智慧城市的高效運轉離不開各類聯網設備的交互協作,智能家居設備、車聯網設備、企業中的生產設備等網絡節點組成了史無前例的超大規模網絡,呈現感知節點數量眾多,節點通信協議類型不同、連接多樣,網絡結構復雜多變,隨機因素增大等特點。面對如此復雜的城域互聯網,尋找新的網絡安全態勢感知解決方案已成為當前的重要課題。C1FF0C1A-5727-4603-A204-CC5DB6166ACC
2相關概念
2.1聯邦學習
作為面向數據孤島和隱私保護的機器學習解決方案,聯邦學習最早應用于谷歌輸入法,實現輸入法的候選詞預測。聯邦學習本質上是一種分布式的機器學習技術,很大程度上解決了“數據孤島”問題。
根據數據特點,聯邦學習可被分為縱向聯邦學習、橫向聯邦學習和聯邦遷徙學習。
1)橫向聯邦學習:特點是數據集特征和標簽信息相同,但訓練樣本不完全相同。把數據集按照橫向(即用戶維度)切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數據進行訓練。
2)縱向聯邦學習:特點是各數據集特征和標簽信息不同,但訓練樣本基本相同。把數據集按照縱向(即特征維度)切分,并取出雙方用戶相同而用戶特征不完全相同的那部分數據進行訓練。
3)特點是各數據集特征、標簽信息以及訓練樣本基本不相同。不對數據進行切分,而利用遷移學習克服數據或標簽不足的情況。
在上述各類聯邦學習的訓練過程中,各參與方不需要交換訓練數據,僅需要交換各自訓練產生的模型參數,后由中心服務器將參數進行聚合,得到全局模型后,再分發給各個參與方,參與方對己方模型進行更新;經過若干輪迭代,最終得到一個趨近于集中式機器學習結果的模型??偟膩碚f,聯邦學習具有以下優勢:
1)數據安全:原始訓練數據保留在本地,只需往中央服務器傳遞模型參數,傳輸過程可采用加密交換,一定程度上保證了參與方的數據安全;
2)質量保證:雖然沒有將數據集中訓練,但進行了多輪次迭代。有研究表明,聯邦學習模型的識別性能與數據中心化分析的識別性能可以相提并論,較個別分析的識別性能更優[4];
3)獨立自主:各參與方能夠獨立決定是否參與或者退出,自主決定傳輸參數。
從數據安全和隱私保護角度看,目前聯邦學習的框架可以分為以下幾類:
1)非加密的聯邦學習框架,即未對任何信息加密,所有的中間數據(如梯度)全是明文傳輸與計算;
2)基于差分隱私的聯邦學習框架,在原始數據或模型參數中添加隨機噪聲,數據不再是全明文,而是添加過噪聲的隱私數據;
3)基于安全多方計算的聯邦學習框架,使用同態加密、混淆電路、秘密共享等方法對數據進行加密[5]。
2.2 D-S證據理論
D-S證據理論是一種處理不確定性問題的完整理論。起源于20世紀60年代的哈佛大學數學家A.P. Dempster利用上、下限概率解決多值映射問題,1967年起他連續發表一系列論文,標志著證據理論的正式誕生。而后Dempster的學生G.shafer對證據理論做了進一步研究,引入信任函數概念,形成了一套“證據”和“組合”來處理不確定性推理的數學方法從而形成了該理論。
Dempster-Shafer(D-S)證據理論定義了一個識別框架[Θ=θ1,θ2,…θN],其中[θ1,θ2,…θN]表示一組相互排斥且完備的假設集。在這個識別框架中存在一個稱為基本概率設置(Basic Probability Assignment, BPA)的映射[m:2Θ→0,1],[m?=0且θ?Θmθ=1],[mθ]表示對[θ]的信任程度。其中使得[mθ>0]的[θ]我們稱之為焦元。定義信度函數(Belief,[Bel])[Bel:θ→0,1],并且滿足[Belθ=B?θmB],[Belθ]能夠表示所有確定賦予[θ]本身及其較小子集上的BPA的和。定義似然函數(Plausibility,Pl)[Pl:θ→0,1],并且滿足[Plθ=B?θ≠?mB]。那么[Plθ=1-Belθ],其中[θ]是[θ]的補集。[Belθ,Plθ]組成信任區間,表示對[θ]的確認程度。
假設存在兩個完全獨立且安全可靠的證據的BPA分別為[m1和m2],對于任何[θ?Θ],Dempster合成規則為:
[mθ=m1+m2θ=0,? θ=?B?C=θm1Bm2C1-B?C≠?m1Bm2C,? θ≠?]
從定義可以看出,D-S證據理論可以綜合不同數據源的數據,利用合成規則將不同數據源的信任函數不斷融合,隨著證據不斷積累而逐步降低不確定性,獲得精確推理結果,再根據決策邏輯對融合后的信任函數進行判斷。最大的特點就是對不確定性信息的描述采用“區間估計”,而非“點估計”,在區分不知道和不確定方面以及精確反映證據收集方面顯示出很大的靈活性,常應用于目標識別、監控檢測、故障診斷、醫療診 斷、決策分析等領域。
3 基于聯邦學習和D-S證據理論的網絡安全態勢感知架構模式
智慧城市的建設目前主要是以行業為單元共同推進,致力于打造智慧物流體系、智慧制造體系、智慧貿易體系、智慧能源應用體系、智慧公共服務、智慧社會管理體系、智慧交通體系、智慧健康保障體系、智慧安居服務體系、智慧文化服務體系等。其城域互聯網中運行的網絡數據大致可分為以下幾類:
1)以智能駕駛、智能交通為核心的車聯網類數據;
2)以智能家居、智能安防為核心的家居物聯網類數據;
3)以智慧醫療、健康穿戴為核心的醫療類數據;
4)以智能制造、智能能源為核心的工業互聯網類數據。
按照上述網絡類別看,智慧城市的網絡態勢感知可以以行業為基本單元,以本行業中的關鍵信息基礎設施和重要信息系統為最小單元開展。具體如下:
1)數據采集:在設施或者系統的網絡出入口部署采集設備,對流入和流出的網絡數據按需要進行采集和留存。
2)數據訓練:因行業內網絡節點設備用途相近,流量內容相似度高,故可以在關鍵信息基礎設施和重要信息系統的歸屬單位部署訓練服務器對采集到的數據進行清洗等預處理后,采用隨機森林、深度信念網絡或卷積神經網絡等機器學習手段進行訓練,在行業網絡主管部門部署中心服務器用于聚合本行業的訓練模型參數。經過多輪次訓練和迭代后形成本行業的態勢感知模型和特征知識庫。C1FF0C1A-5727-4603-A204-CC5DB6166ACC
3)態勢理解:根據實際需求將各行業形成的行業態勢感知模型或者特征知識庫匯聚成一個城市級態勢感知模型或者特征知識庫,將其分發到各個關鍵信息基礎設施和重要信息系統的態勢感知節點上,對實時流經的網絡數據進行分類。
4)態勢評估:即使在一個行業內,各個關鍵信息基礎設施和重要信息系統內的網絡結構也存在較大差異,管理方面或維護方面的差異致使網絡的脆弱性也各不相同,加上網絡攻擊威脅和攻擊存在隨機不確定性,使得行業內的網絡安全態勢評估難度增大。而行業間的網絡結構差異性和不確定性就更加巨大,整體網絡安全態勢評估就更加困難。故通過對一段時間內網絡安全事件高發或者某類漏洞覆蓋較多的涉事單位和涉事行業進行打分排序形成專家權重,再結合異常流量、攻擊和漏洞的危害程度、攻擊成功率、可利用率等網絡威脅評價參數,形成城市→行業→系統三級網絡安全態勢評估指標體系,構建符合現實需求的BPA函數和合成規則,最終形成態勢評估結果。
5)態勢預測:智慧城市建設中關鍵一環就是網絡提速增質,目前已跨入5G時代,網絡數據流動快、響應時間短,態勢預測離不開歷史流量數據和特征知識庫,可利用遷移學習、循環神經網絡、長短時記憶網絡等技術,實現威脅預警,同時還須將發現新的異常流量特征及時上傳至中心服務器,實現模型參數的動態更新,從而形成態勢感知的閉環。
4 結束語
本文對智慧城市的網絡安全態勢感知面臨的問題進行了分析和探討,簡要介紹了聯邦學習技術和D-S證據理論,并結合智慧城市網絡安全態勢感知需求提出了方案建議。但由于智慧城市建設正處于啟動階段,網絡結構復雜多變,流量數據日益增多,所給出的建議仍屬于理論層面,未來需要通過案例實踐進行驗證或調整。
參考文獻
[1] 韓曉露,劉云,張振江,等.網絡安全態勢感知理論與技術綜述及難點問題研究[J].信息安全與通信保密,2019,17(7):61-71.
[2] 李艷,王純子,黃光球,等.網絡安全態勢感知分析框架與實現方法比較[J].電子學報,2019,47(4):927-945.
[3] 錢斌,蔡梓文,肖勇,等.基于模糊推理的計量自動化系統網絡安全態勢感知[J].南方電網技術,2019,13(2):51-58.
[4] 劉云.融媒體時代食堂文化育人實踐路徑研究——以青島大學食堂為例[J].高校后勤研究,2020(4):19-21,27.
[5] 劉云,呂富巖.基于Web的高校大型設備共享平臺系統的設計和實現[J].信息系統工程,2022(4):117-120.
【通聯編輯:朱寶貴】C1FF0C1A-5727-4603-A204-CC5DB6166ACC