
作者簡介:任海娟(1986— ),女,山西太原人,實驗師,學士;研究方向:大數據和計算機網絡。
摘要:深度強化學習作為統計學習常見算法,將其應用于智能網絡安全防護設計環節將取得顯著效果,以此規避智能網絡安全風險。文章簡要分析智能網絡安全常見問題,根據對問題的分析研究,總結智能網絡安全防護優化設計具體目標,經由設計網絡狀態集合、細化網絡動作集合、規范設計回報函數、強化數據分析功能等設計步驟的落實,智能網絡將充分發揮安全服務作用,由此維護網絡安全。本文提出了可行性措施,期待提升網絡安全防護的有效性。
關鍵詞:深度強化學習;智能網絡;安全防護
中圖分類號:TN325 文獻標志碼:A
0 引言
深度強化學習的本質是在分析中尋求最大化回報行為的綜合流程。此算法的實施,能為智能網絡安全防護系統的合理設計給出新指引。技術人員通過對智能網絡體系中交互環境、狀態信息以及智能動作關聯性的分析,促進動作與狀態的科學匹配,以便提出合理的安全防護決策。未來,相關技術人員要加強對安全防護渠道的深入研究,從而讓人工智能網絡在智能制造等多行業中彰顯突出價值。
1 智能網絡安全常見問題
1.1 網絡攻擊
人工智能網絡是依托人工智能技術研發的網絡系統,其常見網絡安全問題包括網絡攻擊,即對抗性攻擊。技術人員對神經網絡算法中對應主體進行修改,決策執行過程將出現變化。如麻省理工學院曾修改玩具龜參數,而后在神經網絡算法下將其納入集合中,從而引發了網絡出錯。人工智能網絡雖然在運行期間具有便捷性特征,但無法完全避免網絡攻擊的風險。源于網絡攻擊背景,智能網絡視覺功能將減弱,從而無法在正常的網絡服務中表現出穩定性、準確性的優勢。因此,參數的調整極易加劇對抗性網絡攻擊發生的風險[1] 。
1.2 軟件威脅
智能網絡平臺運行期間會形成具有威脅性的應用軟件,此類軟件往往具有惡意負載隱匿性,這會導致軟件在啟動期間極易被竊取隱私信息,引發安全風險事件。有研究表明,危及智能網絡安全的主要問題在于軟件程序安全等級偏低,在軟件攜帶病毒后,會影響軟件程序正常功能。因此,軟件威脅也是智能網絡安全常見問題,技術人員須從軟件安全監測層面應對不良風險。
1.3 數據中毒
基于深度強化學習研發的智能網絡平臺,也會產生數據中毒問題。深度學習算法雖然能夠提供智能輔助服務,但在道德標準以及人類思維特征上未建立明確依據。這會致使智能網絡在交互服務中,無法參照用戶思維特征提供所需數據,甚至提出的交互語言違反既定條件。在智能網絡活動中,深度強化學習算法導向下也會形成帶有病毒的數據。此類數據在傳遞中將侵害平臺安全,尤其是往年在智能網絡服務中形成的面部識別功能,在遭受數據中毒風險后,系統將無法順利識別人臉面部。鑒于此,智能網絡安全問題是現如今改進智能網絡系統的重要要求。智能網絡安全防護決策既有著深刻的現實意義,也對我國網絡領域智能化發展具有促進作用。
2 智能網絡安全問題防護目標分析
2.1 完善網絡防護架構
針對上述常見的智能網絡安全問題,技術人員提出安全防護措施。其中,對于網絡攻擊問題,技術人員需要從網絡防護架構的有效完善層面阻斷攻擊動作。實際上,之所以智能網絡會形成對抗性攻擊,主要源于網絡系統架構設計缺少合理性,進而影響系統運行的安全性。技術人員在設計安全防護系統時,需要依據局域網,聯合路由器重新樹立網絡體系,促使網絡系統在信息傳播中能夠順利地將隱私信息與常規網絡資源區分開來,這樣也更為直接地應用交換式集線器,自此消除網絡攻擊風險。
2.2 強化計算機軟件監測
要想保證智能網絡免遭軟件威脅,系統還需要針對計算機中安裝的軟件進行有效監測,以便從監測方向上強化安全防護效果。關于計算機軟件監測事項的落實,技術人員可以利用訪問控制、網絡權限控制、網絡服務器監測等多種方法,嚴格篩選出帶有威脅性的惡意軟件,進而確保智能網絡系統處于安全運行狀態。軟件威脅的形成與軟件運行動態有關,若能及早發現軟件風險,便可以提早預防安全隱患。比如可以將智能網絡服務對象劃分為3類,即特殊用戶、普通用戶以及審計用戶,而后為其發放不同控制權限,以免因權限混亂而無法發揮軟件的實踐作用[2]。
2.3 啟動數據備份機制
在智能網絡安全防護過程中,若產生數據中毒問題,也會影響數據輸送質量。因此,在確定安全防護目標時,系統應積極啟動數據備份機制,對智能網絡系統中的有用數據進行備份處理。后期即使出現數據竊取或數據中毒情況,也能及時從備份數據中查詢,以免削弱數據應用實效性。參照上述智能網絡安全問題,經分析后確定安全防護目標,以此利用深度強化學習算法建立新型智能網絡安全防護系統。
3 基于深度強化學習的智能網絡安全防護解決對策
3.1 設計網絡狀態集合
深度強化學習算法在實際應用中,主要是從回報學習最優求取過程中獲取最大期望回報值的行為,由此運用行動與狀態的相關性,促使智能網絡實現安全等級的合理提升。其中,深度強化學習算法具體包含動作(Action)、智能體(Agent)、回報、環境等元素,形成架構流程。經過對集合體元素的綜合分析,能夠順利獲取累計期望回報值(R),具體可以借鑒下述公式加以分析,即R=E(∑Tt=0γtrt),該公式對應的E、r、γ分別表示的是數學期望、回報(獎勵、懲罰)、折扣因子(歸屬于0~1的范圍內)。而T則屬于時間序列,t為現下記錄的具體時刻。在智能網絡安全防護中,智能體可以憑借環境狀態對動作給出新要求,使其在數學函數運算中出具全新的執行指令,借此在智能體輸入后判定當前狀態的匹配度。這類智能網絡安全防護系統的設計在應用深度強化學習算法進行改進后,實際上是以云計算技術為主體,建立模擬仿真場景,然后將環境數據與現實網絡進行連接,便于系統在真實的網絡服務中獲取最優決策。在具體設計階段,技術人員需要先行設計網絡狀態集合,從而在智能體終止遷移學習時,尋求最佳網絡環境,預防網絡安全風險[3] 。
在設計智能網絡安全防護系統階段,技術人員應當注重狀態集合的優化設計。作為涵蓋智能網絡狀態的集合體,系統應參照狀態結合映射網絡動作,并從狀態識別中預估網絡安全風險程度,繼而在攻守雙方建立對應的對抗單元。關于狀態集合的有效設計,技術人員具體需要從智能網絡攻擊的“攻擊”“防守”兩個部分整理狀態元素。前者可以將網絡攻擊種類、攻擊范圍以及攻擊軌跡、攻擊來源、攻擊方法與攻擊速度納入攻擊單元集合中。后者以智能網絡安全服務等級、安全域、網絡應用服務、結構元素與網絡策略等多項元素為主[4]。根據有關狀態元素集合的分析,系統可從中全方位知曉安全風險等級,之后以網絡動作的調整下達正確的網絡服務指令??紤]到網絡狀態集合中的元素較為多樣,所以在設計狀態集合時,技術人員還要充分借助攻守單元的狀態信息,做好劃分歸類工作。如智能網絡系統連接的路由器、計算機設備遭受攻擊,系統可從狀態集合的防守單元中,查詢到適宜的對抗元素,以達成安全防護效果。
3.2 細化網絡動作集合
技術人員在設計智能網絡安全防護系統期間,還需要針對網絡動作集合進行細化設計。因網絡狀態與網絡動作本身存在映射關系,根據上文提出的多項狀態元素,建立動作集合。系統按照動作集合中動作要素的類別向網絡空間傳輸有用信息。對應的Action結構包含4種類型的元素。在“what”中泛指網絡操作動作與網絡行動動作,“who”對應網絡用戶與網絡服務機構,“where”則以網絡服務、網絡設備、空間位置、地理位置為主?!皐hen”表示網絡動作相對應的時間,此4項組合成動作集合。
此外,要想基于深度強化學習算法優化網絡安全防護效果,技術人員還應建立網絡安全態勢感知結構。以金融領域應用的智能網絡平臺為例,技術人員在安全防護設計中,可以打造集網絡安全檢測、智能防護、全面預警特征于一體的綜合防護機制。系統還可以聯合金融平臺,對平臺上展現的金融數據進行追蹤記錄,并且排查可能存在的安全隱患,便于在增強金融智能網絡安全防護能力的基礎上,使金融機構具備可靠且完善的安全保障。為保證智能網絡動作在安全防護中體現出實時防范價值,技術人員還應充分利用大數據技術及時評估數據風險性,以便在動作元素的遷移學習中維護智能網絡運行安全。
3.3 規范設計回報函數
基于深度強化學習的智能網絡安全防護系統的優化設計,技術人員應從函數設計方面提出可行性設計決策。此次研究依托深度強化學習算法中對應的回報值,對交互場景中的參數進行持續調整,確定高回報值動作。該函數在深度強化學習理論中扮演著導向角色,系統能在函數引領下求取最大回報值,然后獲取與之對應的動作元素。在智能網絡運行中,智能體按照對應網絡動作確定回報情況時,若某時刻下網絡攻擊遭受的威脅度超出閾值范圍,此時對照下回報動作以獎勵為主。若未至閾值范圍,以懲罰回報為最終結果。若某時刻下威脅度剛好與閾值相同,則不提出具體的回報指令,從而系統在回報函數計算引導下順利得出回報動作[5] 。
根據相關研究,攻擊威脅度可以劃分為攻擊力度、攻擊行為以及攻擊能力3種類型。技術人員可以參照不同攻擊威脅度類別中的相關信息評估現有時刻下的智能網絡攻擊威脅度。比如在攻擊行為中涵蓋攻擊對象重要程度、攻擊位置以及攻擊目標部分,系統從有方向性的判定網絡威脅度。以上述回報動作的歸屬范圍給出適合的網絡動作。在網絡動作下,還可以對網絡狀態風險性的高低情況進行預判。經過此種系統的運行,智能網絡安全性將得以增強。據此,深度強化學習算法的引進具有實踐應用意義。
3.4 強化數據分析功能
在改進智能網絡安全防護系統的環節,技術人員應借助深度強化學習算法,有效強化系統的數據分析功能,從中精準識別危險數據,剔除不安全數據,為用戶提供更優質的智能網絡服務[6]。為了提高智能網絡安全防護等級,系統應在原有基礎上對數據分析功能進行優化處理?,F如今,智能網絡與傳統網絡空間呈現增擴趨勢,對應的網絡安全風險也會有所升高。如果單純按照傳統算法處理網絡安全問題,顯然處理進度與智能網絡適用性不符。而在深度強化學習算法指引下,系統可以利用既定安全防護目標,結合狀態元素集合與動作狀態集合,快速識別可能引發安全后果的數據信息,之后按照回報值(獎勵、懲罰),對安全威脅度進行評估,提出智能修復網絡系統的決策,保證經過動作與狀態的雙向輔助,智能網絡安全防護作用將得以增強。在驗證智能網絡安全防護系統數據分析功能強度時,技術人員可以利用Agent訓練程序予以評估。其中設定的循環結構以判定樣本是否歸屬于構造數據集為基礎,若顯示“是”,則進入終止循環部分。若為“否”,則通過虛擬網絡空間環境,對其網絡安全態勢進行測定,充分利用參數梯度調節方式獲取對應的網絡動作,如若在程序運行中樣本數據存在攻擊威脅度,則進行參數修正,最終保障智能網絡呈現較高的安全水平。
4 結語
筆者提出的問題多與網絡防護架構、計算機軟件監測質量以及數據備份功能有關。要想達成智能網絡安全防護目標,相關技術人員須充分利用深度強化學習算法,設計新系統,便于在此系統輔助下,可以全方位探尋智能網絡安全風險,基于數據分析法,提高網絡服務質量。
參考文獻
[1]陳洪超.大數據背景下計算機網絡安全防范策略研究[J].機械設計,2021(12):160.
[2]譚俊杰,梁應敞.面向智能通信的深度強化學習方法[J].電子科技大學學報,2020(2):169-181.
[3]盧宛芝,丁要軍.基于半監督多視圖特征協同訓練的網絡惡意流量識別方法[J].通信技術,2022(4):513-518.
[4]潘曄,劉媛.基于防火墻技術的計算機網絡安全防護研究[J].網絡安全技術與應用,2022(8):6-8.
[5]吉紅清.信息化時代計算機網絡安全防護技術[J].數字技術與應用,2022(6)234-236.
[6]劉曉影,王淮,烏吉斯古愣.基于復雜網絡的多維網絡安全威脅評估模型[J].通信技術,2021(8):1969-1974.
(編輯 王永超)
Abstract: As a common algorithm of statistical learning, deep reinforcement learning will achieve remarkable results when it is applied to the design of intelligent network security protection, so as to avoid the risk of intelligent network security. This paper briefly analyzes the common problems of intelligent network security. Based on the analysis and research of the problems, it summarizes the specific objectives of intelligent network security protection optimization design. Through the implementation of design steps such as designing network state sets, refining network action sets, standardizing design return functions, and strengthening data analysis functions, intelligent networks will give full play to the role of security services, thus maintaining network security. The feasibility measures proposed in this paper, expect to improve the effectiveness of network security protection.
Key words: intensive learning; intelligent network; safety protection