許勇剛,王利斌,楊 陽,胡宇宣,尹 琴
(國網(wǎng)思極網(wǎng)安科技(北京)有限公司,北京 102209)
在現(xiàn)今世界不穩(wěn)定因素日益增多、國際關系復雜化的大局下,我國電力網(wǎng)絡如何有效識別邊界資產(chǎn)(已知資產(chǎn)和未知資產(chǎn))并進行資產(chǎn)畫像,如何對已知資產(chǎn)涉及的空間要素進行分類展示,如何對未知資產(chǎn)可信值進行計算,網(wǎng)絡空間和現(xiàn)實空間的地圖如何映射?針對以上問題,本文提出以電力關鍵業(yè)務網(wǎng)絡和重要目標網(wǎng)絡為主要探測對象,實時地掌握網(wǎng)絡的重要對象、節(jié)點屬性、存活狀態(tài)、基礎服務、拓撲結構等深度信息,結合未知資產(chǎn)的可信度,實現(xiàn)電力行業(yè)網(wǎng)絡空間資產(chǎn)的數(shù)據(jù)分析展示,及構建電力網(wǎng)絡的網(wǎng)絡空間地圖的目的。
境外網(wǎng)站探測主要以SHODAN系統(tǒng)為主,SHODAN是John Matherly在大學期間開發(fā)的網(wǎng)絡空間搜索引擎,2008年開始,美國國土安全部(DHS)SHINE(SHodan INtelligence Extraction)計 劃 的 推 動,使 得SHODAN對工控設備的識別能力大大提高,現(xiàn)在其主要的業(yè)務模式如圖1所示。SHODAN系統(tǒng)對電力行業(yè)的分析是通過協(xié)議(BACNET/HAVC)或產(chǎn)品制造商角度來進行的。

圖1 SHODAN示例圖
以電網(wǎng)、電力、能源及相關域名作為關鍵詞在SHODAN系統(tǒng)上進行檢索,可發(fā)現(xiàn)數(shù)據(jù)量如表1所示(數(shù)據(jù)均只取中國境內(nèi)數(shù)據(jù),檢索數(shù)量總量未剔除臟數(shù)據(jù),真實數(shù)據(jù)量約占比為71%)。

表1 境外平臺數(shù)據(jù)表
根據(jù)《電力系統(tǒng)數(shù)據(jù)通信網(wǎng)IP地址規(guī)劃分析》可以得知,國家電網(wǎng)公司為各省網(wǎng)絡設備和互聯(lián)網(wǎng)地址規(guī)劃4個IPv4 B類地址段(含預留2個IPv4 B類地址段),預期國家電網(wǎng)單個省公司分配262 136個IPv4地址,預留131 068個IPv4地址[1],電力網(wǎng)絡內(nèi)僅國家電網(wǎng)公司數(shù)據(jù)通信網(wǎng)內(nèi)已經(jīng)使用50個IPv4 B類地址段(50個IPv4 B類預留地址段僅能夠作為新增業(yè)務系統(tǒng)應急使用)[2],據(jù)此數(shù)據(jù)估算,SHODAN系統(tǒng)檢索資產(chǎn)與實際資產(chǎn)相差甚遠,并且SHODAN系統(tǒng)無法識別國內(nèi)主流應用,無法根據(jù)行業(yè)分類準確檢索電力行業(yè)的資產(chǎn)數(shù)量,這也是迫在眉睫需要解決的問題。
國內(nèi)網(wǎng)絡測繪產(chǎn)品主要聚焦在互聯(lián)網(wǎng)側的資產(chǎn)發(fā)現(xiàn),通過探測引擎實現(xiàn)對互聯(lián)網(wǎng)資產(chǎn)存活狀態(tài)及指紋信息的快速探測,如針對國內(nèi)主流設備(例如TP-link、D-link等)、應用(例如用友OA、泛微OA等)等進行探測。但是國內(nèi)網(wǎng)絡測繪產(chǎn)品缺少針對電力行業(yè)的行業(yè)指紋、行業(yè)協(xié)議、行業(yè)端口等行業(yè)模塊的探測,也缺乏對電力行業(yè)所屬的供應商分析,仍有指紋識別性能低,無法全面、動態(tài)感知電力行業(yè)網(wǎng)絡資源等問題。針對國內(nèi)主流的檢索系統(tǒng)進行數(shù)據(jù)分析,其中數(shù)據(jù)量如表2所示(數(shù)據(jù)均只取中國境內(nèi)數(shù)據(jù),檢索數(shù)量總量未剔除臟數(shù)據(jù),真實數(shù)據(jù)量約占比為68%)。

表2 國內(nèi)平臺數(shù)據(jù)表
除了通信數(shù)據(jù)網(wǎng)與調(diào)度數(shù)據(jù)網(wǎng)等傳統(tǒng)資產(chǎn)對IP地址使用之外,電力網(wǎng)絡新業(yè)務還占據(jù)有海量的IP地址,這些新業(yè)務集中在云計算、物聯(lián)網(wǎng)應用系統(tǒng)、電網(wǎng)公司工作人員電子終端等方面,而根據(jù)《國家電網(wǎng)公司下一代互聯(lián)網(wǎng)地址需求量分析》[2],新業(yè)務IP預期約為241個,而這些資產(chǎn)的梳理畫像是互聯(lián)網(wǎng)側畫像中容易被遺漏的部分。
本文研究電力網(wǎng)絡空間下已知資產(chǎn)、未知資產(chǎn)分布,并對其進行指紋探測分析,針對電力行業(yè)網(wǎng)絡體系架構,分析電力行業(yè)網(wǎng)絡結構特征,研究電力行業(yè)網(wǎng)絡資源測繪的地圖,通過大型行業(yè)專網(wǎng)結構下的典型數(shù)據(jù)測繪規(guī)范,達到對電力行業(yè)網(wǎng)絡地圖標準化測繪、規(guī)范化管理、高效化應用的效果。
網(wǎng)絡空間復雜多變,單一探測手段或分析方法難以獲取和還原電力網(wǎng)絡資產(chǎn)源信息。要完整標識一個IP地址的多維屬性,并明確標識未知IP地址與電力網(wǎng)絡相關的可信度,需要對目標進行多維度的探測分析,當面向大規(guī)模網(wǎng)絡探測時,優(yōu)化探測算法、可信算法和數(shù)據(jù)模型對提高效率顯得尤為重要,在此基礎上還需要突破網(wǎng)絡傳輸質(zhì)量的自適應目標探測的相關技術。本文涉及的研究方法主要針對電力資產(chǎn)(可見資產(chǎn)和未知資產(chǎn))進行探測,對未知資產(chǎn)的可信度進行識別,對已知資產(chǎn)多維度信息進行展示,并根據(jù)已知資產(chǎn)和未知資產(chǎn)的網(wǎng)絡空間要素、空間特征結合地理空間進行資產(chǎn)地圖的繪制。
電力行業(yè)資產(chǎn)分為可見資產(chǎn)和未知資產(chǎn),可見資產(chǎn)是指通過IP地址段、備案域名、ICP備案、證書等強相關信息可以明確標識為電力行業(yè)資產(chǎn),例如:*.s***.com.cn。未知資產(chǎn)是沒有明確標識,但是可以根據(jù)ICO標簽或者設備供應鏈、集團下屬的分子公司,判斷為電力行業(yè)內(nèi)的相關資產(chǎn),這樣就需要對資產(chǎn)數(shù)據(jù)可信度[3]進行判別,可信度越高,代表電力行業(yè)資產(chǎn)是目標資產(chǎn)的可能性越高。針對電力行業(yè)資產(chǎn)數(shù)據(jù)可信度本文進行如下公式計算(以設定關鍵條目出現(xiàn)的總次數(shù)為20次舉例):

其中,DC為數(shù)據(jù)可信度(Data Credibility),其通過四個部分進行計算,其中包括第一可信區(qū)域Fi,觸發(fā)第一可信區(qū)域的關鍵條目次數(shù)為n,對第一可信區(qū)域涉及的不同關鍵條目代表的可信值(Da)求均值,并以關鍵條目出現(xiàn)的次數(shù)作為冪次(X),對基礎可信值(基礎可信值默認為1)乘0.8加上第一可信區(qū)域的條目可信值計算,可得知第一可信區(qū)域的可信值。
針對第二可信區(qū)域Se,對涉及到的不同關鍵條目代表的可信值(Ds)求均值,并以關鍵條目出現(xiàn)的次數(shù)作為冪次(Y),對基礎可信值(基礎可信值默認為1)乘0.8加上第二可信區(qū)域的條目可信值計算,可得知第二可信區(qū)域的可信值。第三可信區(qū)域同理可得。
針對未涉及可信區(qū)域En,通過總條目數(shù)減去第一、第二、第三可信區(qū)域命中條目,將已剩余條目數(shù)量作為冪次,對基礎可信值(基礎可信值默認為1)乘0.8減去未涉及區(qū)域的條目可信值計算,可得未涉及可信區(qū)域的可信值。
最終的數(shù)據(jù)可信度是由第一可信區(qū)域、第二可信區(qū)域、第三可信區(qū)域以及未涉及可信區(qū)域取均值,數(shù)據(jù)可信度數(shù)值在[5,+∞)認為是可信資產(chǎn),可以計入電力行業(yè)資產(chǎn)范圍;數(shù)據(jù)可信度數(shù)值在[3,5)認為是第一可信區(qū)間資產(chǎn),核驗后的確信資產(chǎn)標記可以計入電力行業(yè)資產(chǎn);數(shù)據(jù)可信度數(shù)值在[2,3)認為是第二可信區(qū)間資產(chǎn),人工二次核驗后的確信資產(chǎn)標記可以計入電力行業(yè)資產(chǎn);數(shù)據(jù)可信度數(shù)值在[1,2)認為是第三可信區(qū)間資產(chǎn),資產(chǎn)備案信息完全核驗后的確信資產(chǎn)標記可以計入電力行業(yè)資產(chǎn);數(shù)據(jù)可信度數(shù)值在[0,1)認為是不可信資產(chǎn),不計入電力行業(yè)資產(chǎn)范圍。
電力行業(yè)已知資產(chǎn)相關空間要素繁多,通常同一域名上不同路徑可能有數(shù)十個不同的訪問站點,并對應數(shù)十個系統(tǒng)或設備,而每個系統(tǒng)又可能會從硬件層到業(yè)務層匹配不同的空間要素。針對同一個域名在不同路徑、不同端口情況下存在不同業(yè)務系統(tǒng)的情況,以單一IP/域名為基礎節(jié)點來分析,單一IP/域名包含端口、路徑、服務、協(xié)議、組件、組件版本、設備類型、廠商名稱、設備信息、型號、操作系統(tǒng)、系統(tǒng)版本、電力行業(yè)標簽、所屬組織、網(wǎng)站內(nèi)容、域名、國家、省、市、縣、主機名稱、運營商、經(jīng)度、緯度、狀態(tài)等多維度信息內(nèi)容,通過對協(xié)議進行分類處理,抽取共性匹配字段進行展示。由于電力行業(yè)信息資產(chǎn)80%以上的目標采用HTTP/HTTPS協(xié)議,針對其HTTP/HTTPS協(xié)議進行了全面的關鍵字提取,包括并不限于電力行業(yè)信息資產(chǎn)涉及的行業(yè)特色協(xié)議、報文信息等。基于AC多模匹配算法(Aho-Corasick Automaton)使得一份數(shù)據(jù)可同時對數(shù)百個甚至數(shù)千個規(guī)則的特征進行比對,能夠快速在行業(yè)專屬庫中識別對應的數(shù)據(jù)關系。源數(shù)據(jù)處理方法分為以下幾種:
(1)將不同路徑、不同端口上的信息進行數(shù)據(jù)裁剪后,針對核心數(shù)據(jù)進行展示;
(2)將不同路徑、不同端口上的信息按照枚舉的模式分類展示;
(3)將數(shù)據(jù)按照分級分類的方法,構造樹形數(shù)據(jù)結構,將不同路徑、不同端口的信息形成樹形結構的第一級結構,然后將第一級結構涉及的組件、協(xié)議、操作系統(tǒng)等信息形成第二級結構,剩余信息形成樹形結構的第三級結構。
本文主要是通過對第三級數(shù)據(jù)結構進行處理,展示數(shù)據(jù)源于空間要素的樹形結構。
電力行業(yè)的資產(chǎn)地圖繪制不同于常規(guī)網(wǎng)絡拓撲,專指描繪電力行業(yè)網(wǎng)絡空間節(jié)點及空間要素特征與地理空間的映射關系圖[4]。依據(jù)節(jié)點可視化映射時所基于的空間相對特征信息類型,可將電力行業(yè)網(wǎng)絡空間節(jié)點(已知資產(chǎn)/未知資產(chǎn))進行鏈接,實現(xiàn)鏈接就需要將網(wǎng)絡中信息要素和傳遞要素特征轉為數(shù)字化描述,要素的空間特征相對地理空間要素表現(xiàn)得更為抽象和復雜。針對電力行業(yè)資產(chǎn)地圖繪制[5],除了考慮到網(wǎng)絡空間要素、空間特征之外,還需要將地理空間要素和網(wǎng)絡空間要素之間通過約束關系形成堆疊,也就是地理空間的地形地貌、交通、港口等信息需要和網(wǎng)絡空間中安全設備、路由設備、交換設備等傳輸介質(zhì)之間形成基本約束關系,網(wǎng)絡空間的傳輸介質(zhì)和地理空間的地形地貌形成資產(chǎn)繪制的底圖,在底圖上填充網(wǎng)絡空間要素就形成電力行業(yè)的網(wǎng)空地圖繪制,如圖2模型所示[6-9]。

圖2 網(wǎng)絡地圖基本模型
模型第一層是電力行業(yè)地理空間要素圖,依據(jù)行業(yè)內(nèi)實際覆蓋范圍以及服務對象來確定必要的地理空間要素,例如樓宇位置、關鍵設施、交通、地貌、居民地、港口等。地理空間要素圖作為網(wǎng)絡空間地圖的底圖將與糾纏約束關系圖、網(wǎng)絡空間要素圖共同形成電力行業(yè)網(wǎng)絡空間地圖。
模型第二層是電力行業(yè)地理空間與網(wǎng)絡空間關系圖,指網(wǎng)絡空間的業(yè)務系統(tǒng)對應到地理空間的區(qū)域和分布結構,例如s***.com,既對應北京市**區(qū)**路**號,又對應西安市**區(qū)**路**號和成都市**區(qū)**路**號。網(wǎng)絡空間的關鍵節(jié)點可能對應地理空間多個要素。模型第二層的核心是將地理空間與網(wǎng)絡空間的“糾纏”關系、“約束”關系進行體現(xiàn)。
模型第三層是電力行業(yè)網(wǎng)絡空間要素圖,依據(jù)空間特征可將網(wǎng)絡空間要素抽象為實體點要素、虛擬點要素、傳輸線要素和無形態(tài)要素,表3[10]是網(wǎng)絡空間要素所屬要素類型和空間特征的數(shù)字化描述,網(wǎng)絡空間節(jié)點和網(wǎng)絡空間要素間以鄰接、關聯(lián)和依賴形成結構關系,基于要素的可信程度和要素“關系”的強弱弱化距離和方向的概念,強調(diào)網(wǎng)絡空間各節(jié)點要素中信息流轉的過程路徑和最終去向[11-15]。

表3 網(wǎng)絡空間要素對照表
實驗使用的網(wǎng)絡空間數(shù)據(jù)包括SHODAN系統(tǒng)和國內(nèi)測繪平臺中IP定位數(shù)據(jù)、互聯(lián)網(wǎng)拓撲數(shù)據(jù)等電力行業(yè)關鍵資產(chǎn)信息數(shù)據(jù),如表4所示。

表4 SHODAN、國內(nèi)測繪平臺數(shù)據(jù)對照表
對上述數(shù)據(jù)去重后進行二次分析,去重后數(shù)據(jù)共計380 122條,基于表4數(shù)據(jù)識別出來的電力行業(yè)資產(chǎn)進行可信資產(chǎn)和未知資產(chǎn)劃分(按照可信區(qū)間進行劃分),數(shù)量分布如表5所示。

表5 可信資產(chǎn)梳理表
根據(jù)表5分析得知,可信資產(chǎn)占據(jù)總數(shù)據(jù)的0.22%,第一可信區(qū)間資產(chǎn)占據(jù)總數(shù)據(jù)的1.65%,第二可信區(qū)間資產(chǎn)占據(jù)總數(shù)據(jù)的5.21%,第三可信區(qū)間資產(chǎn)占據(jù)總數(shù)據(jù)的6.57%。
SHODAN系統(tǒng)和國內(nèi)測繪平臺資產(chǎn)中存在的未知資產(chǎn)可信度判別問題可以通過3.1節(jié)提及的方法解決,但就基礎數(shù)據(jù)源而言,SHODAN系統(tǒng)和國內(nèi)測繪平臺探測范圍僅為常見端口,對比電力行業(yè)中存在較多的非標準端口和高端口仍有不足,需要重新通過資產(chǎn)測繪的模式進行探測。探測后對比SHODAN和國內(nèi)測繪平臺的檢測模式出現(xiàn)數(shù)據(jù)質(zhì)量和數(shù)量的變化,發(fā)現(xiàn)可信資產(chǎn)數(shù)量提升302%,第一可信區(qū)間資產(chǎn)數(shù)量提升226%,第二可信區(qū)間資產(chǎn)數(shù)量提升163%,第三可信區(qū)間資產(chǎn)數(shù)量提升159%。
將表6網(wǎng)絡測繪數(shù)據(jù)疊加到地理空間數(shù)據(jù)上進行可視化表達,實現(xiàn)地理與網(wǎng)絡空間在疊加狀態(tài)下繪制電力行業(yè)網(wǎng)絡空間地圖,依據(jù)網(wǎng)絡空間地圖層次模型,結合可信資產(chǎn)梳理范圍。以可信資產(chǎn)在銅川市分布情況為例,網(wǎng)絡空間可信資產(chǎn)要素圖與遙感影像圖疊加形成的網(wǎng)絡空間地圖如圖3所示。以資產(chǎn)在銅川市分布情況為例,網(wǎng)絡空間資產(chǎn)可信全要素圖與路圖疊加形成的網(wǎng)絡空間地圖如圖4所示。網(wǎng)絡空間可信資產(chǎn)要素圖與樓宇圖形成的網(wǎng)絡空間地圖如圖5所示。

圖4 網(wǎng)絡空間資產(chǎn)可信全要素圖與路圖的疊加

圖5 網(wǎng)絡空間可信資產(chǎn)要素圖與樓宇圖

表6 資產(chǎn)探測表

圖3 網(wǎng)絡空間可信資產(chǎn)要素圖與遙感影像圖的疊加
在網(wǎng)絡空間防護體系中,網(wǎng)絡空間地圖面向全網(wǎng)資產(chǎn),具有最廣闊的目標范圍和最接近實戰(zhàn)的安全視角,可為威脅感知、快速預警和綜合防御提供重要支撐。針對電力行業(yè)網(wǎng)絡特點(數(shù)量大、類型多、動態(tài)持續(xù)變化、信息繁雜且不規(guī)則、供應鏈復雜等),提出對未知資產(chǎn)的可信度分析,對已知資產(chǎn)的空間要素探測,形成網(wǎng)絡空間要素圖,以地理空間要素圖作為網(wǎng)絡空間地圖的底圖,結合糾纏約束關系圖、網(wǎng)絡空間要素圖共同形成電力行業(yè)網(wǎng)絡空間地圖。