網絡空間測繪系統分類及應用綜述

2021-10-26 06:32:08姚旺君劉旭東包正晶賈召鵬

網絡安全與數據管理 2021年10期

劉紅，姚旺君，孫徹，劉旭東，包正晶，賈召鵬

(中國電子信息產業集團有限公司第六研究所，北京102209)

0 引言

隨著計算機網絡及通信技術的發展，世界即將進入萬物互聯的時代，新興互聯網通信技術方興未艾，聯網設備種類和數量都呈現爆發式增長，網民規模與日俱增，據 CNNIC 發布的第 47 期《中國互聯網發展統計報告》，截至 2020 年 12 月，中國互聯網用戶數達到9.89 億，占總人口的 70.7%，網絡空間已成為億萬民眾的精神家園。為推進網絡空間治理，就需要摸清網絡空間的“家底”。網絡空間測繪是對網絡空間中的各類資源進行探測，獲取網絡空間資源的基本屬性、應用屬性和擴展屬性，將獲取到的各類數據進行融合處理、關聯分析，繪制形成一張網絡空間資源的地圖，以全面掌握網絡空間基本特性及其分布特征，為網絡空間治理、網絡安全風險防御提供參考和依據。

本文從網絡空間測繪的發展歷程、相關概念出發，按網絡空間資源類型、探測方法、行業應用等方向對網絡空間測繪進行分類，并提出網絡空間測繪系統評價體系以及發展趨勢，為網絡空間測繪體系理論和技術研究貢獻力量。

1 發展歷程

互聯網，始于 1969 年的美國，它的興起給人們的工作、生活、社交、娛樂、消費帶來了諸多便利。起初為了解決網絡中存在的問題，更好地利用網絡，研究者們更多關注的是網絡性能，通過研究網絡測量與分析技術[1]，周期性、連續地測量網絡的性能參數，包括丟包率、RTT、流量、路徑的平均跳數等，通過對一系列參數的量化，來考察網絡的穩定性、可達性、可靠性及網絡服務質量等。隨著互聯網技術的成熟以及應用的普及，互聯網不再僅僅作為實驗室技術研究對象存在，而是越來越成為人們生產生活中的“第二類空間”[2]存在。

2001 年美國《保護信息系統的國家計劃》首次提出“網絡空間”(cyberspace)概念，隨著美國國家安全局(National Security Agency，NSA)的藏寶圖計劃、美國國防部先進研究項目局(Defense Advanced Research Projects Agency，DARPA)的 X 計劃以及美國國土資源部(United States Department of Homeland Security，DHS)的 SHINE 計劃[3]的披露，進一步推動了網絡空間測繪及其應用的發展。 2016 年 12 月 27 日，中國國家互聯網信息辦公室發布了《國家網絡空間安全戰略》，將網絡空間安全提升到一個重要的層次，加快推動了我國網絡空間測繪工作的發展。

在網絡空間測繪領域的起步階段，主要集中于理論和概念的研究，結合網絡測量技術和地理測繪知識，在資產探測、拓撲測量、IP 定位層面逐步發展。現階段更注重的是在海量多源異構數據的基礎上進行信息同化和融合分析，根據不同應用場景和需求，應用可視化技術，結合人工智能，對所有信息分門別類地進行展示。在進行全網資產探測的同時，實現對網絡空間的態勢感知、規律探尋，致力于將網絡空間、地理空間和社會空間進行相互映射，將虛擬、動態的網絡空間測繪成一份動態、實時、可靠、有效的網絡空間數據地圖，支撐監管機構、網絡安全部門、關鍵基礎設施行業、互聯網金融行業及互聯網廣告等典型行業應用。網絡空間測繪系統發展歷程如圖1 所示。

圖1 網絡空間測繪系統發展歷程

2 相關概念

目前，國內研究主要從狹義和廣義兩個角度闡述網絡空間測繪的基本內涵[2-4]，狹義的網絡空間是指覆蓋互聯網，建立于各類基礎設施、設備及軟硬件基礎上的一個抽象、虛擬、數字化的空間；廣義的網絡空間是指不僅覆蓋互聯網，還有電信網、工業控制網等，將傳統物理空間中的各對象，以及其關聯的信息(即社會空間信息)映像到網絡空間中。本文所探討的是廣義的網絡空間。

方濱興院士將網絡空間組成要素分為4 種類型[5]：載體、信息、主體和操作，基于此 4 要素網絡空間測繪的目的是獲取網絡空間中各個要素的全面完整信息，具體包括網絡空間目標軟硬件資產屬性信息、網絡拓撲地圖繪制、目標地理位置信息、目標賬號信息以及各個要素之間的信息融合和關聯分析。

網絡空間目標軟硬件資產屬性信息包括目標設備、目標軟件及其屬性信息，如識別目標為路由器、交換機、安全防護設備、服務器、終端、物聯網設備等，進一步包括目標設備的型號、廠商等；另外，目標軟件信息包括目標系統軟件、應用軟件、中間件等，進一步包括目標軟件的名稱、版本號、網絡協議及版本；目標資產屬性信息包括目標IP 地址、MAC地址、主機名稱、域名、端口開放情況、服務組件、行業屬性、脆弱性匹配情況等。

網絡拓撲地圖繪制包含全球級別、國家級別、AS 級別(AS 域內和 AS 域間)和 IP 級別的繪制，分析全球網絡連接情況。從物理拓撲和邏輯拓撲兩個層面對指定地區下AS 域內拓撲，返回路由器連接關系、路由器接口IP 和路由器詳細信息(如路由器位置、在網絡中的角色及帶寬等)。

目標IP 地理位置信息包括地理位置、應用場景、所屬運營商、定位精度、定位方式、定位準確度和一致性。

目標賬號信息包括社交媒體賬號基本信息、賬號好友關系、賬號發文信息，以及消息的點贊、轉發、評論等。

網絡空間測繪重在“測”與“繪”，以地理空間為基礎，繪出網絡空間中所有資產的位置，展示資產的屬性特征，以資產為載體，向上擴展到社會空間，呈現所有資產的社會屬性。地理空間是現實世界中可以看到的，如山川、河流、土地、城市、道路等；網絡空間是構建在信息通信技術基礎設施之上的人造空間，用以支撐人們在該空間中開展各類信息通信技術相關的活動[3]；社會空間原本是社會活動和社會組織所占據的空間，而基于網絡空間所形成的社會空間是指虛擬的行為空間、社區、生活圈等。

本文主要從“測”的角度，通過不同的分類方法描述網絡空間測繪系統，如圖2 所示；然后介紹目前網絡空間測繪相關產品，并從不同維度總結其評價指標體系，提出對網絡空間測繪技術的幾點思考及其存在的難點、問題；最后闡述了網絡空間測繪的發展趨勢。

圖2 網絡空間測繪系統分類

3 網絡空間測繪系統分類

3.1 按資源類型分類

廣義的網絡空間資源是網絡空間中 “載體”、“信息”、“主體”等各類要素的總和，不僅覆蓋通信基礎設施、IP 網絡、覆蓋網絡、應用支撐系統等互聯網基礎設施實體資源，而且覆蓋承載在實體設施之上的信息內容、用戶等虛擬資源[6-7]，如圖3 所示。

圖3 網絡空間資源分類圖

(1)實體資源

所謂實體性是指網絡的組成及其在網絡中能夠實際體驗的，即“看得見摸得到”的，它以網絡本身為基礎，是網絡產生后才隨之產生的。網絡空間的實體資源[8]分為硬件和軟件，硬件即能連上網絡的設備，它們占據了虛擬網絡空間中的某一位置，一旦設備掉電，就脫離網絡空間，所以實體資源是動態變化的，如服務器、路由交換設備、物聯網設備、終端設備、區塊鏈等；軟件即以硬件為載體以求達到某種目的的一系列代碼，如操作系統、中間件、數據庫、安全軟件等。

對實體資源的“測”，主要是對實體資源屬性信息的獲取、地理位置的識別及其與其他實體資源的關聯拓撲關系的獲取。將實體資源的地理位置向地理空間映射，明確目標地址；拓撲關系向網絡空間映射，繪制出目標網絡的連接情況；實體資源的行業屬性、組織結構等向社會空間映射，得到資源的社會屬性分類和地域分布情況[9]。

(2)虛擬資源

所謂虛擬性是指網絡世界的存在形態是無形的，它以圖像、聲音、信息等電子文本作為自己的存在形式。網絡空間中的虛擬資源，劃分到社會空間中，是由虛擬人(如各種社交賬號等)、虛擬內容(如網頁信息、聊天記錄、視頻等)構成的不同社區、不同群體組成的。在網絡中人們可以用匿名或虛擬身份進行交流，不同于現實世界，網絡空間中不存在身體屬性、階級屬性以及地域屬性所造成的各種溝壑。

對虛擬資源的“測”主要是對目標賬號及內容信息的獲取，例如對微信公眾號、微博等社交媒體賬號基本信息，賬號好友關系和賬號發文信息，以及關注的網站內容數據的提取，并在提取的數據基礎上進一步關聯分析，進行可視化繪制。

3.2 按方法分類

對網絡空間資產進行摸底，基于網絡傳輸技術可以應用多種手段，來獲取網絡空間資源的屬性、地理位置、拓撲關系、社交內容等信息。

(1)主動探測

主動探測[10]是指通過主動向目標網絡資產發出探測信號，包括端口掃描、指紋服務掃描、路由跟蹤技術、Spider 爬蟲[11]等探測網絡的服務協議類型、IP 存活、社交媒體內容、網站內容等信息，從返回數據包的相關信息(包括各層協議內容、包重傳時間等)中分類提取目標指紋或內容信息，將指紋與指紋庫中的指紋進行比對，來實現對開放端口、操作系統、服務、應用類型、端到端間的網絡性能信息、網絡的路徑分布及路由信息的探測；Spider 爬蟲搜集目標網站域名或社交通道的諸如漏洞信息、開放服務信息、作者公司、關聯關系、文本內容資產等信息[12]。主動探測方法相比于傳統方法便捷且高效，其通過目標網絡內的一個節點進行探測數據包的收發和響應分析實現，不需要在所有網絡資產上安裝客戶端。但同時也存在不足之處，例如大量非正常通信的網絡流量噪聲易對正在運行的系統造成影響等。

(2)被動探測

被動探測是采用監聽的方式，被動地接收當前網絡中的流量包[13]，通過對數據包的分析和處理，獲取資產信息。這種方法對網絡當前狀態影響較小，沒有增加網絡的負載，但不足之處是需要進行大量的分析工作，因為在所有流經網絡的數據包中，可能只有部分具有分析價值，所以針對大規模網絡，采用被動監聽的方式效率較低。另一方面，對于在線但不工作的網絡設備，無法監聽其流量，此時采用主動探測方式比較有效。

(3)主被動自適應探測

主被動自適應探測顧名思義是依據目標類型和狀態，將主動探測和被動探測兩種方式自動進行優劣勢互補，針對不主動產生流量的目標節點，自動采用主動探測方式，獲取所需信息，針對網絡性能要求較高且敏感的網絡，自動采用被動探測方式采集、解析流量包，或者先通過被動方式初步判斷目標節點的情況后，再自適應利用主動探測方式進一步深入地探索和分析。總之，主被動自適應探測的目的是在不影響網絡性能、不增加網絡負載的前提下，盡可能全面準確獲取網絡空間資源屬性信息。

(4)基于多源數據的融合

網絡空間資源屬性多源數據融合分析方法包括：開源網絡情報(OSINT)，即通過對公開的信息或其他開源工具進行收集、分析后所得到的情報，如公共記錄數據庫、政府報告、文件、網站、大眾媒體、暗網等公共信息；專業網絡空間資產測繪產品提供的源數據，包括 FOFA、Shodan、ZoomEye、RaySpace、360 Quake、BinaryEdge、Sumap、全球鷹等；專用數據資源庫，如 Maxmind、Whois、pDNS、高精度 IP 地理位置庫、漏洞庫、指紋庫、資產信息庫、行業屬性關系庫、社工庫；威脅情報類服務商，如 FireEye、Infoblox、LookingGlass、McAfee、RSA、SecureWorks、Symantec 和Verisign 等。

多源網絡空間資源屬性數據覆蓋面廣、碎片化、數據異構、數據量大，需要經驗豐富的大數據處理分析師以及高效的智能分析處理算法，融合分析出網絡空間測繪所需要的數據。此方法為純粹的數據分析繪制可視化技術，不主動地針對目標進行探測獲取數據，需要非常明確的應用場景需求進行支撐，才能形成有針對性有特色的專業網絡空間測繪系統。

(5)基于探針代理的探測

基于探針代理的探測主要針對于可協作的專網(私網)應用場景的網絡空間資產的測繪。運營商或者大型企業為了更好地實現自身網絡或者設備的監管能力，通過安全數據分析、可視化監管和精細化運營管理，掌握運營狀況，快速監控節點狀態、排查節點故障。一般會將探針部署在相關的網絡節點中或者ISP&IDC 出口，通過探針主動傳回目標節點網絡層及應用層的屬性信息到服務器，服務器進行分析展示監控。

基于探針代理的探測方法也是網絡空間測繪應用的一類場景需求，結合國內外各類開源威脅情報庫，對于私網資產的精細化運營管理、實時監控、異常報警、未知威脅發現有現實應用價值。

3.3 按應用場景分類

研究網絡空間測繪系統，了解空間資產分布、屬性、脆弱性信息，歸根結底是基于攻擊與防御的目的，目前各行業主要以防御為主，實時掌握自身所屬資產的公網暴露面，及時修補漏洞，進行脆弱性分析，做好主動防御，防止威脅事件的發生。

(1)威脅預警和應急響應

網絡空間測繪將資產數據融合與威脅風險關聯疊加后，可以提升安全應急響應時效。例如在監管部門層面，監管區域內的設備眾多，分布甚廣，難以統一管理，利用網絡空間測繪系統梳理區域內的資產，獲取資產位置信息，識別資產屬性特征及其脆弱性，進一步通過態勢的察覺、評估和預測，提前主動感知可能出現的威脅情況，有助于避免網絡威脅事件的發生，降低網絡威脅事件帶來的損失，特別是針對關鍵基礎設施的態勢預測尤為重要。利用工具進行監控，以工具代替人工，自動地全天候監控與偵察，抵御外部入侵，有助于擴大監管范圍，起到降本增效的效果。

(2)資產管理及其暴露面分析

網絡空間測繪可以應用于梳理目標資源的暴露面，對目標進行跟蹤管理。例如在企業層面，通過資產探測，清晰地了解任意時段的企業內部資產狀況，檢測可能被遺忘的設備，識別設備可能安裝的舊版本軟件，根據暴露出的該版本存在的漏洞情況，執行版本升級操作，預防網絡威脅的發生。同時通過資產探測，可了解企業產品的地域分布情況，結合地理位置以及用戶搜索內容的大數據分析，可以向其推送個性化的信息，包括服務、廣告等，作為營銷策略。通過資產識別，進一步對企業內部資產暴露面自查，對企業外部互聯網資產暴露面自查，及時修復漏洞，加固自身，不給攻擊方可乘之機。

(3)網絡性能改進

當前網絡結構復雜，設備種類和業務系統較多，網絡拓撲及上層覆蓋網絡的組網和性能等情況，是應用開發者和網絡維護者關注的重點。通過跟蹤網絡資源的拓撲以及流量的變化趨勢，監控網絡運行狀態，發現網絡自身問題，對網絡健壯性和脆弱性等進行評估，對新型網絡應用等的分布情況進行摸底，了解網絡狀況，進而改進網絡性能，優化網絡配置。

4 評價體系

目前全球已有眾多網絡空間測繪產品(也稱網絡空間搜索引擎)，如美國的 Shodan[14]，它主要針對服務器、網絡攝像頭等網絡基礎設備進行掃描識別，且具有豐富的支持多種編程語言的API 接口代碼庫；Censys[15]是密歇根大學的研究者開發的，它采用自研的掃描工具 ZMap，收集 IP、證書、網站的詳細信息，幫助用戶梳理所屬組織的攻擊暴露面；BinaryEdge是瑞士一家公司的產品，它進行全網范圍內的掃描，將近50 億設備的因特網攻擊暴露面與1 500 萬個商業團體進行映射，致力于為企業組織提供實時威脅情報信息以降低它們被攻擊的風險。

國內的網絡空間測繪產品也相繼產生，包括知道創宇公司的Zoomeye，其通過兩大探測引擎：Xmap和Wmap，分別針對網絡空間中的設備及網站，每天24 小時不間斷地探測、識別，標識出互聯網設備及網站所使用的服務及組件，除了設備指紋的掃描外，相比Shodan 它增加了對域名和Web 服務器的指紋掃描。華順信安的網絡空間搜索引擎FOFA，其資產數據按照host:port 的方式進行存儲，對資產特征收集比較完善，具備支持圖標搜索、蜜罐識別等功能。360 網絡安全響應中心自主研發設計的全網空間測繪系統 Quake，使用自研的 Quake Vscan 掃描引擎，支持5 個不同層面，數 10 萬種產品識別、產品類型識別，數百種常見網絡協議識別，具備全網資產設備發現識別能力。盛邦安全的 RaySpace 平臺，應用自主研發的安全操作系統RayOS，支持全球IPv4、IPv6 雙協議棧，使探測的范圍更廣更全面。安數網絡的Oshadan 網絡安全監測系統，專為網絡安全監管人員設計開發，用于監測關鍵信息基礎設施網絡安全風險。威努特做為國內工控安全領域的領軍者，提供防護和檢測兩大類完善的產品線和多行業解決方案，包括工業安全態勢感知平臺、工業互聯網雷達、漏洞庫平臺等進行工業互聯網的資產探測及威脅預警。東北大學研發的諦聽(ditecting)，側重搜尋暴露的工控聯網設備，定位其位置，捕捉開放端口，發現安全漏洞，展示全球工控安全形勢。

面對眾多的網絡空間測繪產品，目前國內沒有統一的評價標準來定量評價各產品的優劣勢，本文提出從以下不同維度進行評價，如表1 所示。

表1 不同維度的評價體系

當然，產品相關的參數不止上述所列出的維度，不同測繪產品的側重點也不盡相同，后續可在此基礎上進行擴充。

5 存在的問題和難點

網絡空間測繪面臨的問題和難點主要如下：

(1)網絡空間的資產分布廣，數量大且種類多，需要分析所有在網設備的特征、協議信息，才能達到全面探測識別的程度。

(2)受虛假識別、網絡防護等影響，易造成設備識別不準確，同樣設備位置準確性、威脅準確性均有待提高。

(3)網絡中的資產是動態的、瞬時變化的，當前看到的數據結果不一定就是設備的實際狀態，存在偏差，要達到實時跟蹤效果有待技術的提高。

(4)如何將實體資源向地理空間映射，如何在地理空間中描繪出不同形態的實體資源及其拓撲關系，如何將虛擬資源向社會空間映射，均存在一定難度。對虛擬資源的關聯分析也有待研究和實現。

(5)網絡空間測繪沒有特定行業標準規范和資質種類規范要求，領域內缺少統一的網絡空間資產數據表示方法、展示方法、資產分類分級的標準，導致不同產品的數據連通性差，也缺少測繪產品的評價標準來指導各單位測繪產品的開發。

(6)支持工業控制設備/協議等服務數量不足、感知深度不夠。因工控設備攜帶的更多的是私有協議，且種類多，所以需要大量的分析成本和技術積累。

(7)目前各國加大 IPv6 推廣力度，不同于對IPv4地址的探測，對IPv6 地址探測用輪詢的方法是不可能的，如何安全地、準確定位并識別 IPv6 資產，有待進一步研究。

(8)對新一代網絡的探測技術，需與時俱進，如SDN 網絡、云網絡、加密網絡等。

(9)需加強對網絡蜜罐的識別技術，防范探測目標的網絡誘捕行為。

6 結論

現階段國內網絡空間測繪領域對網絡空間資產的“摸底”已初具規模，覆蓋了全網大部分設備，積累了大量資產數據，但相比國外網絡空間測繪系統，從技術和應用方面均有較大的差距。據預計，到2025 年全球連接到互聯網的設備將達到416 億臺，由此可見對網絡空間的探索任重道遠。未來需要做的一是在探測方面，要精益求精，對未知的協議資產進一步分析、探索，提高資產覆蓋率、準確率，在提高探測速度的同時，引入高效的人工智能算法技術，注重探測的安全性、無感知、無影響、無風險、防溯源；二是在探測數據的基礎上，將實體和虛擬資源數據進行融合分析，基于地理地圖，將網絡設備的地理位置、所屬組織、拓撲關系、設備屬性、網絡人的屬性等進行多維度繪制，形成面向設備/域名、面向關鍵基礎服務、面向內容和服務、面向網絡人和社會人映射的畫像，形成高度集成的網絡空間全產業生態鏈的畫像。同時期待國內多家網絡空間測繪領域的企業，可共享資源、共享補丁、高效協同、強強聯合、合作共贏，為國家安全戰略同奮斗。