◆于佳華
(國家計算機網絡應急技術處理協調中心黑龍江分中心 黑龍江 150001)
《中華人民共和國網絡安全法》規定,國家對公共通信和信息服務、能源、交通、水利、金融、公共服務、電子政務等重要行業和領域,以及其他一旦遭到破壞、喪失功能或者數據泄露,可能嚴重危害國家安全、國計民生、公共利益的關鍵信息基礎設施,在網絡安全等級保護制度的基礎上,實行重點保護[1]。摸清查明某區域內各單位運行、管理的,暴露在互聯網的關鍵信息基礎設施等重要信息系統,無論對于區域網絡安全監管部門開展網絡安全管理工作,還是區域網絡安全機構開展網絡安全監測防護工作都有十分重要的意義。
當前,有很多互聯網資產發現產品和服務,實現互聯網資產梳理與暴露面篩查,其大都通過網絡掃描、搜索引擎及網絡爬蟲等多種技術相結合,通過對關鍵詞、域名及ⅠP 的綜合查詢及關聯分析,進行互聯網上暴露資產的主動探測。
使用這些常見的互聯網資產主動探測產品和服務,進行區域互聯網重要信息系統探測時,存在以下的不足:
(1)探測結果不全。存在分目錄獨立部署、虛擬主機等大量單ⅠP 單端口承載多信息系統的情形,傳統ⅠP+端口的掃描方式無法探測。
(2)信息系統歸屬區域識別不準確。較多信息系統部署在阿里云等公有云上,ⅠP 段掃描會發現大量非所在區域信息資產。另外,較多信息系統選擇使用CDN 技術進行加速[2],許多區域外信息系統在本區域訪問時使用本區域ⅠP 承載。這兩種情形都導致信息系統的歸屬區域識別錯誤。
(3)缺乏自動標注能力。無探測資產的歸屬單位、行業類型、業務類型等的自動標準功能,人工標注工作量巨大。
為解決當前產品和服務存在的問題,實現區域內暴露在互聯網上的重要信息系統的自動收集整理,本文設計了一個區域互聯網重要信息系統智能探測平臺,平臺的設計示意圖如圖1 所示。
平臺先將已掌握的或者在互聯網上搜集的本區域內重要信息系統納入基礎數據池。其中,對于將未綁定域名的信息系統,將ⅠP 地址所屬C 段納入ⅠP 段數據池;對于綁定域名的信息系統,先將域名納入域名數據池,再解析出域名指向的ⅠP 地址,將ⅠP 地址所屬C 段納入ⅠP 段數據池。

圖1 平臺設計示意圖
資產探測爬取按照如下流程執行:
1、使用分布式調度機制,并行從ⅠP 段數據池和域名數據池提取基礎數據,建立獨立爬取任務,每個任務執行如下相同的步驟。
2、對基礎數據進行網頁爬取。
(1)對ⅠP 段,執行如下操作
①全端口掃描,獲得ⅠP 段內每一個ⅠP 地址開放的端口及每個端口運行的服務。
②對每個ⅠP 地址運行http/https 服務的端口,構造URL 進行網頁爬取。
③遍歷信息系統目錄字典,與原URL 組合形成新URL,繼續爬取同ⅠP 同端口但分目錄部署的不同信息系統。
(2)對于域名,執行如下操作
①先進行域名解析,得到其指向的ⅠP 地址,對該ⅠP 地址進行全端口掃描,獲得該ⅠP 地址開放的端口及每個端口運行的服務。
②對域名運行http/https 服務的端口,構造URL 進行網頁爬取。
b.2.3.遍歷信息系統目錄字典,與原URL 組合形成新URL,繼續爬取同ⅠP 同端口但分目錄部署的不同信息系統。
③遍歷二級域名字典,與域名組合成新域名,構造URL 繼續爬取同ⅠP 同端口但分虛擬主機部署的不同信息系統。
3、對爬取的頁面進行字符編碼轉換,統一為固定編碼,解決網頁亂碼現象。
4、提取頁面要素,包括標題、KEYWORDS、DESCRⅠPTⅠON、版權、備案ⅠD、通信地址、關鍵正文等。
5、獲取信息系統所屬ⅠP 地址的區域定位數據。
(1)對使用CDN 技術進行加速,由本區域ⅠP 承載但并不屬于本區域的信息系統進行清洗。平臺選用數個不同區域的DNS 服務器進行域名解析,如果指向的ⅠP地址隨著DNS服務器區域變化而變化,且與DNS 服務器區域有相關性,則清洗掉該信息系統。
(2)對無效信息系統進行清洗。建立標題黑名單,如“正在建設中”、“ⅠⅠS7”等,對爬取的信息系統的標題進行黑名單過濾,如標題與黑名單一致則予以剔除。
(3)對部署在公有云上的本區域信息系統進行過濾篩選。建立標題白名單,如區域內的地區名、重點單位名等,對于爬取的信息系統中,ⅠP 歸屬非本區域的信息系統的標題進行白名單過濾,包含白名單的信息系統予以保留,其他信息系統予以剔除。
依據先驗知識建立多條件標簽字典,對爬取模塊爬取的信息系統頁面要素與標簽字典進行碰撞,實現門戶網站、OA、防火墻、網關等業務類型,政府機關、能源、金融、交通、水利等行業類型的自動化標注。
以版權為主要標注要素確定該信息系統的歸屬單位,以標題為主要標注要素確定該信息系統的承載業務。
平臺的區域重要信息系統庫實現所探測到的區域內所有重要信息系統的存儲,存儲數據項包括探測時間、域名、ⅠP、端口、歸屬單位、行業類型、承載業務、業務類型等。數據庫數據將定期反饋至基礎數據池,實現平臺所探測信息系統的不斷迭代更新。
本文面向區域內暴露在互聯網上的重要信息系統探測這一特定問題,對當前常見的互聯網資產主動探測產品和服務存在的不足進行了研究分析,并設計了一套全新的智能探測平臺。平臺可以提高區域互聯網重要信息系統探測的完整性,并通過自動標注有效降低人工參與成本。