葉朝陽,沈辰,黃明慶,張士聰,劉伊莎
互聯網BGP路由可視及安全檢測技術架構與實踐
葉朝陽1,沈辰2,黃明慶3,張士聰1,劉伊莎1
(1. 浙江省新型互聯網交換中心有限公司,浙江 杭州 311200; 2. 中國信息通信研究院,北京 100191;3. 華為技術有限公司,北京 100095)
邊界網關協議(border gateway protocol,BGP)是支撐互聯網50年來快速發展的核心協議,因早期設計考慮不足一直存在路由劫持、路由泄露等路由安全威脅漏洞。隨著互聯網應用日益深入,BGP路由安全問題逐漸引起業界重視,邊界網絡安全防護意義重大。提出了一種BGP路由安全檢測架構,通過推理構建全球BGP路由知識庫實現互聯網全局路由可視性,并基于此實現路由劫持、路由泄露等路由安全事件的準實時檢測。通過在杭州交換中心部署實踐,證明本系統可構造較完整的互聯網全局路由知識庫、實現較準確和實時的BGP路由安全事件檢測。
BGP;路由安全;路由劫持;路由泄露
以BGP(border gateway protocol)為基礎協議的全球互聯網經過50多年的蓬勃發展,逐步從計算機互聯網、消費互聯網向產業互聯網演進,成為全社會數字化基礎設施,對安全可信的路由服務訴求越來越強烈,而早期BGP設計所帶來的兩個矛盾也越來越突出。一方面是缺乏安全可信機制。協議設計之初假設參與各方可信、可靠,沒有考慮參與方的無意錯誤或惡意行為可能造成的路由安全威脅;另一方面是缺乏全局視圖。各參與方只掌握自己相關的局部信息,缺乏全局視圖以支撐互聯網級別的可視運營、分析檢測、診斷等,處理相關路由安全事故偏被動,且支撐信息和工具不足。
據路由安全相互協議規范(MANRS)統計,僅僅被監測到的路由安全事故每年高達數千起,其中一些重大安全事故更是造成了全球范圍的影響。例如,2019年6月,BGP優化器進行基于精細路由的流量疏導,下游運營商錯誤地將該路由泄露給了Verizon(美國無線運營商,威訊無線),Verizon進一步擴散后放大該錯誤進而導致網絡嚴重擁塞,直接影響了約15%的互聯網流量。類似的問題在2010年、2019年也先后發生在中國電信,同樣是因二次路由泄露導致網絡嚴重擁塞,但不同的是,當時中國電信曾因被海外媒體污名報道而承受較大壓力;2021年4月,VDF因錯誤通告原本屬于Google、Microsoft、Akamai、Cloudflare、Fastly等大型科技公司的31 000多個路由,形成大面積路由劫持;2018年4月,犯罪者通過劫持某以太坊錢包網站的DNS明細路由,竊取用戶訪問入口進而實施網絡盜取。
所有這些路由安全事故都是因有意或無意的錯誤作用到BGP路由傳播鏈條而形成,按照錯誤形成方式進行分類包括如下3方面。
· 前綴劫持:始發自治系統(autonomous system,AS)通告了本不屬于自己的前綴。
· 路徑劫持:傳播擴散路由時偽造不存在的路徑。
· 路由泄露:傳播擴散時將路由泄露給了不合理的第三方。
這些路由安全事故可能造成的危害包括:路由黑洞導致的網絡訪問中斷,流量繞行導致的網絡擁塞、結算費用增加,更嚴重的包括利用路由劫持和泄露進行流量偵聽、中間人攻擊和仿冒攻擊等。
業界BGP路由安全相關研究可以最早追溯到BGP協議誕生之初,包括以下3個研究方向。
(1)協議層面的安全防護加固
早期,業界討論的重點是從協議層面形成安全機制,考慮到性能開銷以及現實部署等多方面的因素,目前已經得以應用的安全機制較為有限。比較常見的如TCP MD5、GTSM(generalized TTL security mechanism)、路由抖動抑制(route flap damping,RFD)等。但此類方案無法解決路由劫持、泄露及路徑篡改等當前域間路由安全核心問題。
(2)域間路由可信驗證機制
針對BGP存在無法對路由信息進行真實性和完整性驗證的問題,業界探索形成了通過帶外建立可信任權威數據源的方式,推動域間路由從“無條件信任”向“可驗證”方式演變。通過在帶外建立互聯網資源數據簽發基礎設施——即資源公鑰基礎設施(resource public key infrastructure,RPKI),為路由器提供可信的BGP路由安全驗證防護所需的全局資源數據,從2012年起陸續發布了BGP-ROV(route origin verification)和BGP-PV(path verification)系列RFC。近期在互聯網名稱與數字地址分配機構(the Internet corporation for assigned names and numbers,ICANN)/區域互聯網注冊機構(regional internet registries,RIRs)的大力推動下,路由源簽證(route origin authentication,ROA)數據簽發及相應的BGP-ROV部署應用近年來獲得了較快進展。盡管如此,離真正全面落實BGP路由安全協議加固防護仍然有較大距離,存在如下挑戰。
· ROA數據簽發覆蓋率仍然不足30%,且在實際網絡中BGP-ROV方案部署率更低,離全面落實路由起源驗證仍然有較長的路要走。
· 圍繞路徑劫持和路由泄露的安全防護,業界提出了一些方案,但都未形成共識,其主要制約因素有:BGP的路徑迭代驗證帶來大量計算開銷,業界還在探索路徑驗證能力與計算開銷之間的平衡方案;路徑驗證數據的簽發,特別是商業關系數據,相較于ROA更涉及運營商的商業隱私。
RPKI基礎設施全面部署和應用,本身也存在挑戰:除相關基礎設施的建設投資和運營投入外,RPKI的中心化簽名認證和分發機制還涉及中心化治理風險、與底層基礎網絡間的數據同步問題等。
(3)BGP路由安全分析檢測
如果說前者是主動的BGP路由安全防護,BGP路由安全分析檢測則屬于后端被動監測,二者共同構成完整的防護體系。BGP路由安全分析監測的核心價值包括如下3個方面。
· 主動防護只能基于本地路由器接收到的協議報文進行,并不能有效防范發生在外部的針對本網始發前綴的劫持和泄露危害。
· 主動防護方案受部署場景覆蓋及所依賴數據的完備性限制,預期在相當長時期內都無法依賴其實現完整的路由安全保障。
· 互聯網級別的網絡運營監管,需要打造全網可視化視圖,進行實時安全威脅分析及態勢感知,為進一步的故障定位、診斷、消減等提供支撐。
近20多年來,BGP路由信息收集及安全分析檢測一直是互聯網生態圈學術研究的熱點之一,特別是在美歐地區,逐步建立起了初步的用于全球互聯網路由信息采集及安全分析能力。
(1)互聯網路由信息采集
傳統上,互聯網路由運維主要依賴運營商共同發起提供的Looking Glass Servers。20世紀末,美國和歐洲分別發起了以Route Views和RIPE RIS項目為主的BGP路由信息采集公共基礎設施建設——通過專用采集器(collector)與現網BGP路由器采集點(vantage point,VP)建立對等(peer)關系單向獲取BGP路由信息,并開放提供給業界進行進一步的數據分析利用。截至目前,Route Views和RIPE RIS在全球共計建設了超過50多個路由采集器,從全球數百個AS提取BGP路由信息。
(2)BGP路由數據分析研究與應用
基于上述基礎設施所采集到的路由信息,業界展開了BGP路由數據分析相關研究與應用,其中最有代表性的組織是CAIDA(Center for Applied Internet Data Analysis),其組織和支撐的研究覆蓋數據采集、分析、可視化、分層共享等各相關環節以及商業、教育、研究和政府組織等產業生態。概況起來,這一領域的分析研究有兩大主要方向:全球互聯網基礎知識庫的推理構建以及路由劫持、路由泄露等路由安全事故的檢測分析。其中,知識庫包括前綴起源、AS拓撲、AS鄰居商業關系等,基于此可構造全球互聯網級別的全局數據視圖,提供互聯網運營維護支撐的同時,也為進一步的路由安全檢測提供了支撐。總體上業界形成了兩大技術路徑:以知識庫推理為基礎的邏輯推理方法和以AI算法為核心的路由異常監測大數據分析方法。
相對來說,BGP路由安全分析監測領域在我國總體上還處于空白狀態,一個客觀原因是當前我國BGP AS無論規模還是開放互聯互通程度與美歐相比有著相當大的差別(例如,美國有近2萬AS,大量通過互聯網交換中心(internet exchange point,IXP)互聯互通;我國AS數量不到2 000,主要通過三大運營商交換中心進行互聯互通)。面向未來,本文認為有必要加強如下能力的研究和儲備。
(1)我國網間互聯架構持續優化,工信部于2019年正式批復國家(杭州)新型IXP,交換中心的運營主體——浙江省新型互聯網交換中心有限責任公司,于2020年成功組建,鼓勵企業使用自主AS/IP接入網絡,打造開放互聯的網絡新生態。運營商之間的骨干直連點僅面向基礎電信運營商開放,交換中心則面向更多企業和機構提供流量交換服務,如本地互聯網接入服務商、互聯網內容提供商、云服務商、工業互聯網企業、科技網、教育網等,匯聚了大量具備自主AS/IP的網絡,網絡之間通過BGP對等互聯。因此,在多邊復雜流量交換的背景下,一旦發生BGP安全事件,將會影響大量企業和流量,交換中心的網絡安全防護意義重大。
(2)互聯網級別的BGP路由安全威脅感知能力。當前國內主要聚焦于單網/單設備的自身配置觸發的BGP路由安全防范,而隨著互聯網在社會生活中的深入滲透,互聯網級安全威脅感知能力愈發重要。BGP入口消息潛在安全威脅的檢測能力,以幫助基礎電信運營商盡快發現和界定故障、避免因進一步消息擴散而導致的放大效應;針對自身重要業務前綴在全球范圍的安全威脅感知能力。在跨國業務和交易日益發展的背景下,存在對這類重要前綴可能發生在外部的劫持和泄露感知的需求。
(3)隨著我國信息化戰略推進,加快IXP部署腳步以支持更開放高效的云網融合架構已提上議事日程,未來我國BGP AS規模及互聯互通復雜度必然將大幅度提升。隨著越來越多關乎國計民生的業務走向線上,相應的全局可視化視圖及事故檢測分析能力必然成為該新型數字化基礎設施的核心能力要求。
本文主要方向如下。
(1)本研究采用基于知識庫推理的邏輯推理技術路線。通過推理算法構建起全球互聯網三大核心知識庫:前綴起源、AS拓撲及鄰居商業關系。其中,前綴起源知識庫可覆蓋100%全球骨干路由,AS拓撲及鄰居商業關系知識庫可覆蓋全球互聯網較高層級AS(覆蓋度依賴于路由信息采集器部署密度和位置。一般來說,AS 層級(tier)或傳送度(transit degree)越高,其對應相關知識庫覆蓋程度越好)。相對于路由安全主動防護所依賴的RPKI數據庫中約30%覆蓋率的ROA數據(對應前綴起源知識庫)、受標準進度影響還是空白的AS路徑相關數據(對應AS link拓撲及鄰居商業關系知識庫),本研究所提供的互聯網知識庫是對資源公鑰基礎設施(resource public key infrastructure, RPKI)資源簽名記錄的極大補充,盡管暫不能直接應用到協議主動防護(需確保記錄100%可信),但對構建全球互聯網可視化視圖、BGP路由安全事件的準實時檢測仍然有巨大意義,甚至未來通過知識庫記錄可信度管理,可直接作為RPKI數據的補充而應用于主動防護。
(2)本研究基本算法以時空穩定度、貝葉斯概率推理為核心推理構建上述三大知識庫,但要進一步提升準確度,必須對相關干擾因素進行深入研究。主要有兩類干擾因素,一方面,BGP所允許的合法“例外”存在,例如,因任播(anycast)、前綴聚合、分布式拒絕服務攻擊(distributed denial of service,DDoS)攻擊防護等需要而存在的合法多起源沖突;除一般的lateral peering、transit provider商業關系之外存在的sibling、partial transit、hybrid等特殊商業關系;一些個別私下協商長期合法存在的valley-path(違反BGP路由擴散路徑的一般原則——valley-free)。另一方面,因BGP路由采集點覆蓋不足導致的BGP基礎路由信息采樣偏差,相應地可能使得一些數據特征提取可能偏差。本研究通過針對性的合法例外場景識別和分析、數據偏差下的數據調測處理,較大幅度提升了推理結果的準確度,均達到99%以上。
(3)推理分析結果的驗證校準是評估算法、持續推動算法優化的關鍵一環,除了抽樣式人工比對驗證,對于類似于本案例的較大規模數據分析輸出,基于一定規模的基準庫進行整體量化評估非常重要。本研究的三大知識庫中,前綴起源基準庫可基于業界已經具備的RPKI ROA數據集構建,但AS link拓撲、鄰居商業關系基準庫業界還缺乏公認標準,因此本文對如何構建AS link拓撲、鄰居商業關系基準庫進行了初步嘗試。其中,AS link拓撲基準庫的構建本文基于兩個核心判斷:BGP路由信息采集點(vantage point,VP)所輸出的直接鄰居是可靠可信,且在full-feeding模式下(采集器與目標采集點的BGP鄰居關系為C2P,通告所有路由)能采集到該VP采集點AS所有鄰居;而AS鄰居商業關系基準庫的構建,則是通過部分ISP在其網站公開的BGP團隊屬性路由策略鄰居關系信息語義挖掘完成。
BGP路由安全分析檢測系統總體架構如圖1所示,共有三大關鍵模塊組成:數據采集與預處理、互聯網知識庫推理、路由安全事故檢測。
本系統整體采用邏輯推理方法,核心是互聯網知識庫推理構建,在此基礎上經相對簡單的推理即可實現路由安全事故檢測。相較于一些采用AI算法直接基于大數據完成路由安全事故檢測的研究,本系統所基于的知識庫邏輯推理,一方面更符合運維人員工作邏輯,有利于事故檢測的同時提供更多具體的故障定位支撐;另外,其所構建的互聯網全局知識庫,類似于為互聯網打開了交通地圖,為數字世界基礎設施的高效運維提供了重要底座。

圖1 BGP路由安全分析檢測系統總體架構
2.2.1 數據采集
數據采集主要涉及以下3類。
(1)VP點BGP路由信息,包括RIB信息以及BGP update消息。這些信息通常由Route Views和RIPE RIS等公共采集器通過與路由器建立BGP會話的方式獲取,并每隔一段時間壓縮為MRT文件存檔,供外部使用者通過HTTP get獲取。
(2)交換中心BGP路由信息,使用服務器與RS(route server)建立BGP鄰居,基于開源路由軟件采集路由前綴、起源AS以及ASpath等關鍵數據。
(3)其他輔助數據源,如Peering DB、IRR DB、RPKI ROA、Tier 1 ASN清單、保留ASN號清單等。這類數據大多無須實時提取,但仍需要根據各自特點保證數據時效性。
2.2.2 數據預清洗與預整理
數據預清洗最重要的目的是過濾掉無效數據,以避免這些數據流入后續處理環節、影響分析結果的準確性。例如,根據是否存在AS環路、是否涉及保留ASN、是否出現了非連續Tier1 ASN等,可以將一些AS path作為無效數據提前加以識別清洗。
因涉及持續大量的數據更新和迭代計算,數據預整理成為保障高效、準實時分析輸出必不可少的重要環節。本系統從原始BGP路由中提取前綴起源、AS path信息及其相關特征(如時間特征、空間特征,其中時間特征為觀測到該記錄的時戳信息,空間特征為觀察到該記錄的觀測點信息)進行數據庫整理,并建立時間跨度滑窗機制(窗口大小可配置,1周到3個月不等)持續進行數據更迭。如此可大幅度提升系統I/O效率、大幅度提升迭代計算的實時性。
互聯網路由全局知識庫就像是數字世界基礎設施的交通地圖,是互聯網運維的重要支撐,其全局知識庫主要包括:前綴起源(站點)、AS Link拓撲(路網)、AS商業關系(方向指示)三大知識庫組成。因互聯網BGP各參與方只掌握局部信息(本地及由鄰居獨立選擇后部分通告的信息),如何能基于這些局部信息推理構建出較完整的互聯網全局視圖一直是業界的重點研究方向之一。
2.3.1 前綴起源知識庫推理構建
前綴起源信息記錄特定前綴的始發AS信息,其知識庫推理構建算法包括如下兩個關鍵部分。
(1)基于時空穩定度,構造前綴起源基礎數據庫
這里時間穩定度指的是在特定時間窗內,能持續觀測到該前綴起源的時間模型;空間穩定度指的是能觀測到該前綴起源的觀測點分布情況。基于時空穩定度模型,系統可每對前綴起源記錄進行穩定度打分,并得到相對穩定的前綴起源數據庫記錄。
(2)多起源AS(multiple origin AS,MOAS)沖突清理
MOAS指的是特定前綴有多個起源AS,多起源沖突清理就是需要區分哪些是合法的多起源沖突、哪些是潛在的前綴劫持。系統首先排查出相對穩定的MOAS記錄作為長期合法存在的多起源納入知識庫,并進一步對瞬態MOAS沖突進行清理,識別合法MOAS沖突。具體清理方法依賴于不同的合法MOAS沖突場景,例如,anycast服務的多起源通告;較常見的provider AS為customer AS代為始發通告,或者進一步的路由聚合;sibling AS(指從屬于同一運營商,二者之間互為transit provider的AS)之間互相始發對方的前綴;DDoS防護服務商利用類似前綴劫持方式引導流量等場景。對于合法MOAS沖突,可進行標注后計入知識庫;而未被識別合法MOAS沖突的瞬態記錄,則作為疑似前綴起源劫持而被排除在知識庫記錄之外。
2.3.2 AS link拓撲知識庫推理構建
本知識庫記錄格式為:
AS link拓撲知識庫的推理構建總體上也是基于時空穩定度,也即所觀測到的AS link的時間穩定度和空間穩定度。進一步的記錄清洗處理主要需要應對好兩個挑戰。一方面,對于相對不穩定的AS link記錄處理,如何將backup link、正常的拓撲調整(如增刪鏈路)等存在一定瞬態表現的記錄與存在link偽造的路徑劫持記錄進行區分。另一方面,如何避免IXP RS等不同的處理方式對AS link記錄的干擾(RS在進行BGP控制消息處理時最新的推薦做法是不在AS Path中記錄IXP自身的ASN,但較早存在不少類似情況,進而對AS link的判斷形成一定干擾)。
本知識庫記錄格式為:
2.3.3 AS鄰居商業關系知識庫推理構建
AS鄰居商業關系知識庫推理構建相對來說是所有知識庫構建中挑戰最大的,其主要體現在兩個方面。其一是AS鄰居商業關系的多樣性。除了最為常見的P2C(provider to customer)和P2P(peer to peer)商業關系,還有多種復雜商業關系:sibling to sibling(屬于同一運營商,表現為互為transit)、hybrid(兩個AS之間存在兩條或以上link,且不同link采用了不同商業關系)、partial transit(相對于full transit,其并不將上游transit provider路由進一步下發給customer)等。其二是商業關系及其路由擴散策略盡管有一般性要求和規范,但本質上由運營商協商和定義,基于一般性規范推導的結果必然存在偏差。
(1)一般商業關系知識庫推理構建
AS鄰居商業關系推理構建相關研究大多建立在Lixia Gao的Valley-free理論之上,即認為有效的AS path應該是“任意數量C2P link + 0/1個P2P link + 任意數量P2C link”的組合。ProbLink是業界最新有關一般商業關系推理的研究。首先,基于AS rank算法推理得到Top Clique(Tier 1 ASes);然后,依據Valley-free原則推導P2C鏈路,繼而將剩余鏈路標記為P2P鏈路,形成初始鄰居關系推理結果。受觀測限制(觀測點數量及觀測點位置)以及部分存在的Valley-path情況,上述推理必然存在沖突或錯誤。針對這種情況,ProbLink提取AS path主要特征(如link triplet、non-path、distance to clique、vantage point、co-located IXP等),通過樸素貝葉斯概率推理來進一步求解link鄰居商業關系的最大可能性。
本系統主要以ProbLink為基礎進行一般商業關系推理,除了過程中的貝葉斯參數調測,主要進行了如下方面的調整。
· 互聯網Tier 1 AS清單可公開獲取且相對來說變更不是太頻繁,本系統嘗試用靜態輸入的Tier 1 AS清單取代Top Clique推理算法,發現推理結果有更好的準確率表現。
· 樸素貝葉斯算法要求特征相互獨立,但ProbLink所提取的特征實際上并不完全獨立,且在特征提取時沒有考慮到P2P觀測量會遠小于P2C的情況。本系統特征組合、特征增加、特征參數等進行了調試優化,發現可以進一步提升算法準確率。
· 為了提升算法效率,同時也避免錯誤的逆推理(把原本正確的結果推導為錯誤的結果),本文對進入第二步概率推理的link范圍進行了進一步的篩選:基于第一步所得到的推理結果,如果某link出現在不同觀測點AS path數量足夠,對其出現違反Valley-free的情況進行信用(credit)計分,最終篩查出相對可信的推理結果,不用重復進行概率推理。
(2)復雜商業關系知識庫推理構建
復雜商業關系盡管整體占比較低,但對進一步提升商業關系知識庫構建準確度有著較大影響。主要存在如下復雜關系類型。
· sibling:其推理邏輯主要是通過挖掘與AS相關的注冊登記信息判斷,如對應單位、管理員的名稱/姓名、地址、郵箱、電話等。
· partial transit:其推斷可通過對現有P2C link進行進一步full 或partial transit的篩查,對于出現了傳遞上游provider路由到下游customer的為full transit,否則為partial transit。
· hybrid:hybrid的推理相對比較復雜,其核心推理支撐是需要判斷兩個AS之間存在兩條獨立的link且位于不同地理位置,直接的方案是借助traceroute工具探測得到對應link的不同IP地址,再通過IP地址信息挖掘獲得其AS和POP地址位置,從而判斷是否存在異地雙link情況。該方案準確性高,但工程部署難度較高(包括IP地址POP位置挖掘技術挑戰及計算量),最終本文采取了基于PeeringDB挖掘基于IXP的P2P link,如推理同時存在P2C,則為hybrid。
本知識庫記錄格式為:
一旦推理得到上述完整可信的互聯網全局知識庫,BGP路由安全檢測的邏輯就相對比較簡單:從網絡中提取BGP updates消息,與三大知識庫展開分析比對即可快速判斷潛在前綴劫持、路徑劫持和路由泄露事件。為提高準確度和實時性,本系統進行了兩方面的優化。
(1)快速迭代更新知識庫,提升知識庫時效性、準確性
從BGP updates中提取路由信息,除了檢測路由安全事情外,還需持續迭代到知識庫推理中。互聯網是持續更新的系統,如前綴的交易遷移、鏈路增刪、網絡建設調整等,系統需要將這些正常的變更進一步與路由安全威脅區分開來,就需要更及時地結合BGP updates消息進行知識庫迭代管理,而不僅僅基于間隔幾個小時采集到的RIB信息。

圖2 杭州NNIX實驗環境
(2)基于本地的實時檢測分析
當前Route Views和RIPE RIS每間隔5 min進行一次update消息壓縮整理供外部提取、檢測分析(在考慮后續支持live stream)。本系統當前可基于獲取的本地數據源進行實時的檢測分析。
3.1.1 環境搭建
本系統在國家(杭州)新型互聯網交換中心部署,除了通過公網獲取Route Views和RIPE RIS等的全球公共路由信息外,還通過服務器(基于開源路由軟件)與交換中心RS建立BGP鄰居關系,單向獲取RS上的BGP路由信息(不反向傳遞任何路由信息,避免干擾現網),作為本地數據補充。具體實驗環境如圖2所示。
3.1.2 基準庫構建
基準庫構建是算法調校、結果評估驗收非常重要的依據。互聯網路由安全分析領域基準庫構建一直是業界在探索的難題,特別是跟路徑和鄰居商業關系相關的基準。
(1)前綴起源基準庫
從數據來源來看,當前國際公開權威的前綴起源數據主要來源于IRR、ROA數據。截至2021年7月,IRR注冊覆蓋的起源前綴信息90.7萬條,ROA簽發起源前綴信息33萬條。同時,由中國信息通信研究院牽頭建設的國內首個路由權威數據源目前已覆蓋國內138個自治域網絡的路由信息,具備國內超過2.9萬條權威前綴信息。
(2)AS link基準庫
一般來說,BGP路由VP采集點所在AS如果以full feed方式(將collector作為其customer provider)向collector傳遞全量路由時,所得到的路由信息應該能全面真實反饋該AS的鄰居情況。基于這樣的判斷,摘取full feed VP采集到的路由信息,以VP AS為原點收集其所有鄰居AS信息,作為AS link基準庫。本系統通過此方法,建立起了大約25萬條link基準庫記錄。
(3)鄰居商業關系基準庫
運營商可通過BGP community傳遞自定義的相關路由策略,其中包括商業關系相關策略(部分運營商的實踐)。但具體策略描述所代表的語義由各運營商自行定義,所以并不能簡單通過community相關屬性挖掘完成鄰居關系基準庫的建立。但好消息是,部分運營商會在其website中對其community值所代表的含義給予說明,本系統正是通過挖掘相關網站得到相關語義說明,從而構建出鄰居關系基準庫。通過這個方法,本文成功挖掘出約7萬條商業關系基準庫。
基于基準庫,本文嘗試進行算法查全率和準確率的評估,其中查全率(recall)=TP/(TP+FN),準確率(precision)=(TP+TN)/樣本總數。其中,TP(true positive)代表正確檢出的錯誤數,FN(false negative)代表被漏報的錯誤,TN(true negative)代表沒有被誤報的正常結果。
經過3個月的互聯網BGP路由信息采集,經過數據預處理后,共得到約100萬條前綴起源記錄、5 000萬條全球AS path記錄,并建立了各記錄的時間、空間等相關信息,動態管理機制。各知識庫推理結果、路由安全檢測相關結果如下。
(1)前綴起源知識庫及前綴劫持檢測
前綴起源支持庫推理構建結果如圖3所示,共計得到IPv4前綴起源記錄1 037 058條,基于ROA基準庫的108 354 IPv4前綴,前綴起源匹配度>99%。對前綴劫持檢測結果進行抽查對比分析。例如,2020年10月5日檢測發現1條前綴劫持,而同期BGPStream發布兩條異常。對其中BGPStream有告警而沒有告警的記錄進行分析發現,該現象的發生是公有云服務商向其他公司轉租子前綴,導致出現類似子前綴劫持現象,而本系統通過引入時空穩定度可較好規避此類告警。

圖3 前綴起源支持庫推理構建結果
(2)AS link知識庫及路徑劫持檢測
AS link知識庫推理構建結果如圖4所示,推理得到穩定的AS link知識庫記錄共計有529 337條,但同時還觀測到約有1萬條穩定度不足的link,這些非穩態link的產生原因需持續觀測和進一步分析。在進行準確度評估時發現,基于VP觀測點構造的link基準庫評估的準確度接近100%,本文認為可能有兩方面的原因:根據業界研究,基于link偽造的路徑劫持發生比例遠低于其他類型路由安全事件,更重要的是,VP觀測點所在AS通常位置較重要、運營較規范,出現與VP AS相關的鏈路偽造可能性更低。受link記錄中存在的不穩定情況影響,因暫時還未落實進一步清洗判斷(是否為正常的link變更或backup link臨時切換),一個直接的影響是基于當前知識庫檢測到的路徑劫持告警可能存在一定的假陽性。

圖4 AS link知識庫推理構建結果
(3)鄰居商業關系知識庫及路由泄露檢測
AS鄰居商業關系知識庫推理結果如圖5所示,P2C鏈路150 228條,P2P 372 143條;sibling 319條,hybrid和partial各約4 000條,見表1,從一般商業關系推理結果基于基準庫的評估來看,兩種link關系類型的查全率和準確率都超過>99%(復雜商業關系因基準庫樣本不夠沒有評估),相比于經典ASRank和ProbLink算法都有不同程度提升。

圖5 AS鄰居商業關系知識庫推理結果(一般商業關系)

表1 一般商業關系推理結果評估
值得注意的是,基于鄰居關系知識庫推理結論來審視AS path,共計有0.5%的link triplet三元組、5.7%的AS path違反了valley-free原則。這其中最主要的因素應該是長期合法valley-path的存在,其他原因包括復雜商業關系、一般商業關系推理誤差。在進行路由泄露檢測時,重點要排除長期合法存在valley-path的干擾。
前綴劫持、路徑劫持和路由泄露等BGP路由安全事故多年來高發不下,每年都會發生若干起全球性重大安全事故。隨著互聯網日益發展成為全社會數字化核心基礎設施,互聯網全局路由視圖及實時路由安全檢測日益重要。相對單系統/單網絡的路由安全保障更聚焦于避免自身錯誤配置導致路由安全,互聯網全網級別的路由安全分析檢測還可以對入口消息進行檢測,發現潛在路由劫持和泄露等安全威脅,可為故障早發現、早定位、早隔離提供實時支撐,避免二次放大造成更嚴重危害。此外,還可以對重點前綴(如DNS等基礎設施、關乎國計民生的關鍵服務設施等)進行全球全網路由安全威脅主動監測,這在業務開展日益國際化、日益分布式的今天意義更為重大。
本系統采取邏輯推理方法,首先通過推理構建了全球互聯網的三大知識庫:前綴起源、AS link拓撲、鄰居商業關系,進而基于三大知識庫實現(準)實時路由安全事故檢測能力。基于此,相當于有了互聯網基礎性的“交通地圖”—路網信息及事故監測。本系統基于時空穩定度、貝葉斯推理等核心算法,通過針對性梳理和識別容易對知識庫和檢測分析造成干擾的正常場景,包括正常的多起源沖突場景、復雜商業關系場景、backup link及臨時link變更場景等,以進一步提升知識庫推理和故障檢測的準確度;針對數據采集偏差特點、計算開銷導致的及時性等,本系統在特征組合、特征設計和調參,提升算法推理準確度的同時降低了工程部署難度。通過基準庫構建及評估、與業界最佳實踐的分析對比等,證明本系統在查全率、準確率及可用性等方面都達到了業界先進水平。與此同時,本文認為互聯網全局路由的可視度、安全檢測分析查全率和準確率等都還有較大提升空間。
(1)更加豐富的數據采集生態
從數據推理結果來看,AS link的可視化程度仍然還有較大差距,特別是P2P link的傳播特點決定了需要更深更廣的采集點覆蓋,其提升P2P鏈路可視化程度的同時,也必然可改進P2C與P2P誤判比例,降低路由泄露誤判情況。同時,更多的局部和本地信息采集可增加知識庫信息的明細程度。
(2)數據面探針基礎設施建設
當前的研究聚焦于控制面的大數據分析,未來可考慮進一步結合數據面ping/traceroute探針,一方面可以對控制面分析結果給予驗證和輔助支撐,例如對前綴可達性和路由路徑的驗證,對需要結合POP位置的相關推理支撐。更核心的是,該數據面探針系統還可提供更廣泛的數據面可視化支撐,與本系統控制面可視化共同構成互聯網可視化的關鍵兩個要素。
(3)路徑劫持檢測告警的準確度提升
主要是如何區分非穩態link與偽造link的研究。實踐中,可考慮增加本地或區域鄰居信息,以加強跟本地或區域AS相關路徑偽造的檢出準確性。
(4)數據分析積累
這對基于數據分析的研究意義重大。包括互聯網也在動態變化,需要持續積累數據、優化算法,不斷尋找最優解。BGP自主對等參與的特點決定了一般規則之外的特例存在,例如valley-free是建立在網間流量結算最優的一般規則上,但基于業務體驗、網絡負載等考慮運營商可部分調整;云服務商在生態中的地位日益提高,基于網絡層級的商業結算一般規則也越來越多的出現特例。數據分析需要對這些一般規則之外的特例進行長期積累,進行白名單管理。
[1] ZHAO X L, PEI D, et al. An Analysis of BGP Multiple Origin AS Conflicts[C]// Proceedings of the 1st ACM SIGCOMM Workshop on Internet Measurement 2001. New York: ACM Press, 2001.
[2] CHIN K W. On the characteristics of BGP multiple origin AS conflicts[C]//Proceedings of 2007 Australasian Telecommunication Networks and Applications Conference. Piscataway: IEEE Press, 2007: 157-162.
[3] LUCKIE M, HUFFAKER B, DHAMDHERE A, et al. AS relationships, customer cones, and validation[C]//Proceedings of the 2013 conference on Internet measurement conference. New York: ACM Press, 2013.
[4] LI Y C, SCOTT C et al. Stable and Practical AS Relationship Inference with ProbLink[C]//Proceedings of 16th {USENIX} Symposium on Networked Systems Design and Implementation ({NSDI} 19). 2019: 581-598.
[5] GIOTSAS V, LUCKIE M, et al. Inferring Complex AS Relationships[C]// Proceedings of the 2014 conference on Internet measurement conference. New York: ACM Press, 2014.
[6] FENG G Y, SESHAN S, STEENKISTE P. PARI: a probabilistic approach to AS relationships inference[EB]. 2019
[7] JIN Z T, SHI X G, YANG Y, et al. TopoScope: recover AS relationships from fragmentary observations[C]// Proceedings of the ACM Internet Measurement Conference. New York: ACM Press, 2020.
Architecture and practice of BGP internet routing visibility and security detection
YE Chaoyang1, SHEN Chen2, HUANG Mingqing3, ZHANG Shicong1, LIU Yisha1
1. National (Hangzhou) New-Type Internet Exchange Point, Zhejiang 311200, China 2. China Academy of Information and Communications Technology, Beijing 100191, China 3. Huawei Technologies Co., Ltd., Beijing 100095, China
Border Gateway Protocol (BGP) is the de facto inter-domain routing protocol of today’s global internet for exchanging routing information. However, it was supposed that all participants were reliable without generating routing security issues by mistakes or on purpose when BGP was designed 50 years ago. As Internet is getting involved in all aspects of our society, internet routing security is becoming the problems that couldn’t be ignored anymore. A general architecture was proposed which coved inference of BGP routing knowledge database and provided visibility of global internet routing. Detection of route security events such as routing hijacks and routing leaks were realized. The deployment shows that the system can provide good visibility of internet routing and precise detection of routing security events.
BGP, internet routing security, routing hijack, routing leak
TP393
A
10.11959/j.issn.1000?0801.2021263
2021?08?24;
2021?12?08

葉朝陽(1976?),男,浙江省新型互聯網交換中心有限責任公司總經理、中國互聯網協會互聯網互聯互通工作委員會副主任委員,主要研究方向為新型互聯網交換中心網絡架構與協議設計、云網交換等。
沈辰(1989?),中國信息通信研究院工程師,主要研究方向為互聯網網絡互聯互通、互聯網路由安全、互聯網測量與性能分析等。
黃明慶(1969?),男,華為技術有限公司高級IP技術研究專家,主要研究方向為網絡空間安全、互聯網協議架構等。
張士聰(1990?),男,浙江省新型互聯網交換中心有限責任公司技術部經理,主要研究方向為新型互聯與網絡架構。
劉伊莎(1992?),女,浙江省新型互聯網交換中心有限責任公司IT工程師,主要研究方向為新型互聯與網絡架構信息化。