毫無疑問,我們已經步入了云時代。放眼神州大地,一座座數據中心如雨后春筍般拔地而起,服務器數量與網絡基礎架構的規模屢創新高;互聯網建設也在高速發展,骨干與接入帶寬的不斷提升,為用戶業務帶來了日新月異的應用體驗;而3G與無線技術的普及,又讓移動終端成為后PC時代真正的寵兒,正在掀開移動互聯的新篇章。
從底層網絡的角度看,通信技術的發展構建了多個維度的高速通路,讓一切變為現實。同樣,用戶也必須借助不斷創新的安全技術,建立與網絡規模相匹配的防護體系,為業務保駕護航。經過國內外安全廠商的不懈努力,目前頂級防火墻的處理能力已經達到百G級別。這并不是個宣傳意義大于實際意義的噱頭,因為用戶的需求已經迫在眉睫。在今年國內運營商的安全產品招標中,對高端防火墻的性能要求達到了40G#12316;80G,距離部署百G產品的日子已不再遙遠。針對這一趨勢,華為賽門鐵克也于近期推出了全新的USG9500系列產品,再次升級了高端產品線。我們也在第一時間對USG9560這款產品進行了測試,親身體會了新一代百G產品帶來的與眾不同的應用體驗,在此與讀者朋友們分享。
規格領先 功能全面
華為賽門鐵克USG9500系列包含USG9520、USG9560、USG9580三款產品,均基于華為高端路由硬件平臺打造。設備中所有部件均為冗余設計,其中單板、電源模塊和風扇支持熱插拔,符合電信級別的高可靠性要求。三款產品的區別主要體現在擴展槽位的數量與整機性能方面,最高端的USG9580提供了多達16個接口/業務擴展槽位,標稱具有2.56T交換容量及240G接口容量,是新系列中的旗艦產品;最低端的USG9520則針對主流的萬兆及多千兆接入環境設計,提供3個接口/業務擴展槽位,標稱最大40G的整機處理能力,具有靈活的擴展性和相對較高的性價比。我們測試的這臺中端定位的USG9560則需占用14U的機架空間,提供了11個擴展槽位,其中3個用于安裝主控交換(SRU)及交換引擎(SFU)。SRU主要負責設備管理、系統監控與調度、路由計算等工作,同時內置一個交換引擎。當插滿兩個SRU與1個SFU時,兩套主控系統會工作在主備狀態,3個交換引擎工作在2主1備的狀態,提供1.44T的交換容量。這種設計可以保證設備在任意一塊SRU或SFU出現故障時還能正常工作,且性能不會出現瓶頸。
USG9560上剩余的8個槽位用于安裝業務卡(SPU)與接口卡(LPU),考慮到未來接口容量與性能的升級,每槽位設計帶寬達到雙向200G。在SPU與LPU的設計上,華為賽門鐵克采用了模塊化的思路,顯得非常獨特。SPU板載了兩顆1GHz主頻的NetLogic XLR732處理器,具有10G的處理能力。該卡同時提供了一個子卡插槽,可安裝同樣配置的業務處理子卡(SPC),將單板處理能力提升至20G。而LPU也提供兩個子卡插槽,可安裝不同類型的接口模塊子卡(包括以太網與POS),目前可實現單子卡兩個萬兆或20個千兆的接口密度。與我們去年測試過的USG9110不同的是,USG9500系列產品中的SPU和LPU之間沒有任何強制性的對應要求,用戶可根據需要進行靈活搭配。
在基本功能與安全業務方面,USG9500系列產品已經實現得相當全面。該產品可以支持NAT端口復用,能夠有效減少海量用戶使用互聯網時對公網IP的依賴,對運營商、行業用戶及園區網用戶有很大的實際意義。除了防火墻,USG9500還具有VPN、應用流量識別控制、IPS和抗DDoS的能力(后兩者使用單獨的業務插板實現),以滿足數據中心為代表的新應用場景的復雜需求。借助華為在數通領域的長期積累,USG9500系列產品在路由支持的種類、兼容性等方面有著先天優勢,既能可靠地獨立或參與組網,亦可在遭到DDoS攻擊時與上下游網絡設備聯動,實現流量的牽引、清洗與回注。
架構靈活 性能強大
與USG9000家族中的其他產品一樣,USG9500系列產品也采用了“兩分布、一統一”的設計思路,即分布式處理、分布式轉發與統一管理。由于集成了高性能的網絡處理器,LPU可以實現基于多種策略的數據分發操作,將流量盡可能均衡地交給每個SPU上的每一顆處理器進行處理。這也意味著,該產品可以通過增加SPU數量的方式,線性提升整機的處理能力。
我們在隨后的測試中使用了多至5塊內置SPC子卡的SPU及3塊具有4個萬兆XFP接口的LPU,組成20G#12316;100G規格的多種配置,對這一特點進行了驗證。測試儀器為搭配了多個10G-LSM-XM4S網絡層測試模塊和Acceleron-NP應用層測試模塊的IXIA Optixia XM12。當USG9560中只有1塊SPU卡工作時,該系統(路由模式,1條全通策略,后同)在IMIX模型(UDP混合包,64Byte:594Byte:1518Byte=7:4:1)下的吞吐量為20G,平均延遲為85微秒。如果再增加一塊SPU,IMIX吞吐量馬上提升至40G,平均延遲保持不變。當5塊SPU卡均處于工作狀態時,系統的整機IMIX吞吐量達到100G,平均延遲則小幅上升至106微秒。在這個過程中,每顆CPU的使用率都保持一致,系統的負載均衡效果十分優秀。我們也試著在處理能力留有足夠余量的情況下在線減少SPU卡的數量,USG9560會立刻自動對負載進行重新分配,達到新的均衡處理狀態。
除了吞吐量與延遲外,分布式處理、轉發的優勢在連接相關的性能指標上也有所體現。當使用1塊SPU卡時,我們測得的整機HTTP新建能力(64Byte頁面,后同)為每秒669463個連接,最大并發連接數為8340904,達到并超過50萬/800萬的標稱值;兩塊SPU同時工作時,HTTP新建連接數提升至1360407,最大并發連接數也達到了16681108。由于測試儀器的限制,我們沒有再對配備更多SPU卡時的性能進行測試,但僅從這兩組數據中,已經可以看出整機的連接處理能力可以隨著SPU板卡數量的增多而線性提升。
對于數據中心這樣的應用場景來說,其可能受到攻擊的規模之大、種類之復雜,是集成于UTM、NGFW等設備中的抗DDoS功能所難以抵御的。針對這種情況,華為賽門鐵克將該功能獨立出來,以專用業務卡的形式提供了高性能抗DDoS解決方案(單卡標稱10G流量清洗能力,同樣可以通過擴展子卡提升一倍)。我們也利用手頭的測試儀器,對插入1塊抗DDoS業務卡(不含擴展子卡)的USG9560進行了測試。面對測試儀分別生成的10G線速SYN-Flood、UDP Flood和DNS-Flood攻擊流量(64Byte,后同),該設備可以將攻擊流量完全阻斷,同時保證后端服務器的正常訪問,此時DDoS業務卡上的CPU使用率分別為87%、70%、83%;我們又按1:1:1的比例發起了包含三種攻擊的混合流量,USG9560依然可以將攻擊完全阻斷,此時的CPU平均使用率為81%,仍留有部分余量。
TCAM:
讓天塹變通途
作為成本、查找速度均極為驚人的可尋址存儲器,TCAM大多被用于核心路由器、數據中心交換機等高端數據通信產品,在安全設備中極少出現。不過,我們去年在USG9110產品測試中,已經注意到其業務板上配備有TCAM。如今,這一設計被USG9500系列產品所沿用,大有發揚光大之勢。這是個令人費解的舉動,因為廠商在設計產品時會本著“次優”和“榨干”硬件處理能力的原則,選擇能滿足需求的最簡單、成本最低的解決方式。對于TCAM這種成本極高昂的器件來說,除非它能讓產品性能產生革命性的變化,否則絕無使用的道理。那么,華為賽門鐵克堅持在高端安全產品中使用TCAM意義何在?我們通過混合非法流量和訪問控制列表(以下簡稱ACL)查找兩個測試用例,進行了一系列的驗證。
在合法數據流中混合非法流量,是安全產品測試中不可或缺的手段之一。目前,幾乎所有狀態檢測防火墻都借助快速轉發技術提升性能,當合法數據流建立后,流信息會被下發到防火墻狀態表中,剩余報文可根據狀態信息直接轉發;非法流量則通常不會建立狀態,這就意味著流中每一個數據包均要由處理器進行完整流程上的處理,其中就包括了資源開銷非常大的ACL查找操作。當非法流量的比例達到一定程度的時候,防火墻就會因資源耗盡導致性能大幅下降。以我們去年測試過的一款64Byte UDP幀吞吐量達到8Gbps的防火墻為例,當測試流量由合法的8G變為6G合法流量+2G非法流量后,該設備的吞吐量竟然下降到100Mbps以下。
由于TCAM的存在,USG9560在處理非法流量時的性能開銷大幅減小,處理能力也就得到了保證。我們在1塊SPU處于工作狀態的前提下,向設備的ACL中加入一條阻斷特定流量的策略,再使用測試儀先后發起16G的正常流量與4G應被阻斷的非法流量(均為UDP/386Byte幀長)。USG9560在只有正常流量通過的情況下,可以做到不丟包轉發,此時的CPU使用率僅為21%;當加入4G非法流量后,正常流量的轉發沒有受到任何影響,非法流量則被完全阻斷。此時SPU卡的CPU占用率上升至47%,仍有余力處理其他安全業務。從這個結果中可以看出,雖然TCAM沒能讓設備的理論性能得到進一步提升,卻在處理非法流量時彌補了性能短板,在實際環境中體現了其存在的價值。
與混合非法流量的測試相比,ACL查找能力測試更偏向底層,但在園區網、骨干網和數據中心規模不斷擴大的今天,許多用戶需要借助防火墻實現更加復雜的訪問控制,這個原本偏重理論層面的測試用例也就有了更多的實際意義。我們知道,大部分采用狀態檢測機制的防火墻會在啟動時對用戶設定的ACL進行預處理,將其轉換為引擎可識別、查找的樹或矩陣。轉換算法的優劣決定了存儲空間的占用、轉換速度和查找性能,是廠商核心技術能力的體現。好的轉換算法不但能以較低的資源代價實現較高的查找性能,還可以對ACL進行有效的優化合并。比如許多測試中使用的針對1個C段內連續IP而設定的策略,最優狀態下可以被合并為1條等效策略,其測試數據顯然不能代表設備在實際環境下的性能。
有鑒于此,我們在制定實驗室安全產品測試規范的過程中,包含了基于復雜策略的測試用例。該用例中的ACL列表模擬部分用戶的配置思路,包含了5000條不相關聯的策略。它使用有針對性的算法生成,阻止主流轉換算法對其進行優化,且令生成的樹或矩陣變得極其復雜,顯著提升了設備查找時的性能開銷。一些產品在測試中無法正常加載此ACL,或會在加載后性能大幅下降。這樣的產品如果被部署在實際環境中,會為用戶帶來無窮無盡的煩惱。某行業信息中心主管與我們交流時就曾談到這樣一個情況:當他們逐步將分散的服務器群組遷移至數據中心后,防火墻的ACL數量已接近3萬條。此時設備從加電到進入正常工作狀態需要長達40多分鐘的時間,且設備每次在添加新的訪問控制策略時,都會有1分多鐘處于無響應狀態。而他們先前使用的產品則在加載1萬條左右的策略后直接罷工,嚴重影響了業務的正常開展。
不過,我們在對USG9560的測試中沒有絲毫擔心,因為TCAM的工作機制決定了其策略查找性能不受策略復雜度的影響。測試數據也很好地證明了這一點:在加載復雜策略的情況下,USG9560的開機時間僅由之前1條全通策略時的9分4秒增加到12分12秒。在此基礎上使用測試儀發起命中第4999條策略的16G正常流量(UDP/386Byte),系統可實現不丟包轉發,CPU占用率為33%;當另外加入命中第5000條策略的4G非法流量后,正常流量的轉發沒有受到影響,非法流量也被完全阻斷,此時CPU占用率上升至55%。這樣完美的測試結果,足以保證USG9560在海量策略的應用場景中保持應有的性能表現。
應用識別步入
百G免費時代
從用戶群體的需求角度出發,高端防火墻通常強調高性能、高可靠性,提供的安全業務并不像企業級產品那樣全面。如果要增加特定功能,通常也會以專用業務插板的形式實現,盡可能減小對設備性能的影響。不過華為賽門鐵克在USG9500系列產品中,將應用流量識別控制與防火墻、NAT、VPN等一同列為產品的基礎特性,免費交付給用戶使用,令人十分驚訝。眾所周知,應用流量識別控制確實是一個快速增長的市場需求,以此為基礎甚至誕生了下一代防火墻(NGFW)這一新產品形態,但因其需要消耗大量系統資源,對防火墻性能造成很大影響,罕有廠商會在最高端產品中加入該特性。華為賽門鐵克此舉,是為運營商及大型行業用戶提供增值服務,還是為了迎合市場的推廣策略?
只有測試能給出答案。我們使用BreakingPoint提供的測試儀表,對配備1塊SPU的USG9560進行了檢測率與性能測試。該測試儀可以模擬多種互聯網應用,實時生成近乎真實的測試流量,而不是簡單地利用PCAP回放進行仿真。在開啟防火墻與應用流量識別控制功能(路由模式,加載1條全通策略,只識別不做控制)的情況下,USG9560對測試儀發出的包含HTTP、BT、eDonkey、流媒體等業務的10G混合流量(預設并達到每秒10萬新建連接/最大保持200萬并發連接)可以做到完全識別與線速轉發。此時SPU上的CPU占用率比單純防火墻模式時略有小幅上升,數據包轉發的平均延遲也僅增至160微秒。不過也許是為了減少大流量時的系統負載,設備并沒有在內置的圖形化界面中提供應用層流量的相關統計,而是通過eLog集中分析報表系統進行統一的挖掘與呈現。
作為USG9500系列產品的基礎功能,應用識別特性以進程形式工作在SPU中,理論上性能可隨SPU數量增加而線性提升。我們也在之前測試100G吞吐量的硬件配置下,對開啟應用識別功能時的整機處理能力進行了考察。BreakingPoint測試儀此時已無法生成如此巨大的測試流量,所以我們改用IXIA Optixia XM12以發送雙向UDP報文(IMIX模型,包含800個并發連接)的方式進行測試。在100G的UDP流量壓力下,USG9560仍然順利完成了測試,將數據報文正常識別為未知UDP流量,性能也如預期般達到線速轉發。我們在測試過程中也注意了設備的資源占用情況,可以看到5塊SPU上的20顆處理器基本保持著同樣的負載,不存在單點瓶頸的隱患,并且開啟應用流量識別后,CPU負載并沒有上升很多,相信在錯綜復雜的現網環境中仍可保證線速處理。
集成高性能的應用識別引擎并免費交付給用戶,無疑是USG9500系列產品的最大亮點之一。從華為賽門鐵克公布的信息來看,該引擎目前已能鑒別超過1000種應用協議,且有專人對協議特征進行擴充與更新。對于運營商與行業用戶來說,集防火墻、NAT、應用流量識別控制功能于一身的高端設備正是他們目前夢寐以求的產品形態。我們感覺華為賽門鐵克的思路很清晰,即短期以免費流控和應用防火墻為賣點,增強產品的競爭力,爭取更多的市場份額。長期來看,應用識別的價值絕不僅僅在于流控或應用防火墻,它是未來幾乎所有安全業務的核心,以此為基礎通過升級的方式增加新的安全業務,對供求雙方來說都是雙贏的結果。