上一期連載內容中(見本報今年35期第36、37版),我們記錄了上海交通大學網絡信息中心的老師們通過嚴謹的測試,選擇基于英特爾5520平臺的x86服務器打造校園網流量分析與優化系統的全過程。那么,萬眾矚目的英特爾新一代Sandy Bridge平臺在網絡通信應用中又會有怎樣的表現?它是否可以將效能推進到一個新的高度?就讓測試數據去證明一切吧。
價格越來越低、性能與可靠性越來越高,這就是x86平臺在網絡通信領域的發展現狀。從之前的一系列測試中也可以看出,目前英特爾嵌入式產品解決方案已經很好地覆蓋了百兆級、千兆級乃至準萬兆級應用領域,并有著繼續向上延伸的趨勢。向上拓展的先鋒自然是英特爾Sandy Bridge平臺,基于該架構的桌面級產品自發布之日起就憑借超強的實力在市場上獨領風騷,也大大增加了人們對其企業應用效能的期待。千呼萬喚始出來,在經歷了更多的設計與驗證周期后,基于Sandy Bridge的網絡通信硬件平臺終于批量入市。本次我們測試的立華科技提供的FW-8865,就是首發產品中的優秀代表。
規格放大 體積縮小
FW-8865的核心是英特爾Cougar Point C200芯片組中最高端的型號C206,支持LGA1155接口的Sandy Bridge處理器,包括企業級的Xeon E3和桌面級的Core i3/i5/i7。理論上,LGA1155平臺的Sandy Bridge處理器和芯片組可以混合搭配,但前提是使用正確的、高質量的BIOS,因此并不是所有的主板都能良好地兼容兩種處理器。FW-8865在這方面顯然不存在問題,因為測試中使用的就是一顆四核心、32nm工藝制造的Core i7 2600K。該處理器具有256KB L2緩存(每核)和共8MB容量的通過環形總線和CPU核心連結的共享L3緩存,主頻為3.4GHz,最大Turbo Boost頻率可以達到3.8GHz。不過從穩定性的角度考慮,該特性在測試中沒有被啟用。同樣的道理,Core i7 2600也支持超線程技術,可以提供8個硬件線程,但在測試中也被關閉。
針對處理器內置PCIe 2.0 Lane數量的差異,FW-8865的主板也分為支持Core i系列的MB-8865A和支持Xeon E3系列的MB-8865B。對于后者來說,Xeon E3系列處理器額外的4個PCIe Lane也連接到左起第三個擴展接口模塊,與C206提供的另外4個PCIe Lane共同工作,使接口帶寬加倍;另外兩個接口擴展模塊的規格則沒有區別,使用的都是處理器上16個PCIe Lane配成的兩個x8接口。內存方面,MB-8865A/B都提供了4個ECC DIMM插槽,最大支持32GB的Unbuffered ECC/Non-ECC DDR-1333內存。而我們測試的這臺設備配備了兩條2GB容量的DDR3-1333內存,工作在雙通道模式。FW-8865的標準配置還包括一個Mini-PCI插槽、一個x4的PCIe Riser(與OPMA遠程控制模塊復用)、一個CF卡插槽和4個SATA端口,并使用一顆Realtek出品的RTL8110SC千兆網絡控制器作為管理配置接口。
作為最新一代的網絡通信硬件平臺,FW-8865提供了多種高速以太網接口擴展模塊(甚至包括萬兆電口的型號),可供用戶靈活選配。對于這個目前最強大的x86平臺來說,千兆級別的負載顯然不能充分挖掘其性能,所以本次測試都在搭配雙萬兆接口擴展模塊的FW-8865上進行(使用與處理器直連的槽位)。該模塊基于英特爾82599ES打造,它是常見的82599EB的串行版本,主要區別是針對高密度/刀片應用增加了對串行背板總線的支持,功能、性能都極其強大。在T540尚未推出前,它們是英特爾萬兆網絡控制器產品線中最頂級的型號。82599ES/82599EB使用了5GT/s的PCIe 2.0 x8接口,支持32個PCIe并發請求和512字節的PCIe有效載荷,以及MSI和MSI-X(Extended Message Signaled Interrupt,擴展消息告知中斷)特性。單芯片提供雙萬兆以太網接口是82599ES/82599EB的標準規格,每個接口可以支持128個TX/RX隊列,并可根據需要最多劃分為64個RSS(Receive Side Scaling,接收方擴展)隊列。此外,它們還支持RSC(Receive Side Coalescing,接收方聚合)、低延遲中斷等技術,以及包括基于L2 Ethertype、5元組、SYN標識以及英特爾Ethernet Flow Director在內的多種分類/過濾特性。
也許是因為英特爾在芯片層面就開始整合,基于Sandy Bridge平臺的FW-8865在設計上顯得并不復雜,2U規格的機箱內留有大量空間,對系統散熱十分有利。而從最大300W的冗余電源的配置來看,該機的整體功耗也相對較低。有了這樣的優勢,立華科技也推出了接口數量略低的1U規格產品,在機架空間愈發寶貴的今天相信會有更強的競爭力。
40G:理想照進現實
我們依舊采用了NCPBench 0.8評估軟件,依照RFC 2544標準對多達4個萬兆接口進行了純轉發模式下的測試(NCPBench的功能介紹和使用方法見本報今年第16/17期51版)。起初我們曾懷疑這個發布已有一段時間的版本不能充分發揮最新硬件平臺的性能,但事實證明這種擔心是多余的。FW-8865在測試中的表現,足以用震撼二字來形容:當我們將一個擴展模塊上的兩個萬兆接口配置為網橋進行測試時,64Byte幀的整體轉發速率達到22.3Mpps,吞吐量達到14.98Gbps;換用128Byte幀時,吞吐量上升為19.37Gbps,已接近線速。有了這樣的鋪墊,FW-8865在使用256Byte-1518Byte幀的測試中做到線速轉發就絲毫不令人驚訝了,這臺基于Sandy Bridge架構的網絡通信硬件平臺就這樣輕松刷新了x86平臺的性能記錄。
測試項
表1 FW-8865吞吐量測試結果(1組橋,1組雙向流量,同模塊)
一直關心本專題的讀者朋友們可能記得,在上一篇關于英特爾5520平臺的測試記錄中,由上一代頂級至強處理器X5690搭配82599萬兆網絡控制器的系統在同樣的測試條件下只達到整機10.24Mpps的64Byte幀轉發能力。僅僅更新系統平臺就能讓性能翻倍,Sandy Bridge的火力未免也太過強勁。為了尋找系統瓶頸,我們開始人為地制造一些障礙。在以往的測試中,我們曾經遇到過一些產品,其跨模塊測試時的性能要遠低于同模塊內測得的性能。為驗證這種現象在FW-8865是否存在,我們將隸屬不同模塊的兩個萬兆口配置為網橋,重新進行了一次測試,結果不降反升:系統自128Byte幀起就已線速轉發,64Byte幀時的整機轉發速率更是達到了驚人的28Mpps,吞吐量接近19Gbps。我們猜測之前單模塊時的接口資源有限,如PCIe接口的并發請求數量和重傳緩沖都可能受到限制;跨模塊測試時,可以調用的資源翻倍,從而提升了平臺的整體性能。而兩個萬兆接口模塊直接連接到CPU,其間沒有了可能成為性能瓶頸的橋片,也許是性能提升的另一個因素。
表2 FW-8865吞吐量測試結果(1組橋,1組雙向流量,跨模塊)
看來20G已經無法阻止彪悍的Sandy Bridge平臺了,感謝立華科技為我們提供了兩個萬兆接口擴展模塊,能讓壓力測試繼續上升到x86從未染指過的40G級別。在巨大的壓力下,當同一模塊上的兩個萬兆口分別配置為網橋進行測試時,整機64Byte幀的轉發速率為23.3Mpps,較同模塊1組橋時略有上升,但大大低于跨模塊1組橋時的性能。但在使用128Byte幀的測試中,FW-8865的整機轉發速率基本沒有下降,吞吐量達到27.54Gbps。并且從256Byte開始,做到40G流量的線速轉發。我們隨后也在跨模塊兩組橋的配置下重復了測試,結果沒有發生任何變化。老實說,有了之前的測試結果打底,本次測得的多個40G線速轉發的結果并沒太令人驚訝。照這種情況推斷,只要接口帶寬不成為瓶頸,Sandy Bridge平臺的大包轉發能力即便測到60G也不足為奇。相反,64Byte幀時的性能下降是個很意外的情況,在以往測試中很少出現,推斷其瓶頸應出現在I/O層面。
表3 FW-8865吞吐量測試結果(兩組橋,兩組雙向流量,同模塊)
表4 FW-8865吞吐量測試結果(兩組橋,兩組雙向流量,跨模塊)
為了弄清造成這種情況的原因,我們又構造了一個新的測試用例。在剛才的環境中,我們去掉了1組橋中某個方向上的所有數據流,對FW-8865施加共30Gbps的測試流量(1組雙向流量+1組單向流量)。這次的結果又高得令人感到意外,該平臺在使用128Byte幀測試時吞吐量就基本接近線速;64Byte幀時的整機轉發速率更是大幅增加至32.5Mpps,吞吐量達到21.86Gbps。并且無論將同模塊還是不同模塊中的兩個接口配置為網橋,性能都保持一致。雖然這一結果依然無規律可尋,但我們確實是第一次在x86平臺上見到64Byte幀轉發能力超過20Gbps,就請記住這個由Sandy Bridge創造的里程碑吧。
表5 FW-8865吞吐量測試結果(兩組橋,1組雙向流量+1組單向流量,同模塊)
表6 FW-8865吞吐量測試結果(兩組橋,1組雙向流量+1組單向流量,跨模塊)
需要說明的是,以上所有測試結果都是在NCPBench中設定一個vcpu(即一個物理核)做管理、兩個vcpu做I/O時得到的。我們也嘗試著使用除了管理核外的其它所有3個vcpu做I/O,但測得的性能并沒有像預期那樣線性增長,反而會略有下降。但當NCPBench運行在“轉發+簡單業務”模式時,兩個vcpu情況下的性能會有超過20%的下降,3個vcpu時的性能則不受影響。這至少說明在第二種情況下,處理器的負荷仍未達到100%,理論上可以在保證速度的前提下進行更加復雜的業務處理。
縱觀所有測試數據,即便只使用一個萬兆接口擴展模塊,基于Sandy Bridge平臺的FW-8865也能夠達到接近15Gbps的64Byte幀轉發性能。而在幀長度超過256Byte時,該平臺在任何情況下均可做到線速轉發,吞吐量最大可達40Gbps。根據經驗,如果基于FW-8865打造傳統的狀態檢測防火墻,在40G的現網環境中正常工作是毫無問題的。我們甚至認為,如果軟件的效率足夠優秀,使用該硬件打造40G規格的流控產品也是極有可能的。無論如何,英特爾最新的Sandy Bridge平臺已經創造了歷史,憑借革命性的性能表現開啟了x86在網絡通信領域的新篇章。
測試后記
x86,真的開始給力了
自從2月28日刊登第一篇內容開始,本專題已陸續進行了9期連載。我們與讀者朋友們一起,回顧了x86平臺在網絡通信領域的應用歷程,也分析了曾經活躍在市場上的一些產品解決方案。此后,我們開始了網絡通信硬件平臺的實際測試工作,對幾款目前主流的x86解決方案進行了分析,親眼見證了其規格與性能不斷提高的過程。雖然它們與同級別的專用產品解決方案相比仍不占優,但差距已明顯縮小,表現出一定的市場競爭力。而英特爾最新的Sandy Bridge平臺在測試中表現出的超群實力,完全扭轉了之前的被動局面,達到業界領先水平。在用戶業務逐步由網絡層轉向應用層的今天,x86平臺憑借I/O與計算能力方面的綜合優勢,也有機會去贏得更多的市場。如果說以前英特爾在網絡通信領域處于追隨者的位置,那么Sandy Bridge平臺的橫空出世,則意味著這個通用領域的巨擘已經站在了該領域的最前沿,搶占了云時代的先機。(文/韓勖)
鏈接:“企業級”價值何在?
今年4月,英特爾面向四路及四路以上服務器市場發布了代號為Westmere-EX的Xeon E7系列處理器。一同發布的還有Xeon E3,一類面向單路服務器/工作站市場的產品。實際上,Xeon E3就是1月份發布的Sandy Bridge-DT處理器的Xeon版本,它們非常相似,例如一樣都是LGA 1155封裝,使用的芯片組也同屬Cougar Point PCH系列。甚至在價格上,英特爾官方給出的兩類同級別產品的指導價也只有很小的差異。
圖注:英特爾Xeon E3-1200系列平臺架構圖
不過,面向企業市場的產品和面向桌面市場的終究還有一些不同。目前,大部分英特爾平臺已經走向單芯片組方案,很多功能融合進CPU,因此差異也更多地體現在CPU上。與桌面版本一樣,Xeon E3也集成了傳統的北橋,提供PCI Express 2.0接口,但它提供了20個Lane,比桌面版本多出4個,較為明顯地增強了其綜合I/O能力。例如對工作站用戶來說,可能需要使用一個x16接口或者兩個x8接口連接單顯卡/雙顯卡,同時還需要通過陣列卡連接磁盤系統,并使用高速網卡連接到局域網。這時,桌面級處理器的16個Lane就顯得捉襟見肘,雖然設備也可連接到PCH上,但其帶寬和延遲均無法與CPU直連的模式相提并論。而對于網絡通信應用來說,PCIe Lane的數量直接決定了最大接口數量,自然是多多益善。
第二個差別體現在內存支持上,幾乎所有的桌面級處理器都不支持ECC內存。而企業級應用通常都會長期持續運行,它們需要7x24的可靠性,因此所有的Xeon處理器都支持ECC技術。常見的可以檢查多位錯誤并糾正單位錯誤的ECC內存會自動檢測并糾正約99.99%的內存錯誤,可以消除約1/3的由數據破壞引發的系統出錯事件,提升了系統長期運行時的穩定性。
Xeon E3還提供了無內置顯卡的版本,這也是一個比較明顯但不是所有情形下都能從中獲益的區別。筆者在Sandy Bridge測試分析系列連載的第5篇(見本報今年11期第48版)中曾經介紹過,目前所有的桌面版Sandy Bridge處理器中均集成了顯卡,它將會與CPU共享L3緩存。如果確定不使用內置顯卡,可以通過屏蔽的方式提升CPU可以使用的L3緩存容量,從而提高性能。
Cougar Point PCH的桌面版本是為人所熟知的P67、H67、Z68等芯片組,而其服務器版本則稱為C200系列,目前有C206、C204、C202三個型號。它們的區別主要體現在擴展性方面,例如最低端的C202僅能支持CPU提供的16個PCIe Lane,不支持CPU內置顯卡,也不支持SATA 6Gb/s端口及Intel AMT 7.0特性。除此之外,C200系列芯片組能夠支持更多的TACH/PWM風扇控制信號、PECI(Platform Environmental Control Interface)界面和SST(Simple Serial Transport)總線,C204還可以實現英特爾特有的Node Manager特性,可以監控管理每個節點的能耗。以上多種企業級特性,對提升網絡通信產品的可靠性來說有著非常積極的意義。(文/盤駿)