文|羅森伯格亞太電子有限公司 周 煒
下一代數據中心的Ethernet(40G/100G)的發展與基礎布線
文|羅森伯格亞太電子有限公司 周 煒
自從2002年IEEE 802.3ae 標準正式出臺以后,以太網絡的速度得到了極大的提高,比如阿姆斯特丹和東京互聯網核心交換節點的流量已經突破600Gbps。盡管10Gbps的傳輸速率已經極大地發揮了普通多模光纖和雙絞線的潛力,但是隨著網絡應用的發展,特別是隨著當前網絡視頻、手機智能化等多種業務的快速發展,10GBase已經體現出局限性。2009年11月中旬,Intel開始發售10GBase-T網卡。可以預見,隨著IEEE 802.3az標準的成熟以及芯片技術的進步,10GBase-T的功耗會進一步降低,將來PC服務器甚至是普通電腦都會采用10Gbps以太網絡。
所以在2006年10GBase-T標準出臺后,IEEE根據網絡發展的趨勢,于當年6月就成立了HSSG(Higher Speed Study Group)研究小組,并于2007年12月批準PAR(Project Authorization Request) 發展下一代網絡40G/100G以太網標準。按照計劃,下一代標準IEEE 802.3ba將于2010年6月份出臺。目前看來40G與100G,將來的應用主要集中在數據中。當服務器大范圍采用10GBase-T時,核心交換的速度必須隨之進行大幅的提升。此外,數據中心中的FCOE、iSCSI等技術使得SAN/LAN網絡融合成為趨勢,這也對以太網絡的速率提出了更高的要求。而且現在以太網還面臨象Infiniband這樣最高可以支持120G傳輸技術的競爭壓力,所以新標準的出臺已經迫在眉睫。
當前在核心交換機市場,已經有相當多的交換機廠商宣布他們的交換機背板已經支持100G的標準,Juniper等廠商已經開始推廣100G以太網的接口板;在終端市場,40G以太網的網卡也已經開始發售,如Mellanox于2009年9月推出ConnectX-2 EN 40G PCIe網卡,支持IEEE Draft P802.3ba/D2.0 40GBASE-CR4,-SR等協議。與Mellanox壟斷infiniband芯片的情況不同,IEEE 802.3ba芯片的競爭會更激烈,將來產品的價格優勢會很明顯。
40G和100G以太網到底是什么?簡單地說就是將以太網的速率提高到40Gbps/100Gbps。其中會牽涉到MAC參數、物理層和管理部分的變化。本文主要介紹802.3ba的物理基礎部分,因為目前標準仍然處在草案(D3.0)階段,沒有最后定稿,所以本文的介紹可能會與將來出臺的標準有細微的差別,但是基礎的物理鏈路已經不會有大的變化,所以我們現在新建數據中心時,為了考慮將來的升級問題,就有必要對下一代網絡有一個大致的了解。
通常來講,我們要提高傳輸速率大致有幾種途徑(如圖1所示):其一是更高效率的編碼方式,其二是更大的傳輸帶寬,其三是多路傳輸(復用)。

在萬兆時代,OM3 與Cat.6A的應用大大增加了傳輸的帶寬,再加上芯片技術的進步和DSP處理能力的增強使得編碼能夠更有效率,最終使萬兆以太網能夠得以推廣。但是到了萬兆之后,介質的傳輸帶寬增加不明顯,OM4相比OM3和Cat.7A 相比Cat.6A都只增加了2倍多的帶寬,如果要達到100G的傳輸速率,就必須在其他方面取得突破。但是靠提高編碼效率的方式來提高帶寬面臨兩大瓶頸:其一是編碼效率的提高多依賴于電磁波傳輸,光傳輸的編碼效率很難大幅提高;其二是編碼效率的提高直接導致處理成本的增加(需增設昂貴的設備)。再加上一些其他因素如時間的緊迫性、防止技術的壟斷性等多方面的要求,導致了目前主要的研究方向在并行與復用系統。采用該方案最大的好處就是可以直接借鑒過去的標準,減少新元器件的開發和研制,加速新標準的推出,降低系統的成本。
目前40G/100G 以太網的標準如表1所示。

表1
根據表1所示,40G/100G的實現方式可以分成3種,即單模光纖、多模光纖和銅纜/背板。先來看一下單模的傳輸方式。單模光纖理論上擁有無限的帶寬,標準研究初期討論過有兩種基于SMF的實現方法,即串行、WDM波分復用。如果采用串行40G方式,成本大約是WDM的6倍,同時功耗也大大高于WDM,而且部分新元器件需要重新開發,這會極大地阻礙標準的按時發布和市場推廣,而WDM已經是成熟技術,所以經過委員會的激烈討論和投票,WDM以微弱優勢勝出(領先2票)。所以目前基于單模光纖的40G/100G采用WDM的波分復用方式實現,4×10G或者4×25G,如圖2所示。

無論是現在的波分復用方式還是將來可能會出現的串行方式,都仍然是在一對單模光纖內傳輸雙工系統,對布線系統沒有特殊的要求,所以目前的單模光纖已經能夠滿足將來的需求。
上面提到的OM4 光纖的EMB為4700MHz·km。雖然多模光纖的EMB最高可以做到9000MHz·km以上,但是仍然不能滿足串行40G和100G的要求,而且器件成本也太高,所以基于多模光纖的40G/100G基本上都采用并行系統,就是在多根光纖上部署并行收發器。出于兼容現有的連接類型的考慮,采用單個連接器12芯光纖的MPO/MTP是最好的選擇。在開始討論的時候曾經有過2×20G和4×25G的方案,基于和串行40G SMF相同的原因,這個方案最終被放棄。目前IEEE基本確定采用4×10和10×10的方案,40G為單個MPO連接器上4根收,4根發(如圖3所示);100G采用2個MPO連接器(如圖4所示),1個收,1個發。

多模光纖和單模光纖不同,對帶寬是有限制的。在上一代10GBase-SR標準中OM1與OM2光纖是可以采用的,只是OM1光纖只能支持33m的距離。到了新一代標準中只有OM3和OM4兩種類型的光纖可以采用,可支持的傳輸距離分別為100m和125m。設定這個距離主要出于兩個方面的考慮:其一是根據統計,數據中心內的骨干光纖鏈路88%小于100m,94%小于125m,100%小于300m,100m已經基本夠用;其二是成本和實現難度較小,方案比較穩妥,因為并行傳輸對傳輸的衰減等指標要求較高。但是目前關于距離這部分的爭議仍然很大,有多家研究機構提出,采用一些方法可以讓OM3支持150m以上,OM4支持250m以上的距離,也許將來的標準在這方面會有變化。
所以,如果現在要新建一個數據中心,要考慮升級到下一代網絡,最好的選擇就是采用OM3或OM4光纜,配合MPO/MTP連接器加預連接的解決方案,這樣至少在升級網絡的時候,原有的光纖布線系統還能夠繼續使用。
基于銅纜和背板的傳輸方式,因為不在綜合布線的范疇內,所以本文不做詳細介紹。該方式基本上也都采取多路并行的傳輸方式。另外CR與KR的傳輸距離非常接近,只有在最核心的部分才會采用。
也許有人會問到基于雙絞線的10GBase-T將來會如何再發展?很遺憾,目前IEEE還沒有公布相關的研究結果,不過象PAM256這樣的編碼應該會出現在下一代網絡中。主要的困難在于雙絞線的傳輸速率已經達到一個相當高的水平,再提高就很難了。
我們知道香農公式可以用來描述給定帶寬和信噪比的極限速率。

上式中C為速率,W為帶寬,S/N為信噪比。假設我們要在4對雙絞線上運行40Gbps的雙工傳輸(10Gbps每線對),傳輸帶寬1GHz,從公式可以推算出,S/N為1023。也就是說要在4對雙絞線上傳輸40Gbps,信噪比至少要達到30.1dB,相比10GBase-T18.8dB的極限信噪比,提高了近12dB。這樣的要求只有采用雙屏蔽的7A類系統才能達到,而且功耗會相當高。
考慮到目前IEEE至少要2年以后才會開始研究基于雙絞線的下一代以太網,而一個標準從開始研究到成熟至少需要4~5年,從標準成熟到網卡設備成熟又需要4~5年,所以目前采用6A類系統的水平布線,可以說已經完全能夠滿足現在和將來相當長一段時間內的需求,基本上在數據中心內的整個生命周期里都不會有升級的需求。
在考慮使用哪種網絡的時候,成本始終都是一個重要的參與標準。那么40G與100G以太網的成本如何?是否會上升到無法接受的地步?一般情況下一個完整的光鏈路可以大致分為三個部分:交換機端口、收發器、光纖。即兩端的各一組交換機端口+各一組收發器+光纖鏈路。經過Intel等公司的研究,40G以太網的費用情況大致如圖5所示。

如果把2009年的10G-SR系統的費用設為1,初期40G-SR的費用將是3.5/3.6(OM3/OM4),基于單模光纖的40G-LR將是7.1,將來隨著32nm芯片技術的成熟,40G-SR系統的費用將降低到1.8左右。
100G以太網的費用情況如圖6所示。

初期基于多模的100G系統的費用在8.4以上,基于單模的還沒有一個比較明確的預估,不過估計至少在多模100G的基礎上增加8倍。到2015年,估計基于多模的100G能夠降低一半的費用。
現在電信已經開始普及光纖到樓甚至光纖到戶。比如到2012年,上海電信的城市光網計劃將使300萬用戶的帶寬達到100M,用戶對流量的要求會比當前大大增加。屆時隨著IEEE 802.3ba標準的成熟,以及設備成本的降低,40G/100G以太網將會得到應用。布線系統的壽命一般都高于網絡設備,所以在系統升級的時候需要盡可能地減少布線系統的改動,以便大大減少升級的時間,節約費用。通過上面的分析,我們建議在數據中心內,超長鏈路部分仍然采用單模光纖;在中短距離的核心鏈路上,采用高密度MPO-MPO預連接OM3/OM4 光纜的解決方案,并且預留部分光纖為升級備用;水平布線采用Cat.6,甚至Cat.6A類系統。這樣既能滿足現在的需求,又能為將來升級預留空間,同時不會帶來明顯的整體成本的增加。