張斌
(浪潮(北京)電子信息產業有限公司 北京 100085)
面向大型云計算應用的云服務器架構探索
張斌
(浪潮(北京)電子信息產業有限公司 北京 100085)
本文首先闡述了云計算對云服務器的要求,并由此引出了云服務器的單元構成,最后介紹了一種云服務器的架構實例對云服務器的最佳實踐進行探索。
云計算應用;云服務器;架構方案
要解決云計算數據中心面臨的調度、管理、節能等方面的挑戰,需要在機房設施、服務器、軟件等各方面進行優化。其中,云服務器是非常重要的一個環節。為適應云計算應用的需要,要求云服務器具備以下特征:
(1)云服務器要能夠適應不同應用類型,并且能夠實現不同應用的快速切換和部署,這就要求硬件資源也能夠實現快速動態重配。理論上來講,如果能夠在硬件層面完全實現計算、存儲(內存)、I/O(輸入/輸出接口)的動態重配和自由組合是最佳方案。但是,以目前的技術水平而言,這種體系結構是不可能做出來的。那么,采用異構混合、部分可重配的體系結構也是可以接受的。
(2)云服務器要在硬件層面充分考慮功耗要求,采用低功耗設計,如采用低功耗處理器等部件,采用高效能電源,采用高溫化設計,減少非必要器件等,通過這些設計可有效提高處理單元的性能功耗比和整系統的散熱開銷。
(3)云服務器要能夠采用硬件手段,實現各種部件,特別是可插拔器件,如硬盤、網卡等的快速定位和自動查找,提高服務器的可管理性,降低管理和維護成本。
(4)采用低功耗設計降低節點功耗只是數據中心低功耗管理的一部分。實際上服務器功耗居高不下的一個重要原因是無法根據服務器負載水平,動態地調整服務器功耗。通過動態功耗控制,可以使資源在負載不高的情況下,自動降低能源消耗,從而達到節省能源的目的。
(5)云服務器規模龐大,出現部件故障的概率很大,需要能夠快速地對故障進行診斷、定位,并且能夠實現故障的自動隔離和恢復,避免單器件故障對整個系統運行的影響。
云服務器由處理單元、內部互連網絡,以及供電、散熱、監控管理等基礎單元組成。其中,處理單元有通用處理單元、精簡輕載處理單元和重載可重構處理單元三種類型,構成層次式云服務器處理單元集簇。通用處理單元以高性能通用處理器為基礎,采用計算能力、I/O能力、存儲能力均衡的設計;輕量級處理單元以面向海量數據并發處理優化的高效低功耗處理器為基礎,采用精簡設計;重載可重構處理單元面向重載云計算業務負載,采用可重構計算技術和眾核處理器技術。
云服務器包含內部高速互連單元、業務負載互連單元和系統控制互連單元。通過內部高速互連實現系統中對帶寬、延遲敏感的大規模并發I/O訪問、虛擬機遷移、進程間低延遲通信與數據同步的支持;通過業務負載互連單元滿足對海量數據并發處理的通信需求;通過系統控制互連單元實現對云服務器各個功能單元簇的監控管理與資源調度通信。
云服務器每個功能單元簇采用獨立的物理機架,采用集中式監控管理,通過集中化供電、散熱和統一的功耗和電源管理實現高效的基礎架構設計。
云服務器整機系統采用機柜形態,整機集中供電、集中散熱、統一管理。
云服務器整機柜系統在對不同的功能區域在物理空間上進行劃分,機柜自上而下劃分為五個區域,分別是:
(1)標準TOR(Top of the Rack)交換機區域,能夠在結構上兼容市面上的標準TOR交換機;
(2)通用存儲設備/服務器設備區域,能夠兼容標準機架式服務器或存儲設備;
(3)云服務器子柜區域,用來裝配定制開發的計算單元、擴展單元、子柜管理單元、子柜以太網交換單元、兼容標準PCIE卡的I/O單元、分布式網絡交換單元;
(4)供電單元區域,用來裝配電源模塊、機柜管理單元;
(5)云服務器子柜區域,同區域3。
云服務器子柜前段安裝處理單元或擴展單元。擴展單元分為PCIE I/O擴展和存儲擴展,占據右側處理單元位置。處理單元通過背板與子柜后段的I/O單元、分布式網絡交換單元、子柜管理單元、子柜以太網交換單元互聯。風扇位于子柜后段。
子柜內的處理單元可通過子柜以太網交換單元或分布式網絡交換單元進行數據交換,跨子柜數據交換則通過TOR交換機或分布式網絡交換單元實現。
云服務器整機系統包含以下具體的功能模塊/單元:
(1)標準TOR數據交換機,可實現處理單元間的數據交換;
(2)通用存儲設備/服務器設備,標準機架式服務器或存儲設備;
(3)處理單元,定制開發的云服務器處理單元;
(4)PCIE I/O擴展單元,用于實現處理單元擴展PCIE設備,支持標準PCIE SSD,GPU卡;
(5)存儲擴展單元,用以實現處理單元擴展硬盤,支持標準2.5寸/3.5寸硬盤;
(6)I/O單元,用于實現處理單元配置標準PCIE卡;
(7)分布式交換單元,用以實現整個機柜內的處理單元間的數據交換;
(8)子柜管理單元,實現子柜內的資源監控和管理;
(9)子柜以太網交換單元,實現子柜內的處理單元間的數據交換;
(10)機柜管理單元,實現整機柜內的資源監控和管理;
(11)系統信號背板,實現單元間的信號互連;
(12)風扇模組;
(13)電源模組。
處理單元/擴展單元位于子柜內部前段,承擔云服務器系統中的計算處理任務,是系統硬件的核心。云服務器整機系統可支持三種處理單元:通用處理單元、可重構處理單元和輕量處理單元。單個子柜最大可支持8塊高度為1CU(1CU=1.25U)的半寬處理單元,當配置高度為1CU的半寬處理單元時,系統支持PCIE I/O擴展或存儲擴展,此時擴展單元將占據一個處理單元的位置。
I/O單元位于子柜后部,板載8個16x位寬的PCIE slot插槽,支持FCHBA卡、以太網卡和IB HCA卡。支持標準全長/半長卡。當配置半長卡時,支持單卡熱插拔功能。單個子柜可配置2個I/O單元,滿足子柜內處理單元的基本IO功能需求。I/O單元不可與分布式交換單元同時配置,二者在子柜中占據同一位置,是互為選配的關系。
分布式交換單元位于子柜后部,可實現處理單元間的數據交換(支持跨子柜或跨整機柜數據交換),當配置通用處理單元或可重構處理單元時支持處理單元間PCIE總線交換,當配置輕載處理單元時支持處理單元間通過萬兆以太網交換,對外支持40G以太網或100G以太網。分布式交換單元可替換I/O單元和TOR交換機實現節點間的數據交換。
子柜數據交換單元位于子柜后部,實現了子柜內部處理單元間的數據交換,支持萬兆上行以太網。
通用存儲設備單元支持通用存儲服務器、JBOD存儲陣列、存儲控制器等存儲設備,獨立散熱、獨立供電。最大支持6U空間的存儲設備,滿足機柜內處理單元的存儲需求。
TOR數據交換單元最大可支持4個1U高度標準TOR交換機設備,支持FC/FCOE交換機、以太網交換機、IB交換機。獨立散熱、獨立供電。搭配I/O單元和子柜交換單元使用,實現機柜內處理單元之間,處理單元與存儲設備之間的數據交換。也可實現多機柜擴展的數據交換。
供電單元滿足云服務器整機柜系統中所有單元的供電需求。通用存儲設備單元和TOR交換機單元由電源分配單元直接供應AC交流電源,子柜內單元及管理單元由電源模組供應直流電源。
監控管理單元對云服務器整機系統的各單元的工作狀態進行監控和管理。整機系統采用機柜管理單元-子柜管理單元-板級管理單元的3級管理架構,板級管理單元負責對單個處理單元進行監控管理、子柜管理單元負責對子柜內各單元進行監控管理,機柜管理單元負責對云服務器整機系統進行監控管理。管理單元支持冗余互備。
為適用于不同的機房和數據中心,云服務器整機系統采用標準機柜形態,其外形尺寸為:高度2100mm×寬度600mm×深度1200mm(柜內空總高44U)。
這種架構可以滿足多種多樣的云計算應用類型,便于進行快速部署以適應持續發展的需求變化。集中供電和散熱提高了電源效率,層級式管理實現了全方位的監控管理和故障定位,豐富的節點類型和可供選擇的網絡配置為客戶提供了豐富配置組合。是一種高效的云服務器系統架構。
[1][美]Thomas ERL,[英]Zaigham Mahmood,[巴西]Ricardo Puttini 著.龔奕利,賀 蓮,胡 創 譯.云計算:概念、技術與架構 [Cloud Computing Concepts,Technology&Architecture].機械工業出版社,2015(04).
[2]曾薇薇,譯.[日]宮田寬士,著.圖解服務器端網絡架構.人民郵電出版社,2015(02).
TP368.5
A
1004-7344(2016)10-0292-02
2016-3-15