劉衛宏
(中廣電廣播電影電視設計研究院,北京 100045)
隨著我國經濟快速增長及“新基建”的需求,云計算、大數據、AI以及SDN網絡等信息技術推動了數據中心的變革,其中也包括廣播電視數據中心的變革。當前,廣播電視數據中心正在從傳統的數據中心向云化的、應用驅動的云數據中心轉型。新建云化的應用驅動云數據中心建設過程中如何保證數據中心的可靠性是必須高度關注的問題[1]。一般地,決定數據中心可靠性的因素分為人的可靠性和物的可靠性,人的可靠性指數據中心運行過程中與人的素質和管理相關的因素,物的可靠性主要有數據中心建筑可靠性、供電可靠性、空調系統可靠性以及IT設備可靠性。本文主要針對IT設備可靠性這一領域,對廣播電視云數據中心IT設備層的可靠性進行全面的分析與設計,并基于H3Cloud設備與技術進行實現。
廣播電視云數據中心有別于傳統數據中心,主要體現在以下3個方面。
(1)數據存儲量大。一般廣播電視云數據中心以存儲音視頻節目為主,音視頻節目占用存儲空間較大,一般數據中心都需要PB級存儲容量[2]。除音視頻數據外,數據中心還要存儲大量用戶數據,用于大眾服務的數據中心的用戶量多在百萬級以上。
(2)網絡傳輸帶寬要求高。廣播電視云數據中心多以給用戶提供音視頻節目流為主,一般標清節目要求帶寬 4 MB·s-1,高清節目 8 ~ 20 MB·s-1,超高清節目30~50 MB·s-1,源碼節目帶寬達到100 MB·s-1以上,如果多套節目同時傳輸,對帶寬的需求達到GB級以上。
(3)實時性強。廣播電視數據音視頻節目流在傳輸時要求不間斷,需保證節目流暢,要求IT設備數據實時穩定傳輸。
此外,廣播電視云數據中心可靠性要求極高。廣播電視云數據中心一般服務于廣播電視播出及相關業務,系統失效可能造成廣播電視數據丟失或業務中斷,會對黨政宣傳造成較大的危害和社會影響。因此,必須確保數據中心整體運行具有較高的可靠性[3]。
廣播電視云數據中心系統的可靠性主要包括數據中心建筑可靠性、供電可靠性、空調系統可靠性以及IT設備可靠性,其中,IT設備層的可靠性與廣播電視應用直接相關,是廣播電視應用的基礎,其可靠性需求最高。基于當前廣播電視云應用發展需求和信息技術發展現狀,對廣播電視云數據中心IT設備層可靠性進行全面的分析及設計。
廣播電視云數據中心IT設備層的可靠性需求主要包括3個方面。
(1)設備務必可靠,要確保承擔某一功能的硬件設備穩定可靠,以備份或集群形式,保證任何時刻都有可保持業務正常開展所需的最少設備正常運行。
(2)鏈路務必可靠,網絡保持連接,寬帶能保障業務正常開展。
(3)業務務必可靠,支撐業務的正常開展。
根據以上可靠性需求,以H3Cloud云架構為基礎,設計廣播電視云數據中心IT設備層可靠性總體架構,如圖1所示。

圖1 基于H3Cloud云的廣播電視云數據中心架構圖
將廣播電視云數據中心IT設備層按數據流向進行分層,從下到上分為計算接入層、基礎設施層、網絡控制與智能保障層以及業務交付層等4層,針對每一層系統進行具體的可靠性設計。
計算接入層的網絡接入對象為數據中心中不同形態的計算資源和存儲資源,如虛擬化服務器、容器計算資源、裸金屬服務器以及存儲設備[4]。網絡資源可以自動化按需配置相關策略,多種多樣的接入對象可以無差異化地接入網絡,做到接入即可用。
數據中心網絡的基礎設施以轉發設備和網絡增值服務設備為主,為數據中心提供高性能、高可靠性、高可用性以及安全服務的能力,支持硬件交換機、軟件交換機、NFV以及物理防火墻等多種形態的網絡組件。
平臺配置智能網關組以保證基礎設施層的可靠性。智能網關組內部采用無狀態轉發設計,所有網關信息同步,實現VXLAN網絡與傳統網絡的互聯互通;支持多臺網關組成網關組,網關組內的VXLAN IP GW設置相同的VTEP IP地址,設置相同的VNI接口IP地址及MAC地址,VTEP IP地址通過三層路由協議發布到內部網絡。
網關與內外網設備連接,采用聚合或ECMP方式,某條鏈路故障時,網關自動切換鏈路,無需人工干預。單個網關設備采用雙主控板設計,如果原主控板故障,新主控板接管設備管理。所有處理由網關自動完成,整個過程中網關上的流量轉發不受影響。
H3Cloud架構云平臺以先知分析器(SeerAnalyzer)和先知控制器(SeerEngine)為核心,作為網絡智能分析平臺,基于大數據分析以及AI等能力提供網絡可視化和精細化管理,支持網絡故障精準定位以及網絡趨勢預測等能力,幫助網絡管理者輕松、高效地運維管理數據中心網絡。網絡控制器為網絡架構的核心,由先知控制器完成網絡的設計建模、網絡自動化部署、設備管理、配置管理以及策略管理等工作、將網絡能力資源池化,以服務的形式提供給上層平臺,是數據中心核心組件。
數據中心在智能保障與網絡控制層配置了H3C先知控制器和先知分析器。通過H3C先知控制器和先知分析器形成數據中心的SDN。先知控制器利用雙網卡機制保證了SDN網絡的可靠性。在控制器發生故障時,利用先知分析器進行網絡逃生。
多個先知控制器可組成一個Team。Team成員按功能分工的不同分為Leader和Member角色。Leader負責集群的總體管理,Member負責南向連接OpenFlow轉發設備,通過SSL協議或者直接基于TCP相連。Team成員共同實現集群功能:在集群當前Leader控制器上修改的配置,會自動同步給Team中其他成員控制器;Team中所有的控制器位于一個二層或三層網絡中,對外提供一個統一的北向IP地址。
可靠性一般通過逃生機制、業務保障以及集群管理提高網絡控制層可靠性。
(1)逃生機制。在控制器發生故障時,網絡設備可切換為自轉發模式。
(2)業務可靠性。為確保業務層數據可靠性,控制器使用系統的配置參數文件備份和配置參數導入導出功能,定期備份控制器配置參數,以便在系統配置修改錯誤或丟失的情況下通過導入配置文件恢復系統配置。
(3)集群IP高可靠性。控制器創建集群時,Leader控制器為該集群設定一個虛擬的集群IP地址,集群通過該IP地址與上層平臺對接并提供服務。如果當前Leader控制器發生故障,按照Leader選舉機制產生的新的集群Leader自動接管該集群IP,集群在初始時與其他設備間的通信由新Leader接管分配,從而實現負載均衡。在控制器更換Leader全過程中,各層平滑過渡。
廣播電視云數據中心業務交付層面以云管平臺為主要組件,面向數據中心最終用戶或管理人員提供服務界面,管理著數據中心內部的計算資源、網絡資源以及存儲資源。云平臺保證在平臺內從進程、容器、虛擬機以及物理機發生四級故障的情況下,平臺的計算資源、網絡資源及存儲資源不會因為這些故障而導致業務中斷。業務交付層各個模塊支持集群HA和動態資源調度等策略,以滿足平臺的高可靠性和高可用性要求。云管平臺主要依靠雙機集群HA和動態資源調整技術保證業務交付層可靠性。
廣播電視云數據中心在IT設備的業務交付層、智能保障和網絡控制層、網絡基礎設施層以及計算接入層的可靠性決定著整個數據中心IT設備的可靠性,各層都有不同的設備和技術手段為其提供可靠性保障,如果要使數據中心的整體可靠性達到一定程度,需要對各層使用不同的硬件支持、軟件支持以及策略保障,才能保證數據中心IT設備整體的可靠性。目前國內外數據中心IT設備供應商都開發了各具特色的云數據中心平臺,在可靠性方面采用不同的處理策略,因此廣播電視云數據中心在設計和建設過程中,需要根據數據中心業務自身對可靠性的需求,對不同廠家的產品特性進行深入分析和論證,必要時進行可靠性測試,最終選定科學合理的建設方案,這樣才能保證廣播電視云數據中心建成后在IT設備層具有較高的可靠性。