陳郁周
(中國移動通信集團公司廣東公司揭陽分公司 揭陽 522000)
融合通信系統(tǒng)雙機熱備份的研究
陳郁周
(中國移動通信集團公司廣東公司揭陽分公司 揭陽 522000)
介紹了企業(yè)網(wǎng)融合通信系統(tǒng)可靠性的市場需求,分析了雙機熱備份常見問題,基于在網(wǎng)設(shè)備部署經(jīng)驗,提出熱備份系統(tǒng)軟硬件解決方案,與負載均衡和容災(zāi)備份的系統(tǒng)可靠性方案相比,該方案具有性價比高、操作部署簡單、穩(wěn)定性更高的優(yōu)點。
雙機熱備份;負載均衡;冗余備份
隨著通信技術(shù)日新月異的發(fā)展,企業(yè)信息化的程度越來越高,面向中小企業(yè)和集團客戶的通信系統(tǒng)集成了多種應(yīng)用,如呼叫中心、統(tǒng)一通信、協(xié)同辦公以及應(yīng)急調(diào)度等增值業(yè)務(wù),傳統(tǒng)的語音通信演進成集語音、視頻、狀態(tài)呈現(xiàn)、即時消息和電話會議等應(yīng)用的融合通信平臺。有數(shù)據(jù)表明,80.4%的企業(yè)希望整合現(xiàn)有硬件資源,做新的系統(tǒng)備份方案,特別是硬件資源集成的備份,在解決客戶需要的同時維護兩套系統(tǒng)的運維壓力。
融合通信海量的數(shù)據(jù)和運算復(fù)雜度帶給企業(yè)資源的同時,也對系統(tǒng)維護提出了前所未有的壓力,人為操作失誤、病毒攻擊、自然災(zāi)害、異常斷電、網(wǎng)絡(luò)故障以及硬件自然損害等安全隱患使得迫切需要提高業(yè)務(wù)系統(tǒng)的可靠性,孤立單一的系統(tǒng)故障容易導(dǎo)致業(yè)務(wù)的中斷,給客戶造成無可挽回的損失。
業(yè)務(wù)系統(tǒng)的可靠性設(shè)計,需要從終端層、網(wǎng)絡(luò)層和平臺層等多方面進行考量,如終端設(shè)備注冊多個業(yè)務(wù)平臺、冗余路由的機制、環(huán)狀或網(wǎng)狀網(wǎng)設(shè)計。本文重點討論業(yè)務(wù)平臺的高可靠性設(shè)計。
高可靠性也稱作冗余備份,分為冷備份和熱備份兩種,冷備份通常由硬件的冗余備件方式實現(xiàn),系統(tǒng)出現(xiàn)故障時,需要人手工操作完成替換,并導(dǎo)入配置數(shù)據(jù);熱備份則無需人工干預(yù),主用設(shè)備出現(xiàn)故障時,通過系統(tǒng)智能判斷完成設(shè)備間的切換,縮短業(yè)務(wù)中斷的時間。
基于傳統(tǒng)TDM的通信系統(tǒng)的備份機制多采用備件的方式,如采用雙CPU板卡或備用一套相同的設(shè)備,當主設(shè)備出現(xiàn)故障時,需要人為將系統(tǒng)切換到備用的板卡或設(shè)備上,雖然在一定程度上保證了業(yè)務(wù)可靠性,但缺乏智能性。
當前,IP化已經(jīng)成為通信網(wǎng)絡(luò)發(fā)展的必然趨勢,無論是設(shè)計部署運營業(yè)務(wù)平臺,還是構(gòu)建企業(yè)通信系統(tǒng),均需考量業(yè)務(wù)的可靠性,系統(tǒng)熱備份已經(jīng)成為行業(yè)客戶和大型集團客戶的基本需求,基于IP架構(gòu)的融合通信系統(tǒng)更容易實現(xiàn)雙機熱備份。
雖然當前設(shè)備商的通信系統(tǒng)支持雙機熱備份,但在實際應(yīng)用過程中還發(fā)現(xiàn)眾多問題,表現(xiàn)在以下幾個方面。
(1)主備設(shè)備切換的時間過長,備用設(shè)備正常情況下為非活躍狀態(tài),系統(tǒng)出現(xiàn)故障需要切換到備用設(shè)備時,需要幾分鐘甚至更長時間,難以滿足企業(yè)的要求。
(2)主備系統(tǒng)之間的狀態(tài)判斷機制不嚴謹,導(dǎo)致主備狀態(tài)的誤判斷,如兩臺設(shè)備同時處于主設(shè)備或備用設(shè)備狀態(tài)時,給系統(tǒng)的業(yè)務(wù)應(yīng)用帶來異常的問題。
(3)切換機制的誤判斷,主設(shè)備和備用設(shè)備之間循環(huán)切換,從而導(dǎo)致系統(tǒng)出現(xiàn)故障后,應(yīng)用服務(wù)一直不能正常恢復(fù)工作等。
(4)熱備份的系統(tǒng)在增加補丁或版本升級時,通常要中斷用戶的在網(wǎng)業(yè)務(wù),給用戶帶來不便。
綜上所述,當前多數(shù)融合通信系統(tǒng)熱備份的機制還不完善,本文提出融合通信系統(tǒng)熱備份的技術(shù)方案的設(shè)計要點,主要解決上述問題。
雙機熱備份將一臺設(shè)備或核心板卡作為主用,負責處理全部的業(yè)務(wù),另外一臺設(shè)備或核心板卡作為備用。系統(tǒng)之間定期同步數(shù)據(jù)和運行狀態(tài),一般通過心跳機制檢測對方狀態(tài),若檢測不到對方,則備用設(shè)備接管全部業(yè)務(wù)。融合通信系統(tǒng)從以下幾個方面設(shè)計雙機熱備份機制。
(1)主備系統(tǒng)均為活躍狀態(tài)
主設(shè)備和備用設(shè)備處于并行運行狀態(tài),主設(shè)備負責處理與融合通信業(yè)務(wù)相關(guān)的所有應(yīng)用,而備用設(shè)備則只運行診斷和管理的應(yīng)用。這樣的機制保證主備雙方均能獲知對方的運行狀態(tài),從而可以更好地決策主備系統(tǒng)的倒換,避免主備設(shè)備間循環(huán)切換的現(xiàn)象出現(xiàn)。
(2)切換控制由軟件實現(xiàn)
首先,與硬件實現(xiàn)切換控制不同,熱備份在內(nèi)存同步時,硬件處理方式是將所有DRAM的數(shù)據(jù)鏡像到臨時存儲器中,進而再復(fù)制到備用系統(tǒng),軟件模塊處理方式相對靈活,可只將DRAM保護(protected)模式的數(shù)據(jù)從主用設(shè)備復(fù)制到備用設(shè)備,因為數(shù)據(jù)量少,降低了數(shù)據(jù)量和復(fù)雜度,從而提高了同步的速度和質(zhì)量。其次,基于軟件的熱備份切換機制降低了主用和備用設(shè)備的耦合程度,避免因設(shè)備耦合度過高而帶來的一系列問題,如硬件故障更換設(shè)備時需主用設(shè)備和備用設(shè)備一起更換、問題定位不清等。
(3)切換時的暫停服務(wù)和同步機制
如(2)所述,備用設(shè)備只復(fù)制主用設(shè)備內(nèi)存中處于保護模式的數(shù)據(jù),因此在正常切換時應(yīng)用暫停服務(wù)和同步機制實現(xiàn)從主用方到備用方設(shè)備鏡像處于非保護模式的數(shù)據(jù)。完成鏡像復(fù)制操作后,備用設(shè)備可完全同步主用設(shè)備的狀態(tài),繼續(xù)處理主用設(shè)備暫停服務(wù)的應(yīng)用,而主用方的設(shè)備重新啟動,將設(shè)備狀態(tài)切換為備用方。整個切換過程通常需要5~10 s,已經(jīng)建立的會話和呼叫不會受影響,新呼叫會被延遲處理。
(4)硬盤鏡像機制
為了保證主備用設(shè)備的同步并盡可能達到最佳的切換性能,非保護模式的硬盤分區(qū)數(shù)據(jù)從主用方鏡像到備用方,該數(shù)據(jù)內(nèi)容包括了系統(tǒng)生成的全部數(shù)據(jù),如用戶配置數(shù)據(jù)、歷史操作文件、呼叫記錄等。
(5)心跳機制
心跳機制通過設(shè)備間的高速連接通道實現(xiàn),用于主備設(shè)備間相互監(jiān)控運行狀態(tài),當備用設(shè)備的狀態(tài)優(yōu)于主設(shè)備時,將觸發(fā)強制切換的操作。為避免高速連接通道出現(xiàn)故障而造成設(shè)備的異常強制切換,設(shè)備間通常還需要備用連接用于心跳機制的通信,但備用連接不用于鏡像內(nèi)存和硬盤中處于保護模式的數(shù)據(jù)。
(6)系統(tǒng)維護不影響在網(wǎng)業(yè)務(wù)
工程師在維護雙機熱備份系統(tǒng)時,通常要求不能影響在網(wǎng)運行的業(yè)務(wù),因此需要解除主備設(shè)備之間的聯(lián)系,維護完成后,還需要恢復(fù)設(shè)備間的備份狀態(tài),通常采用軟件命令實現(xiàn),如倒換(Switch)、分離(Cut)和恢復(fù)(Join)等。常用的步驟如下:用Cut命令將主備設(shè)備分離;升級維護備用設(shè)備;用Switch命令完成系統(tǒng)的倒換;升級維護主用設(shè)備;在主用設(shè)備側(cè)執(zhí)行Join命令,恢復(fù)雙機熱備份狀態(tài),實現(xiàn)維護備份系統(tǒng)而不影響用戶的業(yè)務(wù)。
(7)強制切換機制
當備用設(shè)備發(fā)現(xiàn)主用方設(shè)備工作異常時,如掉電或主處理器故障,備用設(shè)備將執(zhí)行冷啟動并重新載入配置數(shù)據(jù),防止因為鏡像主用設(shè)備的異常導(dǎo)致處于保護模式的數(shù)據(jù)不完整而造成系統(tǒng)的崩潰,系統(tǒng)重新載入配置數(shù)據(jù)可以保證將異常數(shù)據(jù)清除。強制切換的過程和時間一般較長,特別是備用設(shè)備若檢測到心跳機制失敗時,需要等待足夠長的時間再執(zhí)行強制切換,以防主用設(shè)備再執(zhí)行正常的熱重啟操作。強制切換時,已建立的會話呼叫會被終止,相應(yīng)的狀態(tài)信息也會被清除。
(8)系統(tǒng)啟動的“投票”機制
通過應(yīng)用“投票”機制決策系統(tǒng)啟動時主用設(shè)備繼續(xù)保持主用狀態(tài)還是釋放呼叫處理控制權(quán)而由備用設(shè)備替代。“投票”機制提供以下功能。
·“投票”結(jié)果基于主備用設(shè)備的健壯值決定,高健壯值的一方作為主用方。
·若雙方的健壯值相同,則生成隨機數(shù),通過對比隨機數(shù)的大小決定主用方。
·若在系統(tǒng)安裝時,指定優(yōu)先主用的設(shè)備在健壯值相同的情況下被設(shè)置為主用方。
· “投票”機制的比對信息包括健壯值、設(shè)備優(yōu)先級和隨機數(shù)。
·在主備設(shè)備的高速連接通道中斷或未連接的情況下,則通過備用連接完成“投票”機制。
基于上述8點關(guān)鍵技術(shù)要點和流程,與國內(nèi)廠商的雙機熱備份機制相比,該方案具有切換速度快、狀態(tài)機制判斷嚴謹、雙同步通道、升級維護不影響在網(wǎng)運行的業(yè)務(wù)、系統(tǒng)穩(wěn)定性和可靠性更高等特點。
雙機熱備份可設(shè)計為一體機結(jié)構(gòu)或板卡式架構(gòu),介紹如下。
3.2.1 一體機結(jié)構(gòu)
一體機的 CPU采用 X86計算機,SATA、WAN、USB、HSP、PCI、并行口等接口直接從X86模塊計算機上接出,如圖1所示。
·SATA連接高速硬盤存儲器,用于數(shù)據(jù)文件的存儲。
·主備設(shè)備WAN口配置同一網(wǎng)段的不同IP地址用于通信,且對外虛擬一個統(tǒng)一的節(jié)點IP,以便其他終端的注冊,同時WAN口連接作為主備設(shè)備間的備用連接。
· USB接口作為系統(tǒng)安裝和維護的擴展口。
·HSP用于主備設(shè)備間的心跳機制的高速連接通道。

圖1 一體機結(jié)構(gòu)
·PCI可擴展數(shù)字中繼板卡、模擬接口卡等。
·并行口可擴展面板上的液晶屏,顯示系統(tǒng)的基本信息,如設(shè)備的IP地址和軟件版本。
3.2.2 多板機結(jié)構(gòu)
多板機采用機框式板卡架構(gòu),板卡類型包括主控板、語音資源板、中繼資源板、電源板、網(wǎng)關(guān)控制器和用戶業(yè)務(wù)板等。多板機結(jié)構(gòu)如圖2所示。
主控板為系統(tǒng)的大腦和核心,支持熱備份功能;語音資源板實現(xiàn)語音壓縮和混音;中繼資源板提供數(shù)字中繼控制;電源板為冗余配置;網(wǎng)關(guān)控制器用于控制用戶板的掃描和接入;用戶業(yè)務(wù)板提高模擬用戶線或模擬中繼線接口。
主控板通過背板上的數(shù)據(jù)總線相連,實現(xiàn)HSP心跳機制的物理連接,語音資源板、中繼資源板和網(wǎng)關(guān)控制器與主控板之間均通過內(nèi)部LAN實現(xiàn)互連。主控板提高電和光的GE接口,除了提供業(yè)務(wù)接入訪問地址外,還作為雙機熱備份的備用連接。
從硬件設(shè)計看,本文提到的雙機熱備份方案適應(yīng)性強,無論是一體機還是多板機均可應(yīng)用。
除了雙機熱備份解決方案,常見的可靠性設(shè)計方案還包括容災(zāi)備份、負載均衡和主備設(shè)備定期切換等。與這些方案相比,雙機熱備份在性價比、易用性、維護性方面具有不可比擬的優(yōu)勢,是中小企業(yè)集團客戶選擇高可靠性的首選方案。
容災(zāi)系統(tǒng)實現(xiàn)當主用系統(tǒng)的機房、城市遭受異常情況,如地震、火災(zāi)等自然災(zāi)害,導(dǎo)致通信系統(tǒng)不能正常工作。終端設(shè)備可通過網(wǎng)絡(luò)接入到備用系統(tǒng),備用系統(tǒng)通常部署在其他的機房或城市,從而保證通信正常。常用的容災(zāi)備份機制稱為雙歸屬系統(tǒng),需要終端配合實現(xiàn),即終端在注冊主系統(tǒng)失敗的情況下,自動向備用系統(tǒng)注冊。
容災(zāi)備份方案是一個涉及終端、網(wǎng)絡(luò)和業(yè)務(wù)平臺的綜合解決方案,甚至要增加新的硬件設(shè)備才能完全實現(xiàn)。雙機熱備份的方案與之相比,具有投資成本低、部署速度快、無需終端和網(wǎng)絡(luò)層的配合等優(yōu)勢,是滿足中小企業(yè)集團客戶需求的性價比較高的解決方案。
負載均衡的目的是提高通信系統(tǒng)的使用效率,設(shè)備均處于激活工作狀態(tài),避免大量的數(shù)據(jù)流和計算量集中在單臺設(shè)備上,系統(tǒng)負荷過高,而其他設(shè)備負荷較低或未使用。
通常情況下,負載均衡機制同時管理兩套設(shè)備,正常情況下,兩套設(shè)備在控制模塊的管理下共同處理業(yè)務(wù)請求,平均承擔部分通信數(shù)據(jù)流量,并進行終端注冊、會話狀態(tài)、呼叫記錄等數(shù)據(jù)的同步,其性能等效兩套設(shè)備合二為一,隨著處理能力的提升,一套負載均衡的融合通信系統(tǒng)已能滿足企業(yè)網(wǎng)用戶的需求。
負載均衡方案部署時需解決兩套設(shè)備互通的問題,因每套系統(tǒng)上均管理著企業(yè)的部分終端,有可能會出現(xiàn)企業(yè)終端之間的通信故障問題。雙機熱備份雖然在系統(tǒng)的利用率上不如負載均衡方案,但在穩(wěn)定性、易用性和維護簡單方面比負載均衡有優(yōu)勢。隨著IT產(chǎn)業(yè)的硬件成本不斷降低,中小企業(yè)部署雙機熱備份時,備用系統(tǒng)的投資成本相對較低。
融合通信系統(tǒng)中運行的增值業(yè)務(wù)越多,系統(tǒng)出現(xiàn)問題的概率越大,因此定期切換主備系統(tǒng),讓主用系統(tǒng)有效地釋放內(nèi)存資源,是一種提高系統(tǒng)可靠性的工程方案。
在系統(tǒng)軟件中啟動一個進程,當每天凌晨系統(tǒng)沒有業(yè)務(wù)時,系統(tǒng)例行完成數(shù)據(jù)保存、自動檢測、主備設(shè)備的切換,不影響用戶業(yè)務(wù),從而實現(xiàn)自動備份、7×24 h服務(wù)的目標。定期切換系統(tǒng)方案可以看作雙機熱備份特有的機制,在容災(zāi)備份或負載均衡方案中實現(xiàn)此機制的復(fù)雜程度高。

圖2 多板機結(jié)構(gòu)
雙機熱備份方案目前存在系統(tǒng)利用率不高有待完善的問題,后續(xù)可向N+1備份的方向發(fā)展,即多臺在網(wǎng)設(shè)備共享同一臺備用設(shè)備,從而完善熱備份的解決方案。
當前,中國的IT科技處在高速發(fā)展時期,企業(yè)的信息安全、數(shù)據(jù)和系統(tǒng)潛在災(zāi)難都有了大量的前車之鑒,催生了系統(tǒng)可靠性的如火如荼的市場,“千里之行,始于足下”,完善的系統(tǒng)可靠性方案不是一蹴而就的,是經(jīng)過市場實際應(yīng)用和無數(shù)案例洗禮得來的。希望本文探討的內(nèi)容對提供融合通信設(shè)備的制造商和解決綜合業(yè)務(wù)接入的運營商起到參考作用。
2011-06-03)