鮑寧海,袁園,劉自謙,匡明
?
基于鏈路生命期的光數據中心網絡業務恢復方案
鮑寧海,袁園,劉自謙,匡明
(重慶郵電大學通信與信息工程學院,重慶 400065)
針對大規模災難事件對光數據中心網絡造成的關聯性和級聯性故障,提出一種基于鏈路生命期的災后業務恢復方案。該方案利用全局業務帶寬退讓和局部鏈路的有限生命期,緩解災后網絡的帶寬資源危機,根據災難損毀業務的帶寬需求和持續時間需求,確定業務恢復優先級,采用任播與多播相結合的路由策略提高業務的連通性和帶寬資源利用率。仿真結果表明,所提方案能夠最大限度地降低業務中斷率,并有效地延長災難損毀業務的持續時間,減少數據流量損失。
光數據中心網絡;鏈路生命期;網絡生存性;業務恢復;業務持續時間
數據中心(DC, data center)是一種具有大規模并行計算能力和海量數據存儲能力的超級資源中心。將多個地理上分散的數據中心通過大容量、低時延、穩定可靠的波分復用(WDM, wavelength division multiplexing)光網絡組織起來,構建成高速互聯的光數據中心網絡,能夠更加高效靈活地為用戶提供各類基于內容的云業務[1-4]。在光數據中心網絡中,服務的內容可以在多個位于不同地理位置的數據中心保存副本,持有副本的任何一個或多個數據中心都可以同時為用戶提供相同的服務,這使基于任播和多播的內容交付技術在光數據中心網絡中成為主流[5]。
近年來,大規模災難事件對廣泛分布的電信基礎設施造成了嚴重的威脅和破壞。例如,2008年發生的汶川地震、2011年發生的日本東部地震和海嘯以及2012年分別登陸美國南部的颶風艾薩克和東北部的颶風桑迪等都對當地的通信網及電力設施造成了巨大的破壞和長時間的影響[6-8]。因此,應對大規模災難損毀的網絡生存性將成為影響光數據中心網絡發展的重要問題[9-10]。
根據光數據中心網絡業務的特點,本文研究并提出一種基于鏈路生命期的光數據中心網絡業務恢復方案,以解決大規模災難情況下,數據中心業務大量中斷、業務持續時間下降以及數據交付率低的問題。大規模災難引發的區域性網絡組件損毀(關聯性故障)和部分鏈路生命期下降(級聯性故障)將造成嚴重的網絡帶寬資源危機。針對這一現象,該方案利用全局業務帶寬退讓和局部鏈路的有限生命期,為恢復操作提供必要的帶寬資源保障;根據災損業務的帶寬需求和持續時間需求確定業務恢復順序,為恢復操作提供合理的資源調度依據;采用任播與多播相結合的路由策略,提高恢復操作的靈活性和帶寬資源的利用率。研究結果表明,本文提出的方案能夠顯著地降低災后網絡的業務中斷率,并有效地延長災損業務的持續時間,減少數據交付損失率。
目前,光數據中心網絡的生存性問題已經受到各國研究人員的廣泛關注,特別是在大規模災難抗毀問題上已取得了一些研究成果。
針對大規模災難可能造成的數據中心損毀和業務內容丟失的問題,文獻[11]提出一種災難風險敏感的數據中心選址和動態內容管理方案,以降低數據中心在災難事件中的損毀概率,并最大限度地提高業務內容的可用性與可達性;文獻[12]提出一種快速協同數據備份算法,使備份數據吞吐量最大化,從而有效地縮短備份時間窗口。
在大規模災難預警模型下,文獻[13]提出一種針對高危數據中心的快速數據撤離算法,以實現最短時間內最大量的數據撤離;文獻[14]研究基于最小存儲代價和傳輸代價的數據緊急備份方案,在有限預警時間約束下,通過最優站點選擇和站點間多通路傳輸的方式,實現數據的最小代價緊急備份。
文獻[15]研究一種數據中心網絡的內容與路由保護方案,采用冗余副本安置和任播路由策略,實現業務通路和終端(內容)節點的抗毀。文獻[16]提出一種災難風險敏感的數據中心業務配置方案,采用多播路由策略對內容站點和業務帶寬進行分散配置,以降低數據中心業務的災難風險并提高帶寬資源利用率。文獻[17]針對彈性光數據中心網絡的災難模型,提出一種基于內容連通性的帶寬自適應業務保護算法,采用共享風險鏈路組分離的保護路由策略保障業務內容的連通性,并通過帶寬頻譜的自適應配置,提高頻譜資源利用率。
大規模災難事件(如地震、海嘯、颶風等)可能造成涉災地區大面積的網絡組件損毀,而一些未遭受直接損毀的網絡組件也可能因電網中斷后,備用的電池、燃油耗盡而停止工作,從而使大量的數據中心業務中斷或服務時間下降。為了在災后及時有效地恢復受損業務,本文研究并提出一種基于鏈路生命期的業務恢復方案。
本節針對所提出的基于鏈路生命期的恢復(LR, link-lifetime-based restoration)方案和另外2種對比恢復方案進行示例分析。對比方案分別為盡力而為的恢復(BR, best-effort restoration)方案和基于完全可靠性的恢復(FR, full-reliability-based restoration)方案,前者在恢復過程中不區分鏈路生命期是否有限,后者在業務恢復過程中不使用生命期有限的鏈路。圖1給出業務的初始配置和3種恢復方案配置示例,其中帶箭頭的實線表示業務的原始配置,帶箭頭的虛線表示恢復操作后發生變化的業務配置。

圖1 恢復方案示例


表1 原始業務配置


表2 LR相關業務配置


表3 BR相關業務配置
FR方案路由如圖1(d)所示。首先將所有受影響業務的帶寬全部釋放,并將圖中生命期下降的鏈路刪除,然后為每一個受影響的業務尋找一條資源代價最小的業務通路,并分配帶寬資源,如果該通路不滿足業務帶寬需求,則繼續尋找下一條通路以補充帶寬需求。FR恢復操作完成后配置發生變化的業務如表4所示。

表4 FR相關業務配置
通過對表1~表4的數據分析可以發現,對于LR、BR和FR這3種恢復方案,其業務中斷率分別為0、0和20%,業務持續時間損失率分別為0、32%和32%,業務流量損失率分別為5%、31%和41%。其中,流量定義為帶寬與時間的乘積。顯然,LR通過合理利用具有有限生命期的鏈路資源,可以有效緩解災后網絡資源緊張的情況,并在一定程度上改善受影響業務的服務質量。



表5 符號定義
LR方案假設同一業務的內容和副本可以安置于多個數據中心站點,業務請求節點可以向網絡中任意一個或多個持有相關內容或副本的數據中心發起業務連接請求,因此,LR將根據業務請求節點與內容提供節點間的可連通性與路由資源情況,采用任播與多播相結合的路由策略,保證內容的連通性和帶寬的可擴展性。同時,為了最大限度地滿足業務帶寬需求,根據網絡資源情況,同一業務請求節點與同一內容提供節點間的路由可采用單通路或多通路配置方式。








圖2 網絡拓撲
采用靜態業務模型,隨機產生200個業務請求,均勻分布于所有非數據中心節點,每個業務的帶寬在4~12個波長之間隨機產生,每個業務的服務時間在1~12 h之間隨機產生,通過此方式產生30套業務。此外,再將該30套業務的服務時間范圍擴展為1~24 h、1~36 h和1~48 h,由此共獲得120套業務。



圖3 LR方案業務中斷率

圖4 LR方案業務持續時間損失率

圖5 LR方案業務流量損失率
3種方案的業務中繼率如圖6所示。由圖6可知,與BR和FR相比,LR在性能上具有明顯的優勢,這是因為LR臨時將未受影響業務的帶寬釋放了50%,極大緩解了災后網絡帶寬資源緊張的問題,保證了災后所有業務的連通性。由于FR方案禁止使用生命期有限的鏈路,使災后網絡的可用帶寬資源更加稀少,導致高達8.4%,而BR方案由于對鏈路的生命期不敏感,恢復過程中的可用帶寬資源較多,使較低,約為2%。此外,圖6中的數據顯示,3種恢復方案的性能主要取決于網絡中的可用帶寬資源,這是因為反映的是恢復操作完成瞬間的業務連通性,而與業務的需求時間長短沒有關系。

圖6 3種方案的業務中斷率
3種方案的業務持續時間損失率如圖7所示。其中,LR方案展現出了最佳的性能。隨著業務平均需求時間的增大,LR與BR的逐漸上升,且上升趨勢逐漸趨緩,與此同時,LR相對于BR的性能優勢卻在逐漸擴大。這說明LR能夠針對不同業務的服務時間需求,合理安排鏈路資源,充分利用鏈路的有限生命期。由于FR放棄了對有限生命期鏈路的利用,導致大量業務因缺乏帶寬資源而中斷,其較高的指標直接取決于,而與業務需求時間無關。

圖7 3種方案的業務持續時間損失率
由于采用任播與多播相結合的路由策略,恢復后的業務可能會同時擁有多條連接不同數據中心的通路,而這些通路的帶寬和生命期可能各不相同,因此本文采用業務流量損失率評估3種恢復方案的資源利用率性能,如圖8所示。由圖8可知,LR的性能最優,且隨著業務平均需求時間的增大,LR與BR的指標變化趨勢與圖7中指標變化趨勢一致,即業務平均需求時間越大,LR的性能優勢越顯著。而FR的性能依舊取決于其指標,且與業務需求時間無關。

圖8 3種方案的業務流量損失率
分布廣泛的光數據中心網絡正面臨著大規模災難的嚴重威脅,災難造成的關聯性故障和級聯性故障可能會使大量基于數據中心的云業務中斷或數據丟失,網絡生存性問題將成為影響光數據中心網絡未來發展的一個重要問題。為了有效解決災難帶來的業務中斷和服務時間下降的問題,本文提出一種基于鏈路生命期的業務恢復方案。該方案針對災后網絡中的帶寬資源危機,利用全局業務帶寬臨時退讓和部分鏈路的有限生命期增加網絡中的可用帶寬資源;根據災損業務的帶寬和持續時間需求,調度資源配置優先級;采用任播與多播相結合的路由策略,優化帶寬資源利用率。仿真結果顯示,本文所提方案能夠最大限度地降低業務中斷率,并顯著減少業務的持續時間損失率和流量損失率。
[1] BILAL K, MALIK S U R, KHAN S U, et al. Trends and challenges in cloud datacenters[J]. IEEE Cloud Computing, 2014, 1(1): 10-20.
[2] ZHAO X, VUSIRIKALA V, KOLEY B, et al. The prospect of inter-data-center optical networks[J]. IEEE Communications Magazine, 2013, 51(9): 32-38.
[3] KACHRIS C, KANONAKIS K, TOMKOS I. Optical interconnection networks in data centers: recent trends and future challenges[J]. IEEE Communications Magazine, 2013, 51(9): 39-45.
[4] 羅軍舟, 金嘉暉, 宋愛波, 等. 云計算: 體系架構與關鍵技術[J]. 通信學報, 2011, 32(7): 3-21.
LUO J Z, JIN J H, SONG A B, et al. Cloud computing: architecture and key technologies[J]. Journal on Communications, 2011, 32(7): 3-21.
[5] MUHAMMAD A, SKORIN-KAPOV N, FURDEK M. Manycast, anycast, and replica placement in optical inter-datacenter networks[J]. Journal of Optical Communications & Networking, 2017, 9(12): 1161-1171.
[6] RAN Y. Considerations and suggestions on improvement of communication network disaster countermeasures after the Wenchuan earthquake[J]. IEEE Communications Magazine, 2011, 49(1): 44-47.
[7] KOBAYASHI M. Experience of infrastructure damage caused by the Great East Japan Earthquake and countermeasures against future disasters[J]. IEEE Communications Magazine, 2014, 52(3): 23-29.
[8] KWASINSKI A. Effects of hurricanes Isaac and Sandy on data and communications power infrastructure[C]//Telecommunications Energy Conference ‘Smart Power and Efficiency’ (INTELEC. 2013: 1-6.
[9] HABIB M F, TORNATORE M, DIKBIYIK F, et al. Disaster survivability in optical communication networks[J]. Elsevier, Computer Communications, 2013, 36(6): 630-644.
[10] MUKHERJEE B, HABIB M F, DIKBIYIK F. Network adaptability from disaster disruptions and cascading failures[J]. IEEE Communications Magazine, 2014, 52(5): 230-238.
[11] FERDOUSI S, DIKBIYIK F, HABIB M F, et al. Disaster-aware datacenter placement and dynamic content management in cloud networks[J]. Journal of Optical Communications & Networking, 2015, 7(7): 681-694.
[12] YAO J, LU P, GONG L, et al. On fast and coordinated data backup in geo-distributed optical inter-datacenter networks[J]. Journal of Lightwave Technology, 2015, 33(14): 3005-3015.
[13] FERDOUSI S, TORNATORE M, HABIB M F, et al. Rapid data evacuation for large-scale disasters in optical cloud networks[J]. Journal of Optical Communications and Networking, 2015, 7(12): 163-172.
[14] MA L, SU W, WU B, et al. ε-time early warning data backup in disaster-aware optical inter-connected data center networks[J]. Journal of Optical Communications& Networking, 2017, 9(6):536-545.
[15] HABIB M F, TORNATORE M, LEENHEER M D, et al. Design of disaster-resilient optical datacenter networks[J]. Journal of Lightwave Technology, 2012, 30(16):2563-2573.
[16] SAVAS S S, DIKBIYIK F, HABIB M F, et al. Disaster-aware service provisioning with manycasting in cloud networks[J]. Photonic Network Communications, 2014, 28(2):123-134.
[17] MA C, ZHANG J, ZHAO Y L, et al. Bandwidth-adaptability protection with content connectivity against disaster in elastic optical datacenter networks[J]. Photonic Network Communications, 2015, 30(2):309-320.
[18] TORNATORE M, BARUFFALDI A, ZHU H, et al. Holding-time-aware dynamic traffic grooming[J]. IEEE Journal on Selected Areas in Communications, 2008, 26(3):28-35.
[19] XU Z, HUANG J, ZHOU Z, et al. A novel grooming algorithm with the adaptive weight and load balancing for dynamic holding-time- aware traffic in optical networks[J]. Optical Fiber Technology, 2013, 19(5): 392-399.
Link-lifetime-based service restoration in optical datacenter network
BAO Ninghai, YUAN Yuan, LIU Ziqian, KUANG Ming
School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
Aiming at the correlated and cascading failures caused by large-scale disasters, a post-disaster service restoration scheme was proposed. This scheme utilized global service bandwidth concession and the limited lifetime of local links to mitigate resource crunch in the post-disaster network. According to their bandwidth and holding time requirements, the impacted services for restoration was prioritized firstly, then jointly employed anycast and manycast routing strategies to improve the service connectivity and bandwidth resource utilization. Simulation results show that the proposed scheme can significantly reduce the service loss ratio, effectively prolong the holding time of the impacted services and decrease the data flow loss ratio in the post-disaster network.
optical datacenter network, link lifetime, network survivability, service restoration, service holding time
TN929.11
A
10.11959/j.issn.1000?436x.2018146
鮑寧海(1973?),男,浙江寧波人,博士,重慶郵電大學副教授,主要研究方向為網絡生存性、網絡虛擬、網絡節能等。

袁園(1994?),男,江蘇揚州人,重慶郵電大學碩士生,主要研究方向為光數據中心網絡生存性。
劉自謙(1994?),男,山東菏澤人,重慶郵電大學碩士生,主要研究方向為光數據中心網絡生存性。

匡明(1991?),男,河南新縣人,重慶郵電大學碩士生,主要研究方向為虛擬網絡生存性。
2018?05?07;
2018?07?02
國家自然科學基金資助項目(No.61671092);重慶市基礎科學與前沿技術研究基金資助項目(No.cstc2016jcyjA0083);重慶市高校創新團隊基金資助項目(No.KJTD201312)
The National Natural Science Foundation of China (No.61671092), The Fundamental Science and Frontier Technology Research Project of Chongqing (No.cstc2016jcyjA0083), The College Innovation Team Project of Chongqing (No.KJTD201312)