基于自適應編碼的數據中心加速傳輸?
謝群李靜力
(云南電網有限責任公司昆明供電局昆明650200)
面對網絡帶寬難以滿足日益增長的云數據跨區域傳輸的問題,論文以多數據中心統一資源管理和調度的運營系統為數據中心,為了降低噪聲對網絡數據傳輸的影響并提升數據中心加速傳輸的目地,設計了私密信息校驗包編碼、譯碼和解碼完成自適應編碼方案。在分布式數據中心的發散式數據傳輸過程中,建立數據傳輸衰敗模型完成數據中心服務器從信息包到校驗包自動解碼的流程。通過對數據中心網絡傳輸自適應編碼矩陣信息包解碼來驗證數據加速傳輸的可靠性與實用性。
數據中心;自適應編碼;傳輸速度;服務器
Class NumberTP872
伴隨著計算機云服務的不斷發展,云端數據的規模從TB級增長到了PB級[1]。數據中心的集中與分發不僅滿足全球各地數據中心之間的傳輸,更為分布式云數據平臺分擔存儲壓力[2]。面對數據中心的數據量大和分布范圍廣的特點[3],大規模的云數據跨區域傳輸占用了大量的網絡帶寬資源,增加了網絡傳輸成本[4]。在云數據環境下,通過改變網絡帶寬[5]、網絡拓撲結構[6]和調整數據傳輸方式[7]等技術可加速數據中心的傳播速度。本文在分布式云數據系統中構建了多數據中心傳輸模型,通過建立網絡傳輸路徑損耗和傳輸帶寬的衰落函數來對數據編碼的發散式傳輸進行建模。在面對竊取數據信息的攻擊和白噪聲干擾網絡傳輸時,利用數據中心服務器引入編碼的方式,設計了私密信息校驗包編碼、譯碼和解碼的自適應編碼方案,提高了數據中心加速傳輸的實用性。
2.1數據中心
在分布式云數據中心資源調度系統中,假設多數據中心統一資源管理和調度的運營系統為本研究的數據中心。利用數據管理者i(1≤i≤M)與數據中心服務器的帶寬為di,與數據中心的傳輸數據量θi來共同確定M個終端隨機分布在數據中心連接口的不同位置。數據中心向多個位于不同位置的終端校驗包信息[8]。一般情況下在數據中心周圍存在非法的網絡數據竊取者,在數據中心發送終端校驗信息的同時嘗試竊取數據中心的校驗包信息[9],其詳細的數據中心發散式網絡模型,如圖1所示。

圖1 多數據中心傳輸模型圖
2.2數據傳輸
為了體現帶寬用戶的區域分布以及不同路徑噪聲擾動所帶來的影響[10],假設任意兩個傳輸點之間的有線傳輸鏈路中包含不同尺度衰落以及高斯白噪聲。本文主要將數據傳輸的路徑損耗所導致的大尺度衰落納入考慮之中,一般來說,路徑損耗的主要影響因素包括傳輸環境以及傳輸點之間的距離,故可以將傳輸點i和j之間的路徑損耗建模如下其中,di,j表示傳輸點i與j之間的距離;η表示數據傳輸過程中的路徑損耗系數。假定尺度較小的衰落與尺度較大的衰落相互獨立互不干擾,且主要是由一個傳輸信號的帶寬在不同延時路徑傳輸后并在接收端疊加的衰落[11],傳輸帶寬的衰落可建模為


其中,hi,j表示服務器和第i個傳輸點之間的網絡信道衰敗系數,CN(0,1)表示第i個傳輸點的均值為0,方差為N0的高斯白噪聲。加性高斯白噪聲下的衰敗信道丟包率Pn(γ)與接收數據信號的關系可以近似表示為

2.3數據建模
通過在數據中心服務器引入編碼,基于數據編碼的發散式數據傳輸模型,如圖2所示。

圖2 數據編碼的發散式傳輸
由數據中心服務器完成從信息包到校驗包自動解碼的流程,同時將其傳輸給共享同一帶寬的帶寬用戶,此時位于有線傳輸環境中的可竊取到截獲的校驗包的字符信號[12]。在進行有線數據傳輸之前,數據中心首先將等待傳輸的私密信息壓縮包劃分為k個彼此相互聯系的信息包,然后數據中心通過使用啟發式自適應編碼方法對k個信息包進行編碼重組,并通過源發射傳輸節點想合法接收信號點進行傳送。無論是合法的接收信號點用戶還是竊取端都需要獲得足夠的校驗包完成整個原始數據的解碼過程,當合法接收信號點完成了整個原始數據的解碼過程時,則需向數據中心服務器發送信息反饋,源發射傳輸節點根據反饋信息將終止編碼的發送此時若竊取用戶未完成整個原始數據的解碼過程,則竊取用戶將無法獲得私密數據文件信息,數據安全得以保障。
3.1編碼設計
自適應編碼方案的設計是本文的核心方案,采取自適應啟發式算法來阻斷竊取數據信息的攻擊,其具體的編碼原理主要從以下三個層次展開:
1)按照啟發式算法的編碼原則將所有私密信息的k個信息包分別傳輸一遍,將“個別未進行傳輸的信息包”與“所有帶寬用戶均成功解碼的信息包集合”(記為D*=D1∩D2∩···∩DN)作為當前時刻校驗包字符信號進行輸出。
2)完成數據的編碼準則之后,由于有線傳輸信道存在差異性以及衰落信道存在干擾,帶寬用戶普遍出現丟包現象,判別標準為所有帶寬用戶均成功譯碼的信息包集合D*小于閾值K 4[13],此時首先篩選出被最少的帶寬用戶成功譯碼的信息包,并將其作為當前時刻校驗包字符信號進行輸出。
一方面,農村土地的分散經營,制約了農業機械化、產業化進程,降低了土地的有效利用率,影響了農村勞動生產率的提高;另一方面,靜態的承包地無法根據市場需求進行流轉,難以集中到種糧大戶手中,從而影響了農業集約化經營,造成農業產業規模小,效益得不到提高。
3)經過篩選,解碼進程加快,帶寬用戶普遍出現丟包現象得到緩解,這是應當篩選出被最多的帶寬用戶成功譯碼信息包,并將其作為當前時刻校驗包字符信號進行輸出。
以某一時刻私密數據校驗包的傳輸為例,數據中心編碼操作流程圖如圖3所示。

圖3 數據傳輸流程圖
3.2算法實現
本文將私密信息校驗包編碼來對自適應編碼方案的算法實現進行描述。首先由記錄下所有帶寬用戶對于接收的信息報的具體的解碼情況,同時將其定義為編碼矩陣M。矩陣M為I行J列矩陣,K代表劃分的源信息包的個數,N代表帶寬用戶的個數,此外矩陣M中的元素為mij且mij∈(0,1),mij=0的含義是第i個信息包成功由第j個用戶解碼,mij=1則表明第i個信息包未被第j個用戶解碼。默認初始時矩陣M為I×J的全1矩陣。通過對編碼矩陣M進行解碼是否成功的判斷,得到與自適應編碼方案的算法編碼原理對應的算法實現,其具體實現步驟如下:
Step1:由服務器端口記錄下矩陣M中的全為0的行和全為1的行的行標,同時分別存于j0和j1中;
Step2:對j1進行進一步判斷看是否為空:若j1非空,則將j0的全部元素與j1中某一個元素編號相對應的私密文件信息包作為當前時刻校驗包字符信號進行輸出;若j1為空,則算法繼續;
Step3:對j0中的元素個數進行判斷:若j0中元素的個數小于閾值k 4,則篩選出與矩陣M中行的數量之和最大相對應的行標存于jmax,并將該行標對應編號的私密文件信息包與j0中全部元素編號相對應的私密文件信息包作為當前時刻校驗包字符信號進行輸出;若j0中元素個數小于閾值k 4,則算法繼續;
Step4:矩陣M去掉全為0的行之后得到矩陣記為M0,并篩選出M0中行的數量之和最小對應的行標存于jmin中,從jmin中篩選出由若干行組成的矩陣并且其列和均小于2,再將選出行標的全部元素編號相對應的私密文件信息包作為當前時刻校驗包字符信號進行輸出。
4.1參數設置
自適應編碼的數據中心加速傳輸方案的模擬仿真環境是由信息包源發送端以及N個合法的帶寬用戶均勻分布。模擬實驗仿真中,有線傳輸信號通道的路徑損耗系數為α=2.75。同時由于竊取用戶的位置存在不穩定性,假設竊取用戶位于半徑為1的圓上。仿真中發送端源信息包的個數設為K=130。根據式(3)中接收信號的信道丟包率的映射關系,自適應編碼的校驗包在經過衰落信道之前需要經過調制解調器,且碼率近似為0.56,映射關系中的擬合參數取值如表1所示。

表1 實驗參數
為了驗證本研究提出的關于數據中心自適應編碼下的加速傳輸,利用LT編碼和最優度編碼對自適應編碼網絡數據傳輸進行對比。其中,LT編碼針對大規模數據分發使用數字噴泉碼進行設計[14];而最優度編碼利用信息包編碼分組度的隨機概率進行選擇,具體的公式如下[15]:

其中,K和θ分別代表網絡數據源信息包總數和待解碼數據個數。
4.2實驗結果
通過Matlab數值仿真模擬,系統帶寬信道設為30dB,帶寬用戶個數設定為100個,仿真中統計105次實現,考查網絡數據中心信息包在不同的編碼方案下,截獲率和傳輸效率隨帶寬用戶個數和信道變化。如圖4和圖5所示。
由圖4可得,從編碼方案的模擬仿真結果中不難看出,伴隨著帶寬用戶的不斷增多,通過使用本文所提出的自適應編碼方案能夠有效地降低竊取用戶端截獲私密文件信息包的概率。當帶寬用戶的數量小于等于10時,本文所提出的編碼方案下竊取用戶端截獲私密文件信息包的概率幾乎為0,當帶寬用戶的數量大于10時,隨著帶寬用戶數的增多,竊取用戶端截獲私密文件信息包的概率在上升,同時另外兩條曲線也存在遞增的情況。這主要是由于帶寬用戶數量的增多使得仿真系統所面臨的信息包丟失的情況更加多變和復雜,為了對較多帶寬用戶信息包丟失的情況進行維護,信息包源發送端需要發送更多的校驗包,而此時竊取用戶端更加有機會截獲更多的校驗包從而完成對原始數據的解碼和破譯。

圖4 不同編碼方案下的截獲率

圖5不同編碼方案下的傳輸效率
圖5 (a)描繪了數據源發端私密文件信息的傳輸效率在不同編碼方案下隨系統帶寬信道的變化而變化的曲線。仿真中帶寬用戶的個數N=100。從編碼方案的模擬仿真結果中不難看出,伴隨著系統帶寬信道的不斷增多,無論是LT編碼和最優分布編碼兩種基準方案還是本文提出的自適應編碼方案,數據源發端的私密文件信息的傳輸效率曲線都在攀升。出現這樣現象的原因可能在于帶寬用戶端的接收帶寬信道隨著系統帶寬信道的增加而增加。再參考接收端帶寬信道與帶寬用戶信道的丟包率之間的存在的關聯情況,帶寬用戶信道丟包率隨著接收端帶寬信道的增加而減小,因此會出現帶寬用戶丟包率降低的情況。此時接收端依照自適應編碼方案的原則所傳輸的的校驗包信息也因此減少,本文提出的自適應編碼方案傳輸效率較高。
圖5(b)描繪了數據源發端私密文件信息的傳輸效率在不同編碼方案下隨系統帶寬用戶個數的變化而變化的曲線。隨著系統帶寬用戶個數的不斷增多,本文提出的自適應編碼方案在私密文件信息包的傳輸性能方面遠高于LT編碼和最優分布編碼兩種基準方案。當帶寬用戶數量小于等于20時,隨著帶寬用戶數量的增多,三種方案的數據源發端的私密信息傳輸效率曲線下降較為明顯。當帶寬用戶數量大于20時,隨著帶寬用戶數量的增多,三條曲線的下降速度趨于平緩。出現這種情況的原因在于帶寬用戶數量的增多使得仿真系統所面臨的信息包丟失的情況更加多變和復雜,為了對較多帶寬用戶信息包丟失的情況進行維護,信息包源發送端需要發送更多的校驗包,此時的數據源發端的傳輸效率也將越大。
綜上所述,本文提出的自適應編碼數據傳輸加速方案在竊取端截獲私密文件信息包的概率性能方面遠低于LT編碼和最優度編碼兩種基準方案,同時,該編碼設計隨著帶寬信道和用戶個數的增加,傳輸效率明顯優于LT編碼和最優度編碼。因而可以應用于數據中心加速分發傳輸,且具有較高的安全性。
運用網絡傳輸路徑損耗和傳輸帶寬的衰落函數來模擬數據中心發散式傳輸,將傳輸路徑的白噪聲干擾和竊取數據信息的攻擊考慮到數據傳輸過程中,利用數據編碼的方式對數據中心傳輸信息包進行編碼,設計了私密信息校驗包編碼、譯碼和解碼完成自適應編碼方案。通過將本研究提出的自適應編碼網絡數據加速方案與LT編碼和最優度編碼方案進行對比分析,結果顯示:在數據傳輸通訊噪聲環境下,自適應編碼方案通過將信息包源進行編碼,確保了數據加速傳輸的安全性;在不同的帶寬信道與帶寬用戶個數條件下,自適應編碼可以更好地提升網絡數據分發的傳輸效率,為數據中心安全可靠的加速傳輸提供了理論依據。
[1]張婧,陳克非,呂林,等.云存儲中的用戶數據安全[J].計算機科學與探索,2012,7(12):1093-1103.
ZHANG Qiang,CHEN Kefei,LV Lin,et al.User Data Se?curity Cloud Storage[J].Computer Science and Explora?tion,2012,7(12):1093-1103.
[2]張鵬,王桂玲,徐學輝.云計算環境下適于工作流的數據布局方法[J].計算機研究與發展,2013,50(3):636-647.
ZHANG Peng,WANG Guilin,XU Xuehui.The Method is Suitable for Data Layout Workflow Cloud Computing Envi?ronment[J].Computer Research and Development,2013,50(3):636-647.
[3]羅亮,吳文峻,張飛.面向云計算數據中心的能耗建模方法[J].軟件學報,2014(7):1371-1387.
LUO Liang,WU Wenjun,ZHANG Fei.Cloud Computing for Data Center Energy Modeling[J].Journal of Software. 2014(7):1371-1387.
[4]劉詩海,孫宇清,劉古月.面向業務特征的自適應虛擬機遷移帶寬分配算法[J].計算機學報,2013,36(09):1816-1825.
LIU Shihai,SUN Yuqing,LIU Guyue.Adaptive Band?width Allocation Algorithm for Virtual Machine Migration of Business-Oriented Features[J].The Computer Journal. 2013,36(9):1816-1825.
[5]孟飛,蘭巨龍,胡宇翔.基于Richards模型的數據中心骨干網絡帶寬分配策略[J].計算機科學,2016,43(1):133-136.
MENG Fei,LAN Julong,HU Yuxiang.Richards Model Based on the Data Center Backbone Network Bandwidth Allocation Strategy[J].Computer Science,2016,43(1):133-136.
[6]牛新征,梁帆,周明天.基于無線傳感器的物聯網網絡拓撲發現算法研究[J].計算機科學,2012,39(4):118-122.
NIU Xinzheng,LIANG Fan,ZHOU Mingtian.Things Dis?covery Algorithm Based on Network Topology Wireless Sensor[J].Computer Science,2012,39(4):118-122.
[7]徐倩,楊志,劉大永,等.基于分布式傳感器的GIS局部放電在線監測實時數據傳輸方式的研究[J].電測與儀表,2016,53(1):79-83.
XU Qian,YANG Zhi,LIU Dayong,et al.GIS Partial Dis?charge On-Line Monitoring of Real-Time Data Transmis?sion Based on a Distributed Sensor[J].Electrical Measure?ment&Instrumentation,2016,53(1):79-83.
[8]邱亮.關于分布式云數據中心架構及管理關鍵技術研究[J].電子技術與軟件工程,2016(9):197-197.
QIU Liang.About Distributed Cloud Data Center Manage?ment Architecture and Key Technologies[J].Electronic Technology and Software Engineering,2016(9):197-197.
[9]黃峰.分布式云數據中心架構及管理關鍵技術[J].自動化儀表,2014(8):1-4.
HUANG Feng.Distributed Cloud Data Center Manage?ment Architecture and Key Technologies[J].Automation Instrumentation,2014(8):1-4.
[10]管冰蕾,湯顯峰,徐小良.噪聲相關的帶寬約束傳感器網絡融合算法[J].河南大學學報(自然科學版). 2013,43(2):200-203.
GUAN Binglei,TANG Xianfeng,XU Xiaoliang.Noise Bandwidth Constraints Associated Sensor Fusion Algo?rithm Network[J].Journal of Natural Science of Henan University,2013,43(2):200-203.
[11]董彬虹,唐鵬,杜洋,等.壓縮頻譜的差分跳頻信號在萊斯衰落信道下的性能分析[J].電子與信息學報. 2015(4):836-840.
DONG Binhong,TANG Peng,DU Yang,et al.DFH Com?pression Spectrum Signal Fading Channel Under Analy?sis in Les[J].Electronics&Information Technology,2015(4):836-840.
[12]任海科,胡銀豐.基于柯西RS編碼的網絡丟包恢復算法研究[J].計算機工程,2013(12):260-263.
REN Haike,HU Yinfeng.Cauchy RS Coding Based on Network Packet Loss Recovery Algorithm[J].Computer Engineering,2013(12):260-263.
[13]唐懿芳,鐘達夫.基于數據冗余的BDS長報文傳輸機制改進算法[J].指揮控制與仿真,2016(1):28-36.
TANG Ruifang,ZHONG Dafu.Improved Algorithm Based on Data Redundancy BDS Long Message Trans?mission Mechanism[J].Command Control&Simulation. 2016(1):28-36.
[14]焦健,楊志華,顧術實,等.基于隨機置換展開與停止集的LT碼聯合編譯碼算法[J].通信學報,2013(2):31-39.
JIAO Jian,YANG Zhihua,GU Shushi,et al.LT Codes Encoding and Decoding Algorithm Based on Random Permutation and Expansion Joint Stopping Sets[J].Jour?nal of Communications,2013(2):31-39.
[15]鄧世洋,王安紅.殘差分布式視頻壓縮感知[J].計算機應用研究,2012,29(4):1553-1556.
DENG Shiyang,WANG Anhong.Distributed Video Re?sidual Compressive Sensing[J].Computer Application Research,2012,29(4):1553-1556.
Data Center Accelerated Transmission Based on Adaptive Coding
XIE QunLI Jingli
(Yunnan Power Grid Co.,Ltd.Kunming Power Supply Bureau,Kunming650200)
Faced with the problem that network bandwidth is difficult to meet the growing cloud data inter-regional transmis?sion,this study is to unify multiple data center resource management and scheduling of operating system for the data center.In order to reduce the effect of noise on the network data transmission and improve data center acceleration the purpose,the design of the pri?vate information encoded parity packet decoding and decoded adaptive coding scheme is designed.In the divergent data transmis?sion process distributed data centers,the establishment of the data transfer is completed decay model data center servers from pack?et to packet checksum automatically decode process.Through the data center network transmission adaptive coding matrix informa?tion,the data packet decoding accelerated reliability and practicality transmission are validated.
data center,adaptive coding,transmission speed,server
TP872
10.3969/j.issn.1672-9722.2017.05.032
2016年11月20日,
2016年12月31日
國家自然科學基金資助項目(編號:51277085)資助。
謝群,男,工程師,研究方向:云計算與信息技術。李靜力,女,碩士研究生,高級工程師,研究方向:大數據與信息安全。