閆 娜
(陜西財經職業技術學院 咸陽 712000)
?
基于大數據吞吐效益評估的網絡數據綜合調控算法研究*
閆娜
(陜西財經職業技術學院咸陽712000)
摘要鑒于當前云網絡研究過程中普遍存在的吞吐困難、評估機制單一及難以解決網絡擁塞現象等問題,論文在大數據吞吐效益評估基礎上,提出了一種網絡數據綜合調控算法。首先,通過在數據生命周期內評估數據調控成本,依據網絡數據具有的大數據吞吐性能進行資源匹配;然后將用戶級別的資金價值、生命周期等因素嵌入到成本函數中,從而實現了網絡數據的資源調度優化,降低了網絡擁塞現象的發生。仿真結果表明,與DBC算法相比,論文算法能夠提高網絡節點的吞吐性能,增強網絡的數據調控效率,改善節點帶寬的運行性能,具有較好的實際部署價值。
關鍵詞云網絡; 大數據吞吐; 網絡數據綜合調控; 資源調度; 調控成本; 質量因素
Class NumberTP393
1引言
隨著云網絡計算技術的飛速發展,網絡中數據并發量及用戶數據資源量也呈現飛速發展的趨勢,對云網絡系統的數據資源調度及處理性能也提出了很高的要求。然而當前研究過程中,大部分云網絡系統依然采取傳統的資源調度及管理模式,往往通過確定的成本函數來對當前的任務進行調度,處理過程中一般以系統為中心,很少通過用戶數據的性能綜合評估成本,以便實現網絡數據資源的合理調度,導致網絡計算性能難以隨著用戶數據的增長而得到改善,成為云計算技術中一個重要的瓶頸[1]。
為解決云網絡中資源調度問題,實現更好的數據處理性能,人們做出了很多的研究工作[2]。olliffeD等[3]提出了一種基于經濟管理模型的網絡數據調控算法,通過綜合評估用戶數據資源及形同節點的性能,采用最低成本評估機制實現對資源的有效利用。然而,該種算法由于僅僅基于系統端對數據進行評估,當用戶數據資源的請求處于不同層次時,將難以實現數據的精確調度。Yang K等[4]提出了一種基于密集歸類的數據調控機制,通過將用戶數據歸類為不同密集程度的任務的方式賦予不同的用戶數據處理資源,從而實現對用戶數據的轉發與處理。但是,該種算法對用戶帶寬占有情況未能加以考慮,當多個用戶同時在處理節點上進行數據處理時往往會造成嚴重的數據擁塞現象。Bal M等[5]在用戶側數據供給基礎之上,采用供給側彈性判斷機制對網絡數據量進行實時評估,實現了高并發數情況下的網絡數據擁塞控制。然而。該種機制由于需要在整體層面上對用戶側數據供給進行判斷,當網絡環境復雜時數據處理效率呈現不斷下降的趨勢。
鑒于當前研究中存在的上述問題,本文提出了一種基于大數據吞吐效益評估的網絡數據綜合調控算法,通過綜合評估數據調控成本及大數據吞吐性能基礎上,實現了對整體效益的建模。隨后通過引入用戶級別的質量因素,增強了數據處理性能,從而提高了網絡數據處理質量,實現了調控有效性,降低了網絡擁塞程度。隨后通過仿真實驗證明了本文算法的有效性。
2網絡數據調度機制假設
目前大多數云計算環境下的調度和資源管理問題一般仍使用傳統形式,即由調度構件如Glbous根據確定的花費函數來決定任務執行,但這些花費函數一般都是以系統為中心的,不能由用戶的QoS參數,如存取價格、服務傳送時間片等驅動[6]。在經濟管理模型下,不同的系統當然不會花費同樣的價格來存取相同的資源[7]。同時,終端用戶也并不一定想要支付最高的價格來獲得最有效的資源利用,而是有可能基于需求、價值、優先權和可供使用的預算協商一個特定的價格[8]。因此,從本質上而言,云網絡中的數據調控機制可以簡化為系統節點針對不同用戶數據實現在資源受限情況下的最佳調度[9]。
在大數據的背景之下,各個用戶數據需要能夠在某個處理節點資源受限的情況下滿足最低的服務要求,因此用戶數據流與處理節點之間的實時交互因素將是最重要的處理因素[10]。云網絡下的實時交互因素主要體現在節點反饋速度、資源可用性能、網絡數據吞吐性能上[11]。本文選擇資金價值(Money)、生命周期(Time)、處理可靠性(Reliability)三個實時交互維度性能約束條件下實現節點資源受限情況下對用戶數據資源的調控工作。節點響應和用戶數據需求被虛擬化為成本函數:benefit_c、benefit_dt和benefit_r。分別代表用戶數據對節點響應時的成本代價。然后根據實時交互維度性能綜合計算整體的數據處理代價。該問題的本質為N個數據請求需要節點通過調度M個網絡資源來實現數據的最佳調度。此外,本文假設如下:
1)N個數據請求彼此之間處于互相獨立狀態,不存在進程依賴的現象;
2)M個網絡資源只能通過特定的處理節點進行資源調度處理,即任意一個網絡資源不能被第二個處理節點進行并發資源處理;
3) 任意一個節點,在當前數據請求未被釋放時,將不得接收其他的數據請求。
3本文網絡數據綜合調控算法設計
由于第1節可知,整個調度過程需要遵循經濟效益最大化原則,節點在處理數據時必須將N個數據請求與節點能夠控制的M個網絡資源進行最佳匹配,使得節點能夠滿足數據請求的同時,盡量減少資源的分配壓力。對于任意一個用戶數據請求而言,也希望能夠以最短的生命周期實現自身請求的盡量滿足。從而實現處理節點及用戶數據的經濟效益最大化。整個算法分為資源調度匹配、資源調度優化兩個階段。
3.1資源調度匹配
若當前云網絡中存在N個數據請求,每個請求的長度為Li,用指令數來度量,單位為Mi百萬指令,其資金價值Money及生命周期Time可以由用戶指定,全部請求按照指令長度進行排序:

表1 提交的數據請求列表
對于任意時刻而言,系統處理節點需要將性能最好的資源分配給擁有最大資金價值的數據請求,當該資源能夠滿足資金價值(Money)、生命周期(Time)、處理可靠性(Reliability)三個維度的要求時,則處理之[12]。否則將考慮下一個可用的資源,并標注為已用資源。反復進行該過程直到數據處理過程結束。
整個資源調度匹配流程如下所示:
Step 1:系統處理節點隨時接收用戶數據請求;
Step 2:在數據請求的生命周期之內進行以下步驟:
1) 首先根據當前可用資源表進行數據請求的讀取;
2) 根據數據請求的資金價值及生命周期,按照最佳資源匹配原則進行匹配;
3) 確認生命周期內可調度資源總量,再次進行匹配;
4) 計算運行結果并反饋
Step 3:資源調度匹配結束。
3.2資源調度優化
本文算法實質是通過綜合評估數據流的資金價值(Money)、生命周期(Time)、處理可靠性(Reliability)三個信息交互維度,實現對數據流的綜合調控。其中Money可以代表數據流的運營成本及數據吞吐成本,Time在網絡實踐中代表數據流的生命周期及最大處理周期,Reliability代表數據帶寬及吞吐性能。

從信息交互維度可知,資金價值(Money)、生命周期(Time)、處理可靠性(Reliability)彼此處于互相獨立狀態,第一信息交互維度評估函數benefit_c與處理過程中花費的資金數量密切相關:
(1)

而第二信息交互維度評估函數benefit_dt與數據請求的生命周期密切相關:
(2)

第三信息交互維度評估函數benefit_r代表調度的可靠性:
(3)
其中,g代表網絡總體數據請求數量,f為數據請求的最大生命周期內的最小數據請求總數。
因此,任務的效用函數是這三部分的加權函數:

(4)
整個系統的效用函數:
Benefitsystem=∑Benefit_T
(5)
將系統效益函數最大化可得系統效益Bsystem并滿足:
(6)
上述過程是一個典型的線性規劃過程,通過柯西數學收斂準則可以迅速求出模型(6)的最佳解滿足如下的表達式:

(7)
再利用拉氏求解發構造以下的輔助函數:
(8)

(9)

由于模型(7)和模型(9)對應的拉氏函數具有同一性,因此,當模型(7)取最優解時,模型(9)也同時獲得最優解。
4仿真實驗
由于云網絡中的數據請求是處于并發狀態,且網絡節點總數對系統處理性能有非常大的影響,且數據請求的資金價值、生命周期、可靠性能與節點同時呈現正向比例關系。因此本文仿真算法主要從數據吞吐率、擁塞率、數據處理時間、分組投遞率三個指標上,同當前廣泛用到DBC算法[12]進行對比,以便驗證本文算法的優勢。本文仿真采取NS2仿真平臺,詳細仿真參數表如表2所示。

表2 仿真參數表
4.1數據吞吐性能
圖1顯示了在不同請求并發數量情況下,本文算法與DBC算法的數據吞吐帶寬測試。從圖中可以看到,本文算法數據吞吐率始終高于DBC算法。這是由于隨著數據請求并發數量的不斷增加,網絡中數據流量也呈現急劇增加的狀態,導致網絡中數據擁塞出現的概率顯著提高,而本文算法采用基于三維評估的方式,綜合考慮了數據請求的資金價值、生命周期及可靠性的基礎上,實現了數據的最佳處理,提高了數據吞吐性能。而對DBC算法由于僅僅考慮數據傳輸的可靠性因素,對數據請求的其他因素考慮較少,導致網絡擁塞現象發生時難以實現對數據的實時處理,降低了數據吞吐性能。

圖1 不同算法的數據吞吐性能測試
4.2擁塞率
圖2顯示了在不同網絡處理節點數量的情況下,本文算法與DBC算法的擁塞率測試。從圖中可以看到,本文算法的擁塞率始終低于DBC算法,具有較好的穩定性。這是因為隨著網絡處理節點數量的不斷增加,網絡整體可調度的資源也隨之增加,降低了網絡擁塞節點在網絡處理節點中所占據的比例。本文算法在數據生命周期內評估數據調控成本,能夠在網絡擁塞發生的情況下通過調度其他節點的處理能力的方式,滿足當前請求的響應質量,因而降低了擁塞率。

圖2 各算法的網絡擁塞率測試
4.3數據處理時間
圖3顯示了在不同的數據生命周期之內,本文算法與DBC算法的數據處理時間測試,從圖中可以看到本文算法的數據處理時間始終低于DBC算法。這是因為DBC算法僅僅從帶寬因素上對數據請求進行相應,一旦某個節點因請求未釋放而后續數據請求紛至沓來之時,會發生因處理帶寬不足而導致的擁塞現象。而本文算法可以將處理帶寬等映射為資金價值(Money)、生命周期(Time)、處理可靠性(Reliability)三個維度,并在三個維度上同時通過計算最佳成本函數的方式實現最優傳輸,因此,本文算法的數據處理時間比DBC算法要低。

圖3 兩種算法的數據處理時間測試
4.4分組投遞率
圖4顯示了在不同數據傳輸率的情況下,本文算法與DBC算法的分組投遞率測試結果,從圖中可以看到本文算法的分組投遞率始終低于DBC算法,這是因為DBC算法僅僅采用單純投遞機制,當處理節點處于擁塞狀態時將難以實現數據請求的實時相應。而本文算法同時可將單一節點的數據處理性能映射到其他節點上,且通過綜合評估資金價值(Money)、生命周期(Time)、處理可靠性(Reliability)三個維度來實現數據的實時相應,從而降低了數據請求的時延,大大提高了分組投遞性能。

圖4 各算法的分組投遞率測試結果
5結語
本文提出了一種基于大數據吞吐效益評估的網絡數據綜合調控算法,主要通過綜合評估數據請求的調控成本,在資金價值(Money)、生命周期(Time)、處理可靠性(Reliability)三個維度上實現節點資源受限情況下的數據請求的實時并發相應,從而實現了用戶數據請求的實時調控,提高了網絡的運行質量及性能。仿真實驗表明:與DBC算法相比,本文算法能夠改善網絡擁塞狀況,降低數據處理時間,提高網絡數據吞吐性能具有明顯的優勢,在實踐中具有很強的部署價值。
下一步,本文將通過引入無線傳感網機制,通過云網絡-自感網自適應映射機制,將云網絡數據處理節點的處理能力映射到自感網中進行數據處理映射,從而進一步降低實踐部署的成本及代價,有力提高網絡的信息處理能力,實現效益的最大化。
參 考 文 獻
[1] 胡自林,徐云,毛濤.基于效益最優的云網絡資源調度[J].計算機工程與應用,2014,26(7):69-70.
HU Zilin, XU Yun, MAO Tao. Cloud cyber source based on optimal dispatching[J]. Computer Engineering and Applications,2014,26(7):69-70.
[2] LEE W. A data mining framework for constructing features and models for intrusions detection systems[D]. New York: Computer Science Department of Columbia University,2012(7):33-76.
[3] Jolliffe D, Tran T, Nguyen T. Data mining network coding[J]. IEEE Trans. on Vehicular Technology,2009,58(2):914-925.
[4] Yang K, Shahabi C. An efficient k nearest neighbor search for multivariate time series[J]. Information and Computation,2013,6(1):65-98.
[5] Bal M. Rough Sets Theory as Symbolic Data Mining Method: An Application on Table[J]. Information Sciences Letters,2013,2(1):111-116.
[6] 孫大為,常桂然,李鳳云.一種基于免疫克隆的偏好多維QoS云資源調度優化算法[J].電子學報,2011,23(8):1824-1831.
SUN Dawei, CHANG Guiran, Li Fengyun. An optimization algorithm for multidimensional preference QoS cloud resource scheduling based on immune clone[J]. Chinese Journal of Electronics,2011,23(8):1824-1831.
[7] 張愛科,符保龍.基于最大收益平衡點動態變化的云資源調度算法[J].重慶郵電大學學報(自然科學版),2014,5(7):706-711.
ZHANG Aike, FU Baolong. The cloud resource scheduling algorithm of maximum profit equilibrium based on dynamic change[J]. Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2014,5(7):706-711.
[8] Lcala-Fdez J. KEEL Data-Mining Software Tool: Data Set Repository, Integration of Algorithms and Experimental Analysis Framework[J]. Journal of Multiple Valued Logic $Soft Computing,2011,12(17):204-209.
[9] 張恒巍,衛波,王晉東.基于分布估計蛙跳算法的云資源調度方法[J].計算機應用研究,2014,11(2):3225-3233.
ZHANG Hengwei, WEI Bo, WANG Jindong. The estimation of distribution of cloud resource scheduling method based on shuffled frog leaping algorithm[J]. Journal of Computer Application,2014,11(2):3225-3233.
[10] Thelwall, Wilkinson D. Data mining emotion in social network communication: Gender differences in MySpace[J]. Journal of the American Society for Information Society for Information Science and Technology,2010,61(1):190-199.
[11] 黎明,吳躍,陳佳.基于語義搜索引擎的云資源調度[J].計算機應用研究,2015,12(2):3735-3749.
LI Ming, WU Yue, CHENG Jia. Semantic search engine based on cloud resource scheduling [J]. Computer Application Research,2015,12(2):3735-3749.
[12] Gounder V, Prakash R, Abu-Amara H. Micheline data miming: date and techniques[J]. Wireless Communications and Systems,2014,1(1)1:1-6.
收稿日期:2016年1月22日,修回日期:2016年2月27日
作者簡介:閆娜,女,碩士,講師,研究方向:計算機應用、網絡優化。
中圖分類號TP393
DOI:10.3969/j.issn.1672-9722.2016.07.025
Network Data Synthesis Control Algorithm Based on Large Data Throughput Benefit Evaluation
YAN Na
(Shaanxi Vocational College of Finance and Economics, Xianyang712000)
AbstractIn view of the existing problems in the process of cloud network research, it is difficult to solve the problem, the evaluation mechanism is simple and it is difficult to solve the problem of network congestion. First, the cost of data control in the data life cycle is evaluated based on the data of the network data has a large data throughput performance of interval division. Then the user level quality factor is added to the cost function, so as to realize the effective control of the network data, and reduce the occurrence of network congestion. Simulation results show that this algorithm can improve the throughput performance of the network nodes, and enhance the performance of the network, and improve the performance of the node bandwidth, which has good practical value.
Key Wordscloud network, large data throughput, network data integrated control, resource scheduling, regulation cost, quality factor