黃婕






摘 要:因大規模任務處理模型在處理實際任務請求通常是基于歷史數據的,若總依據經驗和以往知識判斷,會出現許多無法識別并處理的任務,以及出現模型過擬合等問題。提出了一種基于深度神經網絡的計算模型進行大規模任務部署,并引用Agent強化學習效用進行評價,實現最佳虛擬網絡映射方案。實驗結果表明,這種BDTard方法法能滿足大規模任務請求,穩定系統長期收益,保障了大數據環境下大規模任務處理的高效執行。
關鍵詞:深度神經網絡;強化學習;虛擬網絡映射
中圖分類號:TP319 ? ? ?文獻標識碼:A
Abstract:Since the large-scale task processing model is usually based on historical data in the processing of actual task requests, if the model is always judged based on experience and previous knowledge, there will be many tasks that cannot be recognized and processed, as well as problems such as model overfitting. A computing model based on deep neural network is proposed for large-scale task deployment, and the Agent reinforcement learning utility is evaluated to realize the optimal virtual network mapping scheme. The experimental results show that the BDTard method can meet the requirements of large-scale task, stabilize the long-term benefits of the system, and ensure the efficient execution of large-scale task processing in the big data environment.
Key words:deep neural network; reinforcement learning agent; virtual network mapping
大數據環境下的大規模任務處理是時下數據分析熱門問題之一[1],而依靠歷史數據進行任務識別的方法,在進行分析、處理的大規模任務部署時,會引起負載不均衡、造成資源浪費等問題。為了改進負載不均衡、資源浪費的問題,將大規模任務部署到各節點高效執行,且有一定的性能收益。且利用大數據環境下深度神經網絡[2]與Agent[3]結合,能使得在大規模任務在識別、技術及處理過程中有明顯改觀,效率提升明顯。
但由于數據的訓練模型是基于歷史數據的,依據經驗對處理任務識別,容易出現過擬合現象,計算模型出現偏差。為了提高效率,探索最優解,利用大數據環境下的深度神經網絡與Agent結合的方式,實現虛擬節點的最優映射方案,這種改進的大規模任務處理方法能有效防止模型過擬合[4],提高效率。
1 問題的提出
針對系統的長期收益,利用傳統方法結合最新的人工智能方案[5],而一種基于Dropout自適應的深度學習和強化學習相結合的方法有較好的效果。可實際這種方法容易增加用戶行為多樣性的學習難度,使得學習模型復雜化,導致網絡模型過擬合[6]。因深度模型中存儲的是部分標簽數據,當用戶有虛擬請求時,利用經驗知識難以識別、處理,使得大數據的海量任務請求無法有效識別、及時處理。因此,提出一種有效且合理的大數據環境下部署任務的方法[7]迫在眉睫,此方法主要能最小化計算模型的過擬合,優化泛化能力 [8]。
2 利用Dropout神經網絡建模Agent強化學習的BDTard方法
2.1 系統架構設計
在大規模任務處理方法BDTard中,在大數據技術的支撐下,利用深度神經網絡建模來均衡節點的映射。如圖1所示,該計算模型共有五層,包括Input Layer輸入層、Evolution Layer進化層(包含Convolutional Layer卷積層和Subsampling Layer池化層)、Fully Connected Layer全連接層、Softmax Layout函數層、Output Layer輸出層。
如1圖中,輸入層Input Layer用于將Feature Matrix特征矩陣輸入到深度計算模型中。再將特征矩陣輸送到卷積層中計算,生成具有抽象特征的特征圖。在Subsampling Layer池化層中建模,目的是減少全連接層Fully Connected Layer中的節點個數。通過函數層而輸出最終結果。而為了提升計算模型的泛化能力,減少過擬合現象,將引入深度計算模型的進化層結構,把固有模型平均分成子模型,這種較小數據集的“新”模型實現了模型與自我進化相結合,目的是探索最優網絡映射策略。
然后在全連接層輸出的結果傳輸到函數層,用來求出每個物理節點的分布概率,最后云計算數據中心將接收虛擬節點映射策略,將虛擬數據請求分配到底層物理節點,以實現基于大數據的大規模任務處理。
2.2 方法主要思想
基于大數據的深度神經網絡與Agent的大規模任務處理方法,是把大規模的任務部署利用計算模型的虛擬網絡進行映射。該方法把訓練和應用中的歷史請求數據分開,叫做訓練集和測試集。再依據之前工作求出底層網路物理節點的狀態、特征和模型的輸入,使得數據集的維度降低。而自適應Dropout深度計算模型主要目的是尋求合理的虛擬節點映射策略,當訓練樣本較少時,Dropout對大規模網絡模型策略非常有效。當網絡結構改變,依據深度模型去建模,再利用類似隱藏去噪法將數據的神經元的權重歸零。網絡層的參數概率變化,網絡模型中神經元丟棄,需要從物理節點、任務請求數據中的特征作為模型輸入,將映射概率設為輸出(虛擬節點到物理節點的映射),再利用Agent強化學習來實現虛擬鏈路映射。若訓練集中數據不具備對應標簽,則利用反向傳播和策略梯度,并結合歷史數據請求進行深度計算模型訓練,利用一種貪婪策略評估Agent強化學習的有效性,將大量的任務請求在進行大數據分析處理中分配到有效的物理節點,實現了能并行處理的最優虛擬網絡映射方案。
2.3 BDTard方法設計
如上圖3所示,任務量從950到3950中,BDTard方法在950、2150、3350和3950的準確率都達到了80%。而SpreadOut和Non-SpreadOut只在少部分達到80%。可見BDTard方法能更加準確地在目標節點部署任務,是一種實現系統利益最大化的最優任務部署方案。
3.3 系統收益對比
此實驗通過在BDTard、SpreadOut和Non-SpreadOut三種方法上進行系統平均收益和收益成本比(R/C)的對比試驗。如下圖4所示,三種方法的長期平均收益值初期是快速下降的,中后期相對平穩。整個過程中BDTard方法的收益都是高于SpreadOut和Non-SpreadOut方法的,且另外兩個方法的收益值相差無幾。因此,相對系統長期平均收益BDTard方法具有明顯優勢。
而另外一個收益成本比(R/C)對比試驗結果如下圖5所示。隨著時間的增長,三種方法的收益成本比呈增長趨勢,但BDTard方法的長期收益成本比較另外兩種方法收益更高,BDTard方法在資源的利用率方面有明顯優勢,部署大規模任務更加合理。
從以上兩個對比實驗看出,BDTard方法從系統長遠利益考慮,分析任務請求的需求,利用Dropout自適應深度計算模型和Agent強化學習對底層物理節點合理分配資源,最大限度降低了資源消耗成本,使得任務部署方案在長期獲得更高收益,提高了資源利用率,實現了高效分析、處理大數據。
3.4 部署失敗數據對比
在實際處理大規模任務部署工作中,因某些網絡故障等原因,有可能導致任務部署不成功。這組實驗通過對比BDTard、SpreadOut和Non-SpreadOut方法在任務部署的失敗數據量,進行多組實驗,借助誤差條顯示結果分布。
如下圖6所示,隨著任務數量的增加,三種方法任務部署失敗量也逐漸增加。但是BDTard方法的失敗數據都少于另外兩種方法,且任務數據的增加導致失敗部署的數據增長在速度上也慢于其他兩種方法。整個實驗過程中,當部署任務較小時,三中方法差距不大,但任務數據達到3000以上時,差距就拉大了。當達到4000任務量時,BDTard方法的失敗率就遠小于其他兩種方法了。
從上圖6中還發現,相對于SpreadOut和Non-SpreadOut方法,BDTard方法隨著時間、任務量的增加,任務部署的成功率呈相對穩定的趨勢。BDTard方法保障了大規模任務部署的可靠性、穩定性,也是從系統利益考慮,利用Dropout深度模型和Agent方法來完成任務部署,有效地提高了部署的成功率和大規模任務處理能力。
4 結 論
提出的BDTard方法是一種針對大數據環境下的任務處理方法。主要利用Dropout深度計算模型虛擬映射部署任務,從系統長遠利益出發,利用Agent強化學習對底層物理節點合理分配資源,避免了計算模型過擬合產生。通過對比任務部署的有效性、系統收益和任務部署失敗數據,進行實驗比對分析,結果表明BDTard方法能滿足大規模任務請求,穩定系統長期收益,有效地提高了部署的成功率和大規模任務識別、計算及處理能力。
參考文獻
[1]MAKKIE M, LI X, QUINN S, et al. A distributed computing platform for fMRI big data analytics[J]. IEEE Transactions on Big Data,2018, 1-1.
[2]鄒鋒.基于深度神經網絡和改進相似性度量的推算方法[J]. 計算機應用與軟件,2019 (11):286-293,300.
[3]王欣,王芳. 基于強化學習的動態定價策略研究綜述[J]. 計算機應用與軟件,2019 (12):1-6.
[4]SUN ?C, ?MA ?M, ?ZHAO ?Z, ?et ?al. ?Sparse ?deep ?stacking ?network ?for ?fault ?diagnosis ?of motor[J]. IEEE Transactions on Industrial Informatics, 2018, 14(7): 3261-3270.
[5]ZENG ?G, ?LIU ?W. ?An ?iso-time ?scaling ?method ?for ?big ?data ?tasks ?executing ?on ?parallel computing systems[J]. The Journal of Supercomputing, 2017, 73(3):4493-4516.
[6]QIU ?X, ?LUO ?L, ?DAI ?Y. ?Reliability-performance-energy ?joint ?modeling ?and optimization for a big data task[C]. Proceedings of IEEE International Conference on Software Quality, Reliability and Security Companion (QRS-C). Vienna, Austria: August 1-3, 2016.
[7]SUN Y, YEN G G, YI Z. Evolving unsupervised deep neural networks for learning meaningful ?representations[J]. ?IEEE ?Transactions ?on ?Evolutionary ?Computation, ?2018, 23(1): 89-103.
[8]ZHANG ?Q, ?YANG ?L ?T, ?CHEN ?Z. ?Deep ?computation ?model ?for ?unsupervised ?feature learning ?on ?big ?data[J]. ?IEEE ?Transactions ?on ?Services ?Computing, ?2015, ?9(1): 161-171.
[9]KIM J, BUKHARI W, LEE M. Feature analysis of unsupervised learning for multi-task classification using convolutional neural network[J].Neural Processing Letters, 2017, 47(3): 783-797.
[10]CHENG D, ZHOU X, LAMA P, et al. Cross-platform resource scheduling for spark and mapReduce on YARN[J]. IEEE Transactions on Computers, 2017, 66(8): 1341-1353.
[11]NOU R, MIRANDA A, SIQUIR M, et al. Improving openstack swift interaction with the I/O ?stack ?to ?enable ?software ?defined ?storage[C]. ?Proceedings ?;of ?IEEE ?International Symposium on Cloud & Service Computing. Kanazawa, Japan: November 22-25, 2018.
[12]SOPAOGLU U, ?Abul ?O. ?A ?top-down ?k-anonymization ?implementation ?for ?apache spark[C]. Proceedings of IEEE International Conference on Big Data. Boston, MA, USA: December 11-14, 2017.
[13]TAQI ?A ?M, ?AWAD ?A, ?ALAZZO ?F, ?et ?al. ?The ?impact ?of ?multi-optimizers ?and ?data augmentation ?on ?tensorflow ?convolutional ?neural ?network ?performance[C]. Proceedings ?of ?IEEE ?Conference ?on ?Multimedia ?Information ?Processing ?& ?Retrieval. IEEE. Miami, FL, USA: April 10-12, 2018.
[14]WILSON C, VEERAVALLI V V, NEDICH A. Adaptive sequential stochastic optimization[J]. IEEE Transactions on Automatic Control, 2018, 64(2): 496-509.