999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的虛擬機資源自動配置

2014-01-16 09:21:42李文嬋彭志平
電子設計工程 2014年5期
關鍵詞:動作資源環境

李文嬋,彭志平

(1.江蘇科技大學 計算機科學與工程學院,江蘇 鎮江 212003;2. 廣東石油化工學院 計算機與電子信息學院,廣東 茂名 525000)

在虛擬化數據資源管理中心環境[1]中,應用被封裝在一個或多個虛擬機中。例如典型的互聯網應用由web服務器前端、中間應用邏輯和后端數據庫3個層次構成;這些層次可能各自封裝在獨立的虛擬機中。

虛擬化資源的調度存在于兩個層次[2]: 局部調度涉及如何在虛擬機之間合理共享物理機的CPU、內存和IO資源,由虛擬機管理器負責;全局調度解決如何優化組合虛擬機、在物理機間平衡負載,這相當于把資源合理地分配給應用。本文主要討論前者。

虛擬機技術允許多個虛擬機同時運行,每個虛擬機有自己的操作系統OS并同時支持多個服務,這就需要在同一個物理機上共享資源。它主要依賴隸屬于硬件和來賓OS之間的虛擬機監視器VMM,以便在虛擬機之間分配資源。

1 實驗環境簡介

1.1 CloudSim簡介

CloudSim是在GridSim模型基礎上發展而來,提供了云計算的特性,支持云計算的資源管理和調度模擬。CloudSim提供基于數據中心的虛擬化技術、虛擬化云的建模和仿真功能。CloudSim提供了資源的監測、主機到虛擬機的映射功能。CloudSim的CIS(Cloud Information Service)和DataCenterBroker實現資源發現和信息交互,是模擬調度的核心。用戶自行開發的調度算法可在DataCenterBroker的方法中實現,從而實現調度算法的模擬。

1.2 XEN及XEN監視器

XEN[3]是由劍橋大學開發的開源準虛擬化虛擬機,通過改動客戶OS,使其以為自己運行在虛擬機上,能夠和VMM協同工作,圖1顯示了XEN虛擬機的體系結構[4]。在XEN上的眾多域中存在一個特權域(Dom0),用來輔助XEN管理其它域(DomU),提供相應的虛擬資源服務(處理器調度和內存分配等),特別是DomU對I/O設備的訪問。管理程序(Hypervisor)允許Dom0直接訪問硬件,而DomU的I/O數據包都必須經過Dom0的轉發,通過事件通道通知將數據包傳遞給對方。

圖1 XEN體系結構Fig. 1 XEN Architecture

2 強化學習和它在VM自動配置中的應用

強化學習[5]方法不依賴于被控對象的數學模型和先驗知識,而是通過試錯和與環境的不斷交互獲得知識,從而改進行為策略,具有自學習的能力。強化學習單元與環境之間的關系如圖2所示。rk是環境針對當前時刻學習單元所選擇的動作的好壞給予學習單元的獎賞值,其選擇形式有很多種,比如選擇二值型:{-1,0} ,當rk=0時表示該動作是正確的,得到了來自環境的獎勵,當rk=-1時表示該動作是錯誤的,遭到了來自環境的懲罰。

圖2 強化學習單元與環境關系圖Fig. 2 Diagram of there lation shipbet ween leaming agentanden vironmen

一個RL問題通??苫梢粋€馬爾科夫模型(MDP)[6]。正常情況下,對一個環境狀態集S和一個動作集合{(A,MDP)}模型通過狀態轉移概率被定義成Pa(s,s)=Pr(st+1=s|st=s,at=a) ,還有一個立即回饋函數值R=E[rt+1|st=s,at=a,st+1=s]。在每一個步驟t,Agent獲得它當前的狀態at∈S和可能的行為集st∈A(st),agent轉移到下一個狀態st+1,并從當前環境獲得一個立即回饋值rt+1。在狀態S下采取動作a的值函數被定義成:

這里0 ≤ γ < 1為折扣因子幫助Q(s,a)收斂。

一個VM配置任務通常被構想成一個連續狀態的折扣MDP,目標是優化所有的VM性能。我們定義基于單個VM的應用層次性能的回饋函數;而狀態空間是虛擬機上的硬件配置信息,這些可以通過驅動域被完全觀察到;動作則是配置參數的聯合改變。具體設想如下:

回饋函數reward:單個VM的性能通過一個分值score來衡量,其中thrpt為當前吞吐量,ref_thrpt為參考吞吐量,resp為反應時間,penalty是違反SLA時的懲罰,wi是第i個虛擬機的權重,1≤ i≤n

狀態空間:我們簡化為(men1,time1,vcpu1…menn,timen,vcpun,) , meni, timei, vcpui分別代表第i個虛擬機的內存大小,調度值credit和虛擬cpu數目。

行為集:對上面3個配置參數可能的行為即是增加,減少或是維持不變。對RL任務來說,行為即是對每個參數的操作使之增加,減少或不變。

在VM配置任務中,基于RL的代理問題依隨一種貪心算法[7]采取重配置措施。在一個小概率下,Agent選擇一個隨機動作并在大部分情況下跟隨它發現的最好策略實施行為。開始于任何初始策略,Agent逐漸在之后的每一步根據它得到的回饋值重新定義策略。

3 SRLAC的設計和實現

SRLAC是基于RL的虛擬機自動配置Agent,被設計成一個獨立的定居在驅動域中的精靈,它充分利用了dom0提供的控制界面來控制單個虛擬機的資源配置。圖3強調了SRLAC的組織形式和XEN的虛擬化環境。

圖3 SRLAC結構示意圖Fig. 3 The organization of SRLAC

SRLAC通過監視每臺虛擬機的性能回饋來管理VM的資源配置。在一個提前預知的時間段內,重新配置行為階段性的進行。SRLAC查詢驅動域的當前狀態并計算出可靠的行為。按照RL算法產生的策略,SRLAC選擇一個動作并將其送入dom0,以便VM進行重新配置。在每一步驟結束之時,SRLAC收集每個VM的性能回饋,然后計算立即回饋值。得到的新的立即回饋值通過RL來處理,SRLAC依據處理結果更新配置策略。

4 實驗結果

本實驗的開發環境是基于Windows XP操作系統,內存在2G左右,CloudSim版本為2.1.1,采用MyEclipse下開發。實驗中需要建立資源池cloudlab,配置Windows操作系統的實驗環境虛擬機模板,安裝Xen Tool,我們使用Xen 3.1作為虛擬環境,這里我們設計了一系列實驗來展示依據RL的SRLAC的有效性。圖4列出了CloudSim中資源池cloudlab虛擬機圖4個不同的VM設置。

圖4 cloudsim配置Fig. 4 The configuration of cloudsim

在這個實驗中,應用和資源的數量被限制在一個小規模集合里,即環境是可控的。我們創建了虛擬機運行服務,代表了服務器虛擬化的應用,它是多層的TPCW[8]基準(面向電子商務的基準程序),即電子商務應用,TPCW是典型的CPU密集型應用,在這個可控環境中,內存參數是可以被修改的。通過調整將CPU資源分配到每一層,SRLAC可以最大化TPCW的吞吐量。

CloudSim仿真步驟為:

1)創建一個數據中心A;

2)通過A建立內存、CPU和吞吐量等資源參數;

3)注冊。對 CIS 發送注冊信號,注冊成功后即刻登陸;

4)Data center Broker 將進行信息交互過程的管理。

RL算法并不需要假設任何系統模型,它在與環境的相互作用中提出策略并從新獲取的經驗中更新策略。在這個實驗中,我們將應用的吞吐量作為最優目標。為限制問題規模,我們規定每層最多3個虛擬CPU。SRLAC被分配了一個基于表的Q值函數,并且全都被初始化為0。我們使用Sara(0)算法,其中α=0.2, γ=0.9, ε=0.1,來驅動配置代理,配置間隔被設為50秒。代理持續運行直到Q值收斂,最終一個最優配置策略便可以從Q表中得到。RL算法在上面3種工作負載下重復運行最后得出3種策略。圖5描述了SRLAC在動態和靜態策略下的在線性能,曲線是TPCW得到的吞吐量。結果表明,RL agents 都可以自動驅使一個不合理的配置使之在幾步之內達到一個比較好的設置情況,TPCW的吞吐量也得到增長并達到一個更高的水準。RL算法可能的最好結果就是Agent適應了環境并得到了最優的性能。

5 結束語

圖5 SRLAC在TPCW應用中的性能Fig. 5 SRLAC performance with TPCW application

文中討論了虛擬環境中虛擬資源的分配問題,所利用的方法是基于RL的自動資源分配算法。自我配置系統自動適應軟件參數、硬件資源以達到正確的功能應用和更好的性能優化,RL算法無疑是其中一種具有潛在利益的好方法。本文討論的算法是在仿真軟件中進行,對環境和資源維數有要求,而實際環境下會更復雜,這就需要我們更深一步的研究,RL算法是人類智慧的表達,將其應用在云環境中虛擬資源的自動配置上將是它的很好發揮。

[1] 黎寒光. 虛擬化技術介紹及虛擬應用環境實踐[J].數字技術與應用,2010(4):79~81.LI Han-guang. Introduction of Virtualization technology and the practice of virtual application environment[J].Digital Technology and Application,2010(4):79~81.

[2] Amazon. Amazon EC2 Pricing[EB/OL].(2011). http: / /aws. amazon.com/ec2/pricing/.

[3] Barham P,Dragovic B,Fraser K.Xen and the art of virtualization[C] //2003.

[4] 石磊,鄒德清,金海.Xen虛擬化技術[M].武漢;華中科技大學出版社,2009.

[5] 張汝波,顧國昌,張國?。畯娀瘜W習系統的結構及算法[J].計算機科學,1999,26(10):53-56.ZHANG Ru-bo,GU Guo-chang,ZHANG Guo-yin.The system structure and algorithm of Reinforcement learning[J].Computer Science,1999, 26(10):53-56.

[6] 胡奇英,劉建庸著.馬爾可夫決策過程引論[M].2版.西安電子科技大學出版社,2000.

[7] 仲宇,顧國昌,張汝波.分布式強化學習的體系結構研究[J].計算機工程與應用,2003(11):111-113.ZHONG Yu,GU Guo-chang,ZHANG Ru-bo.Research of distributed reinforcement learning architecture[J].Computer Engineering and Applications, 2003(11):111-113.

[8] 周萬江,晏蒲柳.Web服務器性能評測軟件的原理及發展[J].計算機應用研究,2003,24(8):93-95.ZHOU Wan-jiang,YAN Pu-liu. The principles and development of Web server performance evaluation software[J].Application Research of Computers,2003,24(8):93-95.

猜你喜歡
動作資源環境
基礎教育資源展示
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
一樣的資源,不一樣的收獲
孕期遠離容易致畸的環境
環境
資源回收
動作描寫要具體
畫動作
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
主站蜘蛛池模板: 久久视精品| 欧美国产日韩在线观看| 91丝袜乱伦| 成人在线天堂| 一区二区在线视频免费观看| 国产av一码二码三码无码| 波多野吉衣一区二区三区av| 免费国产无遮挡又黄又爽| 亚洲国产AV无码综合原创| 又黄又湿又爽的视频| 久久亚洲美女精品国产精品| 精品无码日韩国产不卡av | 一级爆乳无码av| 日韩二区三区无| 亚洲无码日韩一区| 国产打屁股免费区网站| 99热最新网址| 亚洲中文字幕在线观看| 香蕉久人久人青草青草| 亚洲欧美另类视频| 欧美午夜视频在线| 国产在线91在线电影| 国产凹凸一区在线观看视频| 色综合天天娱乐综合网| 日韩黄色精品| 一级毛片a女人刺激视频免费| 中文字幕亚洲另类天堂| 欧美亚洲日韩不卡在线在线观看| 欧美成a人片在线观看| 国产精品手机在线观看你懂的 | 青青草欧美| www亚洲天堂| 97精品久久久大香线焦| 亚洲 欧美 日韩综合一区| 一级福利视频| 国产亚洲欧美日韩在线一区二区三区| 亚洲av成人无码网站在线观看| 亚洲成人播放| 青青草原国产一区二区| 欧美a√在线| 91国内在线观看| 日韩精品中文字幕一区三区| 亚洲国产精品无码AV| 免费国产无遮挡又黄又爽| 亚洲精品国产综合99| 国产亚洲精品va在线| 日韩成人在线网站| 亚洲成aⅴ人在线观看| 国产最新无码专区在线| 国产一在线| AV在线天堂进入| 欧美特黄一免在线观看| 日韩国产亚洲一区二区在线观看| 成人免费一级片| 成年A级毛片| 伊人色综合久久天天| 精品国产成人a在线观看| 第一区免费在线观看| 凹凸国产分类在线观看| 国产丝袜无码精品| 亚洲高清中文字幕在线看不卡| 久久久亚洲色| 91在线免费公开视频| 久久无码av一区二区三区| 尤物亚洲最大AV无码网站| 国产精品无码AV中文| 中国一级毛片免费观看| 日本三级欧美三级| 国产黄色视频综合| 中文字幕亚洲综久久2021| 中文字幕佐山爱一区二区免费| 国产欧美日韩资源在线观看| 国产在线八区| 中文字幕永久在线看| 成人va亚洲va欧美天堂| 92精品国产自产在线观看| 精品视频免费在线| 国产精品任我爽爆在线播放6080| 中文字幕乱码二三区免费| 在线观看精品国产入口| 无码精品国产VA在线观看DVD| 婷婷午夜天|