摘要:結合網格系統中虛擬組織內部的集中調度機制,介紹了一種現有的多隊列服務模型,該模型將提交到虛擬組織上的作業請求分配到該虛擬組織內部資源的服務隊列上;考慮到網格環境中服務的動態性,將服務隊列集中在調度中心的單隊列服務模型應用于網格環境,通過對提供服務的資源發生故障的情況進行仿真實驗,對這兩種服務模型進行了對比研究,并進一步提出了自適應隊列模型的構想。
關鍵詞:網格;服務模型;虛擬組織;調度中心
中圖分類號:TP393.1文獻標志碼:A
文章編號:1001-3695(2007)11-0271-03
0引言
網格的思想是將網格定位于一種類似于電力設施,只要通過統一的接口接入網格,就可以獲得類似于電的持續計算力。該思想自20世紀末提出以來,得到了全球的廣泛關注。學術界在網格研究領域的諸多成果,引起了眾多IT企業的興趣。一些著名的IT廠商,如微軟、IBM、Sun、Oracle等均投入了大量的經費進行網格研究。
網格思想的核心是資源的共享與協作。圍繞著這個核心,大量涉及安全、資源管理、網格體系結構、數據管理、調度等方面的研究工作正在進行。文獻[1]提出了基于協議的五層沙漏模型的網格體系結構。基于此文獻思想,Globus項目組開發了相應的工具包GT2。GT2中的MDS2實現了資源的監測和發現。隨著網格研究進入商業領域,一些商業標準如Web service被融入了網格中。文獻[2]提出了以服務為中心的網格體系結構OGSA。在此體系結構中,所有的資源都被建模成服務。基于OGSA,Globus項目組但又推出工具包GT4。GT4中的服務監測與發現由MDS4實現。
雖然MDS2和MDS4實現了資源及服務的發現、監測,但是關于這方面的性能評價與分析的研究工作還很少。在網格環境中,服務是動態分布在異構的廣域網中,對服務的透明訪問與管理構成了網格研究的一個重要方面,而網格服務的建模研究則可為評價與分析網格服務提供理論基礎。
目前,國內外對網格建模方面的研究主要集中在對提交到網格的作業的調度上,對網格服務模型研究得不多。文獻[3~5]主要研究了網格環境下資源管理和調度模型,但是沒有考慮到資源的動態性;文獻[6]研究了資源狀態變化時(資源故障或主動退出服務)網格服務的建模。該模型存在一個調度中心,用于將提交到網格上的作業分配到各個資源的隊列上,每一個資源都對應一個服務隊列。下面討論的多隊列模型就是這個模型。基于以上研究工作,本文擬討論一種網格環境中存在調度中心的情況下,提交到網格上的作業由調度中心統一調度的單隊列模型,并且將該模型與多隊列模型在資源動態變化的情況下進行對比研究。
1兩種模型介紹
文獻[6]中提出了網格服務中的多隊列模型,如圖1(a)所示。該模型在多個資源組成的虛擬組織內設立一個調度中心,所有提交到該虛擬組織的作業,都通過該調度中心分配到虛擬組織內的服務提供者上去執行。每個服務提供者都有一個服務隊列與其對應。目前,Condor-G、Nimrod/G等系統就可以用該模型來近似。
在網格環境下,服務模型還可以用如圖1(b)所示的單隊列模型來表示。該模型與圖1(a)的區別是,提交到虛擬組織上的作業進入調度中心的隊列上,各個資源沒有服務隊列。這是因為考慮到在網格環境下,資源是動態地加入虛擬組織并且提供服務的,當資源動態退出虛擬組織時,其服務隊列上的作業要么丟失,要么重新提交到其他資源的服務隊列上,這將增加作業的丟失率或延長作業的平均服務時間。圖1(b)就是基于這種考慮提出來的。
在圖1中,進入虛擬系統的作業服從強度為λ的泊松分布。q1,q2,…,qN為將各新到達的作業分配到各個資源的概率。
從直觀上看,多隊列模型的優點在于調度中心無須維護服務隊列,從而降低了調度中心的負擔;同時也避免了由于調度中心故障而導致整個虛擬組織不能正常工作的風險。單隊列模型的優點在于可以降低當服務提供者動態退出網格時,可能會引起的作業損失或作業遷移對系統帶來的影響。
2關于兩種模型的一些結論
下面對多隊列模型和單隊列模型作簡單的理論分析。首先考慮資源不動態變化的情況,即各服務提供者既不中途退出服務,又不發生故障。
3仿真研究
以下通過仿真,對上述兩種模型進行對比研究。仿真程序是采用Java編寫,每一個服務提供者對應一個provider類的對象,每一個隊列對應一個queue類的對象。圖2是在資源穩定不變的情況下,對一個存在著100個服務提供者的虛擬組織進行仿真得到的結果。這里每個服務提供者的服務速率服從參數為10的負指數分布,到達虛擬組織的作業服從參數為λ的泊松分布。λ在下面的仿真實驗中從500個/s增加到1 200個/s。在多隊列模型中,每個服務提供者的隊列容量為10,單隊列模型中的隊列容量為1 000。
在圖2(a)中,當提交到虛擬組織上的作業到達率小于虛擬組織內所有服務提供者的總服務速率時,單隊列模型無論在作業的平均完成時間上,還是在作業的丟失率上,都具有優勢。這與理論上的推導是吻合的。
圖3是在虛擬組織內各個資源均存在較小的資源故障率(ξ=0.1)時,兩種服務模型分別在較長的故障修復時間(η=0.1)和較短的故障修復時間(η=1)的情況下,平均完成時間和平均丟失率的仿真。
從圖3(a)可以看出,當提交到虛擬組織上作業的到達率小于虛擬組織內有服務提供者的總服務速率時,單隊列模型的平均完成時間要少于多隊列模型的平均完成時間。隨著作業到達速率的增加,單隊列模型的平均完成時間也明顯增加。這是因為作業隨著到達速度的增加而在調度中心的隊列中等待的時間明顯增加。當資源發生故障時,單隊列模型對調度中心的隊列沒有影響,而多隊列模型則因為故障發生時,將丟失其隊列上的所有作業,導致作業丟失率增加,而完成的作業平均時間相對于資源穩定的情況,變化不大。同時,從圖3(a)還可以看出,隨著故障排除時間的減少,可以使作業的平均完成時間略有減少。
圖3(b)則是在資源低故障率時,兩種模型的作業丟失率的對比。從圖3(b)可以發現,單隊列模型的作業丟失率明顯少于多隊列模型,并且在作業到達率較高時,可以通過減少故障排除時間來降低作業的丟失率。
圖4是在較大的資源故障率(ξ=1)時,兩種服務模型在較長的故障修復時間(η=0.1)和較短的故障修復時間(η=1)的情況下,平均完成時間和平均丟失率的仿真。
從圖4(a)可以發現,當資源高故障率并且故障排除時間較長時,單隊列模型的作業平均完成時間較長。這是由于資源發生故障不能提供服務時,在調度中心隊列的作業只能長時間進行等待,直到故障恢復過來繼續提供服務;而當故障排除時間較短時,對作業的平均完成時間基本沒有影響。對于多隊列模型,故障排除時間可以略微提高作業完成時間。
圖4(b)則是作業丟失率的對比。可以看出,無論是單隊列還是多隊列模型,減少故障修復時間,可以非常明顯地減少作業丟失率。當某資源退出虛擬組織不再繼續提供服務時,可以將其看成是故障修復時間無窮大。
4結束語
對于以上兩種網格環境下的服務模型,還有一些因素沒有考慮,也是下一步需要研究的目標:
a)以上模型都是假設虛擬組織內的服務提供者可以滿足提交到虛擬組織上作業的要求。現實中這一點是不能得到保證的。實際系統中應該是多虛擬組織協同工作,因此應該存在遷移到其他虛擬組織的作業或由其他虛擬組織遷移進來的作業,這一點在模型中還未涉及。
b)模型中假設各服務提供者提供的是能滿足作業的要求,這對于一些平凡服務或是某些需要計算資源的服務來說是合理的。例如SETI@HOME項目。但對于更加廣義的服務或者服務之間存在依賴關系時,該模型還有待擴展和補充。
c)以上模型基本沒有考慮通信消耗問題,如對帶寬的影響以及通信延時等。目前的一些科研網格項目,都是構建在高速的光纖網上,帶寬是足夠的,但是要將網格應用到實際生活中,帶寬問題還是需要考慮的。
從以上的實驗結果來看,單隊列和多隊列模型各有其特點。單隊列模型在作業丟失率和作業平均完成時間這兩個指標上,具有較好的結果;多隊列模型則在安全性以及通信開銷上較有優勢。單隊列模型適合于資源動態變化較頻繁的場合;而多隊列模型比較適合穩定的虛擬組織的建模。
為了能夠同時利用兩者的優點,這里嘗試提出自適應隊列模型的思想,即到達虛擬組織的作業,由調度中心分配到其內部各個資源上,每個資源的隊列容量根據資源與虛擬組織的當前狀態以及該資源的歷史故障數據進行動態調整,以滿足特定目標,如作業丟失率指標、平均作業完成時間指標等。自適應隊列模型也是本文進一步研究的方向。
以上介紹了網格環境下,兩種網格服務模型的對比研究,希望能為將來定量分析網格服務以及評價網格質量提供一些思路。
參考文獻:
[1]FOSTER I,KESSELMAN C,TUECKE S.The anatomy of the grid:enabling scalable virtual organizations[J].International J Supercomputer Applications,2001,15(3): 200-222.
[2]FOSTER I,KESSLMAN C,NICK J,et al.The physiology of the grid:an open grid services architecture for distributed systems integration[EB/OL].(2002).http://www.globus.org/-research/papers/ogsa.pdf.
[3]CAO J,JARVIS S A,SAINI S.ARMS:an agent-based resource mana-gement system for grid computing[J].Sci Program,2002,10(2): 135-148.
[4]NITZBERG B,SCHOPF J M.Current activities in the scheduling and resource management area of the global grid forum[M].Heidelberg:Springer,2002:25-37.
[5]SPOONER D P,JARVIS S A,CAO J,et al.Local grid scheduling techniques using performance prediction[J].IEE Proc Comput Di-git Tech,2003,150(2): 87-96.
[6]THOMAS N,BRADLEY J T,KNOTTENBELT W J.Stochastic analysis of scheduling strategies in a grid-based resource model[J].IEE Proc Software,2004,151(5): 232-239.
[7]陸傳賚.排隊論[M].北京:北京郵電大學出版社,1994.
[8]THOMAS N.The effect of information latency on performance[C]//Proc of the 19th Performance Engineering Workshop.2003.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”