摘要:云計(jì)算將計(jì)算能力作為通用性資源,提供一種彈性的資源獲得模式,使業(yè)務(wù)的提供更具伸縮性,使能源在一定程度上得到更為合理的利用。文章從移動(dòng)通訊運(yùn)營(yíng)商的需求入手,介紹了一種業(yè)務(wù)調(diào)度和虛擬化的計(jì)算云應(yīng)用思路,為移動(dòng)網(wǎng)絡(luò)的云化提供了解決方法,使運(yùn)營(yíng)商真正能夠以最小的投入,產(chǎn)生最大的收益。
關(guān)鍵詞: 資源共享;業(yè)務(wù)調(diào)度;虛擬化
Abstract: Cloud computing makes computing power universally available, and provides flexibility in resource acquisition. It allows for scalable provision of services and more reasonable use of resources. This article considers cloud service deployment and virtualization from the perspective of mobile operators. A solution is proposed which allows mobile operators to maximize profits with minimal investment.
Key words:resource sharing; service deploy; virtualization
1 通信行業(yè)的新要求
隨著3G網(wǎng)絡(luò)的進(jìn)一步完善,運(yùn)營(yíng)商部署的業(yè)務(wù)平臺(tái)也愈來愈多,除了當(dāng)前已經(jīng)廣泛運(yùn)用的WAP/WEB網(wǎng)關(guān)、短信中心、彩信中心等基礎(chǔ)引擎平臺(tái)以外,隨著業(yè)務(wù)的進(jìn)一步發(fā)展,還會(huì)陸續(xù)出現(xiàn)各種形形色色的業(yè)務(wù)應(yīng)用平臺(tái)。目前這些業(yè)務(wù)平臺(tái),不管實(shí)現(xiàn)何種業(yè)務(wù)功能,不管局點(diǎn)大小,都是采用獨(dú)立建設(shè)的模式。
通過對(duì)多個(gè)廠家的多類業(yè)務(wù)產(chǎn)品進(jìn)行對(duì)比分析,我們得到的結(jié)論是:除了核心業(yè)務(wù)處理模塊以外,其余模塊的功能基本上都是雷同的(如:計(jì)費(fèi)管理模塊、用戶管理模塊、配置管理模塊、維護(hù)管理模塊、日志/報(bào)表模塊等),這些模塊可以通過一定的手段進(jìn)行融合與集成,從某種角度來講可以實(shí)現(xiàn)一定的資源復(fù)用。但對(duì)于各業(yè)務(wù)的核心處理部分,由于業(yè)務(wù)邏輯迥異、流程復(fù)雜,無法在業(yè)務(wù)層面做到能力共享。這種多業(yè)務(wù)分散建設(shè)模式已逐漸成為阻礙移動(dòng)通信產(chǎn)業(yè)高速發(fā)展的重要原因。這主要體現(xiàn)在以下幾個(gè)方面[1-5]:
各業(yè)務(wù)平臺(tái)采用的外購軟硬件類型各異,對(duì)于外購件異常帶來的業(yè)務(wù)中斷、系統(tǒng)故障等問題較難控制和規(guī)避;各廠家業(yè)務(wù)平臺(tái)提供的操作維護(hù)手段不同,需要運(yùn)營(yíng)商培訓(xùn)大量的技術(shù)人員熟悉各種維護(hù)系統(tǒng),加大了維護(hù)成本的投入;業(yè)務(wù)平臺(tái)獨(dú)立建設(shè),不同地域、不同業(yè)務(wù)的處理能力嚴(yán)重負(fù)載不均,投資建設(shè)的硬件資源利用率不高。
從理論上分析,無論是何種業(yè)務(wù),其處理邏輯都仍然屬于應(yīng)用程序范疇,任何應(yīng)用程序都可以簡(jiǎn)單歸納為計(jì)算模式+存儲(chǔ)模式+通信模式的集合。為帶來有彈性、容量無限的系統(tǒng),一般有兩種解決辦法:一是在同一機(jī)器上部署單一業(yè)務(wù)的多模塊或者選擇性地部署多個(gè)業(yè)務(wù);二是通過虛擬化技術(shù)實(shí)現(xiàn)統(tǒng)計(jì)性復(fù)用資源。前者對(duì)業(yè)務(wù)程序的依賴度很高,需要相互之間互不影響,對(duì)于同廠家同類型業(yè)務(wù)相對(duì)比較容易實(shí)現(xiàn),只能在一定程度上實(shí)現(xiàn)資源共享。而虛擬化技術(shù)可以較好地隱藏資源復(fù)用和共享的實(shí)現(xiàn)細(xì)節(jié),能最大程度地減小結(jié)構(gòu)上與業(yè)務(wù)的耦合性。
當(dāng)然,僅依靠虛擬化技術(shù)還不能完全做到業(yè)務(wù)級(jí)彈性的調(diào)用控制,文章在下一章節(jié)將重點(diǎn)介紹業(yè)務(wù)調(diào)度和虛擬化的完整解決方案。通過該方案移動(dòng)運(yùn)營(yíng)商可得到:
(1) 業(yè)務(wù)按實(shí)際處理需要合理的獲取計(jì)算資源。從而使運(yùn)營(yíng)商不用在提供某種業(yè)務(wù)服務(wù)之前就要做計(jì)算資源的預(yù)測(cè),消除了事先投入的風(fēng)險(xiǎn),使業(yè)務(wù)可以從小規(guī)模做起,隨著需求的增加通過業(yè)務(wù)調(diào)度和虛擬化技術(shù)快速擴(kuò)展業(yè)務(wù)占用的硬件資源。
(2) 解決不同地區(qū)、不同時(shí)段的業(yè)務(wù)不均衡問題。一方面可以在日常業(yè)務(wù)量相對(duì)較低的情況下通過減少硬件資源的占用降低電源損耗;另一方面可以在節(jié)假日或未預(yù)期到的業(yè)務(wù)峰值出現(xiàn)時(shí)通過擴(kuò)大硬件資源占用來規(guī)避運(yùn)營(yíng)風(fēng)險(xiǎn)。
(3) 提供了一種將大量移動(dòng)網(wǎng)絡(luò)資源對(duì)外租借的可能。計(jì)算資源虛擬化后,能以短時(shí)間為單位付費(fèi),租借方可按需申請(qǐng)使用計(jì)算資源。
2 業(yè)務(wù)調(diào)度和虛擬化方案
針對(duì)上述移動(dòng)運(yùn)營(yíng)商的迫切要求,文章給出了一種將虛擬化與業(yè)務(wù)調(diào)度相結(jié)合的整體解決方案,其模型架構(gòu)如圖1所示[6]。
核心管理部件主要包括虛擬機(jī)管理系統(tǒng)及業(yè)務(wù)調(diào)度中心。從方案設(shè)計(jì)角度將底層物理設(shè)備的虛擬化與業(yè)務(wù)層面的處理能力控制分離。
一個(gè)應(yīng)用程序必然需要一個(gè)計(jì)算模式、一個(gè)存儲(chǔ)模式和一個(gè)通信模式。為實(shí)現(xiàn)計(jì)算資源的彈性和無限鏡像,最現(xiàn)實(shí)的辦法就是將這些資源虛擬化,面對(duì)應(yīng)用隱藏它們的復(fù)用和共享機(jī)制。不同的公用計(jì)算會(huì)根據(jù)抽象性和管理層次加以區(qū)分。本方案提出將移動(dòng)通信業(yè)務(wù)計(jì)算云分為兩級(jí)進(jìn)行管理,其一是將物理硬件虛擬為抽象計(jì)算單元的過程,該過程不受上層業(yè)務(wù)的影響,所有計(jì)算單元屬性均保持一致;其二是針對(duì)差異化業(yè)務(wù)的動(dòng)態(tài)調(diào)度系統(tǒng),可根據(jù)不同的業(yè)務(wù)處理邏輯、業(yè)務(wù)性能要求以及資源占用預(yù)期對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行伸縮性控制。通過業(yè)務(wù)調(diào)度中心與虛擬機(jī)管理系統(tǒng)的配合,滿足運(yùn)營(yíng)商多業(yè)務(wù)實(shí)時(shí)動(dòng)態(tài)資源調(diào)整的要求。
目前虛擬機(jī)技術(shù)已日漸成熟,大多數(shù)主流的虛擬機(jī)廠家通過XEM、KVM等核心技術(shù)實(shí)現(xiàn)對(duì)硬件CPU、內(nèi)存資源的虛擬單元構(gòu)建,虛擬機(jī)技術(shù)主要包括以下四大特征:
可在單一物理服務(wù)器上同時(shí)運(yùn)行多個(gè)虛擬單元;
在同一物理硬件設(shè)備上的虛擬機(jī)之間相互隔離;
可將完整的虛擬單元都保存在文件中,通過移動(dòng)和復(fù)制這些文件的方式來移動(dòng)和復(fù)制該虛擬單元;
可屏蔽虛擬單元與底層物理硬件的關(guān)聯(lián),無需修改即可在任何服務(wù)器上平滑遷移。
虛擬化技術(shù)將物理資源轉(zhuǎn)化為便于切分的資源池,在設(shè)計(jì)理念上符合云計(jì)算的基本條件,具有通用的資源調(diào)度能力;但在通信領(lǐng)域的實(shí)際使用過程中,需要調(diào)度的資源不僅僅局限于虛擬單元本身,移動(dòng)運(yùn)營(yíng)商急需一種針對(duì)不同業(yè)務(wù)應(yīng)用進(jìn)行集中能力控制的解決方案,可以實(shí)時(shí)監(jiān)測(cè)全網(wǎng)多種業(yè)務(wù)流量動(dòng)態(tài),智能判斷各業(yè)務(wù)間的負(fù)荷關(guān)系,平衡硬件及虛擬單元的資源分配。
文章通過在虛擬機(jī)技術(shù)基礎(chǔ)上構(gòu)建業(yè)務(wù)調(diào)度模塊的方式彌補(bǔ)了虛擬機(jī)技術(shù)對(duì)通信業(yè)務(wù)控制層面的不足。調(diào)度中心與虛擬機(jī)管理系統(tǒng)配合完成調(diào)度的模型如圖2所示。
調(diào)度中心內(nèi)部可細(xì)分為四大功能模塊:
(1) 業(yè)務(wù)智能調(diào)度分析模塊:作為調(diào)度中心的核心處理模塊,根據(jù)實(shí)時(shí)監(jiān)控采集匯總的各業(yè)務(wù)運(yùn)行數(shù)據(jù),綜合分析當(dāng)前業(yè)務(wù)層處理能力情況,對(duì)各業(yè)務(wù)許可證進(jìn)行調(diào)節(jié)。在必要時(shí)可通過與虛擬機(jī)管理系統(tǒng)直接的交互申請(qǐng)空閑計(jì)算單元或釋放已占用冗余計(jì)算單元,通過自動(dòng)部署模塊式進(jìn)行業(yè)務(wù)快速加載、卸載,動(dòng)態(tài)調(diào)整業(yè)務(wù)許可證處理能力。同時(shí)該模塊還負(fù)責(zé)將業(yè)務(wù)節(jié)點(diǎn)的伸縮情況動(dòng)態(tài)通知到外圍接口分發(fā)設(shè)備(如:四層交換機(jī)、協(xié)議接口機(jī)設(shè)備等)。
(2) 實(shí)時(shí)處理能力采集模塊:通過與各業(yè)務(wù)處理之間的交互實(shí)現(xiàn)對(duì)各業(yè)務(wù)實(shí)時(shí)消息處理流量、數(shù)據(jù)庫資源占用要求、處理能力狀況等信息進(jìn)行采集。支持兩種采集模式:業(yè)務(wù)進(jìn)程定時(shí)上報(bào)模式,以及調(diào)度子系統(tǒng)發(fā)消息主動(dòng)驅(qū)動(dòng)采集模式。并將采集到的數(shù)據(jù)寫入調(diào)度分析庫,以便進(jìn)行智能調(diào)度策略分析。
(3) 自動(dòng)部署模塊:根據(jù)業(yè)務(wù)智能調(diào)度分析模塊的部署消息把指定的業(yè)務(wù)包加載到指定計(jì)算單元上或停止業(yè)務(wù)清理該計(jì)算單元上的業(yè)務(wù)包程序。
(4) 人機(jī)操作維護(hù):提供人機(jī)操作界面,一方面可對(duì)業(yè)務(wù)模塊運(yùn)行狀態(tài)進(jìn)行監(jiān)控,另一方面可提供人工手動(dòng)干預(yù)調(diào)度的功能。
調(diào)度中心通過上述的模塊化設(shè)計(jì)結(jié)構(gòu)與虛擬化管理平臺(tái)協(xié)同工作,可以真正實(shí)現(xiàn)對(duì)移動(dòng)通信領(lǐng)域業(yè)務(wù)處理的動(dòng)態(tài)調(diào)節(jié)和資源復(fù)用。具體調(diào)度過程如圖3所示。
通過對(duì)業(yè)務(wù)處理單元進(jìn)行實(shí)際業(yè)務(wù)量跟蹤監(jiān)測(cè),結(jié)合智能調(diào)度分析中心配置的調(diào)度策略與閥值,動(dòng)態(tài)進(jìn)行業(yè)務(wù)許可證的彈性伸縮控制。
智能調(diào)度分析策略可主要分為以下幾類[7-10]:
(1) 冗災(zāi)性調(diào)度策略:針對(duì)某一業(yè)務(wù)處理單元異常情況下,分析其他同類業(yè)務(wù)處理單元是否能夠分擔(dān)該業(yè)務(wù)節(jié)點(diǎn)的工作,在必要時(shí)申請(qǐng)新的虛擬計(jì)算單元接管原有業(yè)務(wù)處理,以確保系統(tǒng)穩(wěn)定運(yùn)行。
(2) 周期性休眠策略:根據(jù)業(yè)務(wù)流量的變化識(shí)別周期性調(diào)整要求,根據(jù)規(guī)律釋放、申請(qǐng)計(jì)算單元。為達(dá)到業(yè)務(wù)快速啟停切換的目的,釋放的計(jì)算單元可仍保留原業(yè)務(wù)程序,僅在狀態(tài)上實(shí)現(xiàn)休眠和激活,以節(jié)約能耗。
(3) 業(yè)務(wù)發(fā)展調(diào)整策略:根據(jù)業(yè)務(wù)發(fā)展的情況確定是否需要增加或減少計(jì)算資源的占用,并完成業(yè)務(wù)的自動(dòng)加載和卸載。
以上3種分析策略是由調(diào)度中心的核心部件——智能調(diào)度分析模塊予以實(shí)現(xiàn),該模塊負(fù)責(zé)根據(jù)監(jiān)測(cè)到的數(shù)據(jù)對(duì)虛擬資源進(jìn)行整體調(diào)控,為實(shí)現(xiàn)非人為干預(yù)的動(dòng)態(tài)調(diào)控需要通過一系列比對(duì)算法完成多項(xiàng)指標(biāo)的評(píng)測(cè),根據(jù)綜合評(píng)測(cè)結(jié)果發(fā)出資源調(diào)配指令[11]。為簡(jiǎn)化描述,文章僅給出一種通用計(jì)算模型:
(1) 采樣條件:
采樣時(shí)間間隔:1s。
(2) 采樣數(shù)據(jù):
當(dāng)前采樣點(diǎn)虛擬單元承載“業(yè)務(wù)類型1”處理許可證為:Llic;
當(dāng)前采樣點(diǎn)虛擬單元占用CPU為:Lcpu;
當(dāng)前采樣點(diǎn)虛擬單元占用內(nèi)存為:Lmemory;
當(dāng)前采樣點(diǎn)虛擬單元占用輸入輸出端口(I/O)資源:Lio。
上述參數(shù)在計(jì)算中所占權(quán)值分別為R1-R4,該權(quán)值表示不同類型的業(yè)務(wù)應(yīng)用在計(jì)算單元中占用的資源偏差[12]。例如,短消息服務(wù)中心(SMSC)業(yè)務(wù)處理服務(wù)器,我們采用以系數(shù){0.3, 0.3, 0.3, 0.1},這里認(rèn)為計(jì)算單元在承載SMSC業(yè)務(wù)時(shí)CPU占用、許可證處理及內(nèi)存較其他參數(shù)重要一些。若當(dāng)前的系數(shù)Ri(指R1-R4)不能很好地反映應(yīng)用的負(fù)載,可以對(duì)系數(shù)不斷地修正,直到找到貼近當(dāng)前應(yīng)用的一組系數(shù)[13-15]。
(3) 采樣值計(jì)算公式:
LOAD(Ni)= R1×Llic (Ni)+R2 × Lcpu(Ni )+R3× Lmemory(Ni)+R4 × Lio(Ni)
(4) 判斷周期及方法:
針對(duì)上述加權(quán)后的負(fù)載值,可通過多次連續(xù)取樣的方式進(jìn)行綜合判斷。關(guān)于采集權(quán)值的周期設(shè)置,雖然很短的周期可以更確切地反映各個(gè)計(jì)算單元的即時(shí)負(fù)載,但是很頻繁地采集會(huì)給調(diào)度中心和被檢測(cè)計(jì)算單元帶來負(fù)擔(dān),也可能增加不必要的網(wǎng)絡(luò)負(fù)荷[16]。為解決該問題可適當(dāng)?shù)卣{(diào)整采集負(fù)載信息的周期(建議可以在10~15 s);同時(shí)使用滑動(dòng)窗口來避免采樣數(shù)據(jù)的抖動(dòng)。
(5) 調(diào)度決策:
根據(jù)以上多次周期性采樣獲得的數(shù)據(jù)結(jié)合虛擬單元的負(fù)載區(qū)間進(jìn)行比對(duì),實(shí)現(xiàn)對(duì)計(jì)算單元負(fù)載的智能判斷并采取相應(yīng)的調(diào)度處理策略。
通過以上方案可切實(shí)解決移動(dòng)運(yùn)營(yíng)商建設(shè)可伸縮性業(yè)務(wù)平臺(tái)的要求,有效降低業(yè)務(wù)平臺(tái)的資本性支出(CAPEX)和運(yùn)營(yíng)成本(OPEX),減少投資浪費(fèi),獲取更大的利潤(rùn)空間。
3 結(jié)束語
在目前移動(dòng)通信網(wǎng)絡(luò)各業(yè)務(wù)平臺(tái)仍處于獨(dú)立建設(shè)的情況下,運(yùn)營(yíng)商在前期建設(shè)投資過程中往往都是根據(jù)預(yù)測(cè)的節(jié)假日最大業(yè)務(wù)量峰值評(píng)估規(guī)模,這樣即便峰值預(yù)估準(zhǔn)確也會(huì)造成投資的浪費(fèi)。同時(shí)如果低估了峰值出現(xiàn)配置不足的情況,則可能會(huì)導(dǎo)致直接拒絕超量用戶的業(yè)務(wù)請(qǐng)求。不僅被拒絕的用戶不可能帶來任何收益,而且由于業(yè)務(wù)服務(wù)感知差,致使用戶失去信心不會(huì)再次使用,造成用戶流失的嚴(yán)重后果。
如圖4所示,通過業(yè)務(wù)層的動(dòng)態(tài)調(diào)度結(jié)合虛擬化技術(shù)可使資源分配與實(shí)際業(yè)務(wù)量曲線趨于一致,規(guī)避上述兩種情況的發(fā)生。
文章中提出的“業(yè)務(wù)調(diào)度和虛擬化”是移動(dòng)通信網(wǎng)絡(luò)云化的一種可選方案,具備云計(jì)算思想的以下特征:
(1) 可按需獲取看似無限的計(jì)算資源,使云計(jì)算用戶不用在提供服務(wù)很久之前就要做計(jì)算資源的計(jì)劃。
(2) 消除了云用戶的事先投入,從而使業(yè)務(wù)可以從小規(guī)模做起,隨著需求增加來擴(kuò)展他們的硬件資源。
(3) 能夠以很短的時(shí)間為單位付費(fèi)按需使用計(jì)算資源,不需要的時(shí)候就將這些資源釋放。這樣,通過將閑置的機(jī)器和存儲(chǔ)器釋放來節(jié)省開支。
業(yè)務(wù)調(diào)度和虛擬化技術(shù)方案的提出為移動(dòng)通信產(chǎn)業(yè)的計(jì)算云落地提供了一種具體的解決思路和方法。相信在不久的將來,業(yè)務(wù)調(diào)度和虛擬化技術(shù)的解決方案會(huì)逐步成為移動(dòng)通信產(chǎn)業(yè)的主要建設(shè)模式。
4 參考文獻(xiàn)
[1] Armbrust m, Fox a, Griffith r,et al. Above the clouds: A Berkeley view of cloud computing[R]. UCB/EECS-2009-28. University of California at Berkeley, 2009.
[2] Washington post case study: Amazon Web services [EB/OL]. [2008-03-13].http://aws.amazon.com/solutions/ case-studies/washington-post.
[3]Amazon.com CEO Jeff Bezos on Animoto [EB/OL]. [2008-04-21].http://blog.animoto.com.
[4] Vouk M A. Cloud Computing-Issues, Research and Implementations[C]// Proceedings of the 30th International Conference on Information Technology Interfaces(ITI’08),Jun 23-26,2008, ?Dubrovnik, Croatia. Piscataway,NJ, USA: IEEE, 2008:31-40.
[5] BARROSO L A, HOLZLE U. The Case for Energy-Proportional Computing[J]. IEEE Computer,2007,40(12):33- 37.
[6] Bechtolsheim A. Cloud Computing and Cloud Networking. Talk at UC Berkeley[EB/OL]. [2008-08-10]. http://fi.consolidate-it.eu/tool_userfiles/file/CloudNeworkingQandA2008.
[7] 云計(jì)算的演進(jìn)和挑戰(zhàn)性問題(3).[EB/OL]. [2009-05-13].http:// www.cncloudcomputing.com/jinghua/182_3.html.
[8] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[C]// Proceedings of the 6th USENIX Symposium on Operation Systems Design and Implementation (OSDI'04), Dec 6-8, 2004, San Francisco, CA USA. Berkeley, CA, USA: USENIX Association,2003:10.
[9] BULKELEY W M. IBM, Google, Universities Combine ‘Cloud’ Foces[J].The Wall Street Journal,2007-10-08.
[10] Demers a j, Petersen k, Spreitzer m j,et al. The Bayou Architecture: Support for Data Sharing Among Mobile Users[C]// Proceedings of the 1st IEEE Workshop on Mobile Computing Systems and Applications (WMCSA’94), Dec 8-9,1994, Santa Cruz ,CA, USA. Los Alamitos,CA,USA:IEEE Computer Society, 1994: 2-7.
[11] Garfinkel s l. An evaluation of Amazon’s Grid Computing Services: EC2, S3 and SQS [R]. TR-08-07. Harvard University, 2007.
[12] Ghemawat s, Gobioff h, Leung s t,et al. The Google File System[C]// Proceedings of the 19th ACM SIGOPS Symposium on Operating Systems Principles (SOSP’03), Oct 19 - 22, 2003, Bolton Landing, NY, USA. New York, NY, USA: ACM, 2003: 29-43.
[13] Gray J. Distributed Computing Economics[M]. New York, NY, USA:ACM Press, 2008:63-68.
[14] Gray J, Patterson D. A Conversation with Jim Gray[M]. New York, NY, USA:ACM Press, 2003:8-17.
[15] HAMILTON J. Cost of Power in Large-Scale Data Centers [EB/OL]. [2009-05-13].http://perspectives.mvdirona.com/2008/11/28/CostOfPower.
[16] HAMILTON J. Internet-Scale Service Efficiency[C]. Proceedings of the 2nd Workshop on Large-scale Distributed Systems and Middleware (LADIS'08), Sep 15-17, 2008, Yorktown Heights, NY,USA. New York,NY,USA: ACM,2008.
收稿日期:2010-08-11
歐陽新志,南京理工大學(xué)計(jì)算機(jī)科學(xué)及應(yīng)用專業(yè)畢業(yè),現(xiàn)就職于中興通訊業(yè)務(wù)研究院消息類產(chǎn)品研發(fā)總工;主要研究業(yè)務(wù)運(yùn)營(yíng)融合業(yè)務(wù)云,曾從事語音、短信、WAP等項(xiàng)目的研發(fā)和市場(chǎng)方案推廣工作,對(duì)移動(dòng)增值業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)有多年的了解和研究。