
孫翠鋒(1979-),男,山東東營,本科,高級工程師,研究方向:云計算。
摘要:運營商IT云資源池主要用于承載運營商O域、B域、M域等應(yīng)用以及其他業(yè)務(wù)支撐系統(tǒng)。本文首先針對IT云資源進行了相關(guān)概述,并對目前IT云資源存在的問題進行分析,然后從機房配套和資源配置等多角度出發(fā),提出了多項節(jié)能增效的措施,希望能夠為相關(guān)工作人員提供一定的幫助。
關(guān)鍵詞:IT云資源;節(jié)能增效;方法
隨著IT系統(tǒng)的覆蓋面積不斷加大,IT云資源的規(guī)模也正在有效地擴大。以中國移動為例進行探討,截至2022年底,全國的IT云資源已經(jīng)部署超過40萬臺服務(wù)器,包含區(qū)域中心節(jié)點和省節(jié)點,并增長速度飛快。設(shè)置資源池不僅對整個機房的空間和電力資源提出了更加嚴格的要求,同時也對建設(shè)和運維的成本等造成了較大影響。目前,IT云資源池所存在的共性問題包括數(shù)據(jù)中心的PUE較高、設(shè)備在使用過程中整體利用率普遍偏低、省內(nèi)許多性能較低的服務(wù)器仍在運行中、服務(wù)器重復(fù)計算或大量的數(shù)據(jù)不斷地重復(fù)存儲等一系列的現(xiàn)象,而這些問題必然會影響企業(yè)的集約化發(fā)展。
隨著IT云集中化建設(shè)的持續(xù)推進,資源池的節(jié)能與效率問題愈加突出,急需尋找合理有效的解決方案。目前,我國正大力提倡節(jié)能減排,電信運營商作為推動全社會數(shù)字化轉(zhuǎn)型的重要力量,有責(zé)任和義務(wù)響應(yīng)國家號召,面對龐大的綠色化、數(shù)字化協(xié)同發(fā)展需求以及自身信息基礎(chǔ)設(shè)施能源需求旺盛的實際情況,不斷探索“雙碳”目標下的可持續(xù)發(fā)展策略,助力實現(xiàn)碳達峰碳中和目標。因此,研究IT資源池的節(jié)能具有非常重要的現(xiàn)實意義[1]。
一、IT云資源概述
以中國移動為例,中國移動IT云主要包括底層IDC基礎(chǔ)設(shè)施、云基礎(chǔ)設(shè)施層、云管理平臺和承載的各類業(yè)務(wù)系統(tǒng)等,如圖1所示。
目前,移動IT云已建設(shè)多個區(qū)域中心資源池節(jié)點和省級資源池節(jié)點,為IT系統(tǒng)提供端到端的服務(wù)保障,支撐上云業(yè)務(wù)穩(wěn)定運行。
(一)云管理平臺
云管理平臺實現(xiàn)了資源的統(tǒng)一調(diào)度和管理,包括對基礎(chǔ)設(shè)施平臺、計算資源、存儲資源、網(wǎng)絡(luò)資源等統(tǒng)一化管理以及動態(tài)化分配和管理,通過與云基礎(chǔ)設(shè)施層之間的服務(wù)接口交互,下發(fā)各種資源管理方面的指令,在滿足業(yè)務(wù)系統(tǒng)性能、可靠性、安全性的前提下,保證資源供給適合,并且平臺彈性充足。
(二)業(yè)務(wù)系統(tǒng)
IT云承載的業(yè)務(wù)系統(tǒng)主要包括運營商B域、O域和M域的業(yè)務(wù)系統(tǒng),包括辦公、經(jīng)分、電渠、客服、計費等,覆蓋運營商日常辦公、業(yè)務(wù)管理、流程管理等場景。
(三)云基礎(chǔ)設(shè)施層
云基礎(chǔ)設(shè)施層主要由遠端資源管理模塊和提供IT基礎(chǔ)性資源的各種軟件或硬件設(shè)備共同構(gòu)成。云基礎(chǔ)設(shè)施層通過虛擬化和分布式集群等一系列技術(shù)構(gòu)建出各種類型的IT資源,這些資源具備彈性供給、高可擴展等特點,能夠通過遠端資源管理模塊實現(xiàn)屬地運維。為了實現(xiàn)對多個資源池的有效管理,增強資源池的可靠性,擴大資源池的規(guī)模,每個資源池系統(tǒng)都需要由一個或一個以上的資源池節(jié)點來共同構(gòu)成,同時每個資源池的節(jié)點當中也包含一個或多個POD。
1.資源池節(jié)點
考慮到機房局址等一系列的建設(shè)情況,可以將其劃分成多個邏輯區(qū)域,每個資源池節(jié)點擁有獨立的數(shù)據(jù)中心基礎(chǔ)設(shè)施,包括網(wǎng)絡(luò)出口,任意一個資源池節(jié)點的失效都不會影響其他資源池節(jié)點的正常運轉(zhuǎn)。資源池節(jié)點之間選擇高速低延遲的方式來進行互連,以確保各分區(qū)之間的通信通暢。
2.POD
資源池節(jié)點中包含多個最小交付單元POD,每個POD都是以一組核心交換機為單位,包含大約1000~3000臺服務(wù)器,POD之間會通過二層或者三層網(wǎng)絡(luò)進行水平擴展,達到數(shù)萬臺服務(wù)器的規(guī)模。按照部署服務(wù)器的類型不同,也可以將其劃分成業(yè)務(wù)POD、存儲POD和管理POD等。業(yè)務(wù)POD的內(nèi)部部署了計算節(jié)點服務(wù)器,并使用SDN組網(wǎng),使得每個POD都單獨部署一套OpenStack模塊、SDN控制器和SDN轉(zhuǎn)發(fā)設(shè)備等。
二、IT云資源池節(jié)能問題分析
(一)機房環(huán)境方面
以中國移動為例,目前省內(nèi)資源池普遍存在能耗偏高、機房空間布局合理、機柜使用效率低等問題。此外,有的時候還存在某些業(yè)務(wù)明明已經(jīng)下線了,但是相關(guān)的設(shè)備卻仍然占用著機柜和電力資源的情況。
(二)云基礎(chǔ)設(shè)施使用方面
根據(jù)目前的情況來看,在實際應(yīng)用IT云資源時,存在著使用效率較低、云化程度比較低、資源分配不均勻、整體應(yīng)用不靈活等特點。除此之外,高耗能和低性能等問題設(shè)備仍然存在著比較高的占比。
(三)云管平臺方面
在運轉(zhuǎn)的過程中,云資源池缺乏智能化的運維手段,整體的自動化程度相對較低,應(yīng)用部署和資源監(jiān)控方面仍存在著各自為營的問題,沒有真正地形成一體化的運行系統(tǒng)。
(四)上層應(yīng)用方面
通過分析現(xiàn)狀可以發(fā)現(xiàn),IT云資源池建設(shè)的虛擬化發(fā)展比較緩慢,上層應(yīng)用微服務(wù)能力相對較弱,存在設(shè)備資源獨占、系統(tǒng)功能非常臃腫、系統(tǒng)之間的資源共享能力較差等問題,而這些問題必然會導(dǎo)致出現(xiàn)數(shù)據(jù)重復(fù)計算或數(shù)據(jù)重復(fù)存儲等現(xiàn)象。
基于此,本文針對IT云資源池在建設(shè)和應(yīng)用過程中存在的問題進行相應(yīng)地分析,并且提出針對性地節(jié)能和效率提升的辦法。
三、節(jié)能效率提升方法探討
(一)機房配套節(jié)能措施
1.選擇使用更加合理的空調(diào)送風(fēng)方式
目前,數(shù)據(jù)中心經(jīng)常使用的幾種空調(diào)送風(fēng)方式如下所示,分別是精密空調(diào)加地板下送風(fēng)、熱管背板空調(diào)、列間空調(diào)等。每種辦法適用于不同的場景中,可以根據(jù)資源池設(shè)備在部署時的具體情況來選擇合適的辦法,以此更好地提升整體的制冷效果,并達到節(jié)能的目的。
(1)精密空調(diào)加地板下送風(fēng)
這種方法的優(yōu)點在于空調(diào)風(fēng)量非常大,整體的送風(fēng)速度非常均勻,能夠有效地隔離模塊內(nèi)外冷熱通道的氣流,管控冷量,避免出現(xiàn)氣流短路的問題,并且制冷效率較高。這種辦法非常適合使用在整體的空間設(shè)備布局比較均衡的地方。
(2)熱管背板空調(diào)
相較于上一種方式來看,這種空調(diào)會更加趨近于熱源制冷,能夠有效地吸收設(shè)備在運轉(zhuǎn)過程中產(chǎn)生的各種熱量,并且制冷效果非常好。然而,這種空調(diào)需要在機柜的背面安裝上冷卻盤,在無形中增加了整體深度,額外占用了一定的空間。此外,對于大功率設(shè)備的機柜進行制冷時,整體的效果不是非常好,因此。這種空調(diào)更加適合使用在單機柜裝機密度較低的地方。
(3)列間空調(diào)
這種空調(diào)輸送氣體時整體的距離非常短且相應(yīng)的功率較小,屬于一種近距離的送風(fēng)方式。在進行制冷時,這種空調(diào)能夠有效地減少資源損耗,并降低PUE值,非常適合使用在整體密度較高的云資源池機房中。
2.機房配套輔助節(jié)能措施
根據(jù)不同的環(huán)境條件,在選擇使用了合適的空調(diào)送風(fēng)辦法之后,還可以選擇利用以下幾種輔助的辦法提升節(jié)能效果。
首先,適當?shù)靥嵘龣C房的溫度參數(shù)值。在允許范圍之內(nèi),可以適當?shù)卣{(diào)節(jié)空調(diào)的回風(fēng)溫度。在此過程中,冷通道的溫度可以更加接近機房溫度的最高上限需求,從而降低空調(diào)的總體送冷量,減少能源消耗。
其次,機房的熱回收。在機房中安裝熱回收裝置,對設(shè)備所產(chǎn)生的各種熱能進行有效的應(yīng)用,以此達到節(jié)能的目標。
3.優(yōu)化機房的空間布局
在進行業(yè)務(wù)遷移時,還需要根據(jù)新制定的各種相關(guān)規(guī)范,對老舊機房進行改造,并對整個空間布局進行相應(yīng)地優(yōu)化,以提升整體機房在運轉(zhuǎn)過程中的裝機率,充分地利用有限的空間,有效地降低建設(shè)成本。同時,還需要加快下線各種老舊設(shè)備,對于已經(jīng)下線了的設(shè)備,需要及時地申請報廢處理,把空間騰退出來。
(二)優(yōu)化資源池的配置以及使用
1.優(yōu)化資源池的配置
隨著X86服務(wù)器性價比不斷提升,可以優(yōu)化當前資源池的配置,淘汰已經(jīng)落后的產(chǎn)能,更換高耗能設(shè)備;不斷提升X86物理機和虛擬化的具體使用比例,逐漸替換拓展性較差的傳統(tǒng)存儲;選擇使用更加高性能的X86服務(wù)器,更新性能較差的老舊服務(wù)器,減少在網(wǎng)X86服務(wù)器的數(shù)量,降低能源損耗;選擇合理的服務(wù)器模型,避免出現(xiàn)高配低用的現(xiàn)象;適當?shù)財U大國產(chǎn)高性能X86服務(wù)器的使用比例,不斷地降低設(shè)備投資成本。除此之外,還可以結(jié)合應(yīng)用過程中的具體情況,選擇引進定制化的服務(wù)器,從而提升整體的使用效率。
2.提高虛擬化的比例
通過分析IT云資源池在使用過程中的具體情況可以發(fā)現(xiàn),物理服務(wù)器的資源在應(yīng)用過程中整體呈現(xiàn)效率比較低下的狀態(tài)。因此,需要不斷地擴大虛擬機的使用范圍,更好地提升其占比,有效地減少物理服務(wù)器配置數(shù)量,從而實現(xiàn)資源池節(jié)能。
3.引入智能節(jié)能的手段
利用智能化的手段可以實時監(jiān)控業(yè)務(wù)運行過程中的設(shè)備利用情況,在不影響業(yè)務(wù)運行前提下,對于服務(wù)器中的耗能組件或CPU等進行相應(yīng)地調(diào)節(jié),通過降低一部分器件所產(chǎn)生的頻率和電壓等,以達到降低設(shè)備功耗的目的。
(三)建設(shè)智能化的云管平臺
1.資源按需分配,并且完成動態(tài)化調(diào)整
資源池管理平臺應(yīng)當提升整體監(jiān)控能力,根據(jù)業(yè)務(wù)規(guī)律和設(shè)備的具體使用情況,對設(shè)備進行靈活部署,避免出現(xiàn)資源閑置。
除此之外,還需要選擇引入彈性伸縮服務(wù),根據(jù)預(yù)先已經(jīng)設(shè)定好的策略,對所需要的資源進行相應(yīng)地調(diào)整和計算。當業(yè)務(wù)需求量較高時,應(yīng)當增加云主機;當業(yè)務(wù)量有所下降時,應(yīng)當收回云主機。通過自動化的辦法能夠更好地提升資源的使用效率,減少過度分配而導(dǎo)致的浪費問題。
2.閑置資源的自動回收
通過設(shè)置閾值實時監(jiān)控服務(wù)器的CPU、內(nèi)存等在使用過程中的具體效率,同時及時回收長期低于使用率閾值的設(shè)備,實行一月一回收、一月一通報的機制,形成常態(tài)化的資源回收工作規(guī)范,從而提高資源回收效率。
3.無主資源的自動回收
“黑洞服務(wù)器”指資源池內(nèi)無人認領(lǐng)的僵尸資源,“黑洞資源池”用于遷移疑似“黑洞服務(wù)器”,定期將沒有業(yè)務(wù)運行狀態(tài)數(shù)據(jù)(如CPU計算、數(shù)據(jù)讀取、網(wǎng)絡(luò)流量等)以及無人認領(lǐng)的服務(wù)器納入“黑洞服務(wù)器”清單;對“黑洞服務(wù)器”清單進行分析,將“黑洞服務(wù)器”遷移至“黑洞資源池”;定期釋放“黑洞資源池”宿主機資源,并進行資源回收。
(四)上層應(yīng)用節(jié)能措施
1.對于上層應(yīng)用功能進行瘦身處理
通過有效地完成上層軟件平臺功能的瘦身以及及時更換低效的系統(tǒng),避免傳統(tǒng)的只建不拆的弊端,直接下線沒有使用意義的資源,以此有效地實現(xiàn)節(jié)能。
2.應(yīng)用平臺整合并且推動中臺建設(shè)
通過分析上層應(yīng)用的數(shù)據(jù)結(jié)構(gòu)、沉淀業(yè)務(wù)的共性能力以及建設(shè)業(yè)務(wù)中臺,可以更好地完成數(shù)據(jù)的共享,整合上層平臺,避免出現(xiàn)重復(fù)開發(fā)同樣功能的現(xiàn)象,減少上層應(yīng)用的資源使用量,達到節(jié)能的目的。
四、結(jié)束語
綜上所述,IT云資源池的節(jié)能增效是一項系統(tǒng)性的工程,必須進行全局統(tǒng)籌和有效管理,從多個角度出發(fā),搭建更加適合資源池運轉(zhuǎn)的環(huán)境,并且完成相應(yīng)的設(shè)備選型,引入智能化運維手段,優(yōu)化上層應(yīng)用,提升設(shè)備的使用效率,避免出現(xiàn)設(shè)備資源的浪費,以此來達到更好的節(jié)能效果。運營商的角色應(yīng)當將過去的能源消費者轉(zhuǎn)變?yōu)槲磥淼南M者、生產(chǎn)者和使能者,在實現(xiàn)自身碳中和的同時,賦能社會減排。
作者單位:孫翠鋒 阮前 王占強 劉世哲 中國移動通信集團信息技術(shù)中心
參" 考" 文" 獻
[1]李紅雙,孫淳曄,趙秋爽.運營商IT云資源池節(jié)能及效率提升方法研究[J].廣東通信技術(shù),2022,42(2):21-23,38.
[2]雷中鋒,王樹平,崔童,等.基于云計算的運營商業(yè)務(wù)平臺資源池設(shè)計研究[J].數(shù)字通信世界,2023(02):46-49.
[3]張延彬,張誌,岳思思.私有云資源池網(wǎng)絡(luò)應(yīng)用實踐[J].網(wǎng)絡(luò)安全和信息化,2019(11):84-87.
[4]聶元丁.基于云計算的國家級氣象資源池設(shè)計與建設(shè)[J].計算機技術(shù)與發(fā)展,2018(12):132-136.