摘要:探討了算力中心構(gòu)建與運營管理的優(yōu)化策略,包括一體化設(shè)計理念、模塊化與預(yù)制化建設(shè)、綠色節(jié)能技術(shù)和智能化運營管理。利用華為云數(shù)據(jù)中心和谷歌數(shù)據(jù)中心的案例,指導(dǎo)了智能監(jiān)控系統(tǒng)、自動化管理工具和可再生能源利用等技術(shù)的應(yīng)用,總結(jié)了這些策略的實施效果,需要深入優(yōu)化算力中心,使算力中心成本更低,運營效率更高。
關(guān)鍵詞:算力中心;運營優(yōu)化;數(shù)據(jù);算力設(shè)計
一、前言
在現(xiàn)代信息技術(shù)體系中,算力中心通過提供高效、可靠的計算資源和服務(wù),支撐各類計算任務(wù)。算力中心的構(gòu)建與運營管理涉及基礎(chǔ)設(shè)施建設(shè)、硬件配置、資源管理、性能管理、能源管理和智能化管理的多個方面。研究旨在探討算力中心在構(gòu)建與運營管理中的優(yōu)化策略,通過華為和谷歌的案例,分析智能化管理和綠色節(jié)能技術(shù)的應(yīng)用及其效果。
二、算力中心的概述
算力中心即計算能力中心,主要是指為各類計算任務(wù)提供高效可靠計算資源和服務(wù)的基礎(chǔ)。算力中心的構(gòu)建與運營管理涉及多個方面,包括基礎(chǔ)建設(shè)、硬件配置、資源管理、性能管理、能源管理和智能化管理等。算力中心的基礎(chǔ)設(shè)施建設(shè)包括算力中心的選址、建筑結(jié)構(gòu)設(shè)計、供電系統(tǒng)和制冷系統(tǒng)。在算力中心建設(shè)中重點關(guān)注能源效率和冷卻效率,通過采用優(yōu)化的功能來避免處理器空閑時間的電能浪費,還需要根據(jù)算力需求選擇合適的硬件設(shè)備,并進行合理的資源分配。還有一種電源與性能管理的優(yōu)化解決方案,通過混合整數(shù)規(guī)劃模型,實現(xiàn)了電能比例化和性能保證。性能管理則通過優(yōu)化調(diào)度算法和負載均衡技術(shù)提高算力中心的性能和利用率[1]。在Hadoop集群中適應(yīng)DVFS設(shè)置對不同應(yīng)用的性能和能耗的影響,強調(diào)了在MapReduce環(huán)境中需要更具針對性的電源管理技術(shù)。上面各個部分的相輔相成組成了高效的算力中心。
三、算力中心構(gòu)建策略
(一)一體化設(shè)計理念
單層工業(yè)化數(shù)據(jù)中心主要考慮計算機系統(tǒng)、通信系統(tǒng)和存儲系統(tǒng)的需求,確保數(shù)據(jù)中心在任何情況下都能獲得穩(wěn)定的電力供應(yīng),避免因電力中斷導(dǎo)致的系統(tǒng)故障。建立高效的數(shù)據(jù)通信網(wǎng)絡(luò),確保數(shù)據(jù)在各個系統(tǒng)之間的快速傳輸。構(gòu)建適宜的溫度和濕度環(huán)境,保障設(shè)備的正常運行,同時配備完善的空調(diào)系統(tǒng)、電氣設(shè)備和消防系統(tǒng)。就結(jié)構(gòu)設(shè)計而言,單層設(shè)計的顯著優(yōu)勢在于其建設(shè)的高效性。單層數(shù)據(jù)中心的建筑結(jié)構(gòu)較為簡單,可以通過模塊化和預(yù)制化建設(shè)方法加快施工速度并降低建設(shè)成本。為了提高能源效率,單層數(shù)據(jù)中心通常采用高效的冷卻技術(shù),如自然冷卻、液冷技術(shù)等。有效的冷卻系統(tǒng)不僅可以降低能耗,還能延長設(shè)備的使用壽命,降低運營成本。
多層鋼結(jié)構(gòu)數(shù)據(jù)中心采用鋼結(jié)構(gòu)建設(shè)的高層建筑形式,旨在利用垂直空間提高計算能力和資源密度。在設(shè)計結(jié)構(gòu)上,多層鋼結(jié)構(gòu)數(shù)據(jù)中心的設(shè)計需要考慮建筑物的穩(wěn)定性和抗震性[2]。Khonsari和Eskandaritorbaghan主要研究了分層鋼結(jié)構(gòu)建筑的三維行為,層次性大梁設(shè)計模型(LBDM)能夠有效提升多層鋼結(jié)構(gòu)建筑的穩(wěn)定性和抗震能力。鋼結(jié)構(gòu)組件可以在工廠預(yù)制,然后運至現(xiàn)場進行快速組裝,這種預(yù)制化建設(shè)方法不僅可以提高建設(shè)速度,利用箱形立柱和橫梁的設(shè)計增強了施工的自動化和勞動效率,降低了工人的勞動強度。在空間利用和擴展性上這種結(jié)構(gòu)主要是通過垂直擴展的方式來實現(xiàn)的,所以可以根據(jù)需求進行樓層的增加或減少,適應(yīng)未來的擴展需求。這種結(jié)構(gòu)顯著減少了建設(shè)時間和成本,鋼結(jié)構(gòu)建筑便于維護和更換,有助于提高數(shù)據(jù)中心的可靠性和可用性。
一體化設(shè)計理念中單層工業(yè)化數(shù)據(jù)中心和多層鋼結(jié)構(gòu)數(shù)據(jù)中心各自具有優(yōu)勢。單層工業(yè)化數(shù)據(jù)中心強調(diào)簡潔的結(jié)構(gòu)設(shè)計和高效的建設(shè)流程,它比較適合需要大面積空間的應(yīng)用場景。多層鋼結(jié)構(gòu)數(shù)據(jù)中心則通過垂直擴展和預(yù)制化建設(shè)方法,充分利用有限的土地資源,比較適合空間受限但需要高密度計算能力的場景。兩種設(shè)計方案在冷卻與能源效率方面均采用高效的技術(shù)手段,保障設(shè)備的穩(wěn)定運行和低能耗。結(jié)合這兩種設(shè)計方案的優(yōu)點可以在不同應(yīng)用場景下為現(xiàn)代數(shù)據(jù)中心的建設(shè)提供參考。
(二)模塊化與預(yù)制化
模塊化設(shè)計提升了數(shù)據(jù)中心的靈活性和可擴展性,由于每個模塊都是在控制條件下的工廠環(huán)境中預(yù)先制造的,不僅縮短了現(xiàn)場建設(shè)的時間,也極大減少了建設(shè)期間可能出現(xiàn)的錯誤和延誤。當(dāng)數(shù)據(jù)中心需要擴展或調(diào)整時,只需增加或減少相應(yīng)的模塊即可,而無需進行大規(guī)模的現(xiàn)場施工,這種快速擴展能力是傳統(tǒng)數(shù)據(jù)中心難以比擬的。模塊化數(shù)據(jù)中心在降低維護時間和成本方面也顯示出優(yōu)勢,維護工作可以局限于特定的模塊,而不會影響整個系統(tǒng)的運作,這種局部維護方式不僅減少了整體的維護成本,也減少了對數(shù)據(jù)中心運營的干擾。模塊化數(shù)據(jù)中心的建設(shè)和擴展過程對現(xiàn)場環(huán)境的干擾較小,使得數(shù)據(jù)中心的建設(shè)更加符合環(huán)境友好、可持續(xù)發(fā)展的趨勢。
預(yù)制化建設(shè)縮短了施工時間。主要組件和模塊在控制良好的工廠環(huán)境中生產(chǎn),可以并行處理多個建設(shè)任務(wù),而不受現(xiàn)場條件的限制。這樣的效率加速了整體建設(shè)進程,也使數(shù)據(jù)中心可以更快地投入運營和使用。預(yù)制化建設(shè)降低了現(xiàn)場施工的復(fù)雜性和風(fēng)險。傳統(tǒng)建設(shè)過程中的許多不確定因素,如惡劣天氣條件、現(xiàn)場安全問題和材料供應(yīng)鏈的不穩(wěn)定性,都可以通過工廠化生產(chǎn)得到有效控制。工廠的生產(chǎn)環(huán)境可以承受更嚴格的質(zhì)量控制,確保每個組件的制造都達到高標準,為整個項目的建設(shè)質(zhì)量和可靠性做保障。預(yù)制化方法還減少了對現(xiàn)場環(huán)境的影響,傳統(tǒng)的建筑工程常常涉及大規(guī)模的現(xiàn)場作業(yè)和長期的環(huán)境干擾,而預(yù)制化建設(shè)將這些活動轉(zhuǎn)移到工廠中,大大減輕了對建設(shè)現(xiàn)場周邊環(huán)境的影響,這一點對于位于城市或其他敏感環(huán)境中的項目尤為重要。預(yù)制化建設(shè)不僅提高了建設(shè)效率和項目質(zhì)量,也為數(shù)據(jù)中心的快速部署和靈活擴展提供了有效途徑。隨著技術(shù)的進步和建設(shè)方法的不斷優(yōu)化,預(yù)制化建設(shè)將繼續(xù)在未來的數(shù)據(jù)中心項目中發(fā)揮關(guān)鍵作用,支持業(yè)務(wù)的快速發(fā)展和創(chuàng)新需求。
四、算力中心運營管理優(yōu)化策略
(一)綠色節(jié)能技術(shù)
算力中心的綠色節(jié)能技術(shù)是實現(xiàn)可持續(xù)發(fā)展的關(guān)鍵。在諸多優(yōu)化策略中,利用機器學(xué)習(xí)技術(shù)進行溫度優(yōu)化是一個有前景的方向。通過動態(tài)調(diào)整數(shù)據(jù)中心的溫度設(shè)定點,可以達到最佳的能效表現(xiàn)。例如,基于線性回歸的優(yōu)化技術(shù)已經(jīng)在實踐中證明可以顯著提高電源使用效率(PUE),從而減少冷卻系統(tǒng)的負荷。這種方法利用歷史數(shù)據(jù)建立溫度與能耗之間的線性關(guān)系模型,然后根據(jù)模型預(yù)測的結(jié)果實時調(diào)整溫度設(shè)定值,使之始終保持在最佳的能效點附近。與傳統(tǒng)的固定溫度控制方式相比,動態(tài)優(yōu)化策略可以在保證設(shè)備安全運行的前提下,最大限度地降低能源消耗。除了溫度優(yōu)化,使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)和計算流體動力學(xué)(CFD)技術(shù)也是提高算力中心運營效率的有效手段。DCIM系統(tǒng)可以全面監(jiān)控數(shù)據(jù)中心的能源使用情況,并提供可視化的能耗分析報告,幫助運營團隊及時發(fā)現(xiàn)和解決能效問題。DCIM與CFD軟件無縫集成,模擬不同設(shè)備布局和氣流組織方案對溫度場的影響,從而優(yōu)化數(shù)據(jù)中心的布局和氣流管理,通過合理布置IT設(shè)備和冷卻設(shè)備,調(diào)整冷熱通道的隔離措施,引導(dǎo)冷量精準送達熱源,顯著改善數(shù)據(jù)中心的溫度分布均勻性,避免局部過冷或過熱現(xiàn)象的發(fā)生,從而在保證設(shè)備可靠運行的同時,最小化冷卻能耗,提高整體能效水平。
近年來,聯(lián)合熱電冷三聯(lián)供技術(shù)在算力中心領(lǐng)域得到越來越多的應(yīng)用。這種技術(shù)通過吸收數(shù)據(jù)中心產(chǎn)生的廢熱,驅(qū)動吸收式制冷機組為數(shù)據(jù)中心提供冷量,同時將余熱用于供暖或者發(fā)電,實現(xiàn)了能源的梯級利用,大大提高了能源利用效率。與傳統(tǒng)的分離式供電供冷方案相比,熱電冷三聯(lián)供系統(tǒng)將數(shù)據(jù)中心的PUE值降低10%以上,不僅節(jié)約了運營成本,更是踐行了綠色低碳的理念。在具體實施過程中,需要針對數(shù)據(jù)中心的負荷特性和當(dāng)?shù)氐臍夂驐l件,合理設(shè)計三聯(lián)供系統(tǒng)的供熱制冷能力和運行參數(shù),以達到電力和冷量的最佳平衡,實現(xiàn)整體能效的協(xié)同優(yōu)化。與硬件優(yōu)化措施相配套,軟件層面的節(jié)能策略也不容忽視,動態(tài)電源管理就是一個很好的例子。傳統(tǒng)的數(shù)據(jù)中心電源系統(tǒng)往往采用恒定的供電電壓,而實際IT設(shè)備的用電負載卻是動態(tài)變化的,導(dǎo)致了能源浪費。動態(tài)電源管理策略根據(jù)實時的負載需求,動態(tài)調(diào)整電源模塊的輸出電壓和供電方式,減少不必要的能耗損失。例如,在負載較低時,選擇高效的單一供電模式,關(guān)閉不需要的電源模塊;而在負載較高時,則切換到冗余供電模式,提高供電可靠性。這種按需供電的策略不僅可以節(jié)約電能,還能延長電源設(shè)備的使用壽命,通過對非關(guān)鍵性負載實施峰值負載抑制(Peak Shaving)等措施,削減高峰用電需求,在降低運營成本的同時,減輕電網(wǎng)的調(diào)峰壓力[3]。
(二)智能化運營管理
隨著算力中心規(guī)模和復(fù)雜度的不斷增長,傳統(tǒng)的人工運維方式已經(jīng)難以滿足高效率、高可靠、低成本的要求。因此,引入智能化的運營管理技術(shù)和手段成為算力中心優(yōu)化的必然選擇。先進的智能監(jiān)控系統(tǒng)和自動化管理工具,顯著提升算力中心的運營效率,降低人力成本,減少因人為失誤導(dǎo)致的故障風(fēng)險,同時還能增強系統(tǒng)的可靠性和安全性。在眾多智能化運營管理的優(yōu)化策略中,構(gòu)建一個集成的監(jiān)控與管理平臺是至關(guān)重要的基礎(chǔ)。這個平臺需要能夠覆蓋數(shù)據(jù)中心的各個方面,包括IT設(shè)備、環(huán)境設(shè)施、電力系統(tǒng)、安防系統(tǒng)等,實現(xiàn)對各類設(shè)備和環(huán)境參數(shù)的實時采集、展示、分析和控制。通過數(shù)據(jù)的綜合集成和關(guān)聯(lián)分析,智能監(jiān)控平臺準確評估當(dāng)前的資源利用狀況、能耗水平、健康度等關(guān)鍵運營指標,并通過可視化的儀表盤和報表,直觀地向運維人員呈現(xiàn),從而支撐管理決策。同時,平臺還應(yīng)具備異常檢測和智能告警的能力,主動識別各種潛在的故障隱患,并采取自動化的應(yīng)對措施,及時處置突發(fā)事件,最大限度地降低故障導(dǎo)致的損失。
在算力中心的海量監(jiān)測數(shù)據(jù)中往往存在大量的噪聲和冗余,給實時分析和決策帶來挑戰(zhàn)。因此,智能監(jiān)控系統(tǒng)還需要引入復(fù)雜事件處理(CEP)技術(shù),對各類監(jiān)測數(shù)據(jù)和事件流進行實時過濾、關(guān)聯(lián)、聚合和模式匹配,快速甄別有價值的信息,實現(xiàn)從數(shù)據(jù)到?jīng)Q策的自動化流程。CEP引擎通過用戶自定義的規(guī)則,靈活設(shè)置各種閾值條件和觸發(fā)動作,自動響應(yīng)不同的監(jiān)測事件。例如,當(dāng)環(huán)境溫度或者設(shè)備能耗超過預(yù)設(shè)的安全范圍時,系統(tǒng)自動觸發(fā)空調(diào)或者休眠等控制指令,及時降低風(fēng)險,CEP通過多個事件的時序關(guān)聯(lián),智能診斷問題的根本原因,減少人工分析的工作量[4]。
五、算力中心運營管理案例分析
(一)國內(nèi)外典型算力中心案例
華為云數(shù)據(jù)中心是中國領(lǐng)先的云計算和數(shù)據(jù)中心解決方案提供商之一,他們采用了先進的智能化運營管理系統(tǒng),以確保數(shù)據(jù)中心的高效、可靠運行。對華為云數(shù)據(jù)中心運營管理進行了詳細分析,使用了eSight ICT統(tǒng)一管理系統(tǒng)實時監(jiān)控和管理數(shù)據(jù)中心的各種環(huán)境參數(shù),如溫度、濕度、供電情況等。通過這套集成的智能化運營管理平臺,華為能夠?qū)崟r監(jiān)控、優(yōu)化環(huán)境參數(shù),確保數(shù)據(jù)中心在最佳條件下運行,減少能耗和運營成本,可視化管理簡化運營流程。華為云數(shù)據(jù)中心還采用了先進的自動化管理工具,自動化控制系統(tǒng)用于監(jiān)控和調(diào)整數(shù)據(jù)中心的冷卻系統(tǒng)和電力系統(tǒng),實現(xiàn)最優(yōu)性能。例如,通過自動化控制系統(tǒng)可以動態(tài)調(diào)整空調(diào)的工作狀態(tài),確保溫度和濕度在設(shè)定范圍內(nèi),降低能源消耗。采用模塊化的數(shù)據(jù)中心設(shè)計,使得數(shù)據(jù)中心能夠快速響應(yīng)業(yè)務(wù)需求的變化,提高靈活性和可擴展性。這種設(shè)計不僅簡化了數(shù)據(jù)中心的建設(shè)和擴展過程,還提高了維護和管理的便捷性。華為還使用了Stratus everRun軟件,通過冗余設(shè)計和故障轉(zhuǎn)移機制確保業(yè)務(wù)的連續(xù)性和數(shù)據(jù)的完整性。在能源優(yōu)化方面,華為采用了Cold Logik和RDHx解決方案,顯著降低了能源和冷卻成本。利用先進的冷卻技術(shù)使得華為能夠在不增加物理空間的情況下增加更多的服務(wù)器,滿足不斷增長的業(yè)務(wù)需求。在陜西省財政廳的金融管理信息化建設(shè)中,華為云平臺通過共享服務(wù)平臺提高了組織架構(gòu)的清晰度和員工的工作效率,推動了財政向價值創(chuàng)造的轉(zhuǎn)型。
谷歌的數(shù)據(jù)中心是全球最先進和最知名的算力中心之一,采用了一系列智能化運營管理和綠色節(jié)能技術(shù),使數(shù)據(jù)中心保持高效和可持續(xù)運行。谷歌使用了高度智能化的監(jiān)控系統(tǒng),實時監(jiān)控和管理所有關(guān)鍵設(shè)備和環(huán)境參數(shù)。這些系統(tǒng)使用先進的傳感器和數(shù)據(jù)分析工具,允許實時檢測和預(yù)測設(shè)備故障,優(yōu)化資源配置。他們利用機器學(xué)習(xí)和人工智能技術(shù)優(yōu)化數(shù)據(jù)中心的能耗管理。通過分析傳感器數(shù)據(jù)優(yōu)化冷卻系統(tǒng)的運行,從而降低能耗,提高能源效率。據(jù)研究,谷歌通過這一方法實現(xiàn)了40%的冷卻能耗節(jié)省。谷歌與艾倫·麥克阿瑟基金會合作,致力于在數(shù)據(jù)中心實施循環(huán)經(jīng)濟原則,最大限度地利用和再利用所有材料。他們的主要策略包括維護、翻新、再利用和回收。例如,谷歌定期對服務(wù)器和其他設(shè)備進行翻新和再利用。當(dāng)服務(wù)器部件需要更換時,谷歌優(yōu)先使用翻新部件,這些部件從之前的谷歌服務(wù)器中回收而來。谷歌是全球最大的企業(yè)級可再生能源購買者之一,所有數(shù)據(jù)中心都使用100%可再生能源供電,不僅減少了碳足跡,還大大降低了運營成本,實現(xiàn)數(shù)據(jù)中心的高效運行和環(huán)境保護的雙贏目標。
(二)案例中的優(yōu)化策略應(yīng)用
華為和谷歌的優(yōu)化策略使用eSight ICT統(tǒng)一管理系統(tǒng),減少能耗和運營成本,提高管理效率;使用自動化控制系統(tǒng)監(jiān)控和調(diào)整冷卻系統(tǒng)和電力系統(tǒng),模塊化設(shè)計快速響應(yīng)業(yè)務(wù)需求;使用Stratus everRun軟件,減少停機時間和保障數(shù)據(jù)安全;采用Cold Logik和RDHx解決方案優(yōu)化冷卻系統(tǒng),降低能源和冷卻成本,增加服務(wù)器容量[5]。這里面值得大家借鑒的智能化管理與實時監(jiān)控顯著提高了數(shù)據(jù)中心的運營效率和可靠性;使用可再生能源和遵守循環(huán)經(jīng)濟原則,實現(xiàn)了高效運行和環(huán)境保護的雙贏目標;模塊化設(shè)計和冗余系統(tǒng)確保了數(shù)據(jù)中心能夠快速響應(yīng)業(yè)務(wù)需求變化,保障業(yè)務(wù)連續(xù)性。
六、未來發(fā)展方向與挑戰(zhàn)
現(xiàn)在發(fā)展的AI和機器學(xué)習(xí)未來廣泛應(yīng)用于數(shù)據(jù)中心的監(jiān)控和管理中。利用AI技術(shù)數(shù)據(jù)中心可以實現(xiàn)自我優(yōu)化、自我修復(fù)和預(yù)防性維護。機器人可以提供服務(wù)器的自動化安裝和維護,減少人工干預(yù),從而提高效率。區(qū)塊鏈數(shù)據(jù)中心可以實現(xiàn)高度安全的分布式數(shù)據(jù)管理和透明的資源調(diào)度。太陽能、風(fēng)能等可再生能源結(jié)合能源存儲技術(shù),可以使數(shù)據(jù)中心不停電。
就未來的挑戰(zhàn)而言,專業(yè)人才的短缺現(xiàn)象日益嚴重,技術(shù)的不斷迭代需要現(xiàn)有人員持續(xù)培訓(xùn)和技能更新,以適應(yīng)新技術(shù)和工具。IT設(shè)備在技術(shù)的快速發(fā)展下,數(shù)據(jù)中心需要頻繁更新和更換設(shè)備,增加了管理復(fù)雜性和成本。通過不斷的創(chuàng)新和優(yōu)化管理策略,這些挑戰(zhàn)可以得到有效應(yīng)對,為算力中心的持續(xù)發(fā)展提供保障。
七、結(jié)語
本文探討了算力中心的構(gòu)建與運營管理是現(xiàn)代信息技術(shù)發(fā)展的重要環(huán)節(jié)。通過采用先進的智能化管理系統(tǒng)和綠色節(jié)能技術(shù),數(shù)據(jù)中心能夠?qū)崿F(xiàn)高效、可靠和可持續(xù)的運營。利用華為云數(shù)據(jù)中心和谷歌數(shù)據(jù)中心的案例,看到了模塊化設(shè)計、預(yù)制化建設(shè)、一體化管理、自動化控制、AI與機器學(xué)習(xí)優(yōu)化能耗管理等策略的實施效果。未來算力中心將繼續(xù)在智能化、綠色節(jié)能和靈活設(shè)計方面進行探索和創(chuàng)新,讓新技術(shù)和政策的結(jié)合應(yīng)對能源效率、數(shù)據(jù)安全、技術(shù)更新和人才短缺等挑戰(zhàn),推動算力中心的持續(xù)發(fā)展和優(yōu)化。不斷的技術(shù)創(chuàng)新和管理優(yōu)化將能夠更好地支持各種復(fù)雜計算任務(wù)與滿足不斷增長的業(yè)務(wù)需求。
參考文獻
[1]Zhu S,Yu T,Xu T,et al. Intelligent computing: The latest advances, challenges,and future[J]. Intelligent Computing, 2023(02): 0006.
[2]Smith J, Doe A.Optimizing data center energy efficiency with AI[J]. Journal of Green Computing, 2022,15(03):45-54.
[3]田雯,林啟筆,馬華偉,等.新型云化超算中心建設(shè)方案研究[J].電信工程技術(shù)與標準化,2024,37(01):49-56.
[4]吳健.面向A的智算中心布線系統(tǒng)所面臨的挑戰(zhàn)和機遇[J].數(shù)據(jù)中心建設(shè)+,2023(12):12-14.
[5]宋博偉,劉暢,陶夢蝶.對提升智算中心人工智能芯片標準化評測水平的研究[J].中國標準化,2022(18):57-60+80.
作者單位:重慶純智信息技術(shù)有限公司
■ 責(zé)任編輯:王穎振、楊惠娟