王 青,李程貴,張建雪
(中國移動通信集團內蒙古有限公司,內蒙古 呼和浩特 010000)
數據中心的建設等級是評判數據中心高低重要的指標,目前國內外都制定了數據中心建設標準。美國電信產業協會制訂數據中心的通信基礎設施標準TIA-942,是國際上第一部較為全面的以數據中心為對象的技術規范標準,它為現代的機房建設提出了新的設計理念、系統構架與可靠度,將機房劃分為4個等級,分別為Tier Ⅳ、Tier Ⅲ、Tier Ⅱ以及Tier Ⅰ,級別越高越可靠。國內對于數據中心的等級評估主要分為3大類,一是由國家和政府發布的指導性認證標準,如GB 50174—2017《數據中心設計規范》,該標準將數據中心分為A、B、C三級;二是行業和協會組織推動的認證標準,如數據中心聯盟推動的《數據中心綠色分級評估標準》,該標準將數據中心綠色等級從低到高依次分為1A~5A級別;三是企業內部的評估認證標準,如三大運營商內部建設標準[1-3]。
根據《數據中心設計規范(GB 50174—2017)》、《TIA-942》等級標準細則,A級相當于Tier III或Tier IV,B級相當于Tier II,C級相當于Tier I。國際國內數據中心機房建設等級標準的主要性能如表1所示。

表1 數據中心機房建設等級標準表
數據中心冷源群控系統主要實現對數據中心冷源系統的集中實時監測和自動化管控,能夠有效降低冷源系統能耗以及人力成本,極大地提高工作效率。隨著數據中心建設規模越來越大,業界對于冷源群控系統的可靠性要求也越來越高[4]。無論國際標準還是國內標準,都要求數據中心機房建有冷源群控系統,但是對于數據中心冷源群控系統的設計、建設并沒有明確的標準。
數據中心冷源群控系統主要是對冷水機組、冷卻塔、水泵等設備進行信號采集和控制。系統主要由現場設備、控制器、系統網絡、軟件平臺構成。現場設備主要包括溫度、壓力、流量等各類傳感器。控制器的作用是將傳感器傳來的電信號轉換為可處理的數據,常用的控制器主要有DDC和PLC兩種。系統網絡主要是用于構建現場控制器通網絡。軟件平臺提供人機操作界面等。
目前數據中心冷源群控系統普遍存在兩方面痛點問題。
1.2.1 設計痛點
國內大型數據中心大多按照國內標準A級或國際標準Tier Ⅳ或Tier Ⅲ的要求進行設計,但冷源群控系統沒有相應的標準,各大數據中心通常是按照傳統的樓宇控制系統進行設計。因此,Tier Ⅳ或Tier Ⅲ等級的數據中心其冷源群控系統的可靠性可能僅僅達到Tier I或Tier II等級,控制系統的低可靠性極大地降低了數據中心整體的可靠性。
1.2.2 運行痛點
由于設計的不匹配,數據中心冷源群控系統在實際運行中存在多種運行的問題,故障率非常高,單一故障影響整個自控系統的運行,系統切換波動、系統電源不可靠、無法在線檢修更換部件等各類安全隱患問題,極大地降低了數據中心冷源系統的穩定運行。
控制系統本身故障導致的制冷中斷問題已經成為突出問題,業界亟需一套適用于數據中心的冷源群控系統建設標準方案,確保系統能夠合理部署,滿足自身業務需求的同時,減少不必要的成本浪費等問題[5]。本文提出了一種基于數據中心不同分級標準下的冷源群控系統分級方案,對于不同等級的數據中心有相應的群控系統標準建設方案,具有一定的實踐指導意義。
數據中心建設Tier I—Tier IV分級標準:Tier I滿足基本需求,沒有冗余部件,單一路徑;Tier II在Tier I的基礎上加入了備用設備,實現了部件的冗余;Tier III在Tier II的基礎上加入了環路保護,通過多條獨立路徑保障系統持續運行,實現了系統的在線維護;Tier IV在Tier III的基礎上采用兩套整體系統2N運行,使系統能夠具備容錯能力[6]。
基于上述數據中心分級標準,數據中心冷源群控系統的分級主要從系統的高可靠性和不間斷可維護性兩個角度,考慮系統的組件、網絡、功能3個方面提出了系統量化指標體系,建立了可滿足冷源群控系統可靠性高、中、低需求的冷源群控系統標準方案,如表2所示。
2.2.1 精簡型冷源群控系統
精簡型冷源群控系統能夠滿足基本需求,即實現對冷源系統的實時監控,系統架構示意如圖1所示。系統采用單路徑的交換機、服務器、控制器、I/O模塊、電源等,無冗余組件,單路供電,控制層網絡采用單一總線通,不支持雙點控制和無擾動切換[7]。
該方案存在單點故障,緊急情況下宕機概率高,系統操作或者系統自身故障可能造成制冷系統運行的中斷。該方案適用于Tier I數據中心冷源群控系統。
2.2.2 高性能型冷源群控系統
高性能型冷源群控系統在精簡型系統基礎上,交換機、服務器、控制器、I/O模塊等組件具備冗余,控制層網絡采用雙總線實現高性能。系統支持雙點控制功能,水泵、閥門、冷機等設備在控制器斷電情況下具備自保持功能,可靠性高于精簡型群控系統,系統架構如圖2所示。
該方案的組件具備冷備冗余,系統為單路供電,系統無法實現無擾動切換,因此該方案適用于Tier II數據中心冷源群控系統。
2.2.3 全冗余型冷源群控系統
全冗余型冷源群控系統是在高性能型系統基礎上,要求服務器、控制器采用冗余熱備系統,主、備系統同時運行,運行期間不會因為操作失誤、系統設備故障、電源中斷等導致冷源群控系統的中斷,同時控制層網絡采用環形總線實現高性能,采用雙路供電方式實現高可靠性供電。對水泵、閥門、冷機等設備系統具備雙點控制功能,能夠實現斷電自保持能力[8]。此外,系統具備服務器無擾動切換、網絡環路無擾動切換、變頻器及頻率無擾動切換、開關閥無擾動切換的能力,切換時無報警或信息/中斷丟失。當重要的系統設備或其他組件需要維護時,可實現系統不中斷,系統穩定性、可靠性相比前兩種方案更高。系統架構示意如圖3所示,該方案適用于Tier III、Tier IV數據中心冷源群控系統。

圖3 全冗余型冷源群控系統架構
以中國移動(呼和浩特)數據中心B03機房為例,建設標準已經達到國際標準Tier III級,然其冷源群控系統架構按照精簡型系統進行設計和建設,數據中心一期冷源群控系統架構如圖4所示。機房硬件配置與冷源群控系統等級不匹配,主要存在以下問題。
數據中心的機房建設已經達到國際標準Tier III級,要求系統容錯冗余配置,即在系統運行期間,不會因操作失誤、設備故障、外電源中斷、維護和檢修而導致系統運行中斷。但一期冷源群控系統無論從供電、控制器、I/O模塊、從站總線等都沒有冗余容錯配置,一旦發生故障,系統可能失控,存在極大的風險。如圖4所示,系統每個制冷單元僅配置1臺控制器、控制層采用單總線串行連接,當單臺控制器出現故障或者總線中斷,均可能導致制冷單元的控制失效以及制冷中斷,存在單點故障隱患。

圖4 數據中心一期冷源群控系統架構
數據中心一期冷源群控系統控制點輸出采用單DO控制,控制器一旦發生掉電,被控設備接收不到控制信號就會關閉,如水泵和電動閥門,被控設備無法狀態保持將可能導致整套制冷系統制冷中斷,影響業務。
針對B03機房冷源群控系統存在的問題,按照機房Tier III級設計標準,將其冷源群控系統由精簡型系統優化升級為全冗余型系統,與機房硬件配置相匹配。優化升級內容主要包括以下兩個方面。
3.2.1 系統架構冗余優化
數據中心B03機房冷源群控系統經過優化改造,具體包括以下4個方面。
(1)控制器擴容:控制器采用冗余熱備系統,兩個獨立的控制器同時運行、同步熱冗余,1臺主用,1臺備用,單控制器故障不影響系統的正常使用。
(2)服務器擴容:主、備服務器采用雙機熱備保護的形式,單服務器產生的故障不影響系統的正常使用。
(3)交換機擴容:支持雙控制器不同交換機,冗余交換機之間采用環網設計結構,雙網絡之間采用跳線方式轉換,光纖或單交換機故障不影響整個系統的運行。
(4)電源擴容:所有控制設備均采用雙路UPS供電,保證系統在運行時,一路供電中斷,不受影響。系統架構如圖5所示。

圖5 數據中心全冗余型冷源群控系統架構
優化后的系統架構的優點主要包括以下幾點。
(1)系統安全性高:冗余毫秒級切換,熱插拔更換,可在運行中更換所有組件,任意單一故障點,系統不受影響,可在線修改程序,切換時無報警或信息/中斷丟失,自動事件同步,錯誤識別、錯誤定位功能。
(2)無擾動在線檢修:主控制系統故障無擾動切換,I/O接口冗余無擾動切換,監控服務器無擾動切換,網絡環路無擾動切換,變頻器切換無擾動,開關閥切換無擾動,閥門切換無擾動。
(3)信號處理:毫秒級處理速度,可實現實時監控,可更精準控制,雙點控控制源。
3.2.2 系統自保持功能優化
系統由單DO控制改為雙DO控制,實現斷電保持功能。單DO控制接線示意如圖6所示。

圖6 單DO控制接線
改造后,雙DO控制接線如圖7所示,被控設備在自動模式下,開命令為一個控制信號,關命令為一個信號,系統為雙路控制輸出。當控制信號斷開,被控設備沒有接到帶電命令信號,狀態保持,不會影響原有業務中斷。
數據中心B03機房冷源群控系統優化升級完成后,對升級后系統進行了模擬驗證測試,測試結果見表3。系統升級后原系統存在的問題均已解決,系統可靠性大幅提升。

表3 系統模擬驗證測試結果
基于數據中心不同分級標準下提出冷源群控系統3級方案,可以根據數據中心等級、業務保障需求等靈活配置系統不同的組件、網絡及功能,為不同級別的冷源系統提供自動化監控管理,能夠充分滿足數據中心冷源群控系統高可靠建設需求,具有一定的實踐指導意義。