桑永禮,鄭 峰
(中國移動通信集團安徽有限公司阜陽分公司,安徽 阜陽 236000)
2020年6月初,中國移動通信集團安徽有限公司阜陽分公司南京路生產樓四樓數據機房CDN區域共觸發高溫告警200余次,告警顯示最高現場采集溫度達到32.5oC,同時核心專業網管顯示該區域個別CDN系統設備出現高溫告警,導致服務降級現象,省公司網絡部將該區域高溫故障列為高頻次告警進行督辦[1]。
部分告警截圖如圖1所示。

圖1 數據機房CDN區域的部分告警截圖
故障就是命令,接到省公司故障告警工單及核心網服務降級轉派工單,阜陽分公司網絡部立即召開部門專題會議,決定組派由核心網、動環兩大專業組成的聯合技術調查專家小組如表1所示,趕赴現場,進行故障現場調查分析,以根本消除故障隱患,確保數據核心專業CDN系統設備安全運行

表1 聯合技術調查專家小組
2020年6月5日, 聯合調查專家小組到達南京路四樓數據機房,進行現場資料收集整理。南京路數據機房平面圖如圖2所示。
(1)經調查,南京路數據機房整體面積450 m2,主要分為空調、數據、公安平安城市托管、政務托管、CDN共5個區域,交流不間斷負荷(數據設備)98.3 kW,直流不間斷負荷(交換設備)77.72 kW,計176.02 kW,具體設備如表2所示。

表2 南京路數據機房具體設備表

續表2
(2)配置專用機房空調5臺,采用地板下送冷,總制冷量230 kW。
通信機房布局示意如圖3所示。服務器機柜結構示意圖如圖4所示。

圖3 機房布局示意圖

圖4 服務器機柜結構示意圖
通信機房局部高溫,也就是所謂“熱島”現象的產生,主要原因有:
(1)空調配置不足;
(2)空調故障;
(3)空調老舊效率下降;
(4)送冷不達;
(5)循環阻塞;
(6)冷量分配機制缺陷;
(7)溫度點設置錯誤;
(8)局部高功率設備聚集等[2]。
以上原因都可能在機房局部造成熱量交換、傳輸不暢,熱量聚集,形成“熱島”,如圖5所示。

圖5 “熱島”形成要因
結合南京路四樓數據機房現狀,聯合專家小組對南京路數據機房CDN設備區產生高溫告警可能原因分析如下。
(1)空調配置不足,導致在夏季機房熱負荷高峰時,空調制冷量不能抵消甚至小于機房通信網絡設備功耗散熱而產生的熱負荷,以及通過機房圍體結構傳導進來的環境熱量,導致機房環境失衡,機房持續溫度上升,產生高溫告警。
(2)空調老化,制冷效率下降,導致夏季機房熱負荷高峰時,空調制冷量不能抵消甚至小于機房通信網絡設備功耗散熱而產生的熱負荷,以及通過機房圍體結構傳導進來的環境熱量,導致機房環境失衡,機房持續溫度上升,產生高溫告警[3]。
(3)部分空調溫度點、壓力保護值設置錯誤,導致部分空調未達到溫度設置點或故障保護停機,不能制冷。
(4)機房設備距離空調設備過遠,冷量不能到達CDN設備區域,該區域通信網絡設備功耗散熱不能交換出去,熱負荷積累,從而導致機房環境失衡,機房溫度持續上升,產生高溫告警。
(5)該區域設備過于集中,沒有遵循設備布放列架間距規范規定,發熱量集中,導致該區域機房環境失衡,機房溫度持續上升,產生高溫告警。
(6)制冷、送冷、熱交換、回風循環不暢,區域通信網絡設備功耗散熱不能交換出去,熱負荷積累,從而導致機房環境失衡,設備溫度持續上升,產生高溫告警。
根據南京路數據機房CDN設備區產生高溫告警可能原因,聯合專家小組進行逐一排查,結果如下文所述。
(1)空調配置不足,導致在夏季機房熱負荷高峰時,空調制冷量不能抵消甚至小于機房熱負荷,機房環境失衡,機房溫度持續上升,產生高溫告警。
根據計算,南京路四樓數據機房設備熱負荷176.02 kW,機房面積450 m2,機房熱負荷為:

現配置機房空調制冷容量為230 kW,滿足夏季條件下南京路四樓數據機房恒溫的基本制冷需求,該故障原因可以排除。
(2)空調老化,制冷效率下降,導致夏季機房熱負荷高峰時,空調制冷量不能抵消甚至小于機房熱負荷,機房環境失衡,機房溫度持續上升,產生高溫告警。
經現場檢查,該機房專用空調均為2010年以后投入使用,設備運行良好穩定,無故障,該故障原因排除。
(3)空調制冷量不能抵消甚至小于機房通信網絡設備功耗散熱而產生的熱負荷,以及通過機房圍體結構傳導進來的環境熱量,導致機房環境失衡,機房持續溫度上升,產生高溫告警。
(4)機房設備距離空調設備過遠,冷量不能到達CDN設備區域,導致該區域機房環境失衡,機房溫度持續上升,產生高溫告警。
經現場檢查,CDN設備區緊靠空調區域,不存在“機房設備距離空調設備過遠,冷量不能到達CDN設備區域,導致該區域機房環境失衡,機房溫度持續上升,產生高溫告警”可能,該故障原因排除[4]。
(5)該區域設備過于集中,沒有遵循設備布放列架間距規范規定,發熱量集中,導致該區域機房環境失衡,機房溫度持續上升,產生高溫告警。
根據現場查看測量,南京路數據機房CDN設備區機柜較集中,共有將近30個滿裝機柜,如圖6所示。每個機柜設備熱負荷接近1.8 kW,總體功耗發熱超過50 kW,并且該區域列間距不足1 m,最狹窄處不足60 cm,如圖7所示,導致該區域熱量集中,不能正常交換傳送出去,造成熱量累積,產生“熱島”現象。該故障主要因素確認如圖8所示。

圖6 高功率密度機柜

圖7 超小列間間距

圖8 現場故障要因確認
(6)制冷、送冷、熱交換、回風循環不暢,導致設備溫度持續上升,產生高溫告警。
經聯合專家小組現場檢查確認,制冷、送冷、熱交換、回風循環存在以下問題:
(1)部分機柜下底板未拆除,地板下冷風不能進入機柜,未形成冷循環,機柜熱量交換不暢,機柜熱量產生堆積。
(2)部分機柜空余機位盲板未拆除,地板下冷風經過熱交換后不能出機柜,未形成冷循環,機柜熱量交換不暢,機柜熱量產生堆積。
(3)機柜安裝的服務器熱交換為“前進風后出風”模式,機柜前無透冷地板,冷量不能正常到達機柜列前,冷循環阻塞,機柜熱量交換不暢,機柜熱量產生堆積。
經專家技術組現場確認,南京路數據機房CDN設備區產生高溫告警原因為:
(1)該區域設備過于集中,沒有遵循設備布放列架間距規范規定,發熱量集中,導致該區域機房環境失衡,機房溫度持續上升,產生高溫告警。
(2)制冷、送冷、熱交換、回風循環不暢,導致設備持續溫度上升,產生高溫告警。
技術專家小組對存在問題整改方案進行探討;
(1)鑒于“該區域設備過于集中,沒有遵循設備布放列架間距規范規定,發熱量集中,導致該區域機房環境失衡,機房溫度持續上升,產生高溫告警”為歷史原因導致,要想整改需要將部分列架搬遷,存在較大業務中斷風險,且成本受限[5]。
(2)通過對制冷、送冷、熱交換、回風循環存在問題進行整改,能夠改善該區域“熱島”,達到規范環境溫度要求。
因此,只對制冷、送冷、熱交換、回風循環存在問題進行現場整改。
技術專家小組對制冷、送冷、熱交換、回風循環存在問題進行現場整改:
(1)存在問題:部分機柜下底板未拆除,地板下冷風不能進入機柜,未形成冷循環,機柜熱量交換不暢,機柜熱量產生堆積。
整改措施:拆除機柜下底板,讓地板下冷風進入機柜,形成冷循環,排除機柜熱量交換不暢,避免機柜熱量產生堆積。
(2)存在問題:部分機柜空余機位盲板未拆除,地板下冷風經過熱交換后不能出機柜,未形成冷循環,排除機柜熱量交換不暢,避免機柜熱量產生堆積。
整改措施 :拆除部分機柜空余機位盲板,讓地板下冷風經過熱交換后出機柜,形成冷循環,機柜熱量交換不暢,機柜熱量產生堆積。
(3)存在問題:機柜安裝的服務器熱交換為“前進風后出風”模式,且機柜前無透冷地板,冷循環阻塞,機柜熱量交換不暢,機柜熱量產生堆積。
整改措施 :將機柜列前封閉靜電地板更換為可調透風地板,讓空調冷風進入機柜列前,滿足服務器熱交換“前進風后出風”模式,排除機柜熱量交換不暢,避免機柜熱量產生堆積,如圖9所示。
經過整改,該區域溫度降低到27.2oC,高溫告警消失,故障排除。
本故障產生的基本原因均為工程機柜布放時設備集中,不滿足相應功率密度列架間距要求造成熱負荷累積,以及冷熱交換循環不暢,形成“熱島”,導致溫度上升,產生告警。
因此在以后的工作實踐,需要注意以下兩個方面:
(1)設備布置時嚴格遵循功率密度列架間距規范,避免熱量累積形成“熱島”。
(2)保證“制冷、送冷、熱交換、回風”循環通暢,避免“制冷、送冷、熱交換、回風循環”不暢,導致設備持續溫度上升,產生高溫。