莊坤 王圣榮
國家管網集團東部儲運公司信息中心,積極為國家管網集團高質量發展插好數智翅膀。
基礎環境服務可靠度100%,連續5年零宕機、零停服,B級數據中心運行指標達到A級,打造國家管網集團主數據中心品牌與能力……
承擔國家管網集團主數據中心——徐州數據中心的運維工作以來,國家管網集團東部儲運公司信息中心持續以鐵軍文化建設為引領,以制程標桿示范為標尺,以隊伍建設為核心,以安全運行為根本,為國家管網集團大步伐推進數字化智能化、搶占創新發展先機、發展新質生產力做出了貢獻。
強技能 建體系
徐州數據中心坐落于東部儲運公司徐州基地南廠區。3500平方米的機房里,標準機柜上各種信息設備的各色指示燈不停閃爍,不分晝夜地演奏著數字化轉型之曲。
作為國家管網集團主數據中心和目前唯一的私有數據中心,徐州數據中心是國家管網集團華東分控中心的核心機房,也是國家管網集團全部生產類統建系統及各地區公司自建系統的算力底座,承載了國家管網集團私有云平臺等80余個集團統建系統和企業應用。
承擔徐州數據中心的運維工作,東部儲運公司信息中心深知責任重大。
為保障徐州數據中心安全可靠性、節能與智能化水平達到行業主流標準前列,東部儲運公司信息中心從人員培養、運維管理體系搭建等方面,打造國家管網集團主數據中心團隊品牌與能力。
運維團隊以學促干強本領、凝心聚力提質效,不斷加大新設備、新技術培訓力度。白天運維工作任務重,他們就持續利用夜間時間開展帶班培訓。
保障高壓直流電源正常運行,是運維團隊非常重要的一項工作。在高壓直流電源安裝階段,團隊青年骨干孫亞一全程跟蹤,學安裝學調試。在初步掌握運維技巧后,他主動要求赴廠家培訓,帶著問題深入學習。回來后,他及時整理編寫了第一版高壓直流電源運維手冊,對運維人員進行二次培訓。
運維團隊組織技術人員完善機房管理規定,制作機房巡檢路線圖和逃生圖,共編制各類設備操作手冊6套;對數據中心設備設施實行預檢預修,嚴格落實春檢和日常維護計劃;推進機房標準化改造,編制完成機房標準化指引;探索建立了涉及設備運維要求、安全管理規定等適合國家管網集團工作特性的自有數據中心運維體系……
多措并舉之下,運維團隊不斷提高標準化、規范化、專業化管理水平,為確保徐州數據中心100%安全可靠運行奠定了良好基礎。
守網安 強支撐
數字化背景下,數據中心對企業的生產調控、辦公系統等至關重要。任何故障都可能讓企業失去“戰場”控制權,看不到“戰況”。
徐州云平臺是徐州數據中心實現零宕機、零停服的重要支撐。云平臺發生故障,會造成服務中斷,后果不堪設想。堅決落實屬地管理責任,運維團隊做實徐州云平臺合規部署監管,認真審查云平臺各項作業方案,強化數據中心進出入管控。
在國家管網集團各類統建系統的安裝調試過程中,確保基礎環境安全是運維團隊的重點職責之一。他們做好實施人員進機房前的網絡安全檢查和教育,對使用的相關設備進行篩查,全程旁站監督相關操作;在數據中心出入口處增加安檢機、安檢門和密碼儲物柜,并由保安人員對所有進出人員進行例行安檢;按照數據中心功能區域劃分和各運維組實際工作執行情況,對門禁卡實行權限分級分類管理……運維團隊全力夯實國家管網集團數字化戰略的算力基石。
網絡安全是實現數據中心可靠度100%的安全屏障。為提高網絡攻擊防御能力,運維團隊中的3人考取了取證率僅30%的網絡安全注冊工程師證書,為筑牢企業信息安全生命線提供了人才保障。
他們在24小時監控值班的同時,模擬服務器宕機、系統被攻擊等事件,開展說崗、崗位練兵等形式的內部交流,并積極參與各類網絡攻防演習。
在2023年國家級網絡攻防實戰演習中,運維團隊成功抵御各類攻擊百萬次,實時發現并阻斷各類攻擊9萬余次。他們做到了在每日超5000次的網絡安全報警中,快速識別出真正攻擊,以分鐘為單位,迅速做出處置。他們以優異的表現,獲得了國家管網集團的嘉獎。
攻擴容 拓算力
隨著國家管網集團大步伐推進數字化智能化轉型,徐州數據中心的規模持續擴大。2022年,運維團隊迎來了一項重要任務——配合項目部做好徐州數據中心第一期擴容項目施工管理工作。
“這是我參加工作以來的最大挑戰!”東部儲運公司信息中心網絡維護中心主任兼黨支部書記蔡成林回憶說。
項目選用的新型制冷系統,相關設備為微模塊,密度小,發熱量大。如何實現數據中心能耗運行指標PUE小于1.3,即服務器每耗電1千瓦時,其他輔助設備耗電量不超過0.3千瓦時,成為擺在運維團隊面前必須攻克的難題。
行業可借鑒的經驗較少。運維團隊通過聯系廠商實地考察、網上查找資料、參觀行業內其他單位等,最終用時兩個月給出了最佳比選建議并通過了專家評審,使擴容部分每年節省制冷能耗520余萬千瓦時。
施工過程中,既要保證原有數據中心平穩運行,又得保證供電系統割接不能發生一秒中斷。這是運維團隊面對的又一道難關。
他們從項目進場就著手做方案,審視每一個細節,做好風險評估和應急預案。為使項目實施風險最小化,蔡成林利用周末時間,帶領骨干進行了200多個小時的聯調聯試,保證了最后32小時正式供電割接的順利完成。
項目最后的難關是2022年底疫情管控放開后,70人左右的工作團隊中有50多人相繼發燒病倒。一時間,項目面臨停滯。
為保證項目進度,運維團隊成員癥狀稍減輕就立馬回到施工現場,組織協調、倒排工期,以日計劃保證周計劃、周計劃對照總工期,保障進度壓緊可控。與此同時,他們幫助施工方搶時間。最終,落下的進度被一點點搶出來,項目按期投入了運行。
今年,運維團隊將繼續攻堅徐州數據中心第二期擴容項目,助力徐州數據中心早日由B級升級為A級。
責任編輯:陸曉如
znluxiaoru@163.com