2020年春節本該是一片祥和喜慶的景象,但新冠肺炎疫情猝不及防給整個社會來了一場“實戰”檢驗。檢驗結果有目共睹,方方面面的優劣強弱,在疫情面前暴露無遺。
抗“疫”期間,網絡技術與大數據的全面運用充分體現了其社會價值。而在互聯網大數據時代,數據中心是其中的重要載體,保障數據中心的安全穩定運行是運維人員的重點工作。
IT系統能否正常運行直接關系到業務或生產是否能夠正常進行。但IT管理人員經常面臨的問題是:網絡變慢、設備發生故障、應用系統運行效率很低。IT系統的任何故障如果沒有及時得到妥善處理都將會產生很大的影響,甚至會造成巨大的經濟損失。
由于新冠肺炎疫情的原因,國家延長了春節假期,各地也相繼出臺了復工時間表,復工時間推遲對于企業來講無疑是一個重大打擊,業務會受到嚴重影響。為了將損失降到最低,不少企業紛紛開啟遠程辦公模式,這對IT基礎架構設備的穩定性提出了更高的要求。
為了保障IT系統的穩定運行,需要很多基礎IT設施的支撐,包括底層數據庫、業務系統、服務器等。在疫情期間,對于這些基礎服務器的管理和運維,成了IT運維人員重要的日常任務。配置更改、系統調試等都需要依賴于運維人員來完成,遠程運維成為了主要的運維方式,如何保障運維人員順利且安全地完成數據中心的日常運維操作,是IT部門面臨的重要問題。
IT運維人員需要面對巨大的運維壓力,是否可以在家辦公,隨時掌握企業IT設備的運行狀態?經歷過這次疫情,很多互聯網從業人士,紛紛預測“遠程辦公”將會是下一個風口。那么身為IT運維人,我們肯定會問,運維領域的下一個風口會是遠程運維么?
采用遠程運維有何好處?當然是讓運維人員更方便,能夠隨時隨地進行運維工作,而不必天天守在機房待命。遠程運維的好處有兩點:一是操作上的便利,能夠以最快的速度實施遠程維護,二是遠程運維較少受外界因素的限制(比如地理位置、軟硬件設備等),可以隨時隨地進行運維。選擇方便的遠程運維方案,不僅提高了工作效率,而且保證了充足的休息時間。
但并不是所有的公司都支持遠程運維,很多人認為,遠程運維使得數據中心的安全性降低。安全是數據中心非常重要的考慮因素,所以很多公司往往將遠程的端口關閉,只采用本地運維的方式,只有在需要的時候才會考慮開通。
但是隨著手機、平板、筆記本等移動設備的普及,當然還有人們不斷追求的工作舒適性的需求,越來越多的公司開始支持遠程運維。
疫情影響下,所有企業IT運維不可避免地會受到各種影響,主要表現在以下幾個方面。
為了防止疫情蔓延,響應政府號延遲復工,企業紛紛采用遠程辦公,以最小化的標準嚴格限制到場人員。因此,對于企業IT運維來說,現場運維力量的大幅減弱,導致系統健康性巡檢、業務需求響應、變更執行和故障應急等現場工作的響應及時率和完成度受到了較大影響。
隨著疫情爆發,受限于遠程,企業信息安全管理工作的開展難度和效率低下將對系統安全性產生一定影響。
疫情影響下開展遠程辦公,針對故障的各個處理環節(例如:故障響應、故障處理和硬件維護等)將出現或多或少的延遲,對于業務系統來說,無疑增加了業務長時間宕機的風險。
疫情影響下,無法保障重點工作溝通的有效性和時效性,因此,涉及資源申請、變更審批和實施等項目工作,將無法有效開展,很可能導致各類重點工作的進度延遲,從而對核心業務形成至關重要的影響。
即便影響因素受制于客觀條件較難短期克服,但是企業仍然對IT運維人員提出以下幾點要求。
如上所述,疫情影響下,現場運維人員投入的被動減少是必然的。那么,在遠程運維背景下,保障運維效率最小程度的降低,甚至不降低,是企業對于IT運維的第一需求。
企業信息安全管理工作必須保持較高的響應及時率和整改時效性。
業務系統的穩定運維是企業正常運作的必要前提,因此,防疫期間對于系統故障的支持力度必須得到最大程度的保障。
基于遠程辦公的背景,如何提升重點工作的溝通效率,保證項目資源申請、變更審批和實施等工作能夠高效開展,是IT運維需要重點解決的問題。
從2020年2月中旬起,IT行業內的巨頭公司,紛紛推出遠程運維服務或者相應的運維產品,產品各有特色,賣點也不盡相同。但歸結到最終,都是要滿足用戶的真實需求,從用戶角度出發研制的產品,才是真正的好產品。
2月25日,微盟集團發布的一則公告引起輿論熱議。微盟的生產環境及數據遭遇其員工人為“惡意破壞”,該員工通過個人VPN登入公司內網跳板機,因個人精神、生活等原因,對微盟線上生產系統環境進行了大肆破壞,造成生產環境服務器出現故障,大量用戶數據被刪除。此次事件最直觀的影響表現:2月24日至2月25日10點整,微盟集團市值約蒸發12.53億港元;帶給微盟客戶的損失不可估量,微盟準備1.5億元賠付撥備金進行賠償。
因內部員工惡意破壞企業內部生產系統而造成重大事故,聽起來很“不可思議”,但此類事件,并非首次發生。為何事故一再發生?又該如何保護企業核心數據,讓運維更可控、更安全?特別是在當前疫情特殊時期,國內企業紛紛開啟遠程辦公模式,安全運維也不得不“遠程”。
遠程運維作為一種經過業界驗證的成熟方法,可以提升生產系統運維的便利性和及時性。但遠程運維將信息化資源和運維操作暴露在互聯網之中,存在數據泄露、通訊安全、未授權訪問和木馬病毒侵害等安全問題,應將安全性作為遠程運維產品選型的首要考慮因素。因此,提出以下幾點建議。
一是統籌規劃、分步實施。遠程運維最大的風險就在于安全性,但安全方案絕非一勞永逸,而需要建立安全體系并持續完善。因此,遠程運維方案需要統籌規劃,充分考慮技術方案的特點、適用的時點和管理的難點。
二是用好存量、選好增量。通過多年的建設,大多數企業已部署和使用了較多的成熟安全產品,如VPN、動態令牌和堡壘機等,特別是建立了與之匹配的相關規范。合理使用和完善現有方案,既能縮短實施周期,又能降低資金和使用成本。在新產品的選擇上,盡量與現有技術產品相兼容,確保遠程運維方案的延續性。
三是明確場景、完善流程。遠程運維方案的難點在于處理好便利與安全的平衡,其重點在于因地制宜地制定好相應的制度流程。通過適用場景、授權、登記和審計等規范和流程的建立,來確保遠程運維的規范性和安全性。
根據上述分析,結合當前疫情防控情況,建議遠程運維方案的建設可以分為三個階段。
第一階段是疫情防控的特殊期,充分利用現有技術,快速具備遠程運維條件,建立配套規范,從技術和管理上雙管齊下平衡好便利與安全的關系。一是建議新建應急方案。可以采用“VPN+堡壘機”方式,快速搭建遠程運維渠道。在疫情防控的特殊時期,要充分利用現有安全體系和產品,如堡壘機現有用戶權限、身份認證、操作記錄和安全審計等功能,來提高技術方案的安全性;二是建議完善應急遠程運維相關機制,明確適用人員和場景,規范授權、使用、登記和審計,通過制度來管理和提高遠程運維的安全性和合規性。
第二階段是疫情過后的過渡期,進一步加強互聯網防護技術能力,進一步提高安全性。新建遠程運維專用VPN或將中轉機放置于互聯網防控區,通過專用網絡安全產品,對遠程運維方案進行安全加固。同時,在過渡期對業界成熟方案和產品進行測試和論證,制定更為成熟的遠程運維方案。
第三階段是成熟方案的建設期。結合實際情況,選擇適用的成熟遠程運維技術方案和產品,建設一套更為安全、可靠和高效的遠程運維平臺,同時不斷健全相關制度流程,切實提高遠程運維能力。
2020年的這場新冠肺炎疫情必將對于我們的生活模式和企業運作模式產生深遠的影響。