□ 孟士清
(一)新老架構并存,數據中心建設缺乏前瞻性。作為銀行數據中心,承擔著保護客戶信息安全的重要任務,因此數據中心建設時優先選用可靠性最高、技術最成熟的架構。這種做法的優勢是能夠最可靠地保證數據的安全性,同時提供滿足業務需求的處理能力。近年來數據中心的保守建設導致多種架構并存的弊端日漸凸顯。為了保證業務的可靠性,銀行核心金融交易無疑要運行在性能穩定可靠的主機上。對于其他重要性不高的業務,主流做法已經普遍由小型機為核心的架構轉向彈性更好、成本更低的虛擬化為基礎的開放平臺架構。出于對業務平穩過渡的考慮,銀行數據中心轉型速度較慢,仍有相當數量的小型機在運行。新老架構并行不僅制約著數據中心的橫向擴展能力和兼容性,還給數據中心災備、數據遷移等工作增加了難度,并且不同架構帶來的機器品牌多、型號雜的問題也為以后的運維工作增加了難度。隨著銀行業務量急劇上升、大數據的推廣應用以及高可用架構部署,銀行對數據中心規模增加需求旺盛,但現階段缺乏科學估算數據中心擴張速度的手段,往往新數據中心建成后,規模常常無法滿足建成時的業務需要。如果不能前瞻性地擴容,數據中心將成為制約銀行業務擴張的短板。
(二)依靠人力,系統部署運維缺乏主動性和敏捷性。業務線上化大趨勢下,對銀行業務的連續運行以及新業務上線速度提出了更高的要求。目前國內大部分銀行數據中心在業務部署上仍主要依賴人力。從物理環境準備到軟件環境準備再到應用部署投產,僅小型應用的全流程人工部署時間就可能達到1到2周,再加上業務測試時間,整體來看業務部署上線時間較長,缺乏敏捷性。在競爭日益激烈的背景下,系統部署速度慢就意味著市場份額的丟失,這將給銀行造成不可估量的損失。除了系統部署層面以外,日常的系統運維工作也主要依靠人力。硬件設備巡檢上,巡檢人員通過觀察硬件設備的報警燈來判斷設備是否存在問題,如確認故障再聯系廠商維修。考慮到數據中心設備往往多達數千臺甚至上萬臺,人工巡檢常常不能及時、準確地發現所有硬件故障,致使故障維修不及時不徹底的現象時有發生。對于軟件運行狀態,多通過監測軟件進行監控,如發現告警則人工聯系相關負責人進行恢復。這樣的流程缺乏主動性,對于簡單問題也不能立刻處理,造成業務從中斷到恢復時滯長。從發展趨勢看,通過自動化手段替代部署和運維中的人力是必然趨勢,先進互聯網企業已經對此展開諸多探索,從銀行數據中心現狀來看,提升自動化工作占比任重道遠。
(三)管理精細化程度不高,成本控制乏力。金融新常態下,銀行利潤增長乏力,不良率高企,因此壓降成本和費用的需求強烈。由于金融科技重要性日益提升,在前幾年的費用壓降潮中,大多數銀行對科技的投入并沒有下降,甚至略有上升。即便如此,不斷的投入但缺乏成本管理的粗放模式是難以為繼的。數據中心成本管理主要分為兩個方面:一是新數據中心建設和設備新購、換代涉及的各種成本,這部分成本由科技部門核算申請,財審會審核通過,數據中心能夠主動把控;另一項成本則是數據中心日常運營成本,主要是電力消耗、散熱消耗、物業和人力等成本,其中電力和散熱成本占比較高,僅兩項就占整體運營成本的一半。但目前大多數銀行數據中心對這類成本的管理較為粗獷,表現在只關注整體能耗,對各種類、各品牌設備以及設備內部各組件的能耗水平缺少監測和統計。這樣一來,在運營成本控制上,數據中心缺乏抓手。除此以外,數據中心能耗與業務支撐能力之間的關系也沒有精細核算,造成不同數據中心之間能耗和負載比例失衡,因而常常出現資源分配不合理導致寶貴資源浪費的現象。
目前銀行數據中心運營面臨高可用、敏捷性和成本管理三方面的挑戰,傳統數據中心架構和管理方式亟待轉型,構建可靠性好、自動化程度高的智慧數據中心是銀行數據中心的轉型方向。
(一)建立從部署到投產的系統全生命周期云管理體系。在《中國銀行業信息科技十三五規劃(征求意見稿)》中,監管部門明確要求各金融機構要探索構建金融私有云。云平臺建設的核心思想是通過云平臺統一集中納管,實現底層物理資源的池化,通過云管平臺實現對資源的自動化調度管理。從實際工作來看,云平臺對當前數據中心的主要意義在于資源的標準化快速部署。相比傳統人工部署資源,云平臺通過前期的集中納管大大節省系統部署的準備時間。在管理方面,云平臺可以實現應用系統的全流程生命周期管理,“測試資源部署—生產投產—系統變更—資源回收”的全流程都可以自動化管理,大大縮短了各環節所需時間。得益于高效的云平臺,數據中心系統管理員可以從繁雜的應用部署工作中解放,從而專注于技術含量更高的新技術研究和儲備工作上。未來,云平臺還可以根據應用負載實現應用的彈性伸縮以支持應用系統快速響應如支付寶、財付通、紀念幣預約等業務高峰。目前,國內主要金融機構紛紛根據自身需求進行云平臺建設探索,就進度來看,云平臺還主要應用于測試環境中,距離生產環境投產應用還有一定的差距。筆者認為,規模大的機構可以構建自己的金融私有云,規模較小的機構則可以聯合開發金融云,共同加快推進云平臺建設,以便更好地集約社會資源,提升開發效率。
(二)建立從主動監測到主動修復的自動化運維管理體系。數據中心的主要工作之一是日常的系統運維工作,包括硬件設備、軟件系統、應用狀態的監測和維護。傳統數據中心的運維工作主要依賴人力進行,物理設備專人巡檢、軟硬件監控專人負責、故障修復由具體負責人承擔,這樣的運維方式十分被動,且割裂了底層硬件設備和上層軟件監控的相關關系,故障恢復時間長,因此銀行數據中心迫切需要建立一套自動化運維體系。自動化運維核心工作主要包括兩方面:一是建立軟硬件、應用監控為一體的自動化監控平臺,這個自動化平臺可以通過軟硬件故障之間的相關性快速定位問題發生的根本原因,形成各組件間故障的關系視圖,為修復工作提供參考。二是構建主動系統修復平臺,系統管理員和應用管理人員根據不同故障發生的原因,事先部署應急維護腳本或者應急切換系統,問題發生時運維平臺可以自動或根據管理員指令手動快速恢復系統,從而大大縮短應用中斷時間,使數據中心運行更加穩健。
(三)建立大數據為核心的資源管理和規劃體系。長久以來,數據中心的成本控制一直是困擾金融企業的棘手問題。根據數據中心的業務價值承載能力來核算數據中心成本是未來智慧數據中心基礎工作。首先,要著手建立數據中心成本測算平臺,實時對數據中心各類設備,包含設備的各種組件的能耗水平進行監測,采集能耗類運營成本的基礎數據。之后經過一段時間數據積累,探索合理的大數據分析模型來核算數據中心能耗和業務承載能力之間的相關性,據此形成成本控制方案。參照科學的成本管控建議,不僅可以在不影響生產的情況下最大程度地節約當前運營成本,還能夠根據大數據分析結論科學地確定未來數據中心規模擴張速度,避免盲目擴張引發的各種問題。此外,銀行數據中心一般根據企業會計制度要求定期淘汰舊設備。在實際工作中,繼續使用老設備的成本高于投產新設備所產生的成本。可以考慮通過成本管理大數據平臺科學規劃各類硬件的使用期限,取代固定期限的淘汰方式,這樣一方面能夠節約數據中心運營成本,還能通過更快的設備更替速度來提升數據中心整體運行效率。