□ 孟士清
自互聯網公司加入金融創新競爭中以來,銀行不僅要面臨同業間激烈競爭,還要應對互聯網金融的挖角,為此銀行的業務產品和信息技術迭代達到前所未有的速度。作為銀行的科技部門,一方面要做好開發工作來支持業務創新,另一方面還要做好運維工作來保障傳統業務和創新業務的持續穩定運行。產品開發對底層技術架構依賴較少,轉型和創新速度快;與開發相比,作為科技后臺支持的運維工作受限于底層軟、硬件架構,無法快速實現轉型,現有資源和管理方式已經難以滿足開發部門快速部署、快速迭代和持續運行的需求。
云平臺也被稱為按需平臺(on-dema nd platform),顧名思義,是根據使用部門實際需求定制的管理平臺,通過開放平臺技術池化底層物理資源,使用自動化手段替代手工部署和運維等相關操作。云平臺的出現為銀行IT系統架構轉型指明了方向,已有不少銀行就云平臺建設進行探索,監管部門也鼓勵銀行根據自身情況搭建云平臺,提升IT運維、管理工作水平。
農行江蘇分行作為系統和同業內的業務大行和體量大行,其科技工作具有較強代表性。本文以江蘇農行為例,分析了當前銀行IT運維工作中普遍存在的問題,并據此對銀行云平臺構建提出建議。
(一)日益增長的軟硬件設備數量同有限運維人力之間的矛盾。近年來,銀行管理的IT系統和硬件設備數量不斷增加,就江蘇農行實際情況來看,其原因主要有兩個:一是金融業務不斷發展創新,技術層面的迭代導致系統迭代更加頻繁,銀行需要根據應用架構升級不斷部署新系統,且業務創新不斷涌現,亟需更多的測試和生產系統支持。另一方面,銀行的系統架構正逐步轉型,計算資源由幾年前的小型機為主向開放平臺轉變,小型機數量不斷縮減,X86服務器的數量快速增加;同時存儲資源則隨著數據量的增加不斷擴張,分行存儲設備如NAS和SAN設備的數量也在逐漸增加。運維人員不但要投入到硬件設備部署、應用系統變更上線上,還要應對突發的軟硬件故障。在運維規模持續擴張的情況下,這些勞動密集型的工作消耗了愈來愈多的人力資源。而銀行系統運維人員數量基本維持不變,長此以往,運維壓力繼續增加,系統運維工作將陷于疲于應對的不利局面。
(二)日益增強的業務連續性要求同傳統系統架構之間的矛盾。作為金融企業,確保業務的連續運行至關重要,尤其是自助機具、網銀、掌銀上部署的業務,更是要求24小時無間斷運行。銀行業務系統極短時間的中斷也可能會給客戶帶來嚴重的經濟損失,進而導致聲譽風險。目前江蘇農行重要的業務系統大多實現了通過負載均衡系統接入應用服務器,這在應用層面保證了業務的連續性,但是底層的sybase數據庫大多以單實例方式部署在小型機分區上,得益于小型機的穩定工作,大部分時間數據庫的連續工作是能夠保證的。而停機窗口的數據庫維護仍將不可避免地造成一段時間的業務中斷。分行的數據庫維護均在總行的停機窗口進行(一般為周末凌晨2點),雖然從時間上選擇了業務量較少的時段,但無法確保此期間內沒有客戶使用相關系統。2018年以來,分行已經提出了不停機維護的明確要求,但就目前的架構來看,尚無可能實現完全的不停機、不停業務的維護。
(三)日益提升的系統安全性要求同有限的災備技術手段之間的矛盾。系統的安全性要求所有的系統和數據都要有備份,理想的災備手段是使災備切換時間盡量短、恢復的時點盡量接近。銀行現有的備份和災難恢復工作中包含了大量人工操作的部分,因此備份更新頻率和切換速度均不太理想。從江蘇農行具體情況來看,虛擬服務器備份方面,運維人員每個季度通過腳本對全量虛擬機進行手工備份,備份周期為季度,備份的粒度過大,對于數據庫來說,每天晚上對生產上的數據庫進行導出操作,結束后導入到備份數據庫中,備份周期為一天。上述備份方式不僅自動化程度不高,而且備份周期過長,如遇到生產數據庫恢復,則會丟失當天的交易數據,這是不能容忍的。在災備恢復方面,一般流程包括“故障發現——故障判斷——備份切換”三部分,目前后面兩個流程完全依賴運維人員判斷和操作,導致切換時間過長,影響應急切換的效率。整體來看,在災備方式上,分行現有技術手段比較單一,災難恢復效率低,愈發無法滿足IT系統安全性要求。
(四)日益精細化、集約化的管理要求同手工管理之間的矛盾。傳統銀行運維工作中,由于缺少自動化管理軟件,一般依靠文本和表格記錄資源申請、部署和變更情況。目前江蘇農行所有的系統部署、變更申請基本上通過IT服務平臺進行申請、審批,同時填寫紙質系統部署申請表,這一套流程僅僅實現了系統申請部分的信息化,而對于系統部署和變更操作以及后續資料管理上較為粗放,基本上是依靠手工記臺賬,僅系統信息采集類的臺賬表格就多達十幾張,每次系統操作之后,維護對應項目的臺賬占用了運維人員相當一部分時間,形成了額外的工作壓力。此外,依靠手工維護的臺賬在準確性和規范性方面存在不足,這也給以此為基礎的統計和管理工作帶來困難。除臺賬之外,系統的變更和部署操作也多為手工完成,缺乏自動化手段。人工部署交付的系統在參數、環境以及配置方面普遍存在細微差異,這種差異在投產后很可能導致服務器性能無法達到最優水平,且在部署時如果不能嚴格按照總行安全和配置規范實施,則會引發系統安全問題,給未來的生產運行埋下隱患。
綜上所述,銀行現有的運維體系在應對新形勢下的運維需求上存在諸多不足。云平臺技術的出現和日臻成熟為銀行走出現有架構下的運維困境提供了思路。目前,政府部門和大型企業紛紛就建設私有云平臺做出探索,系統內農行和建行已在測試環境下試用了云平臺。在此背景下,銀行構建符合實際運維需求的金融云平臺、實現傳統架構轉型是必行之路。根據銀行目前的系統架構和實際工作需求,筆者認為可初步構建如圖1所示的云平臺架構。

圖1 分行云平臺架構簡圖
(一)資源層——構建物理設備資源池。實現不同品牌的異構物理資源的池化是云平臺建設的一項基礎工作,資源池化(IaaS,基礎結構即服務),即把最底層不同類型的物理設備通過平臺或接口進行統一調度,使運維人員從學習和掌握各類不同類型、不同品牌設備具體操作的復雜工作中脫身,從而能夠更加專注于統籌規劃和日常管理等方面的工作。從各行實際情況來看,每年采購的設備品牌不斷變化,多年積累下來,銀行現有服務器品牌多達幾十種,主流存儲品牌超過10種,還有各種品牌的交換機、小型機等硬件設備,分門別類地進行管理工作量大,單個運維人員很難做到熟練操作所有硬件設備,因此構建物理資源池意義重大。IaaS在構建方式上可以通過OpenStack等開源平臺對接實現,也可以通過創建定制接口池來實現。通過開源平臺調用底層物理設備的優點是功能強大、可擴展型好、兼容性佳,但前期開發成本高和工作量大,實現周期較長。考慮到銀行現有主流的Vmware虛擬化架構短期內不會改變的情況,筆者認為構建物理資源池可以分兩步走,短期內通過調用Vmware接口實現初步的基于VMware的計算資源、存儲資源和網絡資源的統籌管理調度,以滿足當前的運維需要;與此同時,使用部分測試用物理設備來開發和測試基于開源平臺的物理資源的池化技術,為未來系統架構轉型做技術儲備。
(二)調度層——實現自動化部署、自動化災備恢復和自動化運維機制。資源池化是云平臺建設的基礎,而在調度層實現自動化則是云平臺構建的核心技術。筆者認為,分行金融云應爭取實現部署、災備恢復和運維三類自動化工作。自動化部署是第一步,是云平臺根據管理員的指令自動部署各類資源包括服務器、負載均衡、標準化軟件等。與手工部署相比,自動化部署通過事先設定部署參數和組件實現標準化、規范化部署,避免了部署過程中的人為差錯,縮短了部署過程中各環節工作的銜接時間,部署的質量和效率均可得到顯著提升。災備切換是IT運維工作中的重要環節,其包括自動備份和自動恢復兩項工作。自動備份是按照事先約定的規則對應用、數據庫和配置等分別進行備份;自動恢復則是平臺定期根據檢測條件進行健康檢查,如檢測異常可提示運維人員切換,或根據規則自動切換。云平臺能夠提供多種災備切換方式,通過合理的設置完全可以實現秒級切換,可靠保證了業務的連續性。自動化運維是云平臺建設的高層次目標,其致力于打造一個能夠自動發現問題并自動修復問題的智能運維平臺。由于生產中出現的問題種類多樣,同一問題的原因可能各不相同,實現完全的自動化運維較為困難。前期可以實現一些簡單的自動化運維工作,解決一些常見的簡單問題,也可以在一定程度上降低運維人員的工作壓力。在云平臺架構中,調度層將根據實際工作中的需求進行“量身”打造,力爭覆蓋運維工作中占用精力多、簡單、重復的勞動,既要切實減輕運維人員壓力,又要提升運維工作質量。
(三)管理層——打造高效的綜合管理平臺。管理層是云平臺的展現層和操作層,通過Web界面實現與用戶之間的交互,也被稱為云管平臺。用戶通過Web界面訪問云平臺提出資源申請、變更請求等;管理員登陸運管平臺對所有申請進行審批、發送指令進行資源部署,并能對所有系統資源進行統一管理。在分行云管平臺設計上,首先要實現操作留痕,平臺應保存所有對底層資源的操作記錄,做到每一筆部署和變更均有據可查。第二,要實現資源從申請、審批、部署、變更、回收的全流程關聯,做到所有資源有名有主、所有操作有憑有據,從而達到流程管理的規范性。第三,依托云管平臺建立分行的IT架構配置信息庫(CMDB),取代手工維護的excel表格,通過平臺抽取底層資源的詳細信息,并根據部署、變更記錄實現配置庫自動更新,同時還可提供多維度的查詢展示功能,方便相關的管理工作。總體來看,云管平臺聯接了申請、變更/部署、配置庫更新等工作,自動化采集的數據更加精確,其可以把寶貴人力資源從維護復雜的表格等枯燥的日常工作解放出來,運維人員可以專注于平臺管理和資源運行狀態監控等相對重要的工作。
未來,隨著傳統系統架構向開放平臺轉型,銀行IT基礎設施建設的復雜度將陡然增加;同時金融創新和線上業務規模不斷擴張,IT系統需求也將更加旺盛,銀行信息系統運維工作正面臨空前的壓力,轉型和創新勢在必行。云平臺的出現為解決傳統運維痛點提供了思路,通過云平臺建設,將大幅提升傳統運維工作的效率和質量,加快系統需求的響應速度。作為傳統金融業的支柱,農業銀行應走在時代前沿,抓住這一跨越式發展的寶貴機遇,提升IT運維水平,為金融業務發展提供更有力的科技支持。
[1]李小慶,《銀行云數據中心的構建》,《金融科技時代》,2016年第8期。
[2]劉鋒,《央行分支機構私有云平臺的應用研究》,《電腦編程技巧與維護》,2017年第22期。
[3]張正、王孚瑤、張玉明,《云創新與互聯網金融生態系統構建——以阿里金融云為例》,《經濟與管理研究》,2017年第3期。
[4]周衡昌,《商業銀行金融云發展之路》,《金融電子化》,2016年第12期。
[5]朱文生,《大數據時代商業銀行面臨的挑戰及對策》,《中國金融電腦》,2015年第12期。