諶力 張申宇
近幾年,銀行在面對數(shù)據(jù)中心大幅提升的數(shù)據(jù)量,以及要求越來越嚴(yán)格的數(shù)據(jù)管理、安全標(biāo)準(zhǔn)的情況之下,提升自身運維管理能力,提高數(shù)據(jù)中心運維效能就顯得刻不容緩。但是,目前市場上大多數(shù)基礎(chǔ)設(shè)施運維管理平臺對其他品牌產(chǎn)品的兼容性比較差,如果需要實現(xiàn)全平臺、全品牌的兼容管理就需要采用自主研發(fā)的手段來實現(xiàn)。
近日,民生銀行科技部系統(tǒng)管理中心硬件運維主管畢偉光介紹了近幾年民生銀行在數(shù)據(jù)中心建設(shè)、運維管理,以及民生銀行近幾年自主研發(fā)的存儲管理平臺、帶外管理平臺、自動化運維平臺方面的成功經(jīng)驗。
結(jié)合自身需求 自主研發(fā)存儲管理平臺
近幾年,隨著民生銀行數(shù)字化建設(shè)步伐的推進(jìn),存儲平臺和X86服務(wù)器的使用量大幅提升,且存儲設(shè)備包括了EMC等3家以上主流供應(yīng)商的品牌。原先的存儲管理系統(tǒng)都是每個品牌管理自己的設(shè)備,不能跨平臺管理,存儲系統(tǒng)的變更和日常的維護(hù)工作中一大部分還需要依靠人工完成。因此,隨著設(shè)備和數(shù)據(jù)量的增加,運維壓力不斷增加。
畢偉光表示:“實現(xiàn)各個存儲平臺之間的兼容與實時監(jiān)控,依靠其中哪個廠商都實現(xiàn)不了。我們之前也嘗試著找過第三方的存儲管理平臺的廠商,基本上我們需要的定制化的要求都很難實現(xiàn),因為平臺品牌數(shù)量多,兼容既有其他工具的管理要求高,要實現(xiàn)設(shè)備之間的兼容及自動化需要2~3年的開發(fā)周期,這個周期太長不能滿足行內(nèi)的要求。”
正是基于這種情況,以及日益增加的設(shè)備數(shù)量所帶來的運維壓力,2018年,民生銀行決定結(jié)合自身對于存儲管理的使用需求,自主開發(fā)一套適合自己的存儲管理平臺。民生銀行利用開源工具,結(jié)合運維團(tuán)隊多年的運維管理經(jīng)驗,參照包括EMC SRM管理平臺等工具的部分功能及邏輯,自主研發(fā)出一套存儲管理平臺。該平臺不光在磁盤存儲方面實現(xiàn)兼容,還在存儲交換機(jī)等產(chǎn)品層面實現(xiàn)了不同廠商、不同架構(gòu)的兼容,還可以實現(xiàn)主機(jī)端口信息的兼容,以及交換機(jī)的配置、狀態(tài),存儲的配置、狀態(tài)、容量等信息的實時提取和顯示,實現(xiàn)了存儲系統(tǒng)的跨平臺管理。
談到存儲管理平臺的作用,畢偉光表示:“存儲管理平臺搭建起來之后,在解決自動化巡檢和監(jiān)控問題的同時,還解決了自動化配置變更的問題。原有的監(jiān)控系統(tǒng)管理起來并不精密,依靠人工管理難度大,效率低,統(tǒng)一整合到一個平臺之后,大幅提升了數(shù)據(jù)的質(zhì)量和準(zhǔn)確度,在此基礎(chǔ)上實現(xiàn)了自動化運維的功能,包括跟其他平臺的銜接也更順暢了?!?/p>
隨著存儲管理平臺的投入使用,運維效率大幅提升,運維人員有更多時間跟精力投入對平臺的升級、迭代,以及對存儲設(shè)備的精細(xì)化運維中。
積極探索統(tǒng)一帶外管理工具
隨著小型機(jī)下移和分布式技術(shù)的發(fā)展,近幾年服務(wù)器使用數(shù)量大幅增長,X86架構(gòu)服務(wù)成為主要增加的服務(wù)器設(shè)備。原有的服務(wù)器運維方法已經(jīng)不足以應(yīng)對日益增長的服務(wù)器數(shù)量。畢偉光表示:“目前民生銀行使用的服務(wù)器包括X86服務(wù)器和小型機(jī)。各個不同的服務(wù)器品牌之間的管理工具相互兼容性并不好,我們想通過一個平臺實現(xiàn)所有服務(wù)器的統(tǒng)一管理。面對這種情況,民生銀行在2018年自主研發(fā)了一套帶外管理平臺?!?/p>
帶外管理平臺是一個基于開源平臺基礎(chǔ)上的監(jiān)控、管理和配置收集的分布式平臺。相比于需要通過操作系統(tǒng)的帶內(nèi)管理來說,帶外管理平臺不需要登入操作系統(tǒng),只是基于設(shè)備的微碼層面,就可以在微碼層面管理設(shè)備的硬件,相比于帶內(nèi)管理平臺,帶外管理平臺減少了運營成本、提高了運營效率、減少了宕機(jī)時間、提高了服務(wù)質(zhì)量。
“民生銀行在開源平臺的基礎(chǔ)上開發(fā)的帶外管理平臺,只要設(shè)備接通電源,接入網(wǎng)絡(luò)后,就可以通過帶外管理平臺來收集服務(wù)器的配置信息,管理服務(wù)器的監(jiān)控指標(biāo),并處理服務(wù)器發(fā)出的告警,排查硬件層面的問題,第一時間進(jìn)行監(jiān)控及處理,并且并不受設(shè)備品牌及架構(gòu)的限制?!碑厒ス庹劦健?/p>
據(jù)介紹,在民生銀行自主開發(fā)帶外管理平臺的過程中,戴爾為民生銀行提供了部分代碼及技術(shù)層面的支持,以完善帶外管理平臺的功能。在測試階段,戴爾還參與了部分腳本的測試。
緊跟科技發(fā)展潮流 進(jìn)軍自動化運維
除了存儲管理平臺和帶外管理平臺之外,早在2017年,民生銀行就開始搭建自己的自動化運維平臺。
“自動化運維是一個體系的建設(shè),并不是建設(shè)好一個平臺就能實現(xiàn)自動化。在實現(xiàn)自動化的過程中,從上層的審批、管理的維度,到一些制度的落實,包括一些運維經(jīng)驗及習(xí)慣的改變都很重要?!闭劦阶詣踊\維平臺的應(yīng)用,畢偉光表示:“自動化是一把雙刃劍,一方面提高了運維的效率,另一方面也放大了運維的風(fēng)險。在初期部署時,我們就遇到過在測試環(huán)境中,自動化刪除了一批不該刪除的數(shù)據(jù),在經(jīng)驗積累之后,對自動化帶來的風(fēng)險已經(jīng)能夠掌控,這是一個逐步推進(jìn)和掌握的過程——在平臺搭建的初始階段只是實施腳本的自動部署、配置的自動收集,緊接著實現(xiàn)了自動化腳本的執(zhí)行,自動化的安裝。到目前為止,從部署到運行都可以實現(xiàn)自動化。”
在2018年年初,通過與PaaS平臺結(jié)合,民生銀行的自動化運維平臺正式上線,目前還處于不斷完善的過程中。因為自動化運維平臺與硬件平臺以及服務(wù)器之間的銜接比較多,最初民生銀行實現(xiàn)的一些功能都是通過自動化運維平臺進(jìn)行數(shù)據(jù)的采集,現(xiàn)在隨著其他的平臺上線,自動化運維平臺主要負(fù)責(zé)實現(xiàn)系統(tǒng)級數(shù)據(jù)的采集和部署。
談到自動化運維的經(jīng)驗,畢偉光說:“自動化運維首先要有審核、把控的機(jī)制,沒有一個嚴(yán)格的審核、把控機(jī)制,運維風(fēng)險會被無限放大。其次,要不斷完善運維體系、流程、制度,使之和自動化系統(tǒng)相匹配。例如,原先都是通過人工實施,實現(xiàn)自動化執(zhí)行之后,相關(guān)的人工的決策環(huán)節(jié)要制定清楚。”
現(xiàn)在,民生銀行在不斷完善自己各個平臺及系統(tǒng)的同時,還在緊跟科技的潮流,推進(jìn)智能運維實施落地。民生銀行將各個平臺之間進(jìn)行整合,開發(fā)出不同的功能。比如,運維可視化可以將基于應(yīng)用運維的平臺整合到可視化平臺中,與CMDB數(shù)據(jù)庫、存儲管理平臺以及帶外管理平臺對接后,形成了一個更系統(tǒng)化、架構(gòu)化的平臺,這是目前民生銀行在主要推進(jìn)落地應(yīng)用的項目之一。
隨著智能化、自動化的推進(jìn),提高了運維人員的工作效率,“原先許多操作都需要人工進(jìn)行復(fù)核比對,現(xiàn)在實現(xiàn)自動化運行,節(jié)省出來的人工可以更多投入到運維制度建設(shè)、精細(xì)管理和工具化實施中,進(jìn)一步提高運維效率,降低運維風(fēng)險,從而形成良性循環(huán)?!碑厒ス獗硎尽?/p>