姜青云 王參參

摘要
在人工智能時代,IT運維管理成為數據中心發展的重要部分,傳統方法已無法滿足高質量運維要求,近幾年來商業銀行正積極探索智能化IT運維管理方法,本文介紹了智能IT運維在銀行數據中心的應用場景,并對智能運維技術案例進行淺析。
【關鍵詞】數據中心 IT運維管理 人工智能
1引言
隨著商業銀行信息科學技術的不斷發展,數據中心已經由原來數據、系統及運營分散的管理模式轉型為異地多活分布式架構,資源利用率和靈活性顯著提升,運維工作量也明顯提升,傳統的“救火式”運維己不能保證數據中心應用系統的安全穩定運行,因此越來越多的商業銀行數據中心開始探索高效的IT運維管理模式。
從宏觀上看,IT設施種類各異、組成復雜,包括機房動力環境、基礎網絡、存儲、小型機及主機等平臺、中間件、應用系統等,從微觀上看,特定IT設施品牌及指標繁多,以存儲為例,品牌涉及IBM、HP、EMC、華為、Netapp等,指標包括系統配置、電源、風扇、控制器、硬盤狀態、實時性能,以及存儲交換機的電池、映射關系等,銀行業數據中心一般通過廠商提供的監控管理工具查看各IT設施運行狀態和性能指標,但是這樣零散的監控方式不僅會增加運維工作量,冗余告警還會對運維人員產生極大干擾,降低運維工作效率,從而影響故障點發現的及時性,因此傳統運維方式面臨的主要問題包括錯綜復雜的IT元素難以有效監控、傳統運維工具單一無法集中監控、運維過程流轉不成體系等。面對復雜的異構環境,數據中心對數據分析和運維自動化的要求越來越高,IT運維人員也希望能夠借助海量的運維數據優化改進當前工作方法,建立在大數據分析和自動化運維基礎上的智能化運維時代即將到來。
2人工智能在金融業的應用
當前人工智能技術在金融業務領域的主要應用包括風控及反欺詐、精準營銷、智能投顧、智能客服等,在金融IT領域的主要應用是智能運維。風控及反欺詐是通過申請貸款的客戶社會關系數據,建立與現有黑名單/灰名單庫的關聯強度,預測申請客戶的欺詐概率;精準營銷主要是針對用戶的行為、已有的認知習慣等數據進行挖掘分析,將符合用戶個性及偏好的產品適時的推薦到用戶面前;智能投顧依賴于用戶提供的風險承受水平、風險偏好等信息,通過不斷的自學習和分析模塊,為用戶提供投資參考及預警提醒;智能客服為銀行與海量用戶之間的溝通建立了一種基于自然語言的快捷有效手段。
對人工智能技術的研究和應用已經與金融業務深度融合,其中大型商業銀行銀行已經成立人工智能實驗室,投入專門資源開展機器學習、GPU處理等相關技術的研究工作,在信用卡、快捷支付等業務中運用人工智能技術甄別潛在欺詐風險,并提供交易阻斷、短信提醒等措施,保障客戶資金安全,同時適時引入人臉識別、聲紋識別、語音導航等技術,搭建智能柜臺業務和客服中心,中小型銀行也紛紛打造智慧廳堂服務機器人,處理客戶提出的簡單問題。對于銀行數據中心而言,人工智能在IT運維管理方面的應用研究也日趨明顯。
3智能IT運維
3.1 IT運維管理
IT運維管理是指數據中心采用相關方法、技術、制度、流程、文檔等,對軟硬件生產運行環境、業務應用系統和運維人員進行的綜合管理,主要包括數據庫管理、應用管理、可用性和性能管理、網絡管理、故障事件管理、日志管理、配置管理、服務臺、資產管理、作業調度平臺管理、硬件設備管理等。
3.2智能IT運維
智能IT運維本質是將人工智能、大數據分析等技術應用到運維管理場景中,實現運維活動的標準化及自動化,進而提升機器輔助運維決策等能力,比如對業務應用系統提供自動化故障智能檢測,幫助運維人員進行故障根源判斷和處理等,在《中國銀行業信息科技“十三五”發展規劃監管指導意見》分列章節“提高運維自動化水平,打造智能化運維體系”中,對智能化運維相關內容進行了描述,包括環境部署、運維監控、容量管理、共享協作、數據分享等。由于智能化運維的重要作用,銀行業數據中心正積極開展智能化運維的建設工作,但是由于技術架構復雜,普遍針對特定智能化場景進行技術研究、原型測試和試點建設,目前還沒有整體規劃設計,典型智能運維場景如圖1所示。
3.3智能IT運維技術
智能運維平臺是將大數據和機器學習功能相結合的軟件系統,用以增強或部分取代廣泛的IT運維流程和任務,包括可用性和性能監視、事件相關性和分析、IT服務管理和自動化,智能化IT運維的共性特征包括以運維數據為驅動、以動態算法為核心、以機器學習為手段,主要包括以下方面功能技術:
(1)運維數據抓取,允許從業務應用服務、中間件及硬件設備生成的日志文件中捕獲可二次處理的價值數據,以及用于訪問和分析的數據,為方便訪問可以為日志存儲編入索引。
(2)文檔文本輸入,允許對可讀文檔進行輸入、解析和語法語義索引。
(3)運維數據存儲,允許對日志數據、軟硬件設備參數和文檔數據進行持久存儲。
(4)自動模式發現和預測,基于獲取到的一種或多種類型的歷史運維數據,得出數學結構模型,來描述可能被推斷出的新型關聯關系。
(5)異常檢測,使用己建立的發現模型確定什么是正常的系統行為,然后從正常的系統行為中辨別出偏離。
(6)根源決定,通過自動模式發現和預測模型建立的關聯關系網絡刪除依賴關系的鏈接,以提供有效干預的方法。
4智能IT運維技術案例
4.1智能容量預測
對于各應用系統容量管理方面,傳統運維平臺無法預測當前系統配置能否撐過業務高峰期,以及系統存在的瓶頸位置,而智能化的容量管理結合了大數據分析預測技術,將銀行數據中心各物理資源(如服務器、存儲和網絡等資源)的實時容量快照、負載情況和未來擴容趨勢呈現出來。智能容量管理首先采集應用系統交易量、操作系統性能指標、中間件性能指標等,基于機器學習算法,對交易量進行預測分析,找出交易量與各指標之間的關聯,最終評估當前系統承受交易量上限及瓶頸,在容量告警之前幫助維護人員及時制定有效地采購和擴容計劃,滿足用戶未來資源的高效利用。
4.2智能異常檢測
傳統的異常告警管理一般使用固定閥值并且需要運維人員手動設置,這種方式不僅工作量巨大且十分依賴運維人員的經驗,若閥值設置不當可能導致告警風暴或者告警漏報等后果,異常檢測是智能運維系統中一項基礎且重要的功能,是在眾多可能引起故障的因素中,追溯到導致故障發生的癥結所在,旨在通過算法自動發現KPI時間序列中數據的異常波動,為后續的告警、根源分析提供決策依據。在實際場景中,批量時段性能指標超閥值、交易量峰值時段性能指標超閥值等成為日常告警的難點,通過時間序列分析和移動指數平均、LSTM算法等機器學習算法,進行系統指標的動態基線告警,并基于指標告警實現故障樹的構建,輔助完成故障定位。
5展望
近年來,機器學習理論研究迅猛發展,不斷取得突破,促進了人工智能技術的飛躍,基于機器學習的智能運維今后會在銀行數據中心全面發展,因為銀行業擁有得天獨厚的大數據和應用場景,最終成為運維人員高效可靠的助手。
參考文獻
[1]袁俊德.人工智能與生產運維[R].農信銀支付清算系統會議,蘇州,2 018.
[2]王雄.云時代IT運維面臨哪些新的挑戰[J].計算機與網絡.2018 (21): 40
[3]袁俊德,以“七臺兩庫”領銜智能化運維[J].金融電子化.2017 (08):75-77.