文|雷耀平
系統集成項目中數據遷移的風險管理
文|雷耀平
基礎數據是企業正常運轉的血液,是企業信息化建設的重要基石,特別是對銀行企業來講,客戶信息,交易記錄及各種管理數據都是銀行正常運營的保障,但隨著業務量的增長,數據量可能會隨著硬件或者系統升級的需要進行必要的備份,整合或者遷移,如何在保證正常業務不受影響的情況下,完成相關的業務數據的整理工作,成為銀行可能階段性面臨的重大問題。本項目中,我們關注的是某銀行賬戶系統數據和業務的遷移,簡稱A系統。該系統是某銀行在全國上線,部署在總行、各省級分支行數據中心。目前該系統與各商業銀行、部委2個系統連接,主要服務于各商業銀行。但隨著業務增長,需要該系統與相關部委4個系統連接,服務更多國家部門,對A系統部分生產環境進行更新成為當務之急,此處數據遷移是本次系統環境更新的重點工作之一,本論文將用項目管理的風險管理理論為本此數據遷移工作保駕,采用科學的理論總結風險點并提出應多措施。
項目初始階段:初始階段主要是和用戶一同進行項目的需求分析,充分了解用戶需求;制定項目目標,確定工期,列舉數據遷移過程中涉及到的各個資源包括原廠商的支持等;組建實施團隊,確保實施人員的穩定性和技術能力;
項目設計階段:完成文檔的編寫;通過在HP和IBM的試驗環境中進行數據遷移的測試演練,以及按照賬戶系統的真實環境部署應用和HP服務器雙機MC的切換測試。
項目實施階段:項目的實施階段是項目成員在各人民銀行實施現場進行數據遷移的實際操作過程,這個階段主要是從技術上完成數據遷移。包括:搭建環境;安裝軟件和升級補丁;部署WAS應用、恢復數據庫;支付處業務測試;根據真實生產環境配置服務器;業務測試及配置備份服務器、磁帶庫。
項目收尾階段:收尾階段是客戶對整體數據遷移項目進行驗收,并按照合同的要求進行后續1年的維保服務。
為了能夠及時處理相關風險,需對整個項目的潛在風險進行輸入細致的分析。同時結合風險管理的相關知識,對潛在風險提出相應的預案,從而達到風險管理的目標。
采用頭腦風暴法和檢查表法相結合,項目組成員和客戶舉行會談,針對本次數據遷移項目中各個過程涉及到的潛在風險進行列舉、分析,將各風險條目匯總到檢查表中加以明確,以便在實施過程中對各個風險進行有效應對。本文在頭腦風暴的過程中提煉出一種風險識別的模式,具體方法如下:
將項目分成不同的階段,針對不同階段劃分出區域展開討論。
針對某一具體階段,請各位專家首先根據自己對于項目的理解提出該階段可能存在的風險,由專人負責記錄并整理。
請專家組組長對大家提出的備選風險進行評估,然后將風險的重要程度劃分優先等級。
對風險進行討論。主要圍繞該風險的發生概率、該風險可能帶來的損失有哪些,盡量定量分析、該風險可能帶來哪些其他的風險。
在討論過程中記錄人員應著重記錄圍繞某一具體風險展開的討論,按照風險進行整理。
在討論不同階段的風險時,應該及時記錄其他階段的風險,但暫時不討論。當第一階段討論結束后,重新按照階段進行第二次討論。
在第二輪討論結束后,有專家組長帶領大家對產生的風險重新進行優先級劃分,并確定每一階段的風險類型、潛在的損失等內容。
根據以上方法,我們整理獲得相關的風險點,按技術層面和非技術層面進行分類,針對每個風險應對措施如下:
(一)非技術層面潛在風險應對措施
項目團隊建設:選定對IBM和HP小型機熟悉的員工進入項目組;在測試過程中對項目組成員進行專項培訓;項目組內設立獎懲措施;盡可能多地邀請員工參與實施方案的設計和培訓。
原廠對本項目的支持:作為集成商,以用戶名義要求原廠負責人派遣技術能力過硬的工程師按照規定時間提前到達用戶現場;現場工程師要有儲備。
用戶對本項目的支持:在數據遷移后測試之前,提前通知用戶去協調下屬單位將業務暫停,待測試完畢后重新啟動服務。
電力供應:要求用戶提供UPS備份電源,確保在實施過程中供電系統萬無一失。
實施人員的穩定性:培訓過程中,盡可能多安排項目組外的員工參加。
服務質量:在對項目組成員培訓的同時,保障有機會使成員在測試環境中動手實驗,以便能更好為用戶提供服務。
(二)技術層面潛在風險應對措施
目標不明確:項目啟動后,和用戶反復溝通,確定好軟硬件型號。
用戶的網絡環境狀況:首先確保網絡的連通性完好,為數據遷移過程準備好網絡環境基礎,其次保障網絡帶寬富裕。
HP服務器配置:數據庫和中間件全部是原生產環境中IBM的軟件,在HP平臺上的運行狀況是否穩定,需要額外關注。
測試環境:由于涉及到IBM、HP兩種服務器,測試也必須是在IBM服務器和HP服務器兩種平臺上進行。
實施方案不完善:在測試的過程中編寫實施方案,通過文字描述和測試過程中截圖的方式,圖文并茂將實施步驟和注意事項寫到實施方案中。
制定實施計劃:首先根據用戶的要求安排行程路線,工程師盡量減少行程以便提高效率和減少交通成本。
存儲設備空間使用率:與用戶進行溝通,明確當前的數據量和業務壓力,預期今后的業務增長率,通過計算得出業務增長對存儲空間的需求,保障存儲空間分配合理。
真實環境與測試環境之間的差異:在測試環境中進行數據遷移,數據量、并發訪問數等都與真實環境不同。在用戶真實環境中進行數據遷移,要嚴格按照用戶原有的環境進行,不做任何改變。
用戶機房環境:如果由于用戶工作安排或者技術水平等原因,實施前沒有將機房環境準備好,項目實施人員會提前1到2天前往用戶現場,考察用戶環境并幫助用戶將機房環境準備好。
HP雙機切換異常:為避免HP雙機切換異常導致業務不能接管,在實施過程中,實施人員分別將2臺HP服務器均部署DB2數據庫和WAS 中間件。
遷移后IP地址沖突:數據備份和恢復時,停掉HP雙機服務,臨時分配給HP服務器一個IP地址與IBM服務器通信;待數據恢復成功之后,停掉IBM服務器的雙機服務,關閉IBM對外的服務IP地址,啟動HP服務器的雙機服務,HP服務器上對外的服務IP地址自動生效,從而避免IP沖突。
數據的備份與恢復:為了避免備份文件的損壞,在備份過程中將數據庫的控制文件、日志文件同時備份,并將數據文件備份多份,保持數據完整性。在恢復完畢后由用戶組織對HP生產環境中的業務進行測試。
實施過程中用戶的新需求:根據用戶的要求,對系統做一些增減,前提是在保障工期內和用戶協商不能改變數據遷移的環境和業務系統運行的環境要求。
售后維護:首先對項目組成員進行技術上的培訓,要涉及到日常對HP和華為設備的維護技術;在項目預算范圍控制內適當儲備備件。
本文圍繞實際IT項目——數據遷移過程中可能出現的風險展開研究,提出一種適用于IT系統集成項目的風險識別模式,并基于該模式給出了該項目風險管理總體方案和具體步驟,運用風險管理的相關知識指導項目的實施,可以為其他類似項目進行管理借鑒。
作者單位:北京中油瑞飛信息技術有限責任公司