■ 山東 張魯峰
前段時間單位在臨近春節即將放假之時,正當大家都還沉浸在準備歡度春節的喜慶氣氛中,但一通電話將單位歡樂祥和的氣氛一掃而光,電話告知筆者,因公司機房因意外斷電,導致財務系統無法正常登錄了。聽到這里筆者心里一緊,趕緊遠程登錄到服務器上進行檢查,發現系統數據庫損壞了,這可是很麻煩的問題,筆者當場就愣在原地。
不巧的是,事故當天正值春節放假第一天,各大公司的技術人員大多放假返鄉,導致我們也難以協調外部資源協助處理。而且系統數據庫是專業化高的Oralce,技術門檻較高,且維護價格不菲。況且,“黃金有價,數據無價”,若處理過程中,稍有不慎導致公司財務和業務數據徹底損壞而完全丟失,那損失就無法計量了。
此時此刻,所面臨的困難真的是非常考驗我們,怎么才能克服困難并解決問題呢,首先大家通過分析問題,認為目前可有兩個選擇:
第一種方案是想辦法直接修復數據庫,但通過聯系與咨詢專業數據庫工程師,并請其遠程診斷與分析,斷定公司的數據庫已屬于深度損壞,要想修復需要付費至少數萬元,關鍵是無法保證能夠完全修復成功,最多能給找回部分業務數據。
另一種方案是,用公司現有的數據備份予以恢復,將備份之后所生成的業務數據再手工補錄回來。這樣的好處是實現方法相對簡便,且節省費用,但缺點是需要手工補錄回遺失的數據,并請相關領導重新審批損失期間的流程。
通過綜合比較,大家認為第二種方案相對更保險,且備份與遺失數據之間的差距較?。〝祿浞菰谥形?,系統損壞在下午,只遺失了下午的數據),相對容易補回。
確定選擇第二種方案,在征求了業務部門的意見后,隨即協調了系統軟件商,制訂了如下的恢復計劃與工作方案:
第一步,先搭建測試環境,把最近備份的數據庫導入測試環境,并進行業務操作和查詢測試,主要測試新增和查詢業務數據是否有問題,以驗證備份數據庫是否完整且可用。
第二步,確認備份數據庫沒問題后,對正式數據庫服務器進行安裝。
第三步,待新數據庫安裝完成后,與軟件商配合,進行備份數據庫的導入工作。
第四步,導入完成后,再次查詢測試導入數據庫是否完整,確認無誤后,協調安排業務人員進行補錄,系統僅損失當天所丟失的數據。
依據上述計劃,我們分別協調軟件技術工程師及公司業務部門,通過合理分工、按部就班進行,最終實現了財務系統和數據庫的完整修復與恢復。
任務完成了,重新登錄后,看到那正常且熟悉的界面,長舒了一口氣,回想整個過程,頗費周折,這當中有資源協調的困難,比如春節放假期間,請軟件工程師加班處理。有測試資源不足的問題,因為在導入正式服務器前,需要先有相應的測試環境,測試確認無誤后,方能在正式系統里面實施,但由于公司現有資源無法滿足測試需求,通過筆者多方協調,及大家積極獻計獻策,最終采用虛擬測試環境,保證了測試的需要;

圖1 新UPS測試結果
除此之外,過程中還有儲多問題與困難,這里就不一一贅述了。
痛定思痛,如何才能避免類似問題再度產生呢,事后我們信息化人員與業務部門一起反思總結,探討出如下的改進措施:
第一,公司機房的電閘,位于外走廊,之前是處于完全放開的、無人管理的狀態,本次斷電的原因,也是由于業務部門新人誤觸到拉閘,為此我們請人安裝了鎖具,并安排了業務部門的專人進行管理與定期檢查,以保證機房供電的安全與穩定。
第二,因公司之前也發生過意外斷電所導致的服務器宕機與系統損壞的情況,通過檢測,我們發現機房供電的UPS(斷電支持電源)設備老化,且功能陳舊,無法有效應對機房的意外斷電的問題,為此,公司機房升級更新成新型智能UPS(山特C10KS+NMC通信板卡),升級后的設備增加了新功能,實現了斷電后的在線報警與提醒,及服務器的自動關機功能(測試結果如圖1所示)。
另外,為UPS加裝電池組,使得斷電持續能力得到適度延長,保證機房在停電后,能有充足的時間從容處理相關事務等。
此舉可有效保證斷電后的及時應對,以保證信息與設備的安全。
上述工作基本都是以遠程協作與在線配合的方式完成的,在線溝通與協作的便捷與高效是非常重要的。特別是在“新冠”疫情中,遠程辦公更是大顯身手,成為主流,更顯溝通協作的重要性。
另外,就是工作的精細化,本次事件的起因就是因為新員工不甚誤觸電閘,加上諸多因素的疊加,最終導致整個機房的大宕機,所以一定要關注工作中的每一個細節。