李麗
摘要:本文從時鐘授時對自動轉報系統產生的影響出發,闡明當時鐘系統發生故障時的故障排查方法、應急處理步驟以及經驗總結。
關鍵詞:自動轉報系統;服務器時間;時間跳變
自動轉報系統是中國民航自動轉報網絡的網絡節點,承載著民航相關數據信息的傳遞和存儲工作。自動轉報系統采用的是UTC時間,與北京時間相差8小時,每天早上8:00自動轉報系統時間由23:59分自動變更為零時。2016年1月1日,值班員在巡檢中發現主用DMHS-H轉報系統服務器與IP終端時間跳變為“2015年1月1日”。由于服務器中數據庫報文表的訪問均與時間關聯,時鐘的錯誤導致了報文無法存儲數據庫,值班員立即將故障現象報告給廠家工程師,查明了原因,并手動更改時間為“2016年1月1日”,恢復了服務器系統時間,報文存儲功能也隨之恢復。
一、事件起因
目前網絡傳輸室共有轉報系統三套,主用為DMHS-H96路自動轉報系統,該系統在2016年1月1日早8:00,時間跳變為“2015年1月1日”,值班員發現后,立即檢查系統收發報文情況,確定中轉報文收發均正常,所有終端用戶報文能夠及時準確進行傳遞,業務沒有受到影響。但是有于時間發生了跳變,造成服務器內找不到當日的數據庫報文表,所有報文數據無法進行存儲,值班員根據故障現象及情況,首先報告當日值班領導,并迅速聯系廠家工程師,查找故障原因。
二、事件處理過程
1、檢查系統路中轉電報情況。由于該套系統為主用轉報系統,值班員首先檢查電報中轉情況,通過MNG工具實時查看系統路收發電報,返回結果如圖1所示,系統收發電報正常,與終端用戶聯系,確定所有用戶能夠正常收發電報,對業務沒有造成影響。于是,繼續排查故障原因。
2、檢查GPS時鐘。DMHS-H96路轉報系統使用的是GPS時鐘信號,服務器自動同步GPS時間,事發當日,在巡檢過程中,值班員發現兩臺超級IP終端時間顯示為“2015年”,于是通過命令檢查服務器時間,檢查命令為:#date,返回結果顯示兩臺服務器時間均為“2015年”,確定系統時間出現異常,于是,迅速檢查GPS時鐘狀態,確定當時GPS系統運行正常,時間顯示為2016年,與實際時間完全相符,可以排除是GPS問題造成。將此檢查結果告知工程師,便于工程師 繼續排查故障原因。
3、檢查IP 終端告警。雖然電報業務可以正常中轉,但是由于時間錯誤,造成服務器數據庫找不到當日的報文表,無法進行報文存儲,只能在“快速查看報文”中查看緩存中的報文數據。告警信息如圖2所示:
4、報告故障信息。故障發生時,值班員將故障情況向當日值班領導匯報,并迅速聯系廠家工程師,說明故障現象,配合工程師查找原因,調試遠程撥號連接方式,以便工程師可以遠程訪問該套轉報系統。
5、應急處理。在配合工程師查找故障原因的同時,值班員將備用轉報系統檢查并測試正常,以備當主用轉報系統無法中轉報文時迅速啟用備用轉報系統,具體內容包括:
5.1核對DMHS-M(07)轉報系統資料與主用系統完全同步
5.2測試引接DYX系統路至DMHS-M(07)轉報系統,并測試收發報文成功
5.3檢查切換單元狀態,并確保切換單元處于全通狀態
三、處理結果
經過檢查,最終確定造成時間跳變的原因為服務器中GPS時鐘模塊版本過低,造成無法識別正確年份。需要手動進行調整才可以恢復,后期再將軟件版本更新,可以完全修復此漏洞,使得系統不會再出現該類問題。手動修改命令為“#date –s ‘2016/1/1 ”,執行命令后,時鐘立即生效,服務器時間與IP 終端時間均顯示2016年,恢復正常。
在故障期間,由于數據庫無法存報,為了歷史記錄中不造成報文丟失,收報端聯系沈陽轉報室值班人員,將故障期間報文重新進行轉發;發報端聯系終端用戶發報人員,將期間電報再次重新發送,確保了報文存儲的完整性。至此,由于時間錯誤造成的故障徹底解決,系統運行正常。
四、經驗總結
針對此次突發事件,從處置經驗中可以找到需要提升的問題有以下幾點:
1、定期與廠家工程師溝通,了解系統所使用軟件版本信息,需要更新的軟件及時進行更新,消除安全隱患。
2、認真仔細對設備進行巡視檢查,發現問題,及時上報并處置,以不影響業務為前提。
3、熟知系統維護及應急處置流程,當故障發生后可以及時有效的處理故障。
4、多分析、多判斷,在有限的時間內將備用的預防應急措施準備好,搶在時間前面做好準備工作。
參考文獻:
[1]DMHS-H系統部署手冊
[2]DMHS-H系統硬件手冊
[3] DMHS-H日常軟件基本維護手冊endprint