孫永強
摘 要:航管信息自動化處理系統(AIMS)的故障處理涵蓋多方面因素,包括物理鏈路、服務器、數據庫、系統進程等幾方面,本文介紹的是由于系統日志積壓過多,windows服務器某一進程占用兩種情況共同導致的故障,通過對加入腳本,對數據庫日志自動清理可以避免該問題的再次發生。
關鍵詞:AIMS;數據庫;日志
航管信息自動化處理系統是由北京航管科技有限公司研發的航行計劃動態處理系統,我分局于2013年啟用,本套系統投入運行之后,極大地提高管制數據自動化處理的能力,程序化、標準化管制員的日常操作,降低人為差錯的可能性,及時準確的在部門、管制單位甚至區域間傳遞信息,并且可以實時為流量管理、協同決策、起飛前放行以及自動化等系統提供有力的數據支持。涵蓋了報文收發分解、計劃維護、SSR管理、進程單打印、數據統計分析、數據發布等功能。
我分局AIMS系統架構采用兩臺服務器互為熱備,另有一臺windows服務器作為數據同步服務器,通過路由器與交換機接入塔臺、進近、站調等終端用戶,通過ATM線路與東北局相連,接入民航局ATM網絡已達到數據交互(如圖1所示)。
今年九月份AIMS系統出現異常現象:出港航班正常發報后再FMD界面報文不消失,依舊在界面上存在;站調客戶端出現報文異常,無法接受部分報文。
此次故障導致管制部門不能夠準確獲知航班飛行計劃,航行動態,對管制工作造成重要影響。
接到故障報告之后,立即開展故障排查工作。首先查看前臺監控終端,發現進出港航班信息均不刷新,無新報文顯示;通過telnet鏈接AIMS的服務器,均出現了無響應的情況;監控平臺顯示AIMS服務器出現告警信息,數據庫出現異常(如圖2所示)。
后直接通過KVM查看服務器運行狀態,經排查發現遠程維護的聯網Windows服務器自身出現了socket占用滿的情況(windows系統自身回收socket存在的bug).由于聯網windows服務器的這個bug會導致此聯網windows系統無法遠程登錄各個linux服務器和終端,故重啟此聯網windows服務器.聯網Windows服務器重啟后,登錄linux系統數據庫,發現數據庫響應過慢并且有大量內存和文件占用情況,后在主備數據庫服務器上執行了日志清理和數據庫備份工作. 清理日志后,AIMS系統恢復正常.正常后對塔臺和站調用戶進行了電話詢問,站調用戶反映入值班的數據與經驗值過少,經對比歷史數據,發現數據一致.后續請站調部門幫忙繼續觀察,如有問題,及時電話聯系,后續沒有收到任何異常反饋. 系統正常后,在linux服務器上加入了定期清理數據庫日志的腳本.后續系統會每天自動清理過期的日志,過期失效的時間為60天.
經過對AIMS服務器端的查看分析,此次故障主要有以下兩方面原因引起:1.服務器數據庫的系統日志過多,導致服務器內部程序響應時間超時;2.windows系統socket占用慢的情況,給具體的linux系統的異常排查帶來障礙。
結合此次故障排查的經過以及廠家工程師方面的具體建議,此類故障具體的應對措施可以采用下列步驟:在AIMS兩臺服務器中加入數據庫日志自動清理腳本,后續的數據庫日志會每天自動清理,并將日志記錄保留。這樣可以最大限度的釋放系統內存空間,防止由于日志過多的原因導致某一進程卡死;其次對于windows服務器系統socket占用滿的情況,在現有server08系統上修改配置也無法解決,需要定期進行操作系統的維護工作.建議定期系統維護時,對聯網windows服務器系統進行維護工作。
參考文獻
[1]《航管信息自動化處理系統運行維護手冊》.