阿不力米提·阿布都克力木
(中國民用航空新疆空中交通管理局空管中心氣象中心,新疆烏魯木齊 830016)
民航氣象數據庫系統是一套用于實現飛行氣象情報及氣象資料的交換、分析、處理、存儲等功能的信息系統,包括通信子系統、數據庫子系統、信息處理子系統及相關網絡設施,是目前各空管系統氣象服務機構用于開展氣象業務工作的重要裝備之一。
其中,民航氣象數據庫子系統擔負著管理和存儲氣象數據信息的任務, 從而實現對氣象資料的有效存儲和快速檢索,在民用航空氣象服務保障中發揮了重要作用。隨著數據庫子系統對氣象數據的處理及存儲要求不斷增加,在業務運行及氣象設備保障人員的維護監控過程中,民航氣象數據庫系統發生了一起氣象資料不備份故障,如不及時發現和處理,將影響業務的正常運行。
本文詳細介紹了一起氣象數據不備份故障事例,并通過實際案例分析,結合筆者實踐經驗及對故障長期跟蹤,給出了故障問題的處理方法,為設備保障人員今后的設備維護和故障排查提供思路和參考。
如果數據庫不進行氣象資料不歸檔,短期內也許不會對業務造成較大的影響,但是如果長時間不歸檔會對業務造成巨大的影響,主要包含:
(1)應用庫表空間過大導致數據無法入庫,目前應用庫是保存3d,默認是兩個表空間文件,當數據增加到最大可擴展存儲容量后,數據將無法入庫。
(2)長時間資料不作歸檔清除,會造成數據表中數據大量增加,影響數據庫運行和查詢效率。
(3)由于數據庫圖形文件沒有月份標識,當應用庫數據達到一個月以上時就會有兩個文件名一模一樣的文件,當前端應用查詢不嚴謹時有可能飛行文件或者圖形查詢會查出來上一個月的數據。
2017 年7 月26 日,值班期間檢查發現數據庫中氣象資料沒有正常歸檔,沒有將應用庫中過期的資料轉移到歷史庫中,也沒有將歷史庫中過期的資料刪除。
(1)數 據 庫dmsserver 進 程 每 天UTC18:10(北京時間凌晨2:10)調用expdp 命令,在/home/mhdbs/data/backup/20170726 目錄下形成dmp 文件,并打包成33 個zip 文件,一般40min 執行完畢。
(2)出現異常后:/home/mhdbs/data/backup/2017 0726/形成表對應的空目錄。如圖1 所示。

圖1 不正常歸檔留底(部分截圖)

圖2 日志信息
(3)故障的定位及精準定位,離不開日志分析,日志通常分為三個層級,第一層級為進程類日志,第二層級為服務類日志,第三類層級為平臺類日志,分析日志,一般應從第一層級逐級展開,如優先查看進程日志,進程日志一般記錄進程的活動,本列為dms 的日志,存放于/bin/log/dms/下;其次查看服務類日志,本列中服務類日志為oracle 數據庫的相關日志,數據庫日志文件記錄了數據庫的相關事務活動,包含警報、跟蹤和重做3 類日志,通過show parameter dump_dest;命令可以顯示日志路徑;第三層級為平臺日志,一般記錄平臺用戶相關的一些日志,如守護進程、用戶登錄、定時任務等相關日志;應當從進程日志開始逐層分析,根據本列的故障描述,優先查看dms 相關日志和oracle 日志,查看相關日志文件及內容顯示。如圖2 所示。
(4)如圖2 中的錯誤描述所示,報故時間段正在使用expdp 進行數據庫導出操作,為進一步判斷故障原因,在shell 下執行expdp 命令進行了手動排查,查看命令報錯信息。如圖3 所示。

圖3 導出命令
(5)返回的錯誤提示信息。如圖4 所示。

圖4 錯誤信息
結合日志文件及系統返回的錯誤提示信息,查閱相關文檔資料分析得知,民航氣象數據庫在用expdp 進行備份導出時會在對應用戶(userdbs)下自動創建一個表名類似SYS_EXPORT_*_N 的表,其中*代表方案如FULL、SCHEMA、TABLE 等,N 一般是數字,如01、02 等形式,如果導出過程異常,諸如此類的表會遺留下來,則會占用用戶表空間,達到一定數量,會引起用戶表空間不足,會造成惡性循環,使得expdp 數據泵job 異常終止,從而導致氣象資料備份失敗。
(1)清理dba_datapump_jobs 表。
(2)查詢生成清理DBA_DATAPUMP_JOBS 的SQL 語句,并復制生成的處理SQL 語句,對表DBA_DATAPUMP_JOBS 進行清理,查詢結果總共99 條記錄。
(3)清理后再次查詢確認DBA_DATAPUMP_JOBS是否清理完全。
(4)清理后再運行備份命令,系統沒有報錯,資料備份確認正常。
民航氣象服務是保證航空安全的重要前提,確保民航氣象數據庫系統的數據穩定、安全、可靠是設備保障人員工作的重中之重。本文通過分析民航氣象數據庫系統中的異?,F象,經采取對相應表的操作,數據庫系統資料歸檔功能已恢復正常。在日常運行中,設備保障人員及時分析系統日志文件各種提示錯誤信息,有利于快速判斷故障點,分析排查故障原因。通過此案例也告訴我們,設備出現故障之后,數據庫系統日志文件中記錄的任何信息都是不容錯過的,通過查看日志可將系統運行風險降到最低,從而保證氣象設備的正常運轉,有效提高設備的運行質量。