(中國民用航空飛行學院綿陽分院 四川 綿陽 621000)
民航氣象數據庫系統是依托民航ATM網絡建設的,綿陽機場氣象數據庫系統網絡拓撲圖如圖1所示:

圖1 氣象數據庫系統網絡拓撲圖
1.查看通信分系統進程狀態及AB報數目、LB使用率執行命令mmi1。

如進程狀態為0FF,可以執行命令inicold重啟通信分系統,再觀察進程狀態。一般情況下,通信機LB小于20%,AB報數小于500。
2.數據落地目錄檢查,進入/home/mhdbs/data,執行命令ll或者ls-l,查看子目錄修改時間,若沒有最近修改時間,說明沒有數據落地。
3.原始數據備份目錄檢查,進入/home/mhdbs/trash,執行命令ll或者ls-l,查看子目錄修改時間,若沒有最近修改時間,查看資料處理進程是否正常工作。
4.定期檢查磁盤空間/home,/home/mhdbs/data/backup下面存放歸檔文件,系統每天執行自動歸檔,日積月累/home空間將不斷縮小。可以執行命令df-h察看磁盤空間使用率
5.磁盤空間/u0存放oracle軟件和oracle數據庫文件,資料分解并存入oracle數據庫,物理上保存在/u0/oracle/oradata/下的數據庫文件中。隨著資料不斷入庫,可能會造成/u0磁盤空間占滿的情況。Oracle的運行文件也存在/u0下,oracle的異常信息也可能會使/u0空間占滿。若/u0使用率超過80%,但如果增長速度不快,通過管理子系統【數據庫監控】功能,檢查表空間的浪費率是否超過30%,如超過30%請及時進行表空間回收。
6.自動歸檔,自動歸檔每天進行,默認對32個數據資料表的前一天數據進行歸檔。以oracle登錄服務器cd/home/mhdbs/data/backup/當天日期文件夾,或者在歸檔文件遷出功能中按日期檢索查看歸檔文件一共有多少個,正常情況下應該為32個后綴為.zip的文件。
7.進程監控,進程監控實現監控、啟動、停止12個入庫進程。執行命令mmsctl list all檢查mgeprd和mgetxt進程狀態。
8.通道狀態檢查,執行命令showchl,正常狀態應顯示Running,若發送通道為其他狀態,可執行啟動通道命令runmqchl c ZUMY.To.DBOO&進行啟動
9.隊列深度檢查,執行命令showque,可查看local.txt和local.prd隊列積壓情況,多次執行命令觀察深度變化,正常隊列深度應有增有減。
10.執行sh run命令可查詢cisco網絡設備配置信息,執行sh ip int b命令可查看設備所有接口狀態信息,包括接口名稱.ip地址.協議狀態和物理狀態。
11.查看數據庫分系統資料處理進程狀態,執行命令mmsctl list all,狀態為s表示數據庫進程在運行,也可以用數據庫管理子系統檢查進程監控。
1.2014年6月19日,當時綿陽機場的數據庫系統還沒有直接從成都接過來,而是經過廣漢機場轉接過來的,上午預報員反映報文收不到,檢查本地數據庫服務器正常,也沒有出現堵報現象,查看線路也正常,后聯系廣漢,得知廣漢服務器報文堆積,下午2點廣漢氣象臺處理完堵報后,綿陽數據庫系統能正常收報。
2.2015年5月6日,發現接收報文不全,檢查服務器進程和線路都正常,將服務器重啟后發現仍有部分報文收不到,后發現/home/mhdbs/data/cac里有堵報,將/cac里的堵報刪除后恢復正常。
3.2017年7月11日,數據庫通信程序提示報文上傳本地服務器失敗,預報終端不能正常查詢報文。將數據庫服務器/cac文件夾下堵報刪除并重啟服務器,問題沒能解決,后來檢查發現cac文件夾權限不正確,將其權限改為mhdbs,組權限改為dba,服務器恢復正常。
4.2019年2月11日,氣象臺上午發現報文不全,檢查服務器正常,后發現ATM上幀中繼板卡未能供上電,重啟ATM仍未恢復,初步懷疑該板卡故障。3月6日,向其他機場借了一塊板卡換上,換上后發現ATM上幀中繼板燈不正常,重啟ATM后狀態正常,然后發現通信機上DB00隊列壓報九萬多份,重啟通信機,隊列開始正常入庫,但是仍查不到報文,最后做數據清理,并恢復留底文件,待到整點收報正常。
本文主要介紹了氣象數據庫系統的日常維護和常見故障分析,作為一名從事氣象數據庫維護的工作人員,在以后的工作中,還需要更加努力學習相關技術,不斷總結,在設備出現故障時才能有條不紊的進行處理。