楊浩
摘 要:民航氣象數據庫系統是民航氣象業務的核心信息系統,其24小時不間斷的運轉保證了氣象業務的正常開展,本文重點闡述了數據庫系統的一次硬盤自身驅動器監控報錯故障處理。
關鍵詞:民航氣象數據庫系統;AIX;故障處理
0引言
本文是基于民航氣象數據庫系統疑似故障處理的探析,針對的是民航氣象第三級數據庫系統。民航數據庫系統是民航氣象業務的核心信息系統,它采用一套分級的,包含發送、請求、響應、回復、轉發等多種功能的,復雜的數據交換模式,實現了實時收集、處理、儲存、交換民航國內、國際飛行所需的綜合航空氣象情報信息的功能,提供給用戶氣象資料自動分析和制作等功能,為航空氣象用戶提供航空氣象產品[1]。
1民航氣象數據庫系統架構分析
民航氣象數據庫系統分為三級體系架構,每一級根據業務處理能力的實際需求進行不同的配置,同級間則采用了相同的配置。本場屬于民航氣象第三級數據庫系統,系統由一臺ibm system p520 作為數據庫服務器,一臺ibm system p520 作為應用服務器,一臺DELL OPTIPLEX 745作為通信服務器,采用cisco2960 交換機作為本地網絡的核心交換機,通過cisco2851 路由器與所在地區氣象中心數據庫相連,利用cisco pix 515e 作為安全隔離。在數據庫服務器和應用服務器上,均安裝了AIX操作系統并搭配目前功能最強大的ORACLE數據庫,而通信服務器則安裝了Linux操作系統[2]。
通過本場一次氣象數據庫系統硬盤自身驅動器監控報錯故障處理分析,結合AIX系統管理技術學習,總結出了民航氣象數據庫系統在維護時對主機系統、網絡系統、數據庫進行故障檢查的方法及命令總結,以便發現問題及時處理。
針對濟南本場的情況,數據庫系統主機系統包括了數據庫服務器DB00、數據庫服務器DB01、通信服務器,其中數據庫服務器安裝的是AIX操作系統,通信服務器安裝的是Linux操作系統。
2疑似故障處理
在民航氣象第三級數據庫系統中數據庫服務器為ibm system p520q,當系統出現告警時,主機面板上的黃燈會亮起,濟南本場在黃燈告警亮起時對系統進行巡檢,發現數據庫hdisk0硬盤驅動器顯示硬盤自身驅動器監控功能有問題,報錯代碼為具體報錯內容為:
LABEL:DISK_ERR2
Location:U787F.001.DPM27Y2-P1-T10-L3-L0
Type:PERM
Resource Name:hdisk0
進一步查看日志信息,發現文件系統無壞塊,rootvg讀寫正常,為了防止hdisk0的讀寫損壞,決定執行更換硬盤操作。
Hdisk0和hdisk1互為鏡像,內含操作系統,故在更換時需要更加謹慎,首先將更換硬盤的整體思路整理出來:準備階段(停止業務和服務、更改硬盤啟動順序)、更換階段(確定hdisk0位置、拆除hdisk0鏡像、更換hdisk0并做鏡像)和檢查階段。
3.1準備階段
首選需要停止數據庫服務器DB00的業務和服務,使用命令bootlist –m normal –o查看當前引導順序,然后為hdisk1添加引導信息,使用命令bosboot –ad/dev/hdisk1,重新設置引導順序,將hdisk1設置為最優先,使用命令bootlist –m normal hdisk1 hdisk0,再次檢查引導順序后重啟系統。
重啟系統后需要檢查rootvg是否有stale塊,確保更換引導順序后系統無問題,使用命令lsvg –M rootvg。
3.2更換硬盤階段
通過命令diag進入選項,依次選擇Task Selection-RAID Array Manager-PCI-X SCSI Disk Array Manager-Diagnostics and Recovery Options-SCSI and SCSC RAID Hot Plug Manager-Identify a Device Attached to an SCSI Hot Swap Enclosure Device來確認hdisk0的位置,并且點亮它,記住hdisk0的位置。然后使用命令unmirrorvg rootvg hdisk0拆除鏡像,若lg_dumplv系統診斷卷在hdisk0上則需要遷移至hdisk1,然后去掉hdisk0的rootvg,reducevg rootvg hdisk0,去除hdisk0的引導信息chpv –c hdisk0.
然后在系統中刪除hdisk0,使用命令rmdev –dl hdisk0,此時可以拔出hdisk0,插入新硬盤,在更換過程中必須確保預防靜電,執行命令cfgmgr進行掃描,然后查看新硬盤狀態執行lspv,若顯示為pdisk需要設置為hdisk后繼續操作。
確認新硬盤狀態為hdisk后,清除其物理卷組,chdev –l hdisk0 –a pv=clear,重新分配卷組信息chdev –l hdisk0 –a pv=yes,將hdisk0加入rootvg,extendvg –f rootvg hdisk0,此時到達做鏡像的步驟,然后才可以把hdisk0加入啟動引導,設置其啟動順序為最優先,更改啟動順序的不在贅述。做鏡像需要等待一個小時左右時間,命令為mirrorvg –S rootvg hdisk0。
驗證做鏡像是否成功需要使用lsvg –l rootvg命令,若PPS是LPS的兩倍,則鏡像制作成功。更換硬盤操作到此結束。
3.3檢查階段
檢查errpt和系統信息,執行巡檢腳本再次檢查系統,確認完畢后啟動數據庫業務和服務。
參考文獻:
[1]梁帆. 民航氣象第三級數據庫系統管理維護和典型故障處理.硅谷.2011,24:124-125.
[2]張迪馨. 民航二期氣象數據庫系統主機維護經驗總結.空中交通管理.2007,08:45-46.