董華倫

摘 要:隨著民航的快速發展,空管自動化系統的地位越來越高,而空管自動化系統中主要由計算機系統組成。硬盤是計算機系統的存儲中心,7x24小時運行。在空管自動化系統中故障的統計中,硬盤的故障率最高。為解決硬盤故障帶來的影響,現在服務器都使用RAID技術。RAID技術的使用緩解了硬盤故障帶來的影響,但是當前空管自動化系統中依然缺少對硬盤的監控。
關鍵詞:AirNet;硬盤監控;S.M.A.R.T;smartmontools
AirNet空管自動化系統由成都民航空管科技有限公司自主研發的具有自主知識產權的管制中心空管自動化系統。AirNet具備沖突告警、低高度告警、常規一次、二次雷達等監視數據接入處理、雷達數據記錄回放、雷達顯示、飛行計劃處理及顯示等功能,可為空中交通控制提供自動化的管制手段,是區域、進近、塔臺等單位的雷達管制必備的系統。
AirNet自動化系統的工作站使用HP Z系列工作站和HP DL380系統服務器,使用RedHat Linux Enterprise Serverr5.8或7.1的操作系統。在SMC的監控程序上都缺少硬盤狀態的硬盤,無法實時監控硬盤的工作狀態,存在無法及時發現硬盤健康狀態不佳的安全隱患。通常是通過定期檢查硬盤指示燈來判斷或待硬盤故障導致系統不可用才發現,工作效率低下。尤其是當前HP工作站也使用RAID1,當其中一塊硬盤故障時,在主機和顯示上都無任何變化,只有兩塊硬盤故障才能發現,而此時系統已不可用,迫切需要一種監控程序能實時監控硬盤的健康狀態。
1 S.M.A.R.T
1.1 S.M.A.R.T的概念
Self-Monitoring Analysis and Reporting Technology的簡稱為S.M.A.R.T,是一種自我監測、分析和報告的技術。可以通過使用硬盤上的一些指令和監測軟件對支持S.M.A.R.T技術的硬盤的健康狀態進行分析,比如:硬盤的磁頭、馬達、盤版、使用時間、電路情況、歷史情況等健康狀態,將檢測到的數值與硬盤預設的安全值進行分析比較,當檢測到的數值超過預值后,可以自動向用戶提供告警信息。支持S.M.A.R.T技術的硬盤可以通過使用硬盤上的監測指令和主機上的監測軟件對磁頭、盤片、馬達、電路的運行情況、歷史記錄及預設的安全值進行分析、比較。當出現安全值范圍以外的情況時,就會自動向用戶發出警告。
1.2 S.M.A.R.T信息收集方式
S.M.A.R.T的信息收集有兩種方式,一種是在線收集方式(On-line),一種是離線收集方式(off-line)。在線收集方式,就是在硬盤在工作時,硬盤自動地實時或定時更新硬盤自身的S.M.A.R.T的數據。比如SCSI硬盤,每4分鐘自動更新S.M.A.R.T數據,當在4分鐘的周期里如硬盤健康狀態有異常,則會將主機提供告警信息。在線收集方式不會影響到硬盤的性能。
離線收集方式,就是在主機上通過相關檢測指令對硬盤進行檢測。由于離線收集會讓硬盤進行大量操作用以檢測健康狀態,在一定程度上會造成對硬盤的讀寫有一定的延遲,所以離線收集方式會對硬盤的性能有一定的下降。但由于當前的硬盤性能和主機性能都較好,在實際使用過程中沒有明顯的體現。
2 smartmontools
2.1 smartmontools是什么
smartmontools是一種硬盤檢測工具,可以安裝在Windows和Linux操作系統上,在Windows或Linux操作系統運行smartmontools,可以檢測硬盤的健康狀態。smartmontools主要由smartctl和smartd兩部分工具程序組成。可以認為smartctl是離線收集,smartd是在線收集。
2.2 smartmontools參數的介紹
smartctl-a 查看S.M.A.R.T相關信息;
smartctl-s on 開啟S.M.A.R.T功能;
smartctl-H 檢查硬盤健康狀態;
smartctl-t short 后臺硬盤快速自檢;
smartctl-t long 后臺硬盤長時間自檢;
smartctl-C-t short在前臺硬盤快速自檢;
smartctl-C-t long在前臺硬盤長時間自檢;
smartctl-X中斷后臺硬盤自檢。
2.3 smartmontools的常用使用方法
(1)smartctl-i /dev/sda 顯示設備所有的SMART信息。
(2)smartctl-H /dev/sda 檢查硬盤健康狀態。
3 硬盤監控程序的設計
當前AirNet自動化系統的操作系統版本為redhat5.8或redhat7.1,該兩個版本的操作系統都已經安裝好smartmontools。
3.1 硬盤監控程序的部署
(1)在SMC的/home/cdatc/AirNet/bin/disk_monitor目錄下新建disk_monitor.sh和alarm_displsy.sh兩個shell腳本程序,disk_monitor.sh為主程序,alarm_displsy.sh為告警顯示程序;
(2)在SMC的定時任務中添加disk_monitor.sh的定時任務。
3.2 disk_monitor.sh內容如下
4 總結
該程序同樣也可部署在萊斯自動化系統、ADS-B數據站等系統上,可移植性較高。通過該監控程序的運行,可以快速檢查硬盤的工作狀態,提前發現設備隱患,安全隱患零容忍落到實處,推動安全風險窗口前移,保障空管自動化系統的持續運行能力。
參考文獻:
[1]360百科S.M.A.R.T(https://m.baike.so.com/doc/6778352-6994423.html).
[2]Smartmontools使用指(https://blog.csdn.net/lwprain/article/details/9819623).
[3]AirNet自動化系統相關資料.
[4]HDD SMART-百度文庫(http://wenku.baidu.c).
[5]S.M.A.R.T技術(http://baike.baidu.com/view/158623.html).