許薇 陳元琴 彭家紅
(中國聯通南昌市分公司,江西南昌 330096)
移動智能網平臺故障淺析
許薇 陳元琴 彭家紅
(中國聯通南昌市分公司,江西南昌 330096)
設備單磁陣硬盤故障導致整個磁陣存儲失效,導致SCP與數據庫庫連接失敗,智能業務觸發業務阻塞,故障處理過程及故障原因進行分析。
智能網 簽約 SCP 數據庫 連接
08:00智能網平臺SCP設備CP過負荷,告警屬二級告警,智能網平臺的SCP1與數據庫連接狀態正常,無異常告警,現場設備狀態檢查及設備運行指示燈正常,無告警指示,經測試影響部分用戶做被叫接續,后續處理過程中影響5萬用戶業務使用。
(1)經測試發現到一號通及彩鈴的呼損越來越多,考慮到嚴重影響業務,基本處于業務全阻狀態,在SCP設備上用ROOT用戶執行su-zxin10命令,系統無響應。
(2)查看系統發現有異常多歸屬zxin10用戶的進程,正常運行時系統只有20個左右,但當時觀察到有數百個。使用root用戶執行強制停止并重啟雙機的命令,停止后雙機無法啟動。重啟SCP1后雙機仍無法正常啟動,操作過程中觀察到SCP2設備自行重啟。
(3)查看設備運行狀態,與其連接磁陣設備無任何指示燈告警。多次嘗試SCP設備和數據庫進行重新掛接均失敗,重新啟動SCP后與數據庫掛接仍舊失敗,智能網平臺所帶業務全部中斷,影響同振、一號通、彩鈴業務正常使用,用戶不能做被叫或彩鈴不能正常播放,大約影響5萬用戶業務使用。
(4)多次嘗試SCP設備和數據庫進行重新連接均出現失敗,中興公司據此判斷可能HP磁盤陣列原因導致連接失敗,同時發現sybase數據庫無法正常啟動,建議檢查磁陣。
(5)檢查與SCP連接的HP-DS240設備,分析設備運行log日志,發現DS2405的1塊硬盤有報錯,vgsybase無法激活,與SCP無法掛接判斷原因一致。
1)/var/opt/resmon/log/event.log中DS2405 slot3槽位的硬盤c4t2d0每天在23:00-24:00左右報一次錯,無影響業務。
2)/var/cmcluster/zxin10/zxin10.cntl.log 有業務進程IO報警進入sleeping狀態,錯誤信息逐步累積,嚴重影響CP過負荷以致影響部分業務,直到6月4日早上,導致過多的進程占用了CPU和內存資源,系統臨近崩潰。
(6)判斷出故障后決定更換設備硬件,停業務更換了故障硬盤,存儲恢復。業務可以在備機SCP2上正常啟動,SCP2與HP-DS2405存儲恢復訪問,業務恢復。
(7)SCP1掛接數據庫仍然失敗,中興及惠普工程師對SCP1與數據庫連接失敗原因分析,最終確定系統文件cron.allow文件丟失導致失敗,重新裝載數據后恢復正常,SCP2與HP磁陣正常連接。
HP-DS2405的一塊硬盤導致存儲訪問異常進行了簡單的分析,DS2405是低端存儲,使用Arbitrated loop或Private Loop仲裁環。這種拓撲的特點是“串行”的,即所有的設備都串在這個環上,同時只有2個port可以通信,而且只有搶到“仲裁權”的port可以通信。這是一種低級別的拓樸,缺點是如果同一個loop上的一個設備損壞,其他設備就受到影響。
DS2405設備每1塊硬盤盤實際上都是這個Loop上的1個設備。此次硬盤故障懷疑是硬盤故障點影響了仲裁功能,但還沒有徹底損壞,并沒有被DS2405標記為壞盤,導致與SCP設備連接狀態正常,但是設備負荷過大導致業務處理能力下降。
1塊硬盤故障時其他盤的訪問并沒有受到影響,業務受到影響是因為過多的進程因為此故障盤IO異常進入sleeping狀態,占用了過多的CPU和內存,導致業務異常。
SCP1上啟動異常是cron.allow文件丟失導致,cron.allow文件文件是crontab即hpux下的“計劃任務”使用的文件,其中規定了可以執行crontab的用戶列表,只有在這個列表里的用戶才有權限執行crontab。HPUX操作系統本身用不到crontab,默認這個文件是空的。啟動腳本會切換用戶并調用crontab,但在查看cronallow時文件丟失,所以業務用戶無法執行crontab啟動失敗。
cron.allow只會在啟動時被查看,crontab計劃任務運行后就不再查詢cron.allow,作用類似汽車上的“啟動機”,所以如果在運行中刪除不影響業務。
(1)HP-DS2405已經在網運行10年,穩定性和冗余性已經無法滿足重要業務的需要,建議對硬件進行更新升級, 搭建容災存儲,實現容災存儲同步,故障時倒換到容設備。
(2)完善HP-DS2405備份策略,縮短用戶數據備份周期,把智能網和HLR用戶數據全備份,1周1次備份,做好數據分類以便應急使用。
(3)加強設備告警巡視及設備log日志的分析,故障隱患及時處理。